Kursplan
- Introduksjon
- Hadoop historie, begreper
- Økosystem
- Distribusjoner
- Arkitektur på høyt nivå
- Hadoop myter
- Hadoop utfordringer (maskinvare / programvare)
- Labs: diskuter dine Big Data prosjekter og problemer
- Planlegging og montering
- Valg av programvare, Hadoop distribusjoner
- Dimensjonering av klyngen, planlegging for vekst
- Velge maskinvare og nettverk
- Rack topologi
- Installasjon
- Flerleieforhold
- Katalogstruktur, logger
- Benchmarking
- Labs: klyngeinstallasjon, kjør ytelsesreferanser
- HDFS-operasjoner
- Konsepter (horisontal skalering, replikering, datalokalitet, rackbevissthet)
- Noder og demoner (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
- Helseovervåking
- Kommandolinje og nettleserbasert administrasjon
- Legger til lagring, erstatter defekte stasjoner
- Labs: bli kjent med HDFS-kommandolinjer
- Datainntak
- Flume for logger og andre datainntak i HDFS
- Sqoop for import fra SQL databaser til HDFS, samt eksport tilbake til SQL
- Hadoop datavarehus med Hive
- Kopiere data mellom klynger (distcp)
- Bruker S3 som komplementær til HDFS
- Beste praksis og arkitekturer for datainntak
- Labs: sette opp og bruke Flume, det samme for Sqoop
- KartReduser drift og administrasjon
- Parallell databehandling før kartreduksjon: sammenlign HPC vs Hadoop administrasjon
- KartReduser klyngebelastninger
- Noder og demoner (JobTracker, TaskTracker)
- MapReduce UI gå gjennom
- Kartreduser konfigurasjonen
- Jobbkonfig
- Optimalisering av MapReduce
- Idiotsikker MR: hva du skal fortelle programmererne dine
- Labs: kjører MapReduce-eksempler
- GARN: ny arkitektur og nye muligheter
- YARN designmål og implementeringsarkitektur
- Nye aktører: ResourceManager, NodeManager, Application Master
- Montering av GARN
- Jobbplanlegging under GARN
- Labs: undersøk jobbplanlegging
- Avanserte emner
- Maskinvareovervåking
- Klyngeovervåking
- Legge til og fjerne servere, oppgradere Hadoop
- Sikkerhetskopiering, gjenoppretting og planlegging av forretningskontinuitet
- Oozie jobb arbeidsflyter
- Hadoop høy tilgjengelighet (HA)
- Hadoop Føderasjon
- Sikring av klyngen din med Kerberos
- Labs: sett opp overvåking
- Valgfrie spor
- Cloudera Manager for klyngeadministrasjon, overvåking og rutineoppgaver; installasjon, bruk. I dette sporet utføres alle øvelser og laboratorier i Cloudera-distribusjonsmiljøet (CDH5)
- Ambari for klyngeadministrasjon, overvåking og rutineoppgaver; installasjon, bruk. I dette sporet utføres alle øvelser og laboratorier innenfor Ambari cluster manager og Hortonworks Data Platform (HDP 2.0)
Krav
- komfortabel med grunnleggende Linux systemadministrasjon
- grunnleggende skriptferdigheter
Kunnskap om Hadoop og distribuert databehandling er ikke nødvendig, men vil bli introdusert og forklart i kurset.
Laboratoriemiljø
Zero Install : Det er ikke nødvendig å installere hadoop-programvare på elevenes maskiner! En fungerende hadoop-klynge vil bli gitt for studenter.
Studentene trenger følgende
- en SSH-klient (Linux og Mac har allerede ssh-klienter, for Windows Putty anbefales)
- en nettleser for å få tilgang til klyngen. Vi anbefaler Firefox-nettleseren med FoxyProxy-utvidelsen installert
Testimonials (5)
The live examples
Ahmet Bolat - Accenture Industrial SS
Kurs - Python, Spark, and Hadoop for Big Data
During the exercises, James explained me every step whereever I was getting stuck in more detail. I was completely new to NIFI. He explained the actual purpose of NIFI, even the basics such as open source. He covered every concept of Nifi starting from Beginner Level to Developer Level.
Firdous Hashim Ali - MOD A BLOCK
Kurs - Apache NiFi for Administrators
Trainer's preparation & organization, and quality of materials provided on github.
Mateusz Rek - MicroStrategy Poland Sp. z o.o.
Kurs - Impala for Business Intelligence
That I had it in the first place.
Peter Scales - CACI Ltd
Kurs - Apache NiFi for Developers
practical things of doing, also theory was served good by Ajay