Kursplan

  • Introduksjon
    • Hadoop historie, begreper
    • Økosystem
    • Distribusjoner
    • Arkitektur på høyt nivå
    • Hadoop myter
    • Hadoop utfordringer (maskinvare / programvare)
    • Labs: diskuter dine Big Data prosjekter og problemer
  • Planlegging og montering
    • Valg av programvare, Hadoop distribusjoner
    • Dimensjonering av klyngen, planlegging for vekst
    • Velge maskinvare og nettverk
    • Rack topologi
    • Installasjon
    • Flerleieforhold
    • Katalogstruktur, logger
    • Benchmarking
    • Labs: klyngeinstallasjon, kjør ytelsesreferanser
  • HDFS-operasjoner
    • Konsepter (horisontal skalering, replikering, datalokalitet, rackbevissthet)
    • Noder og demoner (NameNode, Secondary NameNode, HA Standby NameNode, DataNode)
    • Helseovervåking
    • Kommandolinje og nettleserbasert administrasjon
    • Legger til lagring, erstatter defekte stasjoner
    • Labs: bli kjent med HDFS-kommandolinjer
  • Datainntak
    • Flume for logger og andre datainntak i HDFS
    • Sqoop for import fra SQL databaser til HDFS, samt eksport tilbake til SQL
    • Hadoop datavarehus med Hive
    • Kopiere data mellom klynger (distcp)
    • Bruker S3 som komplementær til HDFS
    • Beste praksis og arkitekturer for datainntak
    • Labs: sette opp og bruke Flume, det samme for Sqoop
  • KartReduser drift og administrasjon
    • Parallell databehandling før kartreduksjon: sammenlign HPC vs Hadoop administrasjon
    • KartReduser klyngebelastninger
    • Noder og demoner (JobTracker, TaskTracker)
    • MapReduce UI gå gjennom
    • Kartreduser konfigurasjonen
    • Jobbkonfig
    • Optimalisering av MapReduce
    • Idiotsikker MR: hva du skal fortelle programmererne dine
    • Labs: kjører MapReduce-eksempler
  • GARN: ny arkitektur og nye muligheter
    • YARN designmål og implementeringsarkitektur
    • Nye aktører: ResourceManager, NodeManager, Application Master
    • Montering av GARN
    • Jobbplanlegging under GARN
    • Labs: undersøk jobbplanlegging
  • Avanserte emner
    • Maskinvareovervåking
    • Klyngeovervåking
    • Legge til og fjerne servere, oppgradere Hadoop
    • Sikkerhetskopiering, gjenoppretting og planlegging av forretningskontinuitet
    • Oozie jobb arbeidsflyter
    • Hadoop høy tilgjengelighet (HA)
    • Hadoop Føderasjon
    • Sikring av klyngen din med Kerberos
    • Labs: sett opp overvåking
  • Valgfrie spor
    • Cloudera Manager for klyngeadministrasjon, overvåking og rutineoppgaver; installasjon, bruk. I dette sporet utføres alle øvelser og laboratorier i Cloudera-distribusjonsmiljøet (CDH5)
    • Ambari for klyngeadministrasjon, overvåking og rutineoppgaver; installasjon, bruk. I dette sporet utføres alle øvelser og laboratorier innenfor Ambari cluster manager og Hortonworks Data Platform (HDP 2.0)

Krav

  • komfortabel med grunnleggende Linux systemadministrasjon
  • grunnleggende skriptferdigheter

Kunnskap om Hadoop og distribuert databehandling er ikke nødvendig, men vil bli introdusert og forklart i kurset.

Laboratoriemiljø

Zero Install : Det er ikke nødvendig å installere hadoop-programvare på elevenes maskiner! En fungerende hadoop-klynge vil bli gitt for studenter.

Studentene trenger følgende

  • en SSH-klient (Linux og Mac har allerede ssh-klienter, for Windows Putty anbefales)
  • en nettleser for å få tilgang til klyngen. Vi anbefaler Firefox-nettleseren med FoxyProxy-utvidelsen installert
 21 timer

Antall deltakere


Price per participant

Testimonials (5)

Upcoming Courses

Related Categories