Kursplan

Del 1: Introduksjon til Hadoop

  • Hadoop-historie, konsepter
  • ekosystem
  • distribusjoner
  • overordnet arkitektur
  • Hadoop-myter
  • Hadoop-utfordringer
  • hård- og programvare
  • lab : første innblikk i Hadoop

Seksjon 2: HDFS

  • Design og arkitektur
  • Konsepter (horisontal skaling, replikering, datalokalitet, rackbevissthet)
  • Daemoner : Namenode, Secondary namenode, Data node
  • Kommunikasjon / hjerterutninger
  • Datanevneverdi
  • Lese/skrivebane
  • Namenode High Availability (HA), Federation
  • lab : Interaksjon med HDFS

Seksjon 3: Kartreduser

  • konsepter og arkitektur
  • daemons (MRV1): jobtracker / tasktracker
  • faser: driver, kartlegger, stokk/sorter, redusering
  • Map Reduce versjon 1 og versjon 2 (YARN)
  • Internaler i Map Reduce
  • Introduksjon til Java Map Reduce-programmet
  • labs : Kjøre et eksempel på MapReduce-program

Seksjon 4: Gris

  • pig vs java kart redusere
  • gris jobb flyt
  • gris latinsk språk
  • ETL med gris
  • Transformasjoner og sammenføyninger
  • Brukerdefinerte funksjoner (UDF)
  • laboratorier: skrive griseskript for å analysere data

Del 5: Hive

  • arkitektur og design
  • datatyper
  • SQL støtte i Hive
  • Opprette Hive tabeller og spørre
  • partisjoner
  • blir med
  • tekstbehandling
  • laboratorier : ulike laboratorier for behandling av data med Hive

Seksjon 6: HBase

  • Konsepter og arkitektur
  • HBase vs RDBMS vs Cassandra
  • HBase Java API
  • Tidsrekke data på HBase
  • Skemadesign
  • lab : Interaksjon med HBase ved hjelp av shell; programmering i HBase Java API ; Skemadesign øvelse

Krav

  • komfortabel med Java programmeringsspråk (de fleste programmeringsøvelser er i java)
  • komfortabel i Linux miljø (kunne navigere Linux kommandolinje, redigere filer med vi / nano)

Laboratoriemiljø

Zero Install : Det er ikke nødvendig å installere Hadoop programvare på studentenes maskiner! Et fungerende Hadoop kluster vil bli tilgjengelig for studenter.

Studentene trenger følgende

  • en SSH klient (Linux og Mac har allerede ssh klienter, for Windows anbefales Putty)
  • en nettleser for å tilgå klustret, Firefox anbefales
 28 timer

Antall deltakere


Price per participant

Testimonials (5)

Upcoming Courses

Related Categories