Kursplan

1: HDFS (17 %)

  • Beskriv funksjonen til HDFS-demoner
  • Beskriv normal drift av en Apache Hadoop-klynge, både i datalagring og i databehandling.
  • Identifiser gjeldende funksjoner ved datasystemer som motiverer et system som Apache Hadoop.
  • Klassifiser hovedmålene for HDFS Design
  • Gitt et scenario, identifiser passende brukstilfeller for HDFS Federation
  • Identifiser komponenter og daemon til en HDFS HA-Quorum-klynge
  • Analyser rollen til HDFS-sikkerhet (Kerberos)
  • Bestem det beste dataserialiseringsvalget for et gitt scenario
  • Beskriv fillese- og skrivebaner
  • Identifiser kommandoene for å manipulere filer i Hadoop filsystemskallet

2: YARN og MapReduce versjon 2 (MRv2) (17 %)

  • Forstå hvordan oppgradering av en klynge fra Hadoop 1 til Hadoop 2 påvirker klyngeinnstillinger
  • Forstå hvordan du distribuerer MapReduce v2 (MRv2 / YARN), inkludert alle YARN-demoner
  • Forstå grunnleggende designstrategi for MapReduce v2 (MRv2)
  • Bestem hvordan YARN håndterer ressursallokeringer
  • Identifiser arbeidsflyten til MapReduce-jobben som kjører på YARN
  • Bestem hvilke filer du må endre og hvordan for å migrere en klynge fra MapReduce versjon 1 (MRv1) til MapReduce versjon 2 (MRv2) som kjører på YARN.

3: Hadoop Klyngeplanlegging (16 %)

  • Hovedpunkter å vurdere ved valg av maskinvare og operativsystemer for å være vert for en Apache Hadoop-klynge.
  • Analyser valgene ved å velge et OS
  • Forstå kjerneinnstilling og diskbytte
  • Gitt et scenario og arbeidsbelastningsmønster, identifiser en maskinvarekonfigurasjon som passer for scenariet
  • Gitt et scenario, finn ut hvilke økosystemkomponenter din klynge må kjøre for å oppfylle SLA
  • Klyngestørrelse: gitt et scenario og frekvens for utførelse, identifiser spesifikasjonene for arbeidsbelastningen, inkludert CPU, minne, lagring, disk I/O
  • Diskstørrelse og konfigurasjon, inkludert JBOD versus RAID, SAN, virtualisering og krav til diskstørrelse i en klynge
  • Nettverkstopologier: forstå nettverksbruk i Hadoop (for både HDFS og MapReduce) og foreslå eller identifisere nøkkelkomponenter for nettverksdesign for et gitt scenario

4: Hadoop Klyngeinstallasjon og -administrasjon (25 %)

  • Gitt et scenario, identifiser hvordan klyngen vil håndtere disk- og maskinfeil
  • Analyser en loggkonfigurasjon og loggingskonfigurasjonsfilformat
  • Forstå det grunnleggende om Hadoop beregninger og klyngehelseovervåking
  • Identifiser funksjonen og formålet med tilgjengelige verktøy for klyngeovervåking
  • Kunne installere alle økosystemkomponentene i CDH 5, inkludert (men ikke begrenset til): Impala, Flume, Oozie, Hue, Manager, Sqoop, Hive og Pig
  • Identifiser funksjonen og formålet med tilgjengelige verktøy for å administrere Apache Hadoop-filsystemet

5: Ressurs Management (10 %)

  • Forstå de overordnede designmålene til hver av Hadoop planleggere
  • Gitt et scenario, bestemme hvordan FIFO-planleggeren tildeler klyngeressurser
  • Gitt et scenario, finn ut hvordan Fair Scheduler allokerer klyngeressurser under YARN
  • Gitt et scenario, bestemme hvordan kapasitetsplanleggeren tildeler klyngeressurser

6: Overvåking og logging (15 %)

  • Forstå funksjonene og egenskapene til Hadoop sine metriske innsamlingsevner
  • Analyser NameNode og JobTracker Web UI
  • Forstå hvordan du overvåker klyngedemoner
  • Identifiser og overvåk CPU-bruk på masternoder
  • Beskriv hvordan du overvåker swap og minneallokering på alle noder
  • Identifiser hvordan du viser og administrerer Hadoop sine loggfiler
  • Tolk en loggfil

Krav

  • Grunnleggende Linux administrasjonsferdigheter
  • Grunnleggende programmeringsferdigheter
 35 timer

Antall deltakere


Price per participant

Testimonials (3)

Upcoming Courses

Related Categories