Kursplan

Introduksjon til Data Analysis og Big Data

  • Hva gjør Big Data "stor"?
    • Hastighet, volum, variasjon, sannferdighet (VVVV)
  • Begrensninger for tradisjonell databehandling
  • Distribuert behandling
  • Statistisk analyse
  • Typer Machine Learning Analyse
  • Data Visualization

Big Data Roller og ansvar

  • Administratorer
  • Utviklere
  • Dataanalytikere

Languages Brukt til Data Analysis

  • R Language
    • Hvorfor R for Data Analysis?
    • Datamanipulering, beregning og grafisk visning
  • Python
    • Hvorfor Python for Data Analysis?
    • Manipulere, behandle, rense og knuse data

Tilnærminger til Data Analysis

  • Statistisk analyse
    • Tidsserieanalyse
    • Forecasting med korrelasjons- og regresjonsmodeller
    • Inferensiell Statistics (estimering)
    • Beskrivende Statistics i Big Data sett (f.eks. beregner gjennomsnitt)
  • Machine Learning
    • Veiledet vs uovervåket læring
    • Klassifisering og gruppering
    • Estimere kostnadene for spesifikke metoder
    • Filtrering
  • Naturlig språkbehandling
    • Behandler tekst
    • Forstå betydningen av teksten
    • Automatisk tekstgenerering
    • Sentimentanalyse / emneanalyse
  • Computer Vision
    • Å tilegne seg, bearbeide, analysere og forstå bilder
    • Rekonstruere, tolke og forstå 3D-scener
    • Bruke bildedata for å ta avgjørelser

Big Data Infrastruktur

  • Datalagring
    • Relasjonsdatabaser (SQL)
      • MySQL
      • Postgres
      • Oracle
    • Ikke-relasjonelle databaser (NoSQL)
      • Cassandra
      • MongoDB
      • Neo4js
    • Forstå nyansene
      • Hierarkiske databaser
      • Objektorienterte databaser
      • Dokumentorienterte databaser
      • Graforienterte databaser
      • Annen
  • Distribuert behandling
    • Hadoop
      • HDFS som et distribuert filsystem
      • MapReduce for distribuert behandling
    • Gnist
      • Alt-i-ett in-memory cluster databehandlingsrammeverk for storskala databehandling
      • Strukturert strømming
      • Gnist SQL
      • Machine Learning biblioteker: MLlib
      • Grafbehandling med GraphX
  • Scalability
    • Offentlig sky
      • AWS, Google, Aliyun, etc.
    • Privat sky
      • OpenStack, Cloud Foundry, osv.
    • Automatisk skalerbarhet

Velge riktig løsning for problemet

Fremtiden til Big Data

Sammendrag og neste trinn

Krav

  • En generell forståelse av matematikk
  • En generell forståelse av programmering
  • En generell forståelse av databaser

Publikum

  • Utviklere / programmerere
  • IT-konsulenter
 35 timer

Antall deltakere


Price per participant

Testimonials (7)

Upcoming Courses

Related Categories