Apache Spark in the Cloud Treningskurs
Apache Spark læringskurve øker sakte i begynnelsen, det krever mye krefter for å komme tilbake. Dette kurset tar sikte på å hoppe gjennom den første tøffe delen. Etter å ha tatt dette kurset vil deltakerne forstå det grunnleggende om Apache Spark , de vil tydelig differensiere RDD fra DataFrame, de vil lære Python og Scala API, de vil forstå eksekutører og oppgaver, etc. I tillegg til å følge beste praksis fokuserer dette kurset sterkt på skyutplassering, Databricks og AWS. Studentene vil også forstå forskjellene mellom AWS EMR og AWS Glue, en av de siste gnisttjenestene til AWS.
PUBLIKUM:
Data Engineer, DevOps , Data Scientist
Kursplan
Introduksjon:
- Apache Spark in Hadoop Ecosystem Kort intro for python, scala
Grunnleggende (teori):
- Arkitektur RDD-transformasjon og handlingsfase, oppgave, avhengigheter
Ved å bruke Databricks miljø forstå det grunnleggende (praktisk verksted):
- Øvelser ved hjelp av RDD API Grunnleggende handlings- og transformasjonsfunksjoner ParRDD Bli med Caching-strategier Øvelser med DataFrame API SparkSQL DataFrame: velg, filtrer, grupper, sorter UDF (brukerdefinert funksjon) Ser inn i DataSet API-streaming
Ved å bruke AWS-miljøet forstå distribusjonen (praktisk verksted):
- Grunnleggende om AWS Glue Forstå forskjellene mellom AWS EMR og AWS Glue Eksempeljobber i begge miljøet Forstå fordeler og ulemper
Ekstra:
- Introduksjon til Apache Airflow orkestrering
Krav
Programmeringsferdigheter (helst python, scala)
SQL grunnleggende
Open Training Courses require 5+ participants.
Apache Spark in the Cloud Treningskurs - Booking
Apache Spark in the Cloud Treningskurs - Enquiry
Apache Spark in the Cloud - Consultancy Enquiry
Consultancy Enquiry
Testimonials (3)
Having hands on session / assignments
Poornima Chenthamarakshan - Intelligent Medical Objects
Kurs - Apache Spark in the Cloud
1. Right balance between high level concepts and technical details. 2. Andras is very knowledgeable about his teaching. 3. Exercise
Steven Wu - Intelligent Medical Objects
Kurs - Apache Spark in the Cloud
Get to learn spark streaming , databricks and aws redshift
Lim Meng Tee - Jobstreet.com Shared Services Sdn. Bhd.
Kurs - Apache Spark in the Cloud
Upcoming Courses
Relaterte kurs
Artificial Intelligence - the most applied stuff - Data Analysis + Distributed AI + NLP
21 timerDette kurset er ment for utviklere og dataforskere som ønsker å forstå og implementere kunstig intelligens i sine applikasjoner. Spesielt fokus er på dataanalyse, distribuert kunstig intelligens og naturlig språkbehandling.
Big Data Analytics with Google Colab and Apache Spark
14 timerDenne instruktørledede, live-opplæringen i Norge (online eller på stedet) er rettet mot dataforskere og ingeniører på middels nivå som ønsker å bruke Google Colab og Apache Spark til prosessering og analyse av store data.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Sett opp et big data-miljø ved å bruke Google Colab og Spark.
- Behandle og analyser store datasett effektivt med Apache Spark.
- Visualiser big data i et samarbeidsmiljø.
- Integrer Apache Spark med skybaserte verktøy.
Big Data Analytics in Health
21 timerBig data analytics innebærer prosessen med å undersøke store mengder varierte datasett for å avdekke korrelasjoner, skjulte mønstre og annen nyttig innsikt.
Helseindustrien har enorme mengder komplekse heterogene medisinske og kliniske data. Å bruke big data-analyse av helsedata gir et stort potensial i å oppnå innsikt for å forbedre leveransen av helsetjenester. Imidlertid gir enorme datasett store utfordringer i analyser og praktiske applikasjoner i et klinisk miljø.
I denne instruktørledede liveopplæringen (ekstern) vil deltakerne lære å utføre big data-analyse innen helse når de går gjennom en serie praktiske live-lab-øvelser.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Installer og konfigurer verktøy for analyse av big data som Hadoop MapReduce og Spark
- Forstå egenskapene til medisinsk data
- Bruk big data-teknikker for å håndtere medisinske data
- Studer store datasystemer og algoritmer i sammenheng med helseprogrammer
Publikum
- Utviklere
- Dataforskere
Kursets format
- Delforelesning, deldiskusjon, øvelser og tung praktisk øvelse.
Merk
- For å be om en tilpasset opplæring for dette kurset, vennligst kontakt oss for å avtale.
Introduction to Graph Computing
28 timerI denne instruktørledede, live-opplæringen i Norge vil deltakerne lære om teknologitilbudene og implementeringstilnærmingene for behandling av grafdata. Målet er å identifisere virkelige objekter, deres egenskaper og relasjoner, deretter modellere disse relasjonene og behandle dem som data ved å bruke en Graph Computing (også kjent som Graph Analytics) tilnærming. Vi starter med en bred oversikt og begrenser oss til spesifikke verktøy når vi går gjennom en serie casestudier, praktiske øvelser og live-implementeringer.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Forstå hvordan grafdata opprettholdes og krysses.
- Velg det beste rammeverket for en gitt oppgave (fra grafdatabaser til rammeverk for batchbehandling.)
- Implementer Hadoop, Spark, GraphX og Pregel for å utføre grafberegning på tvers av mange maskiner parallelt.
- Se virkelige store dataproblemer når det gjelder grafer, prosesser og gjennomganger.
Hadoop and Spark for Administrators
35 timerDenne instruktørledede, direkteopplæringen i Norge (online eller på stedet) er rettet mot systemadministratorer som ønsker å lære hvordan de konfigurerer, distribuerer og administrerer Hadoop klynger i organisasjonen deres.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Installer og konfigurer Apache Hadoop.
- Forstå de fire hovedkomponentene i Hadoop-økosystemet: HDFS, MapReduce, YARN og Hadoop Common.
- Bruk Hadoop Distributed File System (HDFS) for å skalere en klynge til hundrevis eller tusenvis av noder.
- Konfigurer HDFS for å fungere som lagringsmotor for Spark-distribusjoner på stedet.
- Sett opp Spark for å få tilgang til alternative lagringsløsninger som Amazon S3 og NoSQL databasesystemer som Redis, Elasticsearch, Couchbase, Aerospike, etc.
- Utfør administrative oppgaver som klargjøring, administrasjon, overvåking og sikring av en Apache Hadoop-klynge.
Hortonworks Data Platform (HDP) for Administrators
21 timerDenne instruktørledede, direkteopplæringen i Norge (online eller på stedet) introduserer Hortonworks Data Platform (HDP) og leder deltakerne gjennom utrullingen av Spark + Hadoop-løsningen.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Bruk Hortonworks til å kjøre Hadoop pålitelig i stor skala.
- Foren Hadoops sikkerhet, styring og drift med Sparks smidige analytiske arbeidsflyter.
- Bruk Hortonworks til å undersøke, validere, sertifisere og støtte hver av komponentene i et Spark-prosjekt.
- Behandle ulike typer data, inkludert strukturert, ustrukturert, i bevegelse og i hvile.
A Practical Introduction to Stream Processing
21 timerI denne instruktørledede, live-opplæringen i Norge (på stedet eller ekstern), vil deltakerne lære å sette opp og integrere forskjellige Stream Processing rammeverk med eksisterende lagringssystemer for store data og relaterte programvareapplikasjoner og mikrotjenester.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Installer og konfigurer forskjellige Stream Processing rammeverk, for eksempel Spark Streaming og Kafka Streaming.
- Forstå og velg det mest passende rammeverket for jobben.
- Prosess av data kontinuerlig, samtidig og på en rekord-for-post måte.
- Integrer Stream Processing løsninger med eksisterende databaser, datavarehus, datainnsjøer, etc.
- Integrer det mest passende strømbehandlingsbiblioteket med bedriftsapplikasjoner og mikrotjenester.
SMACK Stack for Data Science
14 timerDenne instruktørledede, liveopplæringen i Norge (online eller på stedet) er rettet mot dataforskere som ønsker å bruke SMACK-stakken til å bygge databehandlingsplattformer for big data-løsninger.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Implementer en datapipeline-arkitektur for behandling av big data.
- Utvikle en klyngeinfrastruktur med Apache Mesos og Docker.
- Analyser data med Spark og Scala.
- Administrer ustrukturerte data med Apache Cassandra.
Apache Spark Fundamentals
21 timerDenne instruktørledede, live-opplæringen i Norge (online eller på stedet) er rettet mot ingeniører som ønsker å sette opp og distribuere Apache Spark-system for å behandle svært store datamengder.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Installer og konfigurer Apache Spark.
- Behandle og analysere svært store datasett raskt.
- Forstå forskjellen mellom Apache Spark og Hadoop MapReduce og når du skal bruke hvilken.
- Integrer Apache Spark med andre maskinlæringsverktøy.
Administration of Apache Spark
35 timerDenne instruktørledede, direkteopplæringen i Norge (online eller på stedet) er rettet mot systemadministratorer på nybegynnere til mellomnivå som ønsker å distribuere, vedlikeholde og optimalisere Spark-klynger.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Installer og konfigurer Apache Spark i forskjellige miljøer.
- Administrer klyngeressurser og overvåk Spark-applikasjoner.
- Optimaliser ytelsen til Spark-klynger.
- Iverksette sikkerhetstiltak og sikre høy tilgjengelighet.
- Feilsøk og feilsøk vanlige Spark-problemer.
Spark for Developers
21 timerOBJEKTIV:
Dette kurset vil introdusere Apache Spark . Studentene skal lære hvordan Spark passer inn i Big Data økosystemet, og hvordan de kan bruke Spark til dataanalyse. Emnet dekker Spark shell for interaktiv dataanalyse, Spark internals, Spark APIer, Spark SQL , Spark streaming, og maskinlæring og grafX.
Audiens:
Utviklere / dataanalytikere
Scaling Data Pipelines with Spark NLP
14 timerDenne instruktørledede, direkteopplæringen i Norge (online eller på stedet) er rettet mot datavitere og utviklere som ønsker å bruke Spark NLP, bygget på toppen av Apache Spark, for å utvikle, implementere og skalere tekstbehandling av naturlig språk modeller og rørledninger.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Sett opp det nødvendige utviklingsmiljøet for å begynne å bygge NLP-rørledninger med Spark NLP.
- Forstå funksjonene, arkitekturen og fordelene ved å bruke Spark NLP.
- Bruk de forhåndstrente modellene tilgjengelig i Spark NLP for å implementere tekstbehandling.
- Lær hvordan du bygger, trener og skalerer Spark NLP modeller for prosjekter i produksjonsgrad.
- Bruk klassifisering, inferens og sentimentanalyse på brukssaker i den virkelige verden (kliniske data, kundeatferdsinnsikt, etc.).
Python and Spark for Big Data (PySpark)
21 timerI denne instruktørledede, live-treningen i Norge vil deltakerne lære å bruke Python og Spark sammen for å analysere store data mens de jobber med praktiske øvelser.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Lær hvordan du bruker Spark med Python for å analysere Big Data.
- Arbeid med øvelser som etterligner virkelige tilfeller.
- Bruk forskjellige verktøy og teknikker for stordataanalyse ved hjelp av PySpark.
Python, Spark, and Hadoop for Big Data
21 timerDenne instruktørledede, live-opplæringen i Norge (online eller på stedet) er rettet mot utviklere som ønsker å bruke og integrere Spark, Hadoop og Python for å behandle, analysere og transformere store og komplekse datasett.
Ved slutten av denne opplæringen vil deltakerne kunne:
- Sett opp det nødvendige miljøet for å begynne å behandle store data med Spark, Hadoop og Python.
- Forstå funksjonene, kjernekomponentene og arkitekturen til Spark og Hadoop.
- Lær hvordan du integrerer Spark, Hadoop og Python for behandling av store data.
- Utforsk verktøyene i Spark-økosystemet (Spark MlLib, Spark Streaming, Kafka, Sqoop, Kafka og Flume).
- Bygg anbefalingssystemer for samarbeidsfiltrering som ligner på Netflix, YouTube, Amazon, Spotify og Google.
- Bruk Apache Mahout til å skalere maskinlæringsalgoritmer.
Apache Spark MLlib
35 timerMLlib er Sparks maskinlæringsbibliotek. Målet er å gjøre praktisk maskinlæring skalerbar og enkel. Den består av vanlige læringsalgoritmer og verktøy, inkludert klassifisering, regresjon, klynger, samarbeidende filtrering, dimensjonalitetsreduksjon, samt primitiver på lavere nivå og optimaliseringsgrensesnitt på rørledningen.
Den deler seg i to pakker:
spark.mllib inneholder den originale API-en som er bygget på toppen av RDD-er.
spark.ml gir API på høyere nivå bygget oppå DataFrames for konstruksjon av ML-rørledninger.
Publikum
Dette kurset er rettet mot ingeniører og utviklere som søker å bruke et innebygd maskinbibliotek for Apache Spark