Schița de curs
-
Introducere în Scala
- O scurtă introducere în Scala
- Lucrări de laborator: Familiarizare cu Scala
-
Bazele Spark
- Context și istoric
- Spark și Hadoop
- Concepte și arhitectură Spark
- Ecosistemul Spark (core, spark sql, mlib, streaming)
- Lucrări de laborator: Instalarea și rularea Spark
-
Prima privire asupra Spark
- Rularea Spark în modul local
- Interfața web Spark
- Shell-ul Spark
- Analiza setului de date – partea 1
- Inspectarea RDD-urilor
- Lucrări de laborator: Explorarea shell-ului Spark
-
RDD-uri
- Concepte RDD
- Partiții
- Operații / transformări RDD
- Tipuri de RDD
- RDD-uri pereche Cheie-Valoare
- MapReduce pe RDD
- Stocare în cache și persistență
- Lucrări de laborator: crearea și inspectarea RDD-urilor; Stocarea în cache a RDD-urilor
-
Programarea API Spark
- Introducere în API Spark / API RDD
- Trimiterea primului program în Spark
- Depanare / logare
- Proprietăți de configurare
- Lucrări de laborator: Programare în API Spark, Trimiterea job-urilor
-
Spark SQL
- Suport SQL în Spark
- Dataframes
- Definirea tabelelor și importul seturilor de date
- Interogarea dataframes folosind SQL
- Formate de stocare: JSON / Parquet
- Lucrări de laborator: Crearea și interogarea dataframes; Evaluarea formatelor de date
-
MLlib
- Introducere în MLlib
- Algoritmi MLlib
- Lucrări de laborator: Scrierea aplicațiilor MLib
-
GraphX
- Prezentare generală a bibliotecii GraphX
- API-uri GraphX
- Lucrări de laborator: Procesarea datelor grafice folosind Spark
-
Spark Streaming
- Prezentare generală a streaming-ului
- Evaluarea platformelor de streaming
- Operații de streaming
- Operații cu fereastră glisantă
- Lucrări de laborator: Scrierea aplicațiilor de streaming Spark
-
Spark și Hadoop
- Introducere în Hadoop (HDFS / YARN)
- Arhitectura Hadoop + Spark
- Rularea Spark pe Hadoop YARN
- Procesarea fișierelor HDFS folosind Spark
-
Performanța și optimizarea Spark
- Variabile de difuzare
- Acumulatori
- Gestiunea memoriei și stocarea în cache
-
Operațiuni Spark
- Implementarea Spark în producție
- Modele de implementare exemplare
- Configurații
- Monitorizare
- Depanare
Cerințe
PRE-REQUISITE
cunoașterea limbajului Java / Scala / Python (lucrările noastre de laborator sunt în Scala și Python)
înțelegerea de bază a mediului de dezvoltare Linux (navigare în linia de comandă / editare de fișiere folosind VI sau nano)
Mărturii (6)
Făcerea exercițiilor similare în moduri diferite ajută cu adevărat la înțelegerea capacităților fiecărei componente (Hadoop/Spark, standalone/cluster) atât individual, cât și împreună. Mi-a oferit idei despre cum ar trebui să testezi aplicația mea pe mașina locală în timp ce dezvolt versus când este implementată pe un cluster.
Thomas Carcaud - IT Frankfurt GmbH
Curs - Spark for Developers
Tradus de catre o masina
Ajay a fost foarte prietenos, de ajutor și, de asemenea, bine informat despre subiectul pe care îl discuta.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Curs - Spark for Developers
Tradus de catre o masina
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Curs - Spark for Developers
Tradus de catre o masina
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Curs - Spark for Developers
Tradus de catre o masina
We know a lot more about the whole environment.
John Kidd
Curs - Spark for Developers
Tradus de catre o masina
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Curs - Spark for Developers
Tradus de catre o masina