Schița de curs
-
Introducere în Scala
- O prezentare rapidă a Scalaii
- Laboratoare: Cunoașterea Scalaii
-
Noțiuni de bază despre Spark
- Istoric și context
- Spark și Hadoop
- Concepte și arhitectură Spark
- Ecosistemul Spark (core, spark sql, mlib, streaming)
- Laboratoare: Instalarea și rularea Sparkului
-
Prima privire asupra Sparkului
- Rularea Sparkului în mod local
- Interfața web Spark
- Shell-ul Spark
- Analiza seturilor de date – partea 1
- Inspeționarea RDD-urilor
- Laboratoare: Explorarea shell-ului Spark
-
RDD-uri (Resilient Distributed Datasets)
- Concepte RDD
- Partiții
- Operațiuni și transformări RDD
- Tipuri de RDD-uri
- RDD-uri cheie-valoare
- MapReduce pe RDD-uri
- Cache și persistență
- Laboratoare: Crearea și inspeționarea RDD-urilor; Cache-ul RDD-urilor
-
Programare API Spark
- Introducere în API-ul Spark / RDD API
- Trimiterea primului program către Spark
- Depanare și logging
- Proprietăți de configurare
- Laboratoare: Programarea în API Spark, Trimiterea sarcinilor
-
Spark SQL
- Suport pentru SQL în Spark
- Dataframes
- Definirea tabelelor și importul seturilor de date
- Interogarea datafram-elor folosind SQL
- Formate de stocare: JSON / Parquet
- Laboratoare: Crearea și interogarea datafram-elor; Evaluarea formatarelor datelor
-
MLlib (Machine Learning Library)
- Introducere în MLlib
- Algoritmi MLlib
- Laboratoare: Scrierea aplicațiilor MLib
-
GraphX (Biblioteca de Grafuri)
- Prezentare generală a bibliotecii GraphX
- API-uri GraphX
- Laboratoare: Procesarea datelor grafice folosind Spark
-
Spark Streaming (Fluxare Spark)
- Panoramă generală asupra fluxării
- Evaluarea platformelor de fluxare
- Operațiuni de fluxare
- Operațiuni cu fereastră glisantă
- Laboratoare: Scrierea aplicațiilor spark streaming
-
Spark și Hadoop
- Introducere în Hadoop (HDFS / YARN)
- Arhitectură Hadoop + Spark
- Rularea Sparkului pe Hadoop YARN
- Procesarea fișierelor HDFS folosind Spark
-
Prestații și optimizare Spark
- Variabile de difuzare (broadcast variables)
- Accumulatori
- Gestionarea memoriei și cache-ul
-
Operațiuni Spark
- Implementarea Sparkului în producție
- Șabloane de implementare exemple
- Configurări
- Monitorizare
- Diagnosticsare și rezolvarea problemelor (troubleshooting)
Cerințe
PRE-REQUISITE
cunoaștere a limbajului Java / Scala / Python (laboratoarele noastre în Scala și Python)
cunoștințe de bază ale mediului de dezvoltare Linux (navigarea la linia de comandă / editarea fișierelor folosind VI sau nano)
Mărturii (6)
Făcând exerciții similare în moduri diferite m-a ajutat mult să înțeleg ce poate face fiecare componentă (Hadoop/Spark, standalone/cluster) singură și împreună. M-a inspirat cu idei despre cum ar trebui să testeze aplicația mea pe mașina locală când dezvolt versus când este deployată pe un cluster.
Thomas Carcaud - IT Frankfurt GmbH
Curs - Spark for Developers
Tradus de catre o masina
Ajay era foarte prietenos, util și, de asemenea, cunoscut despre subiectul pe care îl discută.
Biniam Guulay - ICE International Copyright Enterprise Germany GmbH
Curs - Spark for Developers
Tradus de catre o masina
Ernesto did a great job explaining the high level concepts of using Spark and its various modules.
Michael Nemerouf
Curs - Spark for Developers
Tradus de catre o masina
The trainer made the class interesting and entertaining which helps quite a bit with all day training.
Ryan Speelman
Curs - Spark for Developers
Tradus de catre o masina
We know a lot more about the whole environment.
John Kidd
Curs - Spark for Developers
Tradus de catre o masina
Richard is very calm and methodical, with an analytic insight - exactly the qualities needed to present this sort of course.
Kieran Mac Kenna
Curs - Spark for Developers
Tradus de catre o masina