Schița de curs

  1. Introducere în Scala

    • O prezentare rapidă a Scalaii
    • Laboratoare: Cunoașterea Scalaii
  2. Noțiuni de bază despre Spark

    • Istoric și context
    • Spark și Hadoop
    • Concepte și arhitectură Spark
    • Ecosistemul Spark (core, spark sql, mlib, streaming)
    • Laboratoare: Instalarea și rularea Sparkului
  3. Prima privire asupra Sparkului

    • Rularea Sparkului în mod local
    • Interfața web Spark
    • Shell-ul Spark
    • Analiza seturilor de date – partea 1
    • Inspeționarea RDD-urilor
    • Laboratoare: Explorarea shell-ului Spark
  4. RDD-uri (Resilient Distributed Datasets)

    • Concepte RDD
    • Partiții
    • Operațiuni și transformări RDD
    • Tipuri de RDD-uri
    • RDD-uri cheie-valoare
    • MapReduce pe RDD-uri
    • Cache și persistență
    • Laboratoare: Crearea și inspeționarea RDD-urilor; Cache-ul RDD-urilor
  5. Programare API Spark

    • Introducere în API-ul Spark / RDD API
    • Trimiterea primului program către Spark
    • Depanare și logging
    • Proprietăți de configurare
    • Laboratoare: Programarea în API Spark, Trimiterea sarcinilor
  6. Spark SQL

    • Suport pentru SQL în Spark
    • Dataframes
    • Definirea tabelelor și importul seturilor de date
    • Interogarea datafram-elor folosind SQL
    • Formate de stocare: JSON / Parquet
    • Laboratoare: Crearea și interogarea datafram-elor; Evaluarea formatarelor datelor
  7. MLlib (Machine Learning Library)

    • Introducere în MLlib
    • Algoritmi MLlib
    • Laboratoare: Scrierea aplicațiilor MLib
  8. GraphX (Biblioteca de Grafuri)

    • Prezentare generală a bibliotecii GraphX
    • API-uri GraphX
    • Laboratoare: Procesarea datelor grafice folosind Spark
  9. Spark Streaming (Fluxare Spark)

    • Panoramă generală asupra fluxării
    • Evaluarea platformelor de fluxare
    • Operațiuni de fluxare
    • Operațiuni cu fereastră glisantă
    • Laboratoare: Scrierea aplicațiilor spark streaming
  10. Spark și Hadoop

    • Introducere în Hadoop (HDFS / YARN)
    • Arhitectură Hadoop + Spark
    • Rularea Sparkului pe Hadoop YARN
    • Procesarea fișierelor HDFS folosind Spark
  11. Prestații și optimizare Spark

    • Variabile de difuzare (broadcast variables)
    • Accumulatori
    • Gestionarea memoriei și cache-ul
  12. Operațiuni Spark

    • Implementarea Sparkului în producție
    • Șabloane de implementare exemple
    • Configurări
    • Monitorizare
    • Diagnosticsare și rezolvarea problemelor (troubleshooting)

Cerințe

PRE-REQUISITE

cunoaștere a limbajului Java / Scala / Python (laboratoarele noastre în Scala și Python)
cunoștințe de bază ale mediului de dezvoltare Linux (navigarea la linia de comandă / editarea fișierelor folosind VI sau nano)

 21 ore

Numărul de participanți


Pret per participant

Mărturii (6)

Cursuri viitoare

Categorii înrudite