Schița de curs

Introducere:

  • Apache Spark în ecosistemul Hadoop
  • Scurtă introducere în python, scala

Bazele (teorie):

  • Arhitectura
  • RDD
  • Transformări și Acțiuni
  • Etapă, Sarcină, Dependențe

Utilizarea mediului Databricks pentru înțelegerea bazelor (atelier practic):

  • Exerciții folosind API-ul RDD
  • Funcții de bază de acțiune și transformare
  • PairRDD
  • Join
  • Strategii de caching
  • Exerciții folosind API-ul DataFrame
  • SparkSQL
  • DataFrame: select, filter, group, sort
  • UDF (Funcție Definită de Utilizator)
  • O privire asupra API-ului DataSet
  • Streaming

Utilizarea mediului AWS pentru înțelegerea implementării (atelier practic):

  • Bazele AWS Glue
  • Înțelegerea diferențelor dintre AWS EMR și AWS Glue
  • Exemple de job-uri în ambele medii
  • Înțelegerea avantajelor și dezavantajelor

Extra:

  • Introducere în orchestrerea Apache Airflow

Cerințe

Abilități de programare (preferabil python, scala)

Bazele SQL

 21 Ore

Numărul de participanți


Pret per participant

Mărturii (3)

Cursuri viitoare

Categorii înrudite