Schița de curs

Introducere:

  • Apache Spark în Hadoop Ecosistem
  • Scurtă introducere pentru python, scala

Bazele (teorie):

  • Arhitectură
  • RDD
  • Transformare și acțiuni
  • Etapă, Sarcină, Dependențe

Folosind Databricks mediu înțelegeți elementele de bază (atelier practic):

  • Exerciții folosind RDD API
  • Funcții de bază de acțiune și transformare
  • PairRDD
  • A te alatura
  • Strategii de stocare în cache
  • Exerciții folosind API-ul DataFrame
  • SparkSQL
  • DataFrame: selectați, filtrați, grupați, sortați
  • UDF (funcție definită de utilizator)
  • Privind API-ul DataSet
  • Streaming

Folosind mediul AWS, înțelegeți implementarea (atelier practic):

  • Elementele de bază ale AWS Glue
  • Înțelegeți diferențele dintre AWS EMR și AWS Glue
  • Exemple de locuri de muncă în ambele medii
  • Înțelegeți argumentele pro și contra

Suplimentar:

  • Introducere în Apache Airflow orchestrație

Cerințe

Competențe de programare (preferabil python, scala)

SQL de bază

 21 ore

Mărturii (3)

Cursuri înrudite

Big Data Analytics in Health

21 ore

Categorii înrudite