Schița de curs

Introducere

  • Prezentare generală a caracteristicilor și arhitecturii Spark și Hadoop
  • Înțelegerea big data
  • Python noțiuni de bază de programare

Noțiuni introductive

  • Configurarea Python, Spark și Hadoop
  • Înțelegerea structurilor de date în Python
  • Înțelegerea API-ului PySpark
  • Înțelegerea HDFS și MapReduce

Integrarea Spark și Hadoop cu Python

  • Implementarea Spark RDD în Python
  • Prelucrarea datelor utilizând MapReduce
  • Crearea de seturi de date distribuite în HDFS

Machine Learning cu Spark MLlib

Prelucrarea Big Data cu Spark Streaming

Lucrul cu sistemele de recomandare

Lucrul cu Kafka, Sqoop, Kafka și Flume

Apache Mahout cu Spark și Hadoop

Depanare

Rezumat și etapele următoare

Cerințe

  • Experiență cu Spark și Hadoop
  • Python experiență în programare

Audiență

  • Științifici de date
  • Dezvoltatorii
 21 ore

Mărturii (3)

Cursuri înrudite

Categorii înrudite