Schița de curs

Introducere

  • Prezentare generală a caracteristicilor și arhitecturii Spark și Hadoop
  • Înțelegerea datelor mari
  • Bazele programării în Python

Începutul

  • Configurarea Python, Spark și Hadoop
  • Înțelegerea structurilor de date în Python
  • Înțelegerea API-ului PySpark
  • Înțelegerea HDFS și MapReduce

Integrarea Spark și Hadoop cu Python

  • Implementarea Spark RDD în Python
  • Procesarea datelor folosind MapReduce
  • Crearea de seturi de date distribuite în HDFS

Învățarea automată cu Spark MLlib

Procesarea datelor mari cu Spark Streaming

Lucrul cu sisteme de recomandare

Lucrul cu Kafka, Sqoop, Kafka și Flume

Apache Mahout cu Spark și Hadoop

Depanare

Rezumat și pași următori

Cerințe

  • Experiență cu Spark și Hadoop
  • Experiență în programare Python

Public țintă

  • Oameni de știință de date
  • Dezvoltatori
 21 Ore

Numărul de participanți


Pret per participant

Mărturii (3)

Cursuri viitoare

Categorii înrudite