Schița de curs

Introducere în Google Colab și Apache Spark

  • Panoramă despre Google Colab
  • Introducere în Apache Spark
  • Configurarea Spark în Google Colab

Procesare a datelor cu Apache Spark

  • Lucru cu RDD-uri și DataFrames
  • Încărcarea și procesarea seturilor de date mari
  • Utilizarea Spark SQL pentru interogarea datelor structurate

Analize avansate cu Spark

  • Aprenderea mașină cu Spark MLlib
  • Executarea analizelor de date în timp real
  • Calcul distribuit cu Spark

Visualizare și Collaboration în Google Colab

  • Integrarea Colab cu bibliotecile populare de visualizare
  • Fluxuri de lucru collaborative cu notebook-uri Colab
  • Împărțirea și exportul rezultatelor

Optimizarea fluxurilor de Big Data

  • Tuning Spark pentru performanță
  • Optimizarea utilizării memoriei și a stocării
  • Scalare a fluxurilor de lucru pentru seturi mari de date

Big Data în cloud

  • Integrarea Google Colab cu instrumentele bazate pe cloud
  • Utilizarea stocării cloud pentru mari seturi de date
  • Lucrul cu Spark în medii distribuite cloud

Studii de caz și cele mai bune practici

  • Revizuirea aplicațiilor reale ale datelor mari
  • Studii de caz folosind Apache Spark și Colab
  • Cele mai bune practici pentru analiza datelor mari

Rezumat și următoarele pași

Cerințe

  • Cunoștințe de bază cu conceptele din domeniul științei datelor
  • Familiaritate cu Apache Spark
  • Competențe în programare Python

Publicul cântarit

  • Științificii datelor
  • Inginerii datelor
  • Cercetătorii care lucrează cu date mari
 14 ore

Numărul de participanți


Pret per participant

Mărturii (5)

Upcoming Courses

Categorii înrudite