Schița de curs

Introducere în Google Colab și Apache Spark

  • Prezentare generală a Google Colab
  • Introducere în Apache Spark
  • Configurarea Spark în Google Colab

Procesarea datelor cu Apache Spark

  • Lucrul cu RDD-uri și DataFrames
  • Încărcarea și procesarea seturilor mari de date
  • Utilizarea Spark SQL pentru interogarea datelor structurate

Analiză avansată cu Spark

  • Învățare automată cu Spark MLlib
  • Efectuarea de analize de date în timp real
  • Calcul distribuit cu Spark

Vizualizare și colaborare în Google Colab

  • Integrarea Colab cu biblioteci populare de vizualizare
  • Fluxuri de lucru collaborative cu notebook-uri Colab
  • Partajarea și exportul rezultatelor

Optimizarea fluxurilor de lucru pentru date mari

  • Optimizarea performanței Spark
  • Optimizarea utilizării memoriei și a stocării
  • Scalarea fluxurilor de lucru pentru seturi mari de date

Date mari în cloud

  • Integrarea Google Colab cu instrumente bazate pe cloud
  • Utilizarea stocării în cloud pentru date mari
  • Lucrul cu Spark în medii cloud distribuite

Studii de caz și bune practici

  • Revizuirea aplicațiilor practice din lumea reală pentru date mari
  • Studii de caz folosind Apache Spark și Colab
  • Bune practici pentru analiza datelor mari

Rezumat și următorii pași

Cerințe

  • Cunoștințe de bază despre conceptele de știința datelor
  • Familiaritate cu Apache Spark
  • Abilități de programare în Python

Public țintă

  • Specialiști în știința datelor
  • Ingineri de date
  • Cercetători care lucrează cu date mari
 14 Ore

Numărul de participanți


Pret per participant

Mărturii (4)

Cursuri viitoare

Categorii înrudite