Intrati in legatura

Schița de curs

PySpark & Învățarea Automată 

Modulul 1: Fundamentele Big Data & Spark

  • Prezentare generală a ecosistemului Big Data și rolul Spark în platformele moderne de date
  • Înțelegerea arhitecturii Spark: driver, executoare, manager de cluster, evaluare leneșă, DAG și planificarea execuției
  • Diferențe între API-urile RDD și DataFrame și când să folosești fiecare abordare
  • Crearea și configurarea SparkSession și înțelegerea fundamentelor de configurare a aplicațiilor

Modulul 2: PySpark DataFrames

  • Citirea și scrierea datelor din surse și formate de întreprindere (CSV, JSON, Parquet, Delta)
  • Lucrul cu PySpark DataFrames: transformări, acțiuni, expresii de coloană, filtrare, join-uri și agregări
  • Implementarea operațiunilor avansate, cum ar fi funcții de fereastră, gestionarea timestamp-urilor și lucrul cu date imbricate
  • Aplicarea verificărilor de calitate a datelor și scrierea de cod PySpark reutilizabil și menținabil

Modulul 3: Procesarea Eficientă a Seturilor Mari de Date

  • Înțelegerea fundamentelor performanței: strategii de partiționare, comportamentul shuffle, caching și persistență
  • Utilizarea tehnicilor de optimizare, inclusiv join-uri broadcast și analiza planurilor de execuție
  • Procesarea eficientă a seturilor mari de date și cele mai bune practici pentru fluxurile de date scalabile
  • Înțelegerea evoluției schemei și a formatelor moderne de stocare utilizate în mediile de întreprindere

Modulul 4: Inginerie de Caracteristici la Scară Mare

  • Efectuarea ingineriei de caracteristici cu Spark MLlib: gestionarea valorilor lipsă, codificarea variabilelor categorice și scalarea caracteristicilor
  • Proiectarea pașilor de preprocesare reutilizabili și pregătirea seturilor de date pentru pipeline-uri de Învățare Automată
  • Introducere în selecția de caracteristici și gestionarea seturilor de date dezechilibrate

Modulul 5: Învățarea Automată cu Spark MLlib

  • Înțelegerea arhitecturii MLlib și a modelului Estimator/Transformer
  • Antrenarea modelelor de regresie și clasificare la scară largă (Regresie Liniară, Regresie Logistică, Arbori de Decizie, Păduri Aleatoare)
  • Compararea modelelor și interpretarea rezultatelor în fluxurile de lucru distribuite de Învățare Automată

Modulul 6: Pipeline-uri ML de la Un Capăt la Altul

  • Construirea de pipeline-uri de Învățare Automată de la un capăt la altul, combinând preprocesare, inginerie de caracteristici și modelare
  • Aplicarea strategiilor de împărțire antrenament/validare/test
  • Efectuarea validării încrucișate și ajustarea hiperparametrilor folosind căutarea pe grilă și căutarea aleatoare
  • Structurarea experimentelor de Învățare Automată reproducibile

Modulul 7: Evaluarea Modelelor & Luarea Deciziilor Practice în ML

  • Aplicarea metricilor de evaluare adecvate pentru probleme de regresie și clasificare
  • Identificarea overfitting-ului și underfitting-ului și luarea deciziilor practice de selecție a modelelor
  • Interpretarea importanței caracteristicilor și înțelegerea comportamentului modelului

Modulul 8: Practici de Producție & Întreprindere

  • Persistarea și încărcarea modelelor în Spark
  • Implementarea fluxurilor de lucru de inferență pe loturi pe seturi mari de date
  • Înțelegerea ciclului de viață al Învățării Automate în mediile de întreprindere
  • Introducere în conceptele de versionare, urmărire a experimentelor și strategii de testare de bază

 

Rezultat Practic

  • Abilitatea de a lucra autonom cu PySpark
  • Abilitatea de a procesa seturi mari de date eficient
  • Abilitatea de a efectua inginerie de caracteristici la scară mare
  • Abilitatea de a construi pipeline-uri scalabile de Învățare Automată

Cerințe

Participanții ar trebui să aibă următorul background:

Cunoștințe de bază de programare în Python, inclusiv lucrul cu funcții, structuri de date și biblioteci
Înțelegere fundamentală a conceptelor de analiză a datelor, cum ar fi seturi de date, transformări și agregări
Cunoștințe de bază de SQL și concepte de date relaționale
Înțelegere introductivă a conceptelor de Învățare Automată, cum ar fi seturi de date de antrenament, caracteristici și metrici de evaluare
Familiaritate cu mediile de linie de comandă și practici de bază de dezvoltare software este recomandată

Experiența cu Pandas, NumPy sau biblioteci similare de procesare a datelor este utilă, dar nu obligatorie.

 21 Ore

Numărul de participanți


Pret per participant

Mărturii (1)

Cursuri viitoare

Categorii înrudite