Schița de curs
Introducere, Obiective și Strategie de Migrație
- Obiectivele cursului, alinierea profilului participantilor și criteriile de succes
- Abordări la nivel înalt de migrație și considerente privind riscurile
- Setarea lucrărilor, depozitelor și seturilor de date de laborator
Ziua 1 — Fundamentele Migrației și Arhitectura
- Concepte Lakehouse, prezentare generală a Delta Lake și arhitecturii Databricks
- diferențele dintre SMP vs MPP și implicațiile lor pentru migrație
- Designul Medallion (Bronze→Silver→Gold) și prezentare generală a Unity Catalog
Laborator Ziua 1 — Traducerea unei Proceduri Stocate
- Migrarea practică a unui exemplu de procedură stocată către un notebook
- Maparea tabelelor temporare și cursorilor la transformări DataFrame
- Validarea și compararea cu iesirea inițială
Ziua 2 — Delta Lake Avansat & Incremental Loading
- Tranzacții ACID, jurnale de confirmare, versionare și călătorie în timp
- Auto Loader, modele MERGE INTO, upserts și evoluția schemei
- OPTIMIZE, VACUUM, Z-ORDER, partiționare și optimizarea stocării
Laborator Ziua 2 — Încorporare Incrementală & Optimizare
- Implementarea încorporării Auto Loader și a fluxurilor de muncă MERGE
- Aplicarea OPTIMIZE, Z-ORDER și VACUUM; validarea rezultatelor
- Măsurarea îmbunătățirilor performanței de citire/scriere
Ziua 3 — SQL în Databricks, Performanță & Debugging
- Caracteristici analitice SQL: funcții de fereastră, funcții de ordin superior, gestionare JSON/array
- Citirea interfeței Spark UI, DAG-uri, interschimburi, etape, sarcini și diagnosticarea gâturilor de strangulare
- modele de optimizare a query-urilor: alăturări broadcast, hint-uri, cache și reducerea declanșărilor
Laborator Ziua 3 — Refactoring SQL & Optimizare Performanța
- Refactorarea unui proces pesant SQL în Spark SQL optimizat
- Utilizarea urmelor interfeței Spark UI pentru a identifica și corecta declanșările și interschimbările
- Benchmarking înainte/după și documentarea etapelor de optimizare
Ziua 4 — PySpark Tactical: Înlocuirea Logicii Procedurale
- Modelul de execuție Spark: driver, executori, evaluare lăzilă și strategii de partiționare
- Transformarea buclelor și cursorilor în operațiuni vectorizate DataFrame
- Modularizare, UDFs/pandas UDFs, widget-uri și biblioteci reutilizabile
Laborator Ziua 4 — Refactoring Scripte Procedurale
- Refactorarea unui script ETL procedural în notebook-uri PySpark modulare
- Introducerea parametrizării, testelor de tip unit și funcțiilor reutilizabile
- Revizuirea codului și aplicarea listei de verificare a celor mai bune practici
Ziua 5 — Orchestrație, Pipeline End-to-End & Cel Mai Bine Practică
- Databricks Workflows: design de sarcini, dependențe între sarcini, declanșatoare și gestionarea erorilor
- Proiectarea pipeline-urilor Medallion incrementale cu reguli de calitate și validarea schemei
- Integrarea cu Git (GitHub/Azure DevOps), CI, și strategii de testare pentru logică PySpark
Laborator Ziua 5 — Construirea unui Pipeline Complet End-to-End
- Asamblarea pipeline-ului Bronze→Silver→Gold orchestrate cu Workflows
- Implementarea logării, auditului, a reincercărilor și a validărilor automate
- Rularea pipeline-ului complet, validarea iesirilor și pregătirea notelor de implementare
Operationalizare, Guvernanță și Gata pentru Producție
- Practici optime de guvernanță Unity Catalog, liniaj și controale de acces
- Costuri, dimensiunea clusterelor, scalarea automată și modele de concurență a sarcinilor
- Liste de verificare pentru implementare, strategii de revenire la stadiul anterior și crearea unui ghid operativ
Recenzie Finală, Transfer de Cunoștințe și Următoarele Pași
- Prezentările participantilor cu lucrul de migrație și lecțiile învățate
- Analiza lacunelor, activitățile următoare recomandate și preluarea materialelor de instruire
- Referințe, căi de învățare suplimentare și opțiuni de suport
Cerințe
- O înțelegere a conceptelor de inginerie a datelor
- Experiență cu SQL și proceduri stocate (Synapse / SQL Server)
- Familiarizare cu conceptele de orchestrație ETL (ADF sau similar)
Publicul țintă
- Manageri tehnici cu un fundal în ingineria datelor
- Ingineri de date care se îmbunătățesc din logica procedurală OLAP către modele Lakehouse
- Ingineri de platformă responsabili pentru adoptarea Databricks