Schița de curs
Introducere, Obiective și Strategie de Migrare
- Obiectivele cursului, alinierea profilului participanților și criteriile de succes
- Abordări de nivel înalt ale migrării și considerații de risc
- Configurarea spațiilor de lucru, depozitelor și seturilor de date pentru laborator
Ziua 1 — Concepte de Bază și Arhitectură a Migrării
- Concepte Lakehouse, prezentare generală Delta Lake și arhitectura Databricks
- Diferențe între SMP și MPP și implicații pentru migrare
- Proiectarea Medalion (Bronze→Silver→Gold) și prezentare generală Unity Catalog
Laborator Ziua 1 — Transformarea unei Proceduri Stocate
- Migrarea practică a unei proceduri stocate exemplu într-un notebook
- Maparea tabelelor temporare și cursoarelor la transformări DataFrame
- Validarea și compararea cu rezultatul original
Ziua 2 — Delta Lake Avansat și Încărcare Incrementală
- Tranzacții ACID, jurnale de commit, versionare și călătorie în timp
- Modele Auto Loader, MERGE INTO, upserts și evoluția schemei
- OPTIMIZE, VACUUM, Z-ORDER, partiționare și optimizare a stocării
Laborator Ziua 2 — Ingerare Incrementală și Optimizare
- Implementarea ingerării Auto Loader și a fluxurilor de lucru MERGE
- Aplicarea OPTIMIZE, Z-ORDER și VACUUM; validarea rezultatelor
- Măsurarea îmbunătățirilor de performanță la citire/scriere
Ziua 3 — SQL în Databricks, Performanță și Depanare
- Funcții SQL analitice: funcții de fereastră, funcții de ordin superior, manipulare JSON/tablouri
- Citirea interfeței Spark UI, DAG-uri, shuffle-uri, etape, sarcini și diagnosticarea gâtuirilor
- Modele de optimizare a interogărilor: join-uri broadcast, indicii, caching și reducerea spill-urilor
Laborator Ziua 3 — Refactorizare SQL și Optimizare a Performanței
- Refactorizarea unui proces SQL complex în Spark SQL optimizat
- Utilizarea urmelor Spark UI pentru a identifica și remedia probleme de skew și shuffle
- Benchmark înainte/după și documentarea pașilor de optimizare
Ziua 4 — PySpark Tactical: Înlocuirea Logicii Procedurale
- Modelul de execuție Spark: driver, executoare, evaluare leneșă și strategii de partiționare
- Transformarea buclelor și cursoarelor în operații vectorizate DataFrame
- Modularizare, UDF-uri/pandas UDF-uri, widget-uri și biblioteci reutilizabile
Laborator Ziua 4 — Refactorizarea Scripturilor Procedurale
- Refactorizarea unui script ETL procedural în notebook-uri PySpark modulare
- Introducerea parametrizării, testelor unitare și a funcțiilor reutilizabile
- Revizuirea codului și aplicarea listei de verificare a celor mai bune practici
Ziua 5 — Orchestrare, Conductă de la Cap la Cap și Cele Mai Bune Practici
- Databricks Workflows: proiectarea job-urilor, dependențe de sarcini, declanșatoare și gestionarea erorilor
- Proiectarea conductelor Medalion incrementale cu reguli de calitate și validare a schemei
- Integrarea cu Git (GitHub/Azure DevOps), CI și strategii de testare pentru logica PySpark
Laborator Ziua 5 — Construirea unei Conducte Complete de la Cap la Cap
- Asamblarea unei conducte Bronze→Silver→Gold orchestrate cu Workflows
- Implementarea jurnalizării, auditării, repetărilor și validărilor automate
- Rularea întregii conducte, validarea ieșirilor și pregătirea notelor de implementare
Operaționalizare, Guvernanță și Pregătire pentru Producție
- Cele mai bune practici de guvernanță Unity Catalog, linie de descendență și controale de acces
- Costuri, dimensionarea clusterelor, scalare automată și modele de concurență a job-urilor
- Liste de verificare pentru implementare, strategii de rollback și crearea runbook-urilor
Revizuire Finală, Transfer de Cunoștințe și Pași Următori
- Prezentări ale participanților despre munca de migrare și lecțiile învățate
- Analiza golurilor, activități recomandate de urmat și predarea materialelor de formare
- Referințe, căi de învățare ulterioare și opțiuni de suport
Cerințe
- Înțelegerea conceptelor de inginerie a datelor
- Experiență cu SQL și proceduri stocate (Synapse / SQL Server)
- Familiaritate cu conceptele de orchestrere ETL (ADF sau similar)
Publicul țintă
- Manageri tehnologici cu un fundal în ingineria datelor
- Ingineri de date care trec de la logica procedurală OLAP la modele Lakehouse
- Ingineri de platformă responsabili de adoptarea Databricks