Intrati in legatura

Schița de curs

Introducere, Obiective și Strategie de Migrare

  • Obiectivele cursului, alinierea profilului participanților și criteriile de succes
  • Abordări de nivel înalt ale migrării și considerații de risc
  • Configurarea spațiilor de lucru, depozitelor și seturilor de date pentru laborator

Ziua 1 — Concepte de Bază și Arhitectură a Migrării

  • Concepte Lakehouse, prezentare generală Delta Lake și arhitectura Databricks
  • Diferențe între SMP și MPP și implicații pentru migrare
  • Proiectarea Medalion (Bronze→Silver→Gold) și prezentare generală Unity Catalog

Laborator Ziua 1 — Transformarea unei Proceduri Stocate

  • Migrarea practică a unei proceduri stocate exemplu într-un notebook
  • Maparea tabelelor temporare și cursoarelor la transformări DataFrame
  • Validarea și compararea cu rezultatul original

Ziua 2 — Delta Lake Avansat și Încărcare Incrementală

  • Tranzacții ACID, jurnale de commit, versionare și călătorie în timp
  • Modele Auto Loader, MERGE INTO, upserts și evoluția schemei
  • OPTIMIZE, VACUUM, Z-ORDER, partiționare și optimizare a stocării

Laborator Ziua 2 — Ingerare Incrementală și Optimizare

  • Implementarea ingerării Auto Loader și a fluxurilor de lucru MERGE
  • Aplicarea OPTIMIZE, Z-ORDER și VACUUM; validarea rezultatelor
  • Măsurarea îmbunătățirilor de performanță la citire/scriere

Ziua 3 — SQL în Databricks, Performanță și Depanare

  • Funcții SQL analitice: funcții de fereastră, funcții de ordin superior, manipulare JSON/tablouri
  • Citirea interfeței Spark UI, DAG-uri, shuffle-uri, etape, sarcini și diagnosticarea gâtuirilor
  • Modele de optimizare a interogărilor: join-uri broadcast, indicii, caching și reducerea spill-urilor

Laborator Ziua 3 — Refactorizare SQL și Optimizare a Performanței

  • Refactorizarea unui proces SQL complex în Spark SQL optimizat
  • Utilizarea urmelor Spark UI pentru a identifica și remedia probleme de skew și shuffle
  • Benchmark înainte/după și documentarea pașilor de optimizare

Ziua 4 — PySpark Tactical: Înlocuirea Logicii Procedurale

  • Modelul de execuție Spark: driver, executoare, evaluare leneșă și strategii de partiționare
  • Transformarea buclelor și cursoarelor în operații vectorizate DataFrame
  • Modularizare, UDF-uri/pandas UDF-uri, widget-uri și biblioteci reutilizabile

Laborator Ziua 4 — Refactorizarea Scripturilor Procedurale

  • Refactorizarea unui script ETL procedural în notebook-uri PySpark modulare
  • Introducerea parametrizării, testelor unitare și a funcțiilor reutilizabile
  • Revizuirea codului și aplicarea listei de verificare a celor mai bune practici

Ziua 5 — Orchestrare, Conductă de la Cap la Cap și Cele Mai Bune Practici

  • Databricks Workflows: proiectarea job-urilor, dependențe de sarcini, declanșatoare și gestionarea erorilor
  • Proiectarea conductelor Medalion incrementale cu reguli de calitate și validare a schemei
  • Integrarea cu Git (GitHub/Azure DevOps), CI și strategii de testare pentru logica PySpark

Laborator Ziua 5 — Construirea unei Conducte Complete de la Cap la Cap

  • Asamblarea unei conducte Bronze→Silver→Gold orchestrate cu Workflows
  • Implementarea jurnalizării, auditării, repetărilor și validărilor automate
  • Rularea întregii conducte, validarea ieșirilor și pregătirea notelor de implementare

Operaționalizare, Guvernanță și Pregătire pentru Producție

  • Cele mai bune practici de guvernanță Unity Catalog, linie de descendență și controale de acces
  • Costuri, dimensionarea clusterelor, scalare automată și modele de concurență a job-urilor
  • Liste de verificare pentru implementare, strategii de rollback și crearea runbook-urilor

Revizuire Finală, Transfer de Cunoștințe și Pași Următori

  • Prezentări ale participanților despre munca de migrare și lecțiile învățate
  • Analiza golurilor, activități recomandate de urmat și predarea materialelor de formare
  • Referințe, căi de învățare ulterioare și opțiuni de suport

Cerințe

  • Înțelegerea conceptelor de inginerie a datelor
  • Experiență cu SQL și proceduri stocate (Synapse / SQL Server)
  • Familiaritate cu conceptele de orchestrere ETL (ADF sau similar)

Publicul țintă

  • Manageri tehnologici cu un fundal în ingineria datelor
  • Ingineri de date care trec de la logica procedurală OLAP la modele Lakehouse
  • Ingineri de platformă responsabili de adoptarea Databricks
 35 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite