Schița de curs

Săptămâna 1 — Introducere la Ingineria Datelor

  • Fundamentele ingineriei datelor și stocurile de date moderne
  • Patrunele de ingheta a datelor și sursele lor
  • Concepte batch vs streaming și cazuri de utilizare
  • Laborator practic: ingheta de date de exemplu în stocarea cloud

Săptămâna 2 — Fundația Databricks Lakehouse Badge

  • Fundamentele platformei Databricks și navigarea spațiului de lucru
  • Concepte Delta Lake: ACID, time travel și evoluția schemelor
  • Siguranța spațiului de lucru, controale de acces și bazele Unity Catalog
  • Laborator practic: crearea și gestionarea tabelelor Delta

Săptămâna 3 — SQL Avansat pe Databricks

  • Constructii SQL avansate și funcții de fereastră la scară largă
  • Optimizarea interogărilor, planurile explain și modele cost-aware
  • Vederi materializate, cachiere și optimizarea performanței
  • Laborator practic: optimizarea interogărilor analitice pe seturi de date mari

Săptămâna 4 — Databricks Certified Developer for Apache Spark (Preparare)

  • Arhitectura Spark, RDDs, DataFrames și Datasets în detaliu
  • Transformări și acțiuni cheie ale Spark; considerente de performanță
  • Bazele streaming-ului Spark și modele structurate de streaming
  • Exerciții de examen practic și probleme de test practic

Săptămâna 5 — Introducere la Modelarea Datelor

  • Concepte: modelare dimensională, design star/schema și normalizare
  • Modelarea Lakehouse vs abordările tradiționale de depozitare a datelor
  • Patrunele de design pentru seturi de date pregătite pentru analitică
  • Laborator practic: construirea tabelelor și vederilor gata pentru consum

Săptămâna 6 — Introducere la Unelte de Import și Automatizarea Ingestiei Datelor

  • Conectoare și unelte de inghetare pentru Databricks (AWS Glue, Data Factory, Kafka)
  • Patrunele de inghetare în flux și design-uri micro-batch
  • Validarea datelor, verificări de calitate și impunerea schemelor
  • Laborator practic: construirea de pipe-uri robuste de inghetare

Săptămâna 7 — Introducere la Git Flow și CI/CD pentru Ingineria Datelor

  • Strategii de ramificare Git Flow și organizarea depozitului
  • Pipe-uri CI/CD pentru notebooks, sarcini și infrastructura ca cod
  • Testare, validare stilistică și automatizarea implementării pentru codul datelor
  • Laborator practic: implementarea fluxului de lucru bazat pe Git și implementarea automată a sarcinilor

Săptămâna 8 — Databricks Certified Data Engineer Associate (Preparare) & Patrunele de Inginerie Datelor

  • Revizuirea temelor certificării și exerciții practice
  • Patrune arhitecturale: bronza/silver/gold, CDC, dimensiuni cu schimbări lente
  • Patrune operaționale: monitorizare, alertare și liniaj
  • Laborator practic: pipeline complet de cap la coadă aplicând patrunele de inginerie

Săptămâna 9 — Introducere la Airflow și Astronomer; Scripting

  • Concepte Airflow: DAG-uri, sarcini, operatori și programare
  • Panorama platformei Astronomer și cele mai bune practici de orchestrare
  • Scripting pentru automatizare: modele de scripting Python pentru sarcinile cu date
  • Laborator practic: orchestarea sarcinilor Databricks cu DAG-uri Airflow

Săptămâna 10 — Visualizarea Datelor, Tableau și Proiect Final Personalizat

  • Conectarea Tableau la Databricks și cele mai bune practici pentru straturile BI
  • Principiile de design ale tablelor de bord și vizualizări cu înțelegere a performanței
  • Punct final: definirea, implementarea și prezentarea unui proiect final personalizat
  • Prezentări finale, evaluare între perechi și feedback de la instructor

Rezumat și Următorii Pași

Cerințe

  • O înțelegere a conceptelor de bază SQL și ale datelor
  • Experiență în programare cu Python sau Scala
  • Familiaritate cu serviciile cloud și mediile virtuale

Audientă

  • Data engineers aspiranți și practicenți
  • Dezvoltatori ETL/BI și ingineri de analiză
  • Echipe de platforme de date și DevOps care susțin pipeline-urile
 350 ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite