Schița de curs

Introducere în Apache Airflow

  • Ce este orchestrarea fluxului de lucru (workflow orchestration)
  • Caracteristici și beneficii cheie ale Apache Airflow
  • Îmbunătățiri în Airflow 2.x și prezentare a ecosistemului

Arhitectură și concepte de bază

  • Scheduler, serverul web și procesele worker
  • DAGs (Directed Acyclic Graphs), sarcini și operatori
  • Executorii și backend-urile (Local, Celery, Kubernetes)

Instalare și configurare

  • Instalarea Airflow în medii locale și cloud
  • Configurarea Airflow cu diferiți executori
  • Setarea bazelor de date metadata și a conexiunilor

Navigarea în interfata web și CLI (Command Line Interface) Airflow

  • Explorarea interfeței web Airflow
  • Monitorizarea rulărilor DAG, sarcinilor și a log-urilor
  • Utilizarea CLI Airflow pentru administrare

Crearea și gestionarea DAG-urilor (Directed Acyclic Graphs)

  • Crearea DAG-urilor folosind TaskFlow API
  • Utilizarea operatorilor, sensorilor și hooks-urilor
  • Gestionarea dependențelor și a intervalelor de programare (scheduling intervals)

Integrarea Airflow cu servicii de date și cloud

  • Conectarea la baze de date, API-uri și cozi de mesaje (message queues)
  • Rularea pipeline-urilor ETL cu Airflow
  • Integrări cloud: operatori AWS, GCP, Azure

Monitorizare și observabilitate (observability)

  • Log-urile sarcinilor și monitorizarea în timp real
  • Metrici cu Prometheus și Grafana
  • Alertare și notificări prin email sau Slack

Securizarea Apache Airflow

  • Controlul de acces bazat pe roluri (RBAC)
  • Autentificare cu LDAP, OAuth și SSO (Single Sign-On)
  • Gestionarea secretelor cu Vault și depozitele de secrete cloud (cloud secret stores)

Scalarea Apache Airflow

  • Paralelism, concurență și cozi de sarcini (task queues)
  • Utilizarea CeleryExecutor și KubernetesExecutor
  • Implementarea Airflow pe Kubernetes cu Helm

Cele mai bune practici pentru producție (production)

  • Controlul versiunilor și CI/CD pentru DAG-urile (DAGs)
  • Testarea și depanarea DAG-urilor (debugging)
  • Păstrarea fiabilității și performanței la scară largă (at scale)

Depanare și optimizare (troubleshooting and optimization)

  • Depanarea DAG-urilor și a sarcinilor eșuate (failed tasks)
  • Optimizarea performanței DAG-urilor (DAG performance)
  • Pitfall-uri comune și cum să le evitați (common pitfalls and how to avoid them)

Rezumat și următoarele pași (next steps)

Cerințe

  • Experiență cu programarea Python
  • Cunoștințe în inginerie de date sau DevOps
  • Înțelegere a conceptelor ETL sau orchestrării fluxurilor de lucru

Audiență

  • Cercetători în domeniul datelor
  • Ingineri de date
  • Ingineri DevOps și infrastructură
  • Dezvoltatori software
 21 ore

Numărul de participanți


Pret per participant

Mărturii (7)

Cursuri viitoare

Categorii înrudite