Schița de curs
Introducere în Apache Airflow
- Ce este orchestrarea fluxului de lucru (workflow orchestration)
- Caracteristici și beneficii cheie ale Apache Airflow
- Îmbunătățiri în Airflow 2.x și prezentare a ecosistemului
Arhitectură și concepte de bază
- Scheduler, serverul web și procesele worker
- DAGs (Directed Acyclic Graphs), sarcini și operatori
- Executorii și backend-urile (Local, Celery, Kubernetes)
Instalare și configurare
- Instalarea Airflow în medii locale și cloud
- Configurarea Airflow cu diferiți executori
- Setarea bazelor de date metadata și a conexiunilor
Navigarea în interfata web și CLI (Command Line Interface) Airflow
- Explorarea interfeței web Airflow
- Monitorizarea rulărilor DAG, sarcinilor și a log-urilor
- Utilizarea CLI Airflow pentru administrare
Crearea și gestionarea DAG-urilor (Directed Acyclic Graphs)
- Crearea DAG-urilor folosind TaskFlow API
- Utilizarea operatorilor, sensorilor și hooks-urilor
- Gestionarea dependențelor și a intervalelor de programare (scheduling intervals)
Integrarea Airflow cu servicii de date și cloud
- Conectarea la baze de date, API-uri și cozi de mesaje (message queues)
- Rularea pipeline-urilor ETL cu Airflow
- Integrări cloud: operatori AWS, GCP, Azure
Monitorizare și observabilitate (observability)
- Log-urile sarcinilor și monitorizarea în timp real
- Metrici cu Prometheus și Grafana
- Alertare și notificări prin email sau Slack
Securizarea Apache Airflow
- Controlul de acces bazat pe roluri (RBAC)
- Autentificare cu LDAP, OAuth și SSO (Single Sign-On)
- Gestionarea secretelor cu Vault și depozitele de secrete cloud (cloud secret stores)
Scalarea Apache Airflow
- Paralelism, concurență și cozi de sarcini (task queues)
- Utilizarea CeleryExecutor și KubernetesExecutor
- Implementarea Airflow pe Kubernetes cu Helm
Cele mai bune practici pentru producție (production)
- Controlul versiunilor și CI/CD pentru DAG-urile (DAGs)
- Testarea și depanarea DAG-urilor (debugging)
- Păstrarea fiabilității și performanței la scară largă (at scale)
Depanare și optimizare (troubleshooting and optimization)
- Depanarea DAG-urilor și a sarcinilor eșuate (failed tasks)
- Optimizarea performanței DAG-urilor (DAG performance)
- Pitfall-uri comune și cum să le evitați (common pitfalls and how to avoid them)
Rezumat și următoarele pași (next steps)
Cerințe
- Experiență cu programarea Python
- Cunoștințe în inginerie de date sau DevOps
- Înțelegere a conceptelor ETL sau orchestrării fluxurilor de lucru
Audiență
- Cercetători în domeniul datelor
- Ingineri de date
- Ingineri DevOps și infrastructură
- Dezvoltatori software
Mărturii (7)
The training was spot on. Very useful theory and exercices.
Vladimir - PUBLIC COURSE
Curs - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Curs - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Curs - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Curs - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Curs - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.
Vladimir - PUBLIC COURSE
Curs - Apache Airflow
The training was spot on in all aspects. Usefull theoretical aspects and exercises.