Schița de curs
Introducere în Apache Airflow
- Ce este orchestrarea fluxurilor de lucru
- Caracteristici și beneficii cheie ale Apache Airflow
- Îmbunătățiri și prezentare generală a ecosistemului Airflow 2.x
Arhitectură și concepte de bază
- Procese de planificare, server web și worker
- DAG-uri, sarcini și operatori
- Executoare și backend-uri (Local, Celery, Kubernetes)
Instalare și configurare
- Instalarea Airflow în medii locale și cloud
- Configurarea Airflow cu diferite executoare
- Configurarea bazelor de date de metadate și conexiuni
Navigarea în interfața web și CLI a Airflow
- Explorarea interfeței web Airflow
- Monitorizarea rulărilor DAG, sarcinilor și jurnalelor
- Utilizarea CLI-ului Airflow pentru administrare
Crearea și gestionarea DAG-urilor
- Crearea DAG-urilor cu API-ul TaskFlow
- Utilizarea operatorilor, senzorilor și hook-urilor
- Gestionarea dependențelor și a intervalelor de programare
Integrarea Airflow cu servicii de date și cloud
- Conectarea la baze de date, API-uri și cozi de mesaje
- Rularea conductelor ETL cu Airflow
- Integrări cloud: operatori AWS, GCP, Azure
Monitorizare și observabilitate
- Jurnale de sarcini și monitorizare în timp real
- Metrici cu Prometheus și Grafana
- Alerte și notificări prin e-mail sau Slack
Securizarea Apache Airflow
- Controlul accesului bazat pe roluri (RBAC)
- Autentificare cu LDAP, OAuth și SSO
- Gestionarea secretelor cu Vault și depozite de secrete cloud
Scalarea Apache Airflow
- Paralelism, concurență și cozi de sarcini
- Utilizarea CeleryExecutor și KubernetesExecutor
- Implementarea Airflow pe Kubernetes cu Helm
Cele mai bune practici pentru producție
- Controlul versiunilor și CI/CD pentru DAG-uri
- Testarea și depanarea DAG-urilor
- Menținerea fiabilității și performanței la scară largă
Depanare și optimizare
- Depanarea DAG-urilor și sarcinilor eșuate
- Optimizarea performanței DAG-urilor
- Capcane comune și cum să le eviți
Rezumat și următorii pași
Cerințe
- Experiență în programarea Python
- Familiaritate cu concepte de inginerie a datelor sau DevOps
- Înțelegerea conceptelor ETL sau orchestrii fluxurilor de lucru
Public țintă
- Oameni de știință de date
- Ingineri de date
- Ingineri DevOps și infrastructură
- Dezvoltatori de software
Mărturii (7)
Instrucționarul a adaptat instruirea la nivelul participanților și a răspuns la toate întrebările. El a fost foarte comunicativ, iar interacțiunea cu el a fost ușoară. Am apreciat foarte mult formatul instruirii, care includea multe exerciții practice. În ansamblu, a fost o sesiune foarte implicantă și bine organizată.
Jacek Chlopik - ZAKLAD UBEZPIECZEN SPOLECZNYCH
Curs - Apache Airflow: Building and Managing Data Pipelines
Tradus de catre o masina
Formarea a fost exact ce trebuia. Teorie foarte utilă și exerciții.
Vladimir - PUBLIC COURSE
Curs - Apache Airflow
Tradus de catre o masina
Formarea a fost excelentă în toate aspectele. Aspecte teoretice utile și exerciții.
Vladimir - PUBLIC COURSE
Curs - Apache Airflow
Tradus de catre o masina
Formarea a fost exact la punct în toate aspectele. Aspecte teoretice utile și exerciții.
Vladimir - PUBLIC COURSE
Curs - Apache Airflow
Tradus de catre o masina
Formarea a fost foarte bună sub toate aspectele. Aspecte teoretice utile și exerciții.
Vladimir - PUBLIC COURSE
Curs - Apache Airflow
Tradus de catre o masina
Formarea a fost excelentă în toate aspectele. Aspecte teoretice utile și exerciții.
Vladimir - PUBLIC COURSE
Curs - Apache Airflow
Tradus de catre o masina
Formarea a fost perfectă în toate aspectele. Aspecte teoretice utile și exerciții.
Vladimir - PUBLIC COURSE
Curs - Apache Airflow
Tradus de catre o masina