Schița de curs

Introducere în Apache Airflow

  • Ce este orchestrarea fluxurilor de lucru
  • Caracteristici și beneficii cheie ale Apache Airflow
  • Îmbunătățiri și prezentare generală a ecosistemului Airflow 2.x

Arhitectură și concepte de bază

  • Procese de planificare, server web și worker
  • DAG-uri, sarcini și operatori
  • Executoare și backend-uri (Local, Celery, Kubernetes)

Instalare și configurare

  • Instalarea Airflow în medii locale și cloud
  • Configurarea Airflow cu diferite executoare
  • Configurarea bazelor de date de metadate și conexiuni

Navigarea în interfața web și CLI a Airflow

  • Explorarea interfeței web Airflow
  • Monitorizarea rulărilor DAG, sarcinilor și jurnalelor
  • Utilizarea CLI-ului Airflow pentru administrare

Crearea și gestionarea DAG-urilor

  • Crearea DAG-urilor cu API-ul TaskFlow
  • Utilizarea operatorilor, senzorilor și hook-urilor
  • Gestionarea dependențelor și a intervalelor de programare

Integrarea Airflow cu servicii de date și cloud

  • Conectarea la baze de date, API-uri și cozi de mesaje
  • Rularea conductelor ETL cu Airflow
  • Integrări cloud: operatori AWS, GCP, Azure

Monitorizare și observabilitate

  • Jurnale de sarcini și monitorizare în timp real
  • Metrici cu Prometheus și Grafana
  • Alerte și notificări prin e-mail sau Slack

Securizarea Apache Airflow

  • Controlul accesului bazat pe roluri (RBAC)
  • Autentificare cu LDAP, OAuth și SSO
  • Gestionarea secretelor cu Vault și depozite de secrete cloud

Scalarea Apache Airflow

  • Paralelism, concurență și cozi de sarcini
  • Utilizarea CeleryExecutor și KubernetesExecutor
  • Implementarea Airflow pe Kubernetes cu Helm

Cele mai bune practici pentru producție

  • Controlul versiunilor și CI/CD pentru DAG-uri
  • Testarea și depanarea DAG-urilor
  • Menținerea fiabilității și performanței la scară largă

Depanare și optimizare

  • Depanarea DAG-urilor și sarcinilor eșuate
  • Optimizarea performanței DAG-urilor
  • Capcane comune și cum să le eviți

Rezumat și următorii pași

Cerințe

  • Experiență în programarea Python
  • Familiaritate cu concepte de inginerie a datelor sau DevOps
  • Înțelegerea conceptelor ETL sau orchestrii fluxurilor de lucru

Public țintă

  • Oameni de știință de date
  • Ingineri de date
  • Ingineri DevOps și infrastructură
  • Dezvoltatori de software
 21 Ore

Numărul de participanți


Pret per participant

Mărturii (7)

Cursuri viitoare

Categorii înrudite