Intrati in legatura

Schița de curs

Introducere în Apache Airflow

  • Ce este orchestrarea fluxurilor de lucru
  • Caracteristici și beneficii cheie ale Apache Airflow
  • Îmbunătățiri ale Airflow 2.x și prezentare generală a ecosistemului

Arhitectură și Concepte de Bază

  • Procese de planificare, server web și worker
  • DAG-uri, sarcini și operatori
  • Executoare și backend-uri (Local, Celery, Kubernetes)

Instalare și Configurare

  • Instalarea Airflow în medii locale și cloud
  • Configurarea Airflow cu diferite executoare
  • Configurarea bazelor de date de metadate și a conexiunilor

Navigarea în Interfața Web și CLI a Airflow

  • Explorarea interfeței web Airflow
  • Monitorizarea rulărilor DAG, a sarcinilor și a jurnalelor
  • Utilizarea CLI-ului Airflow pentru administrare

Crearea și Gestionarea DAG-urilor

  • Crearea DAG-urilor cu API-ul TaskFlow
  • Utilizarea operatorilor, senzorilor și cârligelor
  • Gestionarea dependențelor și a intervalelor de planificare

Integrarea Airflow cu Servicii de Date și Cloud

  • Conectarea la baze de date, API-uri și cozi de mesaje
  • Rularea conductelor ETL cu Airflow
  • Integrări cloud: operatori AWS, GCP, Azure

Monitorizare și Observabilitate

  • Jurnale de sarcini și monitorizare în timp real
  • Metrici cu Prometheus și Grafana
  • Alertă și notificări prin e-mail sau Slack

Securizarea Apache Airflow

  • Controlul accesului bazat pe roluri (RBAC)
  • Autentificare cu LDAP, OAuth și SSO
  • Gestionarea secretelor cu Vault și depozite de secrete cloud

Scalarea Apache Airflow

  • Paralelism, concurență și cozi de sarcini
  • Utilizarea CeleryExecutor și KubernetesExecutor
  • Implementarea Airflow pe Kubernetes cu Helm

Cele Mai Bune Practici pentru Producție

  • Controlul versiunilor și CI/CD pentru DAG-uri
  • Testarea și depanarea DAG-urilor
  • Menținerea fiabilității și performanței la scară largă

Depanare și Optimizare

  • Depanarea DAG-urilor și sarcinilor eșuate
  • Optimizarea performanței DAG-urilor
  • Capcane comune și cum să le evitați

Rezumat și Pași Următori

Cerințe

  • Experiență în programarea Python
  • Familiaritate cu concepte de inginerie a datelor sau DevOps
  • Înțelegere a ETL sau a orchestrii fluxurilor de lucru

Publicul țintă

  • Oameni de știință de date
  • Ingineri de date
  • Ingineri DevOps și infrastructură
  • Dezvoltatori de software
 21 Ore

Numărul de participanți


Pret per participant

Mărturii (7)

Cursuri viitoare

Categorii înrudite