Schița de curs

Introducere în AIOps Predictiv

  • Prezentare generală a analiticii predictive în operațiunile IT
  • Surse de date pentru predicție (jurnale, metrici, evenimente)
  • Concepte cheie în previzionarea seriilor temporale și modele de anomalii

Proiectarea Modelelor de Prevenire a Incidentelor

  • Etichetarea incidentelor istorice și a comportamentului sistemului
  • Alegerea și antrenarea modelelor (de ex., LSTM, Random Forest, AutoML)
  • Evaluarea performanței modelului și gestionarea falselor pozitive

Colectarea Datelor și Ingineria Caracteristicilor

  • Ingestia și alinierea datelor din jurnale și metrici pentru intrarea în model
  • Extragerea caracteristicilor din date structurate și nestructurate
  • Gestionarea zgomotului și a datelor lipsă în pipeline-urile operaționale

Automatizarea Analizei Cauzelor Principale (RCA)

  • Corelarea bazată pe grafuri a serviciilor și infrastructurii
  • Utilizarea ML pentru a deduce cauzele probabile din lanțuri de evenimente
  • Vizualizarea RCA cu panouri de bord conștiente de topologie

Remedierea și Automatizarea Fluxurilor de Lucru

  • Integrarea cu platforme de automatizare (de ex., Ansible, Rundeck)
  • Declanșarea revenirilor, repornirilor sau redirecționării traficului
  • Auditarea și documentarea intervențiilor automate

Scalabilitatea Pipeline-urilor Inteligente AIOps

  • MLOps pentru observabilitate: reantrenarea și versionarea modelelor
  • Rularea predicțiilor în timp real pe noduri distribuite
  • Practici recomandate pentru implementarea AIOps în medii de producție

Studii de Caz și Aplicații Practice

  • Analiza datelor reale de incidente folosind modele AIOps predictive
  • Implementarea pipeline-urilor RCA cu date sintetice și de producție
  • Revizuirea cazurilor de utilizare din industrie: întreruperi în cloud, instabilitatea microserviciilor, degradări ale rețelei

Rezumat și Pași Următori

Cerințe

  • Experiență cu sisteme de monitorizare precum Prometheus sau ELK
  • Cunoștințe de lucru cu Python și învățare automată de bază
  • Familiaritate cu fluxurile de lucru ale gestionării incidentelor

Publicul Țintă

  • Ingineri senior de fiabilitate a site-urilor (SREs)
  • Arhitecți de automatizare IT
  • Responsabili de platforme DevOps și observabilitate
 14 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite