Schița de curs

Introducere în Predictive AIOps

  • Prezentare generală a analizei predictive în operarea IT
  • Surse de date pentru predicție (jurnale, metrice, evenimente)
  • Noțiuni importante în previziunea seriilor temporale și modelele de anomalii

Proiectarea Modelelor de Predicție a Incidentelor

  • Etichetarea incidentelor istorice și comportamentului sistemului
  • Alegerea și antrenarea modelelor (de exemplu, LSTM, Random Forest, AutoML)
  • Evaluarea performanței modelului și gestionarea falselor pozitive

Colectarea Datelor și Ingineria Caracteristicilor

  • Preluarea și alinierea datelor de jurnal și metrice pentru input-ul modelului
  • Extracția caracteristicilor din date structurate și nestructurate
  • Gestionarea zgomotului și a datelor lipsă în canalele operationale

Automatizarea Analizei Cauzei Principale (RCA)

  • Correlația bazată pe grafice a serviciilor și infrastructurii
  • Utilizarea ML pentru inferența cauzelor probabile din lanțuri de evenimente
  • Vizualizarea RCA cu panouri de instrumente care sunt aware de topologie

Remediere și Workflow Automation

  • Integrarea cu platformele de automatizare (de exemplu, Ansible, Rundeck)
  • Trigerarea rollback-urilor, restarturilor sau redirecționării traficului
  • Auditul și documentarea intervențiilor automate

Scalarea Canalelor Inteligente AIOps

  • MLOps pentru observabilitate: retragerea antrenării și versiunarea modelului
  • Executarea predicțiilor în timp real pe noduri distribuite
  • Cele mai bune practici pentru implementarea AIOps în medii de producție

Studii de caz și aplicații practice

  • Analiza datelor reale ale incidentelor folosind modele predictive AIOps
  • Implementarea canalelor RCA cu date sintetice și de producție
  • Rezumat al cazurilor de utilizare din industrie: întreruperi în cloud, instabilitatea microserviciilor, degenerări ale rețelei

Rezumat și următoarele pași

Cerințe

  • Experiență cu sisteme de monitorizare precum Prometheus sau ELK
  • Cunoștințe practice ale Python și bazelor machine learning-ului
  • Familiaritate cu fluxurile de lucru pentru gestionarea incidentelor

Publicul vizat

  • Inginerii de siguranță a site-urilor (SRE-uri) seniori
  • Arhitecții de automatizare IT
  • Liderii platformelor DevOps și observabilitate
 14 ore

Numărul de participanți


Pret per participant

Upcoming Courses

Categorii înrudite