Schița de curs

Introducere în Predictive AIOps

  • Pregătirea analizei predicționale în operațiunile IT
  • Surse de date pentru predicție (jurnale, metrice, evenimente)
  • Noțiuni cheie în previziunea seriei temporale și modelele de anomalii

Proiectarea Modelelor de Predicție a Incidentelor

  • Etiqetarea incidentelor istorice și comportamentului sistemului
  • Alegerea și antrenarea modelelor (de exemplu, LSTM, Random Forest, AutoML)
  • Evaluarea performanței modelului și gestionarea pozitivelor false

Colecționarea Datelor și Ingineria Caracteristicilor

  • Consumarea și alinierea datelor de jurnal și metrice pentru intrarea în model
  • Extragerea caracteristicilor din date structurate și nestructurate
  • Gestionarea zgomotului și a datelor lipsă în pipeline-uri operaționale

Automatizarea Analizei Cauzei Radicale (RCA)

  • Correlația bazată pe grafice pentru servicii și infrastructură
  • Folosirea ML pentru a deduce probabilele cauze radicale din lanțuri de evenimente
  • Vizualizarea RCA cu panouri instrumentale cu conștientizare topologică

Remediere și Workflow Automation

  • Integrarea cu platformele de automatizare (de exemplu, Ansible, Rundeck)
  • Determinarea revenirii la versiunea anterioară, repornirelor sau redierei tranzacțiilor
  • Auditul și documentarea intervențiilor automate

Scalarea Pipeline-urilor Inteligențe AIOps

  • MLOps pentru observabilitate: reantrenare și gestionarea versiunii modelului
  • Rularea predicțiilor în timp real pe noduri distribuite
  • Cele mai bune practici pentru implementarea AIOps în medii de producție

Cazuri Studiu și Aplicații Practice

  • Analiza datelor incidentului real folosind modelele predictive AIOps
  • Deploying RCA pipelines with synthetic and production data (Această linie rămâne neschimbată deoarece conține un termen tehnic)
  • Revizuirea scenariilor de utilizare din industrie: amânările cloud-ului, instabilitatea microserviciilor, degenerarea rețelei

Synopsis și Următoarele Pași

Cerințe

  • Experiență cu sisteme de monitorizare cum ar fi Prometheus sau ELK
  • Cunoștințe practice ale Python și învățării automate de bază
  • Familiaritate cu fluxurile de lucru pentru gestionarea incidentelor

Publicul vizat

  • Inginerii avansați de siguranță a site-urilor (SREs)
  • Arhitecții de automatizare IT
  • Liderii platformelor DevOps și observabilitate
 14 ore

Numărul de participanți


Pret per participant

Upcoming Courses

Categorii înrudite