Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Schița de curs
Introducere în Predictive AIOps
- Prezentare generală a analizei predictive în operarea IT
- Surse de date pentru predicție (jurnale, metrice, evenimente)
- Noțiuni importante în previziunea seriilor temporale și modelele de anomalii
Proiectarea Modelelor de Predicție a Incidentelor
- Etichetarea incidentelor istorice și comportamentului sistemului
- Alegerea și antrenarea modelelor (de exemplu, LSTM, Random Forest, AutoML)
- Evaluarea performanței modelului și gestionarea falselor pozitive
Colectarea Datelor și Ingineria Caracteristicilor
- Preluarea și alinierea datelor de jurnal și metrice pentru input-ul modelului
- Extracția caracteristicilor din date structurate și nestructurate
- Gestionarea zgomotului și a datelor lipsă în canalele operationale
Automatizarea Analizei Cauzei Principale (RCA)
- Correlația bazată pe grafice a serviciilor și infrastructurii
- Utilizarea ML pentru inferența cauzelor probabile din lanțuri de evenimente
- Vizualizarea RCA cu panouri de instrumente care sunt aware de topologie
Remediere și Workflow Automation
- Integrarea cu platformele de automatizare (de exemplu, Ansible, Rundeck)
- Trigerarea rollback-urilor, restarturilor sau redirecționării traficului
- Auditul și documentarea intervențiilor automate
Scalarea Canalelor Inteligente AIOps
- MLOps pentru observabilitate: retragerea antrenării și versiunarea modelului
- Executarea predicțiilor în timp real pe noduri distribuite
- Cele mai bune practici pentru implementarea AIOps în medii de producție
Studii de caz și aplicații practice
- Analiza datelor reale ale incidentelor folosind modele predictive AIOps
- Implementarea canalelor RCA cu date sintetice și de producție
- Rezumat al cazurilor de utilizare din industrie: întreruperi în cloud, instabilitatea microserviciilor, degenerări ale rețelei
Rezumat și următoarele pași
Cerințe
- Experiență cu sisteme de monitorizare precum Prometheus sau ELK
- Cunoștințe practice ale Python și bazelor machine learning-ului
- Familiaritate cu fluxurile de lucru pentru gestionarea incidentelor
Publicul vizat
- Inginerii de siguranță a site-urilor (SRE-uri) seniori
- Arhitecții de automatizare IT
- Liderii platformelor DevOps și observabilitate
14 ore