Schița de curs

Fundamentele Sistemelor Agente în Producție

  • Arhitecturi agente: bucle, unelte, memorie și straturi de orchestrare
  • Ciclul de viață al agentelor: dezvoltare, implementare și operarea continuă
  • Provocările managementului la scară largă a agentelor în producție

Infrastructura și Modele de Implementare

  • Implementarea agentelor în mediile containerizate și cloud
  • Padruri de scalare: scalare orizontală vs verticală, concurență și limitare a frecvenței
  • Orchestarea multi-agent și echilibrarea sarcinilor

Monitoring și Observabilitate

  • Metrice cheie: latencie, rată de succes, utilizare a memoriei și adâncimea apelurilor agentelor
  • Urmarirea activității agentelor și a graficelor de apel
  • Instrumentarea observabilității folosind Prometheus, OpenTelemetry și Grafana

Logare, Auditare și Conformitate

  • Logging centralizat și colectarea structurată a evenimentelor
  • Conformitatea și auditabilitatea în fluxurile de lucru cu agente
  • Proiectarea urmei de audit și mecanismelor de replay pentru depanare

Optimizarea Performanței și a Resurselor

  • Reducerea overhead-ului inferinței și optimizarea ciclurilor de orchestrare a agentelor
  • Caching-ul modelului și încorporările ușoare pentru recuperare mai rapidă
  • Testarea încărcării și scenariile de stres pentru pipeline-urile AI

Controlul Costurilor și Guvernanța

  • Înțelegerea factorilor de cost ai agentelor: apeluri API, memorie, calcul și integrări externe
  • Urmarirea costurilor pe nivelul agentului și implementarea modelului chargeback
  • Politici de automatizare pentru prevenirea "agent sprawl"-ului și consumului inutil de resurse inactive

Strategii CI/CD și Rollout pentru Agente

  • Integrarea pipeline-urilor agente în sistemele CI/CD
  • Testare, versionare și strategii de rollback pentru actualizări iterative ale agentelor
  • Rollout progresiv și mecanisme sigure de implementare

Recuperarea de Eșecuri și Ingineria Fiabilității

  • Proiectarea pentru toleranța la eșec și degradarea graciosa
  • Padruri de retry, timeout și circuit breaker pentru fiabilitatea agentelor
  • Rezolvarea incidentelor și cadrele post-mortem pentru operațiile AI

Proiect Final

  • Construirea și implementarea unui sistem de AI agent cu monitorizare completă și urmărirea costurilor
  • Simularea încărcării, măsurarea performanței și optimizarea utilizării resurselor
  • Prezenta arhitecturii finale și panoul de monitorizare colegilor

Rezumat și Următoarele Pași

Cerințe

  • O înțelegere solidă a MLOps și sistemelor de machine learning de producție
  • Experiență cu implementări containerizate (Docker/Kubernetes)
  • Familiaritate cu optimizarea costurilor în cloud și instrumentele de observabilitate

Audiență

  • Ingineri MLOps
  • Ingineri de Fiabilitate a Site-ului (SREs)
  • Manageri de inginerie care supraveghează infrastructura AI
 21 ore

Numărul de participanți


Pret per participant

Mărturii (3)

Cursuri viitoare

Categorii înrudite