Schița de curs

Introducere în Scalarea Ollama

  • Arhitectura Ollama și considerații de scalare
  • Gâtuiri comune în implementări multi-utilizator
  • Bune practici pentru pregătirea infrastructurii

Alocarea Resurselor și Optimizarea GPU

  • Strategii eficiente de utilizare CPU/GPU
  • Considerații privind memoria și lățimea de bandă
  • Constrângeri de resurse la nivel de container

Implementare cu Containere și Kubernetes

  • Containerizarea Ollama cu Docker
  • Rularea Ollama în clustere Kubernetes
  • Echilibrarea sarcinii și descoperirea serviciilor

Autoscaling și Batching

  • Proiectarea politicilor de autoscaling pentru Ollama
  • Tehnici de inferență în batch pentru optimizarea debitului
  • Trade-off-uri între latență și debit

Optimizarea Latenței

  • Profilarea performanței de inferență
  • Strategii de caching și încălzire a modelului
  • Reducerea overhead-ului de I/O și comunicare

Monitorizare și Observabilitate

  • Integrarea Prometheus pentru metrici
  • Construirea de panouri cu Grafana
  • Alertă și răspuns la incidente pentru infrastructura Ollama

Gestionarea Costurilor și Strategii de Scalare

  • Alocarea GPU conștientă de costuri
  • Considerații privind implementarea în cloud vs. on-prem
  • Strategii pentru scalare sustenabilă

Rezumat și Pași Următori

Cerințe

  • Experiență în administrarea sistemelor Linux
  • Înțelegerea containerizării și orchestrării
  • Familiaritate cu implementarea modelelor de machine learning

Publicul țintă

  • Ingineri DevOps
  • Echipe de infrastructură ML
  • Ingineri de fiabilitate a site-urilor
 21 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite