Schița de curs

Introducere în Scalarea Ollama

  • Arhitectura și aspectele de scalare ale Ollama
  • Puncte de blocare frecvente în distribuții pentru mai mulți utilizatori
  • Bune practici pentru pregătirea infrastructurii

Alocarea Recursivelor și Optimizarea GPU-ului

  • Strategii eficiente de utilizare a CPU/GPU
  • Considerente legate de memorie și bandă de tranzmițere
  • Restricții la nivel de conținut al resurselor

Distribuire cu Conținute și Kubernetes

  • Conținerizarea Ollama folosind Docker
  • Rularea lui Ollama în clustere Kubernetes
  • Equilibrare a sarcinii de lucru și descoperirea serviciilor

Autoscaling și Batching

  • Dizolvarea politicilor de autoscalare pentru Ollama
  • Tehnici de inferență în batch pentru optimizarea prudenței
  • Trade-off între latență și fluxul total

Optimizarea Latenței

  • Aprofundarea performanței de inferență
  • Strategii de caching și încălzire a modelului
  • Reducerea suplimentară I/O și overhead-ului de comunicare

Monitorizare și Observabilitate

  • Integrarea Prometheus pentru metricile
  • Crearea de panouri cu Grafana
  • Gestionarea alertelor și răspunsului la incidente în infrastructura Ollama

Managementul Costurilor și Strategiile de Scalare

  • Alocarea cost-awar a GPU-ului
  • Considerente legate de distribuirea cloud vs. on-prem
  • Strategii pentru scalarea sustenabilă

Synopsis și Pasurile următoare

Cerințe

  • Experiență în administrarea sistemelor Linux
  • Compreensiune a containerizării și orchestralei
  • Familiaritate cu implementarea modelelor de învățare automată

Publicul vizat

  • Inginerii DevOps
  • Echipele de infrastructură ML
  • Inginerii de laibilitate a site-ului
 21 ore

Numărul de participanți


Pret per participant

Upcoming Courses

Categorii înrudite