Thank you for sending your enquiry! One of our team members will contact you shortly.
Thank you for sending your booking! One of our team members will contact you shortly.
Schița de curs
Introducere în Scalarea Ollama
- Arhitectura și aspectele de scalare ale Ollama
- Puncte de blocare frecvente în distribuții pentru mai mulți utilizatori
- Bune practici pentru pregătirea infrastructurii
Alocarea Recursivelor și Optimizarea GPU-ului
- Strategii eficiente de utilizare a CPU/GPU
- Considerente legate de memorie și bandă de tranzmițere
- Restricții la nivel de conținut al resurselor
Distribuire cu Conținute și Kubernetes
- Conținerizarea Ollama folosind Docker
- Rularea lui Ollama în clustere Kubernetes
- Equilibrare a sarcinii de lucru și descoperirea serviciilor
Autoscaling și Batching
- Dizolvarea politicilor de autoscalare pentru Ollama
- Tehnici de inferență în batch pentru optimizarea prudenței
- Trade-off între latență și fluxul total
Optimizarea Latenței
- Aprofundarea performanței de inferență
- Strategii de caching și încălzire a modelului
- Reducerea suplimentară I/O și overhead-ului de comunicare
Monitorizare și Observabilitate
- Integrarea Prometheus pentru metricile
- Crearea de panouri cu Grafana
- Gestionarea alertelor și răspunsului la incidente în infrastructura Ollama
Managementul Costurilor și Strategiile de Scalare
- Alocarea cost-awar a GPU-ului
- Considerente legate de distribuirea cloud vs. on-prem
- Strategii pentru scalarea sustenabilă
Synopsis și Pasurile următoare
Cerințe
- Experiență în administrarea sistemelor Linux
- Compreensiune a containerizării și orchestralei
- Familiaritate cu implementarea modelelor de învățare automată
Publicul vizat
- Inginerii DevOps
- Echipele de infrastructură ML
- Inginerii de laibilitate a site-ului
21 ore