Intrati in legatura

Schița de curs

Elemente de Bază ale Producției Tencent Hunyuan

  • Prezentare generală a scenariilor de servire a modelelor Tencent Hunyuan
  • Caracteristicile de producție ale modelelor mari și MoE
  • Gâtuiri comune ale lenteței, debitului și costurilor
  • Definirea obiectivelor de nivel de serviciu pentru sarcinile de inferență

Arhitectura de Implementare și Fluxul de Servire

  • Componentele de bază ale unui stack de inferență în producție
  • Alegerea între modele de implementare containerizate, on-premise și cloud
  • Elemente de bază ale încărcării modelelor, rutării cererilor și alocării GPU
  • Proiectarea pentru fiabilitate și simplitate operațională

Optimizarea Lenteței în Practică

  • Utilizarea motoarelor de inferență optimizate, cum ar fi TensorRT, acolo unde este aplicabil
  • Concepte KV-cache și reglarea practică a cache-ului
  • Reducerea timpului de pornire, încălzire și a supraîncărcării răspunsului
  • Măsurarea timpului până la primul token și a vitezei de generare a token-urilor

Debit, Batching și Eficiența GPU

  • Strategii de batching continuu și batching al cererilor
  • Gestionarea concurenței și a comportamentului cozii
  • Îmbunătățirea utilizării GPU fără a afecta experiența utilizatorului
  • Gestionarea cererilor cu context lung și sarcini mixte

Cuantizare și Controlul Costurilor

  • De ce este importantă cuantizarea pentru servirea în producție
  • Compromisuri practice ale opțiunilor de precizie FP16, INT8 și alte opțiuni comune
  • Echilibrarea calității modelului, lenteței și costului infrastructurii
  • Crearea unei liste de verificare simple pentru optimizarea costurilor

Operațiuni, Monitorizare și Revizuire a Pregătirii

  • Declanșatoare de autoscaling pentru serviciile de inferență
  • Monitorizarea lenteței, debitului, utilizării cache-ului și sănătății GPU
  • Elemente de bază ale înregistrării, alertele și răspunsului la incidente
  • Revizuirea unei implementări de referință și crearea unui plan de îmbunătățire

Cerințe

  • Înțelegere de bază a implementării modelelor de limbaj mari și a fluxurilor de lucru pentru inferență
  • Experiență cu containere, infrastructură cloud sau on-premise și servicii bazate pe API
  • Cunoștințe de bază despre Python sau sarcini de inginerie de sistem

Publicul țintă

  • Ingineri ML care implementează LLM-uri în producție
  • Ingineri de platformă responsabili de serviciile de inferență bazate pe GPU
  • Arhitecți de soluții care proiectează platforme scalabile de servire a inteligenței artificiale
 14 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite