Intrati in legatura

Schița de curs

Suveranitatea AI și Implementarea Locală a LLM

  • Riscurile LLM-urilor din cloud: reținerea datelor, antrenarea pe intrări, jurisdicție străină.
  • Arhitectura Ollama: server de modele, registru și API compatibil OpenAI.
  • Comparație cu vLLM, llama.cpp și Text Generation Inference.
  • Licențierea modelelor: termenii Llama, Mistral, Qwen și Gemma.

Instalare și Configurare Hardware

  • Instalarea Ollama pe Linux cu suport CUDA și ROCm.
  • Fallback CPU-only și optimizare AVX/AVX2.
  • Implementare Docker și mapare a volumelor persistente.
  • Configurație multi-GPU și strategii de alocare VRAM.

Managementul Modelelor

  • Extragerea modelelor din registrul Ollama: ollama pull llama3.
  • Importul modelelor GGUF din HuggingFace și TheBloke.
  • Niveluri de cuantizare: compromisuri Q4_K_M, Q5_K_M, Q8_0.
  • Schimbarea modelelor și limitele de încărcare concurentă a modelelor.

Fișiere Modelfile Personalizate

  • Scrierea sintaxei Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
  • Reglarea temperaturii, top_p și repeat_penalty.
  • Ingineria prompturilor de sistem pentru comportament specific rolului.
  • Crearea și publicarea modelelor personalizate în registrul local.

Integrarea API

  • Punctul final OpenAI-compatibil /v1/chat/completions.
  • Răspunsuri în flux și mod JSON.
  • Integrarea cu LangChain, LlamaIndex și aplicații personalizate.
  • Autentificare și limitare a ratei cu proxy invers.

Optimizarea Performanței

  • Dimensionarea ferestrei de context și gestionarea cache-ului KV.
  • Inferență în lot și gestionarea cererilor paralele.
  • Alocarea firelor CPU și conștientizarea NUMA.
  • Monitorizarea utilizării GPU și a presiunii memoriei.

Securitate și Conformitate

  • Izolarea rețelei pentru punctele finale de servire a modelelor.
  • Filtrarea intrărilor și conductele de moderare a ieșirilor.
  • Auditarea jurnalelor de prompturi și completări.
  • Proveniența modelelor și verificarea hash-ului.

Cerințe

  • Administrare intermediară a Linux și a containerelor.
  • Înțelegere de nivel înalt a învățării automate și a modelelor de transformare.
  • Familiaritate cu API-uri REST și JSON.

Audiență

  • Ingineri și dezvoltatori AI care înlocuiesc API-uri LLM din cloud.
  • Organizații cu sensibilitate a datelor care împiedică utilizarea modelelor din cloud.
  • Echipe guvernamentale și de apărare care necesită modele lingvistice izolate de rețea.
 14 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite