Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.
Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.
Schița de curs
Suveranitatea AI și Implementarea Locală a LLM
- Riscurile LLM-urilor din cloud: reținerea datelor, antrenarea pe intrări, jurisdicție străină.
- Arhitectura Ollama: server de modele, registru și API compatibil OpenAI.
- Comparație cu vLLM, llama.cpp și Text Generation Inference.
- Licențierea modelelor: termenii Llama, Mistral, Qwen și Gemma.
Instalare și Configurare Hardware
- Instalarea Ollama pe Linux cu suport CUDA și ROCm.
- Fallback CPU-only și optimizare AVX/AVX2.
- Implementare Docker și mapare a volumelor persistente.
- Configurație multi-GPU și strategii de alocare VRAM.
Managementul Modelelor
- Extragerea modelelor din registrul Ollama: ollama pull llama3.
- Importul modelelor GGUF din HuggingFace și TheBloke.
- Niveluri de cuantizare: compromisuri Q4_K_M, Q5_K_M, Q8_0.
- Schimbarea modelelor și limitele de încărcare concurentă a modelelor.
Fișiere Modelfile Personalizate
- Scrierea sintaxei Modelfile: FROM, PARAMETER, SYSTEM, TEMPLATE.
- Reglarea temperaturii, top_p și repeat_penalty.
- Ingineria prompturilor de sistem pentru comportament specific rolului.
- Crearea și publicarea modelelor personalizate în registrul local.
Integrarea API
- Punctul final OpenAI-compatibil /v1/chat/completions.
- Răspunsuri în flux și mod JSON.
- Integrarea cu LangChain, LlamaIndex și aplicații personalizate.
- Autentificare și limitare a ratei cu proxy invers.
Optimizarea Performanței
- Dimensionarea ferestrei de context și gestionarea cache-ului KV.
- Inferență în lot și gestionarea cererilor paralele.
- Alocarea firelor CPU și conștientizarea NUMA.
- Monitorizarea utilizării GPU și a presiunii memoriei.
Securitate și Conformitate
- Izolarea rețelei pentru punctele finale de servire a modelelor.
- Filtrarea intrărilor și conductele de moderare a ieșirilor.
- Auditarea jurnalelor de prompturi și completări.
- Proveniența modelelor și verificarea hash-ului.
Cerințe
- Administrare intermediară a Linux și a containerelor.
- Înțelegere de nivel înalt a învățării automate și a modelelor de transformare.
- Familiaritate cu API-uri REST și JSON.
Audiență
- Ingineri și dezvoltatori AI care înlocuiesc API-uri LLM din cloud.
- Organizații cu sensibilitate a datelor care împiedică utilizarea modelelor din cloud.
- Echipe guvernamentale și de apărare care necesită modele lingvistice izolate de rețea.
14 Ore