Intrati in legatura

Schița de curs

Infrastructura EXO ca Cod

  • Prezentare generală a modelelor de implementare EXO: clusteruri single-node, multi-node și RDMA
  • Automatizarea instalării dependențelor (Xcode, uv, Node.js, Rust) cu gestionarea configurațiilor
  • Utilizarea Nix flakes pentru build-uri EXO reproducibile și medii de dezvoltare
  • Scrierea de playbook-uri Ansible sau scripturi shell pentru aprovizionarea clusterelor fără intervenție

Build-uri Reproducibile și Integrare CI

  • Fixarea dependențelor și construirea tabloului de bord în pipeline-uri CI
  • Rularea testelor de fum EXO în GitHub Actions sau GitLab CI runners
  • Crearea de imagini aurii și fluxuri de lucru de revenire bazate pe snapshot-uri pentru VM-uri macOS și Linux
  • Versionarea cardurilor de modele personalizate alături de codul aplicației

Descoperirea Clusterelor și Automatizarea Rețelelor

  • Configurarea mDNS și DNS static pentru descoperirea fiabilă a nodurilor libp2p
  • Automatizarea creării profilurilor de rețea și gestionarea podurilor Thunderbolt pe macOS
  • Utilizarea de namespace-uri personalizate (EXO_LIBP2P_NAMESPACE) pentru a separa clusterele de dev, staging și prod
  • Reguli de firewall și segmentarea rețelei pentru medii multi-tenant

Gestionarea Stocării și Ciclului de Viață al Modelelor

  • Proiectarea strategiilor EXO_MODELS_DIRS și EXO_MODELS_READ_ONLY_DIRS
  • Montarea partajărilor NFS sau SAN ca depozite de modele read-only pentru aprovizionare rapidă
  • Colectarea gunoiului de cache-uri învechite și politici de păstrare a greutăților versionate
  • Automatizarea descărcării prealabile a modelelor și verificărilor de sănătate înainte de actualizări

Monitorizare și Alertare

  • Trimiterea jurnalelor EXO către sisteme centralizate de jurnalizare (ELK, Loki sau Splunk)
  • Construirea de tablouri de bord Grafana din ieșirea EXO_TRACING_ENABLED
  • Alertarea la schimbările de membru în cluster, evenimente OOM și creșteri de latență
  • Corelarea telemetriei hardware macmon cu regresiile de performanță ale modelelor

Actualizare, Revenire și Recuperare în Caz de Dezastru

  • Stabilirea actualizărilor binare EXO într-un nod canary înainte de implementarea pe întreaga flotă
  • Revenire la nivel de model: comutarea între versiuni cuantificate fără re-descărcare
  • Backup și restaurarea stării clusterului, namespace-uri personalizate și greutăți cache
  • Documentarea runbook-urilor de recuperare pentru scenarii de reconstrucție totală a clusterului

Securizare și Conformitate

  • Aplicarea TLS la nivelul proxy-ului invers (nginx, traefik) pentru tabloul de bord și API
  • Implementarea limitării ratei API și listei albe de IP-uri pentru endpoint-urile EXO
  • Izolarea clusterelor cu VLAN-uri și politici de rețea zero-trust
  • Auditarea accesului și menținerea unui inventar al modelelor și versiunilor implementate

Cerințe

  • Experiență în practicile DevOps (CI/CD, IaC, orchestrări de containere)
  • Cunoștințe de administrare a sistemelor macOS sau Linux și gestionare a pachetelor
  • Înțelegere a conceptelor de rețea, DNS și stocare

Publicul țintă

  • Ingineri DevOps
  • Arhitecți de infrastructură
  • SRE responsabili de sarcini AI on-premise
 21 Ore

Numărul de participanți


Pret per participant

Mărturii (2)

Cursuri viitoare

Categorii înrudite