Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.
Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.
Schița de curs
Infrastructura EXO ca Cod
- Prezentare generală a modelelor de implementare EXO: clusteruri single-node, multi-node și RDMA
- Automatizarea instalării dependențelor (Xcode, uv, Node.js, Rust) cu gestionarea configurațiilor
- Utilizarea Nix flakes pentru build-uri EXO reproducibile și medii de dezvoltare
- Scrierea de playbook-uri Ansible sau scripturi shell pentru aprovizionarea clusterelor fără intervenție
Build-uri Reproducibile și Integrare CI
- Fixarea dependențelor și construirea tabloului de bord în pipeline-uri CI
- Rularea testelor de fum EXO în GitHub Actions sau GitLab CI runners
- Crearea de imagini aurii și fluxuri de lucru de revenire bazate pe snapshot-uri pentru VM-uri macOS și Linux
- Versionarea cardurilor de modele personalizate alături de codul aplicației
Descoperirea Clusterelor și Automatizarea Rețelelor
- Configurarea mDNS și DNS static pentru descoperirea fiabilă a nodurilor libp2p
- Automatizarea creării profilurilor de rețea și gestionarea podurilor Thunderbolt pe macOS
- Utilizarea de namespace-uri personalizate (EXO_LIBP2P_NAMESPACE) pentru a separa clusterele de dev, staging și prod
- Reguli de firewall și segmentarea rețelei pentru medii multi-tenant
Gestionarea Stocării și Ciclului de Viață al Modelelor
- Proiectarea strategiilor EXO_MODELS_DIRS și EXO_MODELS_READ_ONLY_DIRS
- Montarea partajărilor NFS sau SAN ca depozite de modele read-only pentru aprovizionare rapidă
- Colectarea gunoiului de cache-uri învechite și politici de păstrare a greutăților versionate
- Automatizarea descărcării prealabile a modelelor și verificărilor de sănătate înainte de actualizări
Monitorizare și Alertare
- Trimiterea jurnalelor EXO către sisteme centralizate de jurnalizare (ELK, Loki sau Splunk)
- Construirea de tablouri de bord Grafana din ieșirea EXO_TRACING_ENABLED
- Alertarea la schimbările de membru în cluster, evenimente OOM și creșteri de latență
- Corelarea telemetriei hardware macmon cu regresiile de performanță ale modelelor
Actualizare, Revenire și Recuperare în Caz de Dezastru
- Stabilirea actualizărilor binare EXO într-un nod canary înainte de implementarea pe întreaga flotă
- Revenire la nivel de model: comutarea între versiuni cuantificate fără re-descărcare
- Backup și restaurarea stării clusterului, namespace-uri personalizate și greutăți cache
- Documentarea runbook-urilor de recuperare pentru scenarii de reconstrucție totală a clusterului
Securizare și Conformitate
- Aplicarea TLS la nivelul proxy-ului invers (nginx, traefik) pentru tabloul de bord și API
- Implementarea limitării ratei API și listei albe de IP-uri pentru endpoint-urile EXO
- Izolarea clusterelor cu VLAN-uri și politici de rețea zero-trust
- Auditarea accesului și menținerea unui inventar al modelelor și versiunilor implementate
Cerințe
- Experiență în practicile DevOps (CI/CD, IaC, orchestrări de containere)
- Cunoștințe de administrare a sistemelor macOS sau Linux și gestionare a pachetelor
- Înțelegere a conceptelor de rețea, DNS și stocare
Publicul țintă
- Ingineri DevOps
- Arhitecți de infrastructură
- SRE responsabili de sarcini AI on-premise
21 Ore
Mărturii (2)
Craig a fost extrem de implicat în instruire, mereu asigurându-se că suntem atenți, adaptând exemplele la activitățile noastre zilnice și mereu oferind un răspuns când era întrebat, chiar dacă informația nu era inclusă în prezentare.
Ecaterina Ioana Nicoale - BOOKING HOLDINGS ROMANIA SRL
Curs - DevOps Foundation®
Tradus de catre o masina
Un grad ridicat de angajament și cunoștințe al instrucționarului
Jacek - Softsystem
Curs - DevOps Engineering Foundation (DOEF)®
Tradus de catre o masina