Curs de pregatire ROCm pentru Windows
ROCm este o platformă open source pentru programarea GPU-urilor care suportă GPU-uri AMD și oferă, de asemenea, compatibilitate cu CUDA și OpenCL. ROCm expune programatorul la detaliile hardware și oferă control total asupra procesului de paralelizare. Cu toate acestea, acest lucru necesită și o bună înțelegere a arhitecturii dispozitivului, modelului de memorie, modelului de execuție și a tehnicilor de optimizare.
ROCm pentru Windows este o dezvoltare recentă care permite utilizatorilor să instaleze și să folosească ROCm pe sistemul de operare Windows, care este utilizat pe scară largă atât în scopuri personale, cât și profesionale. ROCm pentru Windows permite utilizatorilor să valorifice puterea GPU-urilor AMD pentru diverse aplicații, cum ar fi inteligența artificială, jocuri, grafică și calcul științific.
Acest training condus de un instructor, live (online sau la fața locului), este destinat dezvoltatorilor de la nivel începător până la intermediar care doresc să instaleze și să folosească ROCm pe Windows pentru a programa GPU-uri AMD și să exploateze paralelismul acestora.
La finalul acestui training, participanții vor putea:
- Să configureze un mediu de dezvoltare care include Platforma ROCm, un GPU AMD și Visual Studio Code pe Windows.
- Să creeze un program ROCm de bază care efectuează adunarea de vectori pe GPU și preia rezultatele din memoria GPU.
- Să folosească API-ul ROCm pentru a interoga informații despre dispozitiv, aloca și dezaloca memoria dispozitivului, copia date între gazdă și dispozitiv, lanseze kernel-uri și sincronizeze firele de execuție.
- Să folosească limbajul HIP pentru a scrie kernel-uri care se execută pe GPU și manipulează date.
- Să folosească funcții, variabile și biblioteci încorporate HIP pentru a efectua sarcini și operații comune.
- Să folosească spațiile de memorie ROCm și HIP, cum ar fi global, shared, constant și local, pentru a optimiza transferurile de date și accesul la memorie.
- Să folosească modelele de execuție ROCm și HIP pentru a controla firele, blocurile și grilele care definesc paralelismul.
- Să depaneze și să testeze programe ROCm și HIP folosind unelte precum ROCm Debugger și ROCm Profiler.
- Să optimizeze programe ROCm și HIP folosind tehnici precum coalescing, caching, prefetching și profiling.
Formatul cursului
- Prelegere și discuție interactivă.
- Multe exerciții și practică.
- Implementare practică într-un mediu live-lab.
Opțiuni de personalizare a cursului
- Pentru a solicita un training personalizat pentru acest curs, vă rugăm să ne contactați pentru a aranja.
Schița de curs
Introducere
- Ce este ROCm?
- Ce este HIP?
- ROCm vs CUDA vs OpenCL
- Prezentare generală a caracteristicilor și arhitecturii ROCm și HIP
- ROCm pentru Windows vs ROCm pentru Linux
Instalare
- Instalarea ROCm pe Windows
- Verificarea instalării și verificarea compatibilității dispozitivului
- Actualizarea sau dezinstalarea ROCm pe Windows
- Depanarea problemelor comune de instalare
Începutul
- Crearea unui nou proiect ROCm folosind Visual Studio Code pe Windows
- Explorarea structurii și fișierelor proiectului
- Compilarea și rularea programului
- Afișarea rezultatului folosind printf și fprintf
API ROCm
- Folosirea API-ului ROCm în programul gazdă
- Interogarea informațiilor și capacităților dispozitivului
- Alocarea și dezalocarea memoriei dispozitivului
- Copierea datelor între gazdă și dispozitiv
- Lansarea kernel-urilor și sincronizarea firelor de execuție
- Gestionarea erorilor și excepțiilor
Limbajul HIP
- Folosirea limbajului HIP în programul dispozitivului
- Scrierea kernel-urilor care se execută pe GPU și manipulează date
- Folosirea tipurilor de date, calificatorilor, operatorilor și expresiilor
- Folosirea funcțiilor, variabilelor și bibliotecilor încorporate
Modelul de memorie ROCm și HIP
- Folosirea diferitelor spații de memorie, cum ar fi global, shared, constant și local
- Folosirea diferitelor obiecte de memorie, cum ar fi pointeri, array-uri, texturi și suprafețe
- Folosirea diferitelor moduri de acces la memorie, cum ar fi read-only, write-only, read-write, etc.
- Folosirea modelului de consistență a memoriei și a mecanismelor de sincronizare
Modelul de execuție ROCm și HIP
- Folosirea diferitelor modele de execuție, cum ar fi fire, blocuri și grile
- Folosirea funcțiilor de fire, cum ar fi hipThreadIdx_x, hipBlockIdx_x, hipBlockDim_x, etc.
- Folosirea funcțiilor de bloc, cum ar fi __syncthreads, __threadfence_block, etc.
- Folosirea funcțiilor de grilă, cum ar fi hipGridDim_x, hipGridSync, grupuri cooperative, etc.
Depanare
- Depanarea programelor ROCm și HIP pe Windows
- Folosirea debugger-ului Visual Studio Code pentru a inspecta variabile, breakpoints, stiva de apeluri, etc.
- Folosirea ROCm Debugger pentru a depana programe ROCm și HIP pe dispozitive AMD
- Folosirea ROCm Profiler pentru a analiza programe ROCm și HIP pe dispozitive AMD
Optimizare
- Optimizarea programelor ROCm și HIP pe Windows
- Folosirea tehnicilor de coalescing pentru a îmbunătăți debitul memoriei
- Folosirea tehnicilor de caching și prefetching pentru a reduce latența memoriei
- Folosirea tehnicilor de memorie shared și local pentru a optimiza accesul la memorie și lățimea de bandă
- Folosirea profiling-ului și a instrumentelor de profiling pentru a măsura și îmbunătăți timpul de execuție și utilizarea resurselor
Rezumat și Pași Următori
Cerințe
- Înțelegerea limbajului C/C++ și a conceptelor de programare paralelă
- Cunoștințe de bază despre arhitectura calculatoarelor și ierarhia memoriei
- Experiență cu instrumente de linie de comandă și editori de cod
- Familiaritate cu sistemul de operare Windows și PowerShell
Publicul țintă
- Dezvoltatori care doresc să învețe cum să instaleze și să folosească ROCm pe Windows pentru a programa GPU-uri AMD și să exploateze paralelismul acestora
- Dezvoltatori care doresc să scrie cod de înaltă performanță și scalabil care poate rula pe diferite dispozitive AMD
- Programatori care doresc să exploreze aspectele de nivel scăzut ale programării GPU și să optimizeze performanța codului lor
Cursurile publice necesita 5+ participanti
Curs de pregatire ROCm pentru Windows - Rezervare
Curs de pregatire ROCm pentru Windows - Solicitare
ROCm pentru Windows - Cerere de consultanta
Cursuri viitoare
Cursuri înrudite
Dezvoltarea Aplicațiilor de AI cu Huawei Ascend și CANN
21 OreHuawei Ascend este o familie de procesoare AI proiectate pentru inferență și antrenament de înaltă performanță.
Acest training condus de un instructor, live (online sau onsite), este destinat inginerilor de AI și oamenilor de știință de date de nivel intermediar care doresc să dezvolte și să optimizeze modele de rețele neuronale folosind platforma Huawei Ascend și toolkit-ul CANN.
La finalul acestui training, participanții vor putea:
- Să configureze și să pună la punct mediul de dezvoltare CANN.
- Să dezvolte aplicații AI folosind fluxurile de lucru MindSpore și CloudMatrix.
- Să optimizeze performanța pe NPU-urile Ascend folosind operatori personalizați și tiling.
- Să implementeze modele în medii de edge sau cloud.
Formatul Cursului
- Prelegere interactivă și discuții.
- Utilizare practică a Huawei Ascend și a toolkit-ului CANN în aplicații exemplu.
- Exerciții ghidate axate pe construirea, antrenarea și implementarea modelelor.
Opțiuni de Personalizare a Cursului
- Pentru a solicita un training personalizat pentru acest curs bazat pe infrastructura sau seturile de date dumneavoastră, vă rugăm să ne contactați pentru a aranja.
Implementarea Modelelor de AI cu CANN și Procesoarele AI Ascend
14 OreCANN (Compute Architecture for Neural Networks) este stiva de calcul AI a Huawei pentru implementarea și optimizarea modelelor de AI pe procesoarele AI Ascend.
Acest training condus de un instructor, live (online sau la fața locului), este destinat dezvoltatorilor și inginerilor de AI de nivel intermediar care doresc să implementeze eficient modele de AI antrenate pe hardware-ul Huawei Ascend folosind toolkit-ul CANN și instrumente precum MindSpore, TensorFlow sau PyTorch.
La finalul acestui training, participanții vor putea:
- Să înțeleagă arhitectura CANN și rolul său în procesul de implementare a AI.
- Să convertească și să adapteze modele din framework-uri populare la formate compatibile cu Ascend.
- Să folosească instrumente precum ATC, conversia modelului OM și MindSpore pentru inferență la margine și în cloud.
- Să diagnosticheze problemele de implementare și să optimizeze performanța pe hardware-ul Ascend.
Formatul Cursului
- Prelegere interactivă și demonstrație.
- Lucrări practice în laborator folosind instrumente CANN și simulatoare sau dispozitive Ascend.
- Scenarii practice de implementare bazate pe modele de AI din lumea reală.
Opțiuni de Personalizare a Cursului
- Pentru a solicita un training personalizat pentru acest curs, vă rugăm să ne contactați pentru a aranja.
Inferență și Implementare AI cu CloudMatrix
21 OreCloudMatrix este platforma unificată de dezvoltare și implementare AI a Huawei, proiectată pentru a susține pipeline-uri de inferență scalabile și de nivel de producție.
Acest training condus de un instructor, live (online sau la fața locului), este destinat profesioniștilor AI de la nivel începător până la intermediar, care doresc să implementeze și să monitorizeze modele AI folosind platforma CloudMatrix cu integrarea CANN și MindSpore.
La finalul acestui training, participanții vor putea:
- Să utilizeze CloudMatrix pentru ambalarea, implementarea și servirea modelelor.
- Să convertească și să optimizeze modele pentru chipset-uri Ascend.
- Să configureze pipeline-uri pentru sarcini de inferență în timp real și în loturi.
- Să monitorizeze implementările și să ajusteze performanța în medii de producție.
Formatul Cursului
- Prelegere interactivă și discuții.
- Utilizare practică a CloudMatrix cu scenarii reale de implementare.
- Exerciții ghidate axate pe conversie, optimizare și scalare.
Opțiuni de Personalizare a Cursului
- Pentru a solicita un training personalizat pentru acest curs, bazat pe infrastructura AI sau mediul dumneavoastră cloud, vă rugăm să ne contactați pentru a aranja.
Programarea pe GPU cu Acceleratoarele Biren AI
21 OreAcceleratoarele Biren AI sunt GPU-uri de înaltă performanță proiectate pentru sarcini de AI și HPC, cu suport pentru antrenament și inferență la scară largă.
Această sesiune de formare condusă de un instructor (online sau la fața locului) este destinată dezvoltatorilor de nivel intermediar sau avansat care doresc să programeze și să optimizeze aplicații folosind stiva GPU proprietară Biren, cu comparații practice cu mediile bazate pe CUDA.
La sfârșitul acestei formări, participanții vor putea:
- Să înțeleagă arhitectura GPU Biren și ierarhia memoriei.
- Să configureze mediul de dezvoltare și să folosească modelul de programare Biren.
- Să traducă și să optimizeze cod în stil CUDA pentru platformele Biren.
- Să aplice tehnici de ajustare a performanței și depanare.
Formatul Cursului
- Prelegere interactivă și discuții.
- Utilizare practică a SDK-ului Biren în sarcini GPU de exemplu.
- Exerciții ghidate axate pe portare și ajustare a performanței.
Opțiuni de Personalizare a Cursului
- Pentru a solicita o formare personalizată pentru acest curs, bazată pe stiva dvs. de aplicații sau nevoile de integrare, vă rugăm să ne contactați pentru a aranja.
Dezvoltare Cambricon MLU cu BANGPy și Neuware
21 OreCambricon MLU (Unități de Învățare Automată) sunt cipuri AI specializate, optimizate pentru inferență și antrenament în scenarii de edge și datacenter.
Acest training condus de un instructor, live (online sau la fața locului), este destinat dezvoltatorilor de nivel intermediar care doresc să construiască și să implementeze modele AI utilizând framework-ul BANGPy și SDK-ul Neuware pe hardware-ul Cambricon MLU.
La sfârșitul acestui training, participanții vor putea:
- Să configureze și să pregătească mediile de dezvoltare BANGPy și Neuware.
- Să dezvolte și să optimizeze modele bazate pe Python și C++ pentru Cambricon MLU.
- Să implementeze modele pe dispozitive edge și datacenter care rulează runtime-ul Neuware.
- Să integreze fluxuri de lucru ML cu caracteristici de accelerație specifice MLU.
Formatul cursului
- Prelegere interactivă și discuții.
- Utilizare practică a BANGPy și Neuware pentru dezvoltare și implementare.
- Exerciții ghidate axate pe optimizare, integrare și testare.
Opțiuni de personalizare a cursului
- Pentru a solicita un training personalizat pentru acest curs, bazat pe modelul dvs. de dispozitiv Cambricon sau pe cazul de utilizare, vă rugăm să ne contactați pentru a aranja.
Introducere în CANN pentru Dezvoltatori de Cadre AI
7 OreCANN (Compute Architecture for Neural Networks) este toolkit-ul de calcul AI al Huawei, folosit pentru a compila, optimiza și implementa modele AI pe procesoarele Ascend AI.
Această formare condusă de un instructor, live (online sau la fața locului), este destinată dezvoltatorilor AI de nivel începător care doresc să înțeleagă cum se integrează CANN în ciclul de viață al modelului, de la antrenament la implementare, și cum funcționează împreună cu cadre precum MindSpore, TensorFlow și PyTorch.
La finalul acestei formări, participanții vor putea:
- Înțelege scopul și arhitectura toolkit-ului CANN.
- Să configureze un mediu de dezvoltare cu CANN și MindSpore.
- Să convertească și să implementeze un model AI simplu pe hardware-ul Ascend.
- Să dobândească cunoștințe de bază pentru viitoare proiecte de optimizare sau integrare CANN.
Formatul cursului
- Prelegere interactivă și discuții.
- Laboratoare practice cu implementarea unui model simplu.
- Parcurgere pas cu pas a lanțului de unelte CANN și a punctelor de integrare.
Opțiuni de personalizare a cursului
- Pentru a solicita o formare personalizată pentru acest curs, vă rugăm să ne contactați pentru a aranja.
CANN pentru Implementarea AI la Margine
14 OreSetul de instrumente CANN al Huawei Ascend permite inferență puternică de AI pe dispozitive de margine, cum ar fi Ascend 310. CANN oferă instrumente esențiale pentru compilarea, optimizarea și implementarea modelelor în medii cu resurse limitate de calcul și memorie.
Această formare condusă de un instructor, live (online sau la fața locului), este destinată dezvoltatorilor și integratilor AI de nivel intermediar care doresc să implementeze și să optimizeze modele pe dispozitivele de margine Ascend folosind lanțul de instrumente CANN.
La sfârșitul acestei formări, participanții vor putea:
- Să pregătească și să convertească modele AI pentru Ascend 310 folosind instrumentele CANN.
- Să construiască fluxuri de inferență ușoare folosind MindSpore Lite și AscendCL.
- Să optimizeze performanța modelelor pentru medii cu resurse limitate de calcul și memorie.
- Să implementeze și să monitorizeze aplicații AI în cazuri de utilizare reală la margine.
Formatul Cursului
- Prelegere interactivă și demonstrație.
- Lucrări practice în laborator cu modele și scenarii specifice marginii.
- Exemple de implementare live pe hardware virtual sau fizic de margine.
Opțiuni de Personalizare a Cursului
- Pentru a solicita o formare personalizată pentru acest curs, vă rugăm să ne contactați pentru a aranja.
Înțelegerea Stivei de Calcul AI a Huawei: De la CANN la MindSpore
14 OreStiva AI a Huawei — de la SDK-ul de bază CANN până la framework-ul de nivel înalt MindSpore — oferă un mediu integrat de dezvoltare și implementare AI, optimizat pentru hardware-ul Ascend.
Acest training condus de un instructor, live (online sau la fața locului), este destinat profesioniștilor tehnici de la nivel începător până la intermediar, care doresc să înțeleagă cum componentele CANN și MindSpore lucrează împreună pentru a sprijini gestionarea ciclului de viață AI și deciziile de infrastructură.
La finalul acestui training, participanții vor putea:
- Înțelege arhitectura stratificată a stivei de calcul AI a Huawei.
- Identifica cum CANN sprijină optimizarea modelelor și implementarea la nivel de hardware.
- Evaluează framework-ul și lanțul de unelte MindSpore în raport cu alternativele din industrie.
- Poziționează stiva AI a Huawei în medii enterprise sau cloud/on-prem.
Formatul Cursului
- Prelegere interactivă și discuții.
- Demo-uri live ale sistemului și prezentări bazate pe cazuri.
- Laboratoare ghidate opționale pe fluxul modelelor de la MindSpore la CANN.
Opțiuni de Personalizare a Cursului
- Pentru a solicita un training personalizat pentru acest curs, vă rugăm să ne contactați pentru a aranja.
Optimizarea Performanței Rețelelor Neuronale cu CANN SDK
14 OreCANN SDK (Compute Architecture for Neural Networks) este fundația de calcul AI a Huawei care permite dezvoltatorilor să ajusteze și să optimizeze performanța rețelelor neuronale implementate pe procesoarele Ascend AI.
Acest training condus de un instructor, live (online sau onsite), este destinat dezvoltatorilor AI avansați și inginerilor de sistem care doresc să optimizeze performanța inferenței folosind setul avansat de instrumente CANN, inclusiv Graph Engine, TIK și dezvoltarea de operatori personalizați.
La finalul acestui training, participanții vor putea:
- Înțelege arhitectura de runtime a CANN și ciclul de performanță.
- Utiliza instrumente de profiling și Graph Engine pentru analiza și optimizarea performanței.
- Crea și optimiza operatori personalizați folosind TIK și TVM.
- Rezolva blocaje de memorie și îmbunătățește debitul modelului.
Formatul Cursului
- Prelegere interactivă și discuții.
- Laboratoare practice cu profiling în timp real și ajustare a operatorilor.
- Exerciții de optimizare folosind exemple de implementare în cazuri extreme.
Opțiuni de Personalizare a Cursului
- Pentru a solicita un training personalizat pentru acest curs, vă rugăm să ne contactați pentru a aranja.
CANN SDK pentru Pipe-uri de Computer Vision și NLP
14 OreCANN SDK (Compute Architecture for Neural Networks) oferă instrumente puternice de implementare și optimizare pentru aplicații AI în timp real în domeniile computer vision și NLP, în special pe hardware-ul Huawei Ascend.
Acest training condus de un instructor, live (online sau la fața locului), este destinat practicienților AI de nivel intermediar care doresc să construiască, să implementeze și să optimizeze modele de vedere și limbaj folosind CANN SDK pentru cazuri de utilizare în producție.
La sfârșitul acestui training, participanții vor putea:
- Să implementeze și să optimizeze modele CV și NLP folosind CANN și AscendCL.
- Să folosească instrumentele CANN pentru a converti modele și a le integra în pipe-uri live.
- Să optimizeze performanța de inferență pentru sarcini precum detectarea, clasificarea și analiza sentimentelor.
- Să construiască pipe-uri CV/NLP în timp real pentru scenarii de implementare la margine sau în cloud.
Formatul Cursului
- Curs interactiv și demonstrație.
- Laborator practic cu implementarea modelelor și profilarea performanței.
- Proiectarea de pipe-uri live folosind cazuri reale de CV și NLP.
Opțiuni de Personalizare a Cursului
- Pentru a solicita un training personalizat pentru acest curs, vă rugăm să ne contactați pentru a aranja.
Construirea Operatorilor AI Personalizați cu CANN TIK și TVM
14 OreCANN TIK (Tensor Instruction Kernel) și Apache TVM permit optimizarea și personalizarea avansată a operatorilor de modele AI pentru hardware-ul Huawei Ascend.
Acest training condus de un instructor, live (online sau la fața locului), este destinat dezvoltatorilor de sisteme de nivel avansat care doresc să construiască, să implementeze și să ajusteze operatori personalizați pentru modele AI folosind modelul de programare TIK din CANN și integrarea compilatorului TVM.
La finalul acestui training, participanții vor putea:
- Scrie și testează operatori AI personalizați folosind TIK DSL pentru procesoarele Ascend.
- Integrează operatori personalizați în runtime-ul CANN și graful de execuție.
- Folosește TVM pentru programarea operatorilor, auto-ajustare și benchmarking.
- Depanează și optimizează performanța la nivel de instrucțiuni pentru modele de calcul personalizate.
Formatul Cursului
- Prelegere interactivă și demonstrație.
- Scrierea de cod pentru operatori folosind pipeline-urile TIK și TVM.
- Testare și ajustare pe hardware-ul Ascend sau simulatoare.
Opțiuni de Personalizare a Cursului
- Pentru a solicita un training personalizat pentru acest curs, vă rugăm să ne contactați pentru a aranja.
Migrarea Aplicațiilor CUDA pe Arhitecturi GPU Chinezești
21 OreArhitecturile GPU chinezești, cum ar fi Huawei Ascend, Biren și Cambricon MLU, oferă alternative la CUDA adaptate pentru piețele locale de AI și HPC.
Acest training condus de un instructor, live (online sau la fața locului), este destinat programatorilor avansați de GPU și specialiștilor în infrastructură care doresc să migreze și să optimizeze aplicațiile CUDA existente pentru implementare pe platforme hardware chinezești.
La finalul acestui training, participanții vor putea:
- Evalua compatibilitatea sarcinilor CUDA existente cu alternativele de chip-uri chinezești.
- Porta bazele de cod CUDA în mediile Huawei CANN, Biren SDK și Cambricon BANGPy.
- Compara performanța și identifica punctele de optimizare pe diferite platforme.
- Aborda provocări practice în suportul și implementarea pe arhitecturi diferite.
Formatul Cursului
- Prelegere interactivă și discuții.
- Laboratoare practice de traducere a codului și comparare a performanței.
- Exerciții ghidate concentrate pe strategii de adaptare multi-GPU.
Opțiuni de Personalizare a Cursului
- Pentru a solicita un training personalizat pentru acest curs bazat pe platforma sau proiectul dumneavoastră CUDA, vă rugăm să ne contactați pentru a aranja.
Optimizarea Performanțelor pe Ascend, Biren și Cambricon
21 OreAscend, Biren și Cambricon sunt platforme hardware de top pentru inteligența artificială din China, fiecare oferind instrumente unice de accelerare și profilare pentru sarcini de producție la scară largă în domeniul IA.
Acest training condus de un instructor, live (online sau la fața locului), este destinat inginerilor avansați de infrastructură și performanță în domeniul IA care doresc să optimizeze procesele de inferență și antrenare a modelelor pe mai multe platforme de cipuri AI chinezești.
La sfârșitul acestui training, participanții vor putea:
- Să efectueze benchmark-uri pe modele pe platformele Ascend, Biren și Cambricon.
- Să identifice punctele de blocaj ale sistemului și ineficiențele de memorie/calcul.
- Să aplice optimizări la nivel de graf, kernel și operator.
- Să ajusteze conductele de implementare pentru a îmbunătăți debitul și latența.
Formatul Cursului
- Prelegere interactivă și discuții.
- Utilizarea practică a instrumentelor de profilare și optimizare pe fiecare platformă.
- Exerciții ghidate axate pe scenarii practice de ajustare.
Opțiuni de Personalizare a Cursului
- Pentru a solicita un training personalizat pentru acest curs bazat pe mediul dvs. de performanță sau tipul de model, vă rugăm să ne contactați pentru a aranja.