Schița de curs

Introducere în Modelele de Limbaj de Mare Anvergură (LLMs)

  • Prezentare generală a LLMs
  • Definiție și semnificație
  • Aplicații în AI astăzi

Arhitectura Transformer

  • Ce este un transformer și cum funcționează?
  • Componente și caracteristici principale
  • Încorporare și codificare pozițională
  • Atenție multi-cap
  • Rețea neuronală feed-forward
  • Normalizare și conexiuni reziduale

Modele Transformer

  • Mecanismul de auto-atenție
  • Arhitectură encoder-decoder
  • Încorporări poziționale
  • BERT (Bidirectional Encoder Representations from Transformers)
  • GPT (Generative Pretrained Transformer)

Optimizarea Performanței și Capcane

  • Lungimea contextului
  • Mamba și modele de spațiu de stare
  • Atenție flash
  • Transformere sparse
  • Transformere pentru viziune
  • Importanța cuantizării

Îmbunătățirea Transformatoarelor

  • Generare de text augmentată cu recuperare
  • Amestec de modele
  • Arbore de gânduri

Ajustare Fină

  • Teoria adaptării de rang scăzut
  • Ajustare Fină cu QLora

Legile de Scalare și Optimizare în LLMs

  • Importanța legilor de scalare pentru LLMs
  • Scalarea datelor și a mărimii modelului
  • Scalarea computațională
  • Scalarea eficienței parametrilor

Optimizare

  • Relația dintre mărimea modelului, mărimea datelor, bugetul de calcul și cerințele de inferență
  • Optimizarea performanței și eficienței LLMs
  • Cele mai bune practici și instrumente pentru antrenarea și ajustarea fină a LLMs

Antrenarea și Ajustarea Fină a LLMs

  • Pașii și provocările antrenării LLMs de la zero
  • Achiziția și menținerea datelor
  • Cerințe de date la scară largă, CPU și memorie
  • Provocări de optimizare
  • Panorama LLMs open-source

Fundamentele Învățării Prin Recompense (RL)

  • Introducere în Învățarea Prin Recompense
  • Învățarea prin recompense pozitive
  • Definiție și concepte de bază
  • Proces de Decizie Markov (MDP)
  • Programare dinamică
  • Metode Monte Carlo
  • Învățare prin Diferențe Temporale

Învățare Profundă Prin Recompense

  • Rețele Deep Q-Networks (DQN)
  • Optimizare Proximală a Politicii (PPO)
  • Elemente ale Învățării Prin Recompense

Integrarea LLMs și Învățării Prin Recompense

  • Combinarea LLMs cu Învățarea Prin Recompense
  • Cum este folosită RL în LLMs
  • Învățarea Prin Recompense cu Feedback Uman (RLHF)
  • Alternative la RLHF

Studii de Caz și Aplicații

  • Aplicații din lumea reală
  • Povești de succes și provocări

Subiecte Avansate

  • Tehnici avansate
  • Metode avansate de optimizare
  • Cercetări și dezvoltări de ultimă oră

Rezumat și Următorii Pași

Cerințe

  • Înțelegere de bază a Învățării Automate

Publicul Țintă

  • Specialiști în știința datelor
  • Ingineri software
 21 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite