Schița de curs

Introducere în Învățarea Reinforcement din Feedback Uman (RLHF)

  • Ce este RLHF și de ce este important
  • Comparație cu metodele de ajustare supervizate
  • Aplicații ale RLHF în sisteme AI moderne

Modelarea Recompensă cu Feedback Uman

  • Colecționarea și structurarea feedback-ului uman
  • Construirea și antrenarea modelelor de recompensă
  • Evaluarea eficacității modelului de recompensă

Antrenament cu Optimizarea Politicii Proximale (PPO)

  • Panorama algoritmilor PPO pentru RLHF
  • Implementarea PPO cu modele de recompensă
  • Ajustarea iterativă și sigură a modelelor

Ajustare Practică a Modelelor Lingvistice

  • Pregătirea seturilor de date pentru fluxurile de lucru RLHF
  • Ajustarea hands-on a unui LLM mic folosind RLHF
  • Provocările și strategiile de mitigare

Scalarea RLHF la Sisteme de Producție

  • Considerente infrastructurale și de calcul
  • Asigurarea calității și buclele de feedback continue
  • Cele mai bune practici pentru implementare și menținere

Considerații Etice și Mitigarea Dezviosului

  • Abordarea riscurilor etice în feedback-ul uman
  • Strategii de detectare și corectare a dezviilor
  • Asigurarea aliniării și ieșirilor sigure

Cazuri de Studiu și Exemple Reale

  • Caz de studiu: Ajustarea ChatGPT cu RLHF
  • Alte implementări de succes ale RLHF
  • Lecții învățate și insight-uri din industrie

Sinteza și Următoarele Pași

Cerințe

  • O înțelegere a fundamentelor învățării supervizate și reinforcement
  • Experiență cu ajustarea modelelor și arhitecturile rețelelor neuronale
  • Familiaritate cu programarea Python și cadrele de învățare adâncă (de exemplu, TensorFlow, PyTorch)

Audiență

  • Ingineri în învățarea mașinii
  • Cercetători AI
 14 ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite