Intrati in legatura

Schița de curs

1. Introducere în Învățarea Profundă prin Reforțare

  • Ce este Învățarea prin Reforțare?
  • Diferența dintre Învățarea Supravegheată, Nesupravegheată și Învățarea prin Reforțare
  • Aplicații ale IPR în 2025 (robotică, sănătate, finanțe, logistică)
  • Înțelegerea buclei de interacțiune agent-mediu

2. Fundamentele Învățării prin Reforțare

  • Procese de Decizie Markov (MDP)
  • Funcții de Stat, Acțiune, Recompensă, Politică și Valoare
  • Dilema Explorare vs. Exploatare
  • Metode Monte Carlo și Învățarea Temporal-Diferențială (TD)

3. Implementarea Algoritmilor de Bază de IPR

  • Metode tabelare: Programare Dinamică, Evaluarea Politicii și Iterare
  • Q-Learning și SARSA
  • Explorare epsilon-greedy și strategii de decădere
  • Implementarea mediilor de IPR cu OpenAI Gymnasium

4. Tranziția la Învățarea Profundă prin Reforțare

  • Limitările metodelor tabelare
  • Utilizarea rețelelor neuronale pentru aproximarea funcțiilor
  • Arhitectura și fluxul de lucru al Deep Q-Network (DQN)
  • Replay de experiență și rețele țintă

5. Algoritmi Avansați de IPR

  • Double DQN, Dueling DQN și Prioritized Experience Replay
  • Metode de Gradient al Politicii: Algoritmul REINFORCE
  • Arhitecturi Actor-Critic (A2C, A3C)
  • Optimizare Proximală a Politicii (PPO)
  • Soft Actor-Critic (SAC)

6. Lucrul cu Spații Continue de Acțiune

  • Provocări în controlul continuu
  • Utilizarea DDPG (Deep Deterministic Policy Gradient)
  • Twin Delayed DDPG (TD3)

7. Instrumente și Cadre de Lucru Practice

  • Utilizarea Stable-Baselines3 și Ray RLlib
  • Logare și monitorizare cu TensorBoard
  • Optimizarea hiperparametrilor pentru modelele de IPR

8. Ingineria Recompenselor și Proiectarea Mediilor

  • Modelarea recompenselor și echilibrarea penalizărilor
  • Concepte de transfer sim-to-real
  • Crearea de medii personalizate în Gymnasium

9. Medii Parțial Observabile și Generalizare

  • Gestionarea informațiilor incomplete de stare (POMDPs)
  • Abordări bazate pe memorie folosind LSTMs și RNNs
  • Îmbunătățirea robusteței și generalizării agentului

10. Teoria Jocurilor și Învățarea prin Reforțare Multi-Agent

  • Introducere în mediile multi-agent
  • Cooperare vs. competiție
  • Aplicații în antrenamentul advers și optimizarea strategiilor

11. Studii de Caz și Aplicații din Lumea Reală

  • Simulări de conducere autonomă
  • Strategii de prețuri dinamice și tranzacționare financiară
  • Robotică și automatizare industrială

12. Depanare și Optimizare

  • Diagnosticarea antrenamentului instabil
  • Gestionarea rarității recompenselor și a supraadaptării
  • Scalarea modelelor de IPR pe GPU-uri și sisteme distribuite

13. Rezumat și Pași Următori

  • Recapitulare a arhitecturii IPR și a algoritmilor cheie
  • Tendințe ale industriei și direcții de cercetare (de exemplu, RLHF, modele hibride)
  • Resurse suplimentare și materiale de lectură

Cerințe

  • Competență în programarea Python
  • Înțelegerea Calculului și Algebrei Liniare
  • Cunoștințe de bază despre Probabilitate și Statistică
  • Experiență în construirea modelelor de învățare automată folosind Python și NumPy sau TensorFlow/PyTorch

Publicul țintă

  • Dezvoltatori interesați de inteligența artificială și sisteme inteligente
  • Oameni de știință de date care explorează cadre de lucru pentru învățarea prin reforțare
  • Ingineri de învățare automată care lucrează cu sisteme autonome
 21 Ore

Numărul de participanți


Pret per participant

Mărturii (3)

Cursuri viitoare

Categorii înrudite