Schița de curs
1. Introducere în Învățarea Profundă prin Reforțare
- Ce este Învățarea prin Reforțare?
- Diferența dintre Învățarea Supravegheată, Nesupravegheată și Învățarea prin Reforțare
- Aplicații ale IPR în 2025 (robotică, sănătate, finanțe, logistică)
- Înțelegerea buclei de interacțiune agent-mediu
2. Fundamentele Învățării prin Reforțare
- Procese de Decizie Markov (MDP)
- Funcții de Stat, Acțiune, Recompensă, Politică și Valoare
- Dilema Explorare vs. Exploatare
- Metode Monte Carlo și Învățarea Temporal-Diferențială (TD)
3. Implementarea Algoritmilor de Bază de IPR
- Metode tabelare: Programare Dinamică, Evaluarea Politicii și Iterare
- Q-Learning și SARSA
- Explorare epsilon-greedy și strategii de decădere
- Implementarea mediilor de IPR cu OpenAI Gymnasium
4. Tranziția la Învățarea Profundă prin Reforțare
- Limitările metodelor tabelare
- Utilizarea rețelelor neuronale pentru aproximarea funcțiilor
- Arhitectura și fluxul de lucru al Deep Q-Network (DQN)
- Replay de experiență și rețele țintă
5. Algoritmi Avansați de IPR
- Double DQN, Dueling DQN și Prioritized Experience Replay
- Metode de Gradient al Politicii: Algoritmul REINFORCE
- Arhitecturi Actor-Critic (A2C, A3C)
- Optimizare Proximală a Politicii (PPO)
- Soft Actor-Critic (SAC)
6. Lucrul cu Spații Continue de Acțiune
- Provocări în controlul continuu
- Utilizarea DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Instrumente și Cadre de Lucru Practice
- Utilizarea Stable-Baselines3 și Ray RLlib
- Logare și monitorizare cu TensorBoard
- Optimizarea hiperparametrilor pentru modelele de IPR
8. Ingineria Recompenselor și Proiectarea Mediilor
- Modelarea recompenselor și echilibrarea penalizărilor
- Concepte de transfer sim-to-real
- Crearea de medii personalizate în Gymnasium
9. Medii Parțial Observabile și Generalizare
- Gestionarea informațiilor incomplete de stare (POMDPs)
- Abordări bazate pe memorie folosind LSTMs și RNNs
- Îmbunătățirea robusteței și generalizării agentului
10. Teoria Jocurilor și Învățarea prin Reforțare Multi-Agent
- Introducere în mediile multi-agent
- Cooperare vs. competiție
- Aplicații în antrenamentul advers și optimizarea strategiilor
11. Studii de Caz și Aplicații din Lumea Reală
- Simulări de conducere autonomă
- Strategii de prețuri dinamice și tranzacționare financiară
- Robotică și automatizare industrială
12. Depanare și Optimizare
- Diagnosticarea antrenamentului instabil
- Gestionarea rarității recompenselor și a supraadaptării
- Scalarea modelelor de IPR pe GPU-uri și sisteme distribuite
13. Rezumat și Pași Următori
- Recapitulare a arhitecturii IPR și a algoritmilor cheie
- Tendințe ale industriei și direcții de cercetare (de exemplu, RLHF, modele hibride)
- Resurse suplimentare și materiale de lectură
Cerințe
- Competență în programarea Python
- Înțelegerea Calculului și Algebrei Liniare
- Cunoștințe de bază despre Probabilitate și Statistică
- Experiență în construirea modelelor de învățare automată folosind Python și NumPy sau TensorFlow/PyTorch
Publicul țintă
- Dezvoltatori interesați de inteligența artificială și sisteme inteligente
- Oameni de știință de date care explorează cadre de lucru pentru învățarea prin reforțare
- Ingineri de învățare automată care lucrează cu sisteme autonome
Mărturii (3)
Mi-a plăcut foarte mult finalul unde am avut ocazia să jucăm cu CHAT GPT. Sala nu era configuraționată cel mai bine pentru aceasta - ar fi fost mai util să avem câteva mese mici în loc de o masă mare, astfel încât să putem forma grupuri mai mici și să ne brainstorm-urim idei.
Nola - Laramie County Community College
Curs - Artificial Intelligence (AI) Overview
Tradus de catre o masina
Lucrând pe baza principiilor de bază într-un mod concentrat, și trecerea la aplicarea studiilor de caz în aceeași zi
Maggie Webb - Department of Jobs, Regions, and Precincts
Curs - Artificial Neural Networks, Machine Learning, Deep Thinking
Tradus de catre o masina
A păru că trecusem prin informații direct relevante într-un ritm potrivit (adică fără materiale de umplutură)
Maggie Webb - Department of Jobs, Regions, and Precincts
Curs - Introduction to the use of neural networks
Tradus de catre o masina