Schița de curs
1. Introducere în Deep Reinforcement Learning
- Ce este Reinforcement Learning?
- Diferența dintre Supervizat, Nesubsupervizat și Reinforcement Learning
- Aplicații ale DRL în 2025 (robotică, sănătate, finanțe, logistică)
- Înțelegerea ciclului de interacțiune agent-mediu
2. Fundamentele Reinforcement Learning
- Procesele Decisionale Markov (MDP)
- Stare, Acțiune, Recompensă, Politică și Funcții de Valoare
- Dinamica explorării vs. exploatare
- Metode Monte Carlo și învățarea diferențială temporară (TD)
3. Implementarea Algoritmilor de Bază RL
- Metode tabulare: Programarea Dinamică, Evaluarea Politicii și Iterația Politicii
- Q-Learning și SARSA
- Eșantionare epsilon-greedy și strategii de decădere
- Implementarea mediilor RL cu OpenAI Gymnasium
4. Trecerea la Deep Reinforcement Learning
- Limitările metodelor tabulare
- Folosirea rețelelor neuronale pentru aproximarea funcțiilor
- Arhitectura și fluxul de lucru al Deep Q-Network (DQN)
- Repetarea experienței și rețelele țintă
5. Algoritmi Avansati DRL
- Double DQN, Dueling DQN, și Repetarea Experienței Prioritizate
- Metode de Gradiente de Politici: algoritmul REINFORCE
- Arhitecturi Actor-Critic (A2C, A3C)
- Proximal Policy Optimization (PPO)
- Soft Actor-Critic (SAC)
6. Lucrul cu Spațiile de Acțiuni Continue
- Săruturile în controlul continuu
- Folosirea DDPG (Deep Deterministic Policy Gradient)
- Twin Delayed DDPG (TD3)
7. Unelte și Framework-uri Pracțice
- Folosirea Stable-Baselines3 și Ray RLlib
- Jurnalizarea și monitorizarea cu TensorBoard
- Tuning-ul hiperparametrilor pentru modele DRL
8. Ingineria Recompensei și Designul Mediului
- Modelarea recompenselor și echilibrarea penalităților
- Concepte de transfer de simulație la realitate (sim-to-real)
- Crearea mediilor personalizate în Gymnasium
9. Mediile Parțial Observabile și Generalizarea
- Gestionarea informațiilor de stare incomplete (POMDPs)
- Abordări bazate pe memorie folosind LSTMs și RNNs
- Mărire robusteții și generalizării agentului
10. Teoria Jocurilor și Învățarea Reinforcement Multi-Agent
- Introducere în mediile multi-agent
- Cooperare vs. competiție
- Aplicații în instruire adversară și optimizarea strategiilor
11. Studii de caz și Aplicații Reale
- Simoalriile de conducere autonomă
- Pretizarea dinamică și strategii de tranzacționare financiară
- Robotica și automatizarea industrială
12. Depanarea și Optimizarea
- Diagnostica înstabilizării instruirii
- Gestionarea sparsității recompenselor și overfitting-ului
- Scalarea modelelor DRL pe GPUs și sisteme distribuite
13. Rezumat și Următoarele Pași
- Recapitularea arhitecturii DRL și algoritmilor cheie
- Tendințele industriale și direcțiile de cercetare (de exemplu, RLHF, modele hibride)
- Surse suplimentare și materiale pentru lectură
Cerințe
- Puțină experiență în programare cu Python
- Înțelegere a Calculului și Algebrei Liniare
- Cunoștințe de bază ale Probabilității și Statisticii
- Experiență în construirea de modele de machine learning folosind Python și NumPy sau TensorFlow/PyTorch
Audiență
- Dezvoltatori interesați de AI și sisteme inteligente
- Data Scientists care explorează cadrele de învățare cu renforțament
- Ingineri de Machine Learning care lucrează cu sisteme autonome
Mărturii (5)
Hunter este fabulos, foarte captivant, extrem de bine informat și personal. Foarte bine făcut.
Rick Johnson - Laramie County Community College
Curs - Artificial Intelligence (AI) Overview
Tradus de catre o masina
Very flexible.
Frank Ueltzhoffer
Curs - Artificial Neural Networks, Machine Learning and Deep Thinking
Tradus de catre o masina
I liked the new insights in deep machine learning.
Josip Arneric
Curs - Neural Network in R
Tradus de catre o masina
Ann created a great environment to ask questions and learn. We had a lot of fun and also learned a lot at the same time.
Gudrun Bickelq
Curs - Introduction to the use of neural networks
Tradus de catre o masina
It was very interactive and more relaxed and informal than expected. We covered lots of topics in the time and the trainer was always receptive to talking more in detail or more generally about the topics and how they were related. I feel the training has given me the tools to continue learning as opposed to it being a one off session where learning stops once you've finished which is very important given the scale and complexity of the topic.
Jonathan Blease
Curs - Artificial Neural Networks, Machine Learning, Deep Thinking
Tradus de catre o masina