Mulțumim pentru trimiterea solicitării! Un membru al echipei noastre vă va contacta în curând.
Mulțumim pentru trimiterea rezervării! Un membru al echipei noastre vă va contacta în curând.
Schița de curs
Introducere
- Învățarea prin recompensă pozitivă
Elemente ale Învățării Prin Recompensă
Termeni Importanți (Acțiuni, Stări, Recompense, Politică, Valoare, Q-Valoare, etc.)
Prezentare generală a Metodelor de Soluții Tabelare
Crearea unui Agent Software
Înțelegerea Abordărilor Bazate pe Valoare, Politică și Model
Lucrul cu Procesul de Decizie Markov (MDP)
Cum Politicile Definim Modul de Comportare al unui Agent
Utilizarea Metodelor Monte Carlo
Învățare cu Diferențe Temporale
Bootstrapping în n-pași
Metode de Soluții Aproximative
Predicție pe Politică cu Aproximare
Control pe Politică cu Aproximare
Metode Off-policy cu Aproximare
Înțelegerea Urmelelor de Eligibilitate
Utilizarea Metodelor de Gradient al Politicii
Rezumat și Concluzie
Cerințe
- Experiență în învățarea automată
- Experiență în programare
Publicul țintă
- Specialiști în știința datelor
21 Ore