Intrati in legatura

Schița de curs

Introducere

  • Învățarea prin recompensă pozitivă

Elemente ale Învățării Prin Recompensă

Termeni Importanți (Acțiuni, Stări, Recompense, Politică, Valoare, Q-Valoare, etc.)

Prezentare generală a Metodelor de Soluții Tabelare

Crearea unui Agent Software

Înțelegerea Abordărilor Bazate pe Valoare, Politică și Model

Lucrul cu Procesul de Decizie Markov (MDP)

Cum Politicile Definim Modul de Comportare al unui Agent

Utilizarea Metodelor Monte Carlo

Învățare cu Diferențe Temporale

Bootstrapping în n-pași

Metode de Soluții Aproximative

Predicție pe Politică cu Aproximare

Control pe Politică cu Aproximare

Metode Off-policy cu Aproximare

Înțelegerea Urmelelor de Eligibilitate

Utilizarea Metodelor de Gradient al Politicii

Rezumat și Concluzie

Cerințe

  • Experiență în învățarea automată
  • Experiență în programare

Publicul țintă

  • Specialiști în știința datelor
 21 Ore

Numărul de participanți


Pret per participant

Cursuri viitoare

Categorii înrudite