Nota : Ceci est la version 2020–2021 de l'annuaire électronique. Veuillez mettre à jour l'année dans la barre d'adresse de votre navigateur pour une version plus récente de cette page, ou .
Vue d'ensemble
Informatique (Sci) : Bandit algorithms, finite Markov decision processes, dynamic programming, Monte-Carlo Methods, temporal-difference learning, bootstrapping, planning, approximation methods, on versus off policy learning, policy gradient methods temporal abstraction and inverse reinforcement learning.
Terms: This course is not scheduled for the 2020-2021 academic year.
Instructors: There are no professors associated with this course for the 2020-2021 academic year.