Vous êtes ici : Accueil » Kiosque » Annonce

Identification

Identifiant: 
Mot de passe : 

Mot de passe oublié ?
Détails d'identification oubliés ?

Annonce

7 avril 2017

Stage M2R : Représentation adaptative de l'espace d'état pour l'apprentissage par renforcement on-policy dans le cadre des processus décisionnels de markov complètement observés


Catégorie : Stagiaire


** STAGE M2R IA **
Proposition de stage de Master 2 Recherche en Intelligence Artificielle

Encadrants: Jérémy Fix et Alain Dutech
            Jeremy.Fix@centralesupelec.fr
            Alain.Dutech@loria.fr
Lieu: Equipe BISCUIT, Loria, Nancy (http://www.loria.fr)
Gratification: env 550€/mois
Durée: 5 ou 6 mois
Début: dès que possible.

*Titre*: Représentation adaptative de l'espace d'état pour
l'apprentissage par renforcement on-policy dans le cadre des processus
décisionnels de markov complètement observés

Un processus décisionnel de markov (MDP) est défini par un espace
d'état, un espace d'action, une fonction de transition, une fonction de
récompense et un facteur d'actualisation. La définition à priori de
l'espace d'état n'est pas forcément facile ni souhaitable. Par exemple,
il n'est pas nécessairement pertinent d'utiliser une discrétisation à
pas fixé pour représenter l'état d'un agent. Nous étudierons dans ce
stage des architectures dans lesquelles l'espace d'état est appris en
même temps que le contrôleur. La capture de l'espace d'état peut se
faire par des approches de quantification vectorielle et en particulier
les cartes de Kohohen (SOM) qui construisent une représentation
topologique de l'espace d'état dont on peut tirer partie pour
l'apprentissage du contrôleur (e.g. noyaux RBF pour l'apprentissage des
fonctions de valeur). La distribution des prototypes d'une carte de
Kohonen est sensible à la densité des échantillons qui lui sont
présentés ce qui implique de fait une forte dépendance à la dynamique du
système contrôlé. Or, rien n'indique à priori que sur-représenter une
partie de l'espace d'état parce qu'il est plus souvent visité implique
l'apprentissage d'un meilleur contrôleur. Récemment, une extension des
cartes de Kohohen, Dynamic Self-Organized Maps (DSOM) [Rougier(2011)], a
été proposée. Cette extension est beaucoup moins tributaire de la
densité des échantillons que ne l'est SOM. Cette extension introduit un
degré de liberté ou la densité des prototypes appris peut être modulée,
par exemple, par la difficulté d'apprendre un contrôleur. Cela
permettrait par exemple d'augmenter la densité des prototypes dans les
régions de l'espace d'état ou il est difficile d'apprendre les fonctions
de valeur, probablement causé par le fait que ces dernières varient plus
vite dans certaines régions de l'espace d'état que dans d'autres.
L'objet de ce stage est donc d'étudier différentes implémentations des
cartes auto-organisatrices (SOM, DSOM avec différents critères de
modulation de l'apprentissage) et leur influence sur les performances
d'un contrôleur appris à partir de ces représentations d'état. Cette
étude se fera en considérant des problèmes standards d'apprentissage par
renforcement à espace d'état continu (mountain car, inverted cartpole).

N.P.Rougier and Y.Boniface, Neurocomputing 74, 11, (2011), 1840-1847.

Dans cette rubrique

(c) GdR 720 ISIS - CNRS - 2011-2015.