Simplification de la mémoire des agents en utilisant des FMDP
Dans cet article, nous nous intéressons à
la problématique de l'apprentissage par
renforcement dans un cadre multi-agent
asynchrone et faiblement couplé. Nous
montrons qu'il est nécessaire de mémoriser
des informations sur les actions passées
et nous montrons comment factoriser
cette information mémorisée pour que
l'espace d'états reste praticable en nous
appuyant sur le modèle des processus décisionnels
de Markov factorisés (FMDP).
Nous définissons un mécanisme d'apprentissage
qui intègre les actions et les observations
passées et nous expliquons comment
ce modèle est implanté dans notre
plateforme et nous discutons les résultats
attendus.
In this paper, we tackle the problem of
reinforcement learning in the context of
asynchronous and loosely coupled multiagent
systems. We show that it must memorize
informations about its past actions
and factorize this information in order to
keep the state space at a practicable size.
We define a learning mechanism based
on Factorized MDPs that integrates the
agent's past actions and observations and
we explain how this model is implemented
in our platform and we discuss the expected
results.