Simplification de la mémoire des agents en utilisant des FMDP


Dans cet article, nous nous intéressons à la problématique de l'apprentissage par renforcement dans un cadre multi-agent asynchrone et faiblement couplé. Nous montrons qu'il est nécessaire de mémoriser des informations sur les actions passées et nous montrons comment factoriser cette information mémorisée pour que l'espace d'états reste praticable en nous appuyant sur le modèle des processus décisionnels de Markov factorisés (FMDP). Nous définissons un mécanisme d'apprentissage qui intègre les actions et les observations passées et nous expliquons comment ce modèle est implanté dans notre plateforme et nous discutons les résultats attendus. In this paper, we tackle the problem of reinforcement learning in the context of asynchronous and loosely coupled multiagent systems. We show that it must memorize informations about its past actions and factorize this information in order to keep the state space at a practicable size. We define a learning mechanism based on Factorized MDPs that integrates the agent's past actions and observations and we explain how this model is implemented in our platform and we discuss the expected results.