Apprentissage par renforcement multi-agents décentralisé pour l’optimisation de l’évacuation urbaine en situation de crise


L’optimisation des itinéraires d’évacuation constitue un enjeu central de la gestion des catastrophes en milieu urbain, afin de limiter la congestion et de garantir la sécurité des populations. Si l’apprentissage par renforcement (Reinforcement Learning, RL) permet de concevoir des stratégies adaptatives, les approches centralisées récentes se heurtent à des problèmes de passage à l’échelle ainsi qu’à la malédiction de la dimension dans des environnements complexes. Pour pallier ces limites, nous proposons TMADQN, un cadre d’apprentissage par renforcement multi-agents (MARL) dédié à l’évacuation dans un contexte d’information partielle. L’approche repose sur une décomposition des évacués en groupes, chacun étant piloté par des agents décentralisés, afin de minimiser le temps de parcours tout en évitant les zones à risque. La coopération intra-groupe est facilitée par un encodeur de type Transformer, qui permet de modéliser les interactions locales et d’apprendre une politique coordonnée à l’échelle du groupe. Les expérimentations, menées à l’aide d’un simulateur de trafic urbain, montrent que TMADQN, bien que fondé sur des observations locales, génère des itinéraires sûrs et efficaces. La méthode surpasse les approches de référence en termes de temps d’évacuation et atteint des performances proches d’une borne supérieure théorique fondée sur une connaissance globale du réseau.