Un Cadre Neuro-Symbolique pour les Modèles du Monde Multi-Agents
Les modèles du monde (World Models, WMs) sont des modèles prédictifs de la dynamique d’un environnement, essentiels en apprentissage par renforcement basé modèle (Model-Based Reinforcement Learning, MBRL). En contexte multi-agent partiellement observable, ils souffrent de l’ambiguïté des observations locales et de l’accumulation d’erreurs. Les WMs multi-agents (MAWMs) neuronaux produisent alors fréquemment des prédictions incohérentes sémantiquement. Nous proposons Neuro-Symbolic Multi-Agent World Models (NS-MAWM), qui intègre un raisonnement symbolique dans les transitions d’observation via des contraintes différentiables jouant le rôle de biais inductifs contre la dérive sémantique. Nous évaluons NS-MAWM dans quatre environnements selon trois stratégies d’intégration et observons une amélioration de la fidélité prédictive et de la cohérence symbolique.