Transfert de connaissances via la fusion dynamique de politiques entre agents de conduite autonome
La conduite autonome en environnements mixtes, combinant véhicules autonomes et connectés et véhicules conventionnels, requiert l’apprentissage à partir de scénarios de trafic variés et dynamiques, notamment aux intersections non signalisées, tout en limitant l’exploration dans des environnements inconnus. Ce travail s’intéresse au transfert d’expérience entre agents véhicules autonomes. Un agent source, entraîné comme expert sur une intersection non signalisée donnée, partage sa politique avec un agent cible représentant l’ego véhicule, n’ayant jamais rencontré ce nouvel environnement. L’agent cible intègre dynamiquement la politique source sans phase d’apprentissage supplémentaire, évitant ainsi une exploration aléatoire potentiellement dangereuse. Nous proposons un mécanisme de partage de politiques fondé sur une fusion dynamique des décisions apprises par Q-learning(QL) entre agents source et cible. Les simulations menées sous SUMO montrent une amélioration de l’efficacité, une réduction des collisions et une prise de décision plus cohérente par rapport aux approches existantes, mettant en évidence l’intérêt d’un partage de politiques sensible au contexte.