Apprentissage par renforcement de politiques d’adaptation de la connaissance
L’évolution culturelle computationnelle simule la manière dont des agents développent une culture commune à travers leurs interactions. Elle est étudiée à l’aide de jeux dans lesquels les agents prennent des décisions grâce à leurs connaissances. Les interactions peuvent réussir ou échouer, auquel cas les agents adaptent leurs connaissances. Bien que les agents convergent vers un état où leur connaissance leur permet de réussir, ils utilisent un opérateur statique conçu pour un jeu spécifique. Ici, on cherche à apprendre dynamiquement un opérateur comparable. Pour cela, l’opérateur spécifique est remplacé par une politique d’adaptation apprise par renforcement combinant des opérateurs atomiques. Nous montrons qu’il est effectivement possible d’apprendre des politiques arrivant au même résultat. La contribution de chacun des opérateurs atomiques est analysée permettant de montrer qu’aucun ne permet seul d’obtenir ce résultat, bien que des combinaisons spécifiques le puissent.