PhD Defense: Zhuofan Xu

Permutation equivariant and permutation invariant reinforcement learning for multi-agent systems

Jeudi 11 décembre 2025 à 9h00
ENS Paris-Saclay, Salle 1Z25 et visio

Résumé : L’apprentissage par renforcement profond (Deep Reinforcement Learning, DRL) a connu un succès remarquable dans de nombreuses tâches de décision séquentielle, allant des jeux vidéo à la robotique. Son extension aux environnements multi-agents (Multi-Agent Reinforcement Learning, MARL) introduit toutefois des défis supplémentaires : la coordination dans des espaces de grande dimension, l’instabilité de l’entraînement liée à la non-stationnarité, et la difficulté de généraliser les stratégies apprises à des équipes ou tâches variées.

Une source majeure d’inefficacité provient de l’absence de prise en compte des symétries structurelles. Dans les systèmes coopératifs, l’ordre des agents n’a pas de signification intrinsèque : permuter les entrées ne devrait pas modifier la nature du problème. Les architectures neuronales classiques n’intègrent généralement pas cette propriété, ce qui entraîne redondance de paramètres, faible efficacité et instabilité.

Cette thèse propose des méthodes fondées sur l’intégration explicite de la permutation équivariante (PE) et de la permutation invariante (PI) dans la conception des architectures neuronales pour le MARL. Nous développons de nouveaux réseaux, tels que le Permutation-Equivariant Neural Network (PENN), sa variante invariante IPENN, et les structures Global-Local Permutation Equivariant (GLPE) au cœur du cadre Centralized Permutation Equivariant (CPE). Ces architectures sont intégrées dans des paradigmes établis, notamment l’apprentissage centralisé avec exécution décentralisée (CTDE), les méthodes de décomposition de valeur (QMIX, QPLEX) et les algorithmes acteur-critique (MAPPO).

Les approches proposées sont évaluées sur un large éventail de bancs d’essai, depuis des environnements simplifiés comme les Multi-Armed Bandits (MAB) jusqu’à des cadres coopératifs complexes tels que Combat, SMAC, RWARE et MPE. Les résultats montrent des gains significatifs en stabilité, efficacité et performance finale.

Enfin, des pistes exploratoires sont étudiées. Elles portent sur de nouvelles structures équivariantes, comprenant des mécanismes d’attention, des structures stables par permutation et des variantes inspirées de la transformée de Fourier, ainsi que sur des stratégies d’apprentissage complémentaires comme le curriculum learning et l’auto-jeu. Ces travaux mettent en évidence le potentiel des architectures sensibles aux symétries pour un apprentissage multi-agents plus scalable et interprétable.

The defense will be in English

Jury:

  • Alain DUTECH, Laboratoire lorrain de Recherche en Informatique et ses Applications (LORIA), Inria, Rapporteur et examinateur,
  • Régis SABBADIN, Unité de Mathématiques et Informatique Appliquées de Toulouse (MIAT), INRAE, Rapporteur et examinateur,
  • Sergio MOVER, Laboratoire d’Informatique de l’École polytechnique (LIX), École polytechnique, Examinateur,
  • Nicolas SABOURET, Laboratoire Interdisciplinaire des Sciences du Numérique (LISN), Université Paris-Saclay, Examinateur,
  • Lina YE, Laboratoire Méthodes Formelles (LMF), CentraleSupélec, Examinatrice
  • Matthias FÜGGER, CNRS, Directeur
  • Benedikt BOLLIG, CNRS, Co-encadrant
  • Thomas NOWAK, ENS Paris-Saclay, Co-encadrant