Apprentissage par renforcement multi-agents dans le monde réel - Derniers développements et applications
31 mars 2025
31 mars 2025
Par Sriram Ganapathi Subramanian
La décision de l'Association for Computing Machinery de décerner le prix ACM A.M. Turing 2024 à Richard Sutton et Andrew Barto reconnaît le rôle important que joue aujourd'hui l'apprentissage par renforcement (RL), un domaine qu'ils ont contribué à établir. Certains des grands modèles de langage (LLM) les plus populaires, comme ChatGPT et DeepSeek, utilisent largement les principes et les algorithmes de l'apprentissage par renforcement. L'apprentissage par renforcement est également largement appliqué à la robotique, aux véhicules autonomes et aux soins de santé.
L'objectif de l'agent RL est de trouver des comportements quasi optimaux pour des tâches décisionnelles séquentielles en utilisant des signaux faibles (à valeur réelle) appelés récompenses. Cela contraste avec l'apprentissage supervisé, où les décisions sont prises en une seule fois avec des signaux clairs sur la bonne réponse. Cette capacité d'apprentissage expérimental basé sur l'essai et l'erreur du RL le rend plus proche des processus d'apprentissage observés chez l'homme et tous les autres animaux. Les algorithmes classiques de RL supposent généralement qu'il existe un seul agent apprenant dans le système, sans aucune autre entité dans l'environnement capable d'agir. Cependant, dans le monde réel, il y a généralement plus d'un agent. Par exemple, dans la conduite autonome, les agents doivent constamment raisonner sur les autres conducteurs sur la route.
L'apprentissage par renforcement multi-agents (MARL), un sous-domaine émergent, relâche cette hypothèse et considère l'apprentissage dans des environnements contenant plus d'un agent autonome. Bien que les algorithmes MARL aient connu de nombreux succès au cours de la dernière décennie, ils n'ont pas encore trouvé d'application à grande échelle dans le monde réel, et ce pour deux raisons importantes. Premièrement, ces algorithmes ont une faible efficacité d'échantillonnage. Deuxièmement, ces algorithmes ne sont pas extensibles à des environnements comportant de nombreux agents, car ils sont généralement exponentiels en fonction du nombre d'agents dans l'environnement, tant en termes de temps que d'espace.
Mes recherches ont pour objectif général de remédier à ces limitations et d'accélérer le déploiement de la technologie MARL dans divers contextes réels, notamment la lutte contre les incendies de forêt, la gestion des réseaux intelligents de distribution d'électricité et la conduite autonome. Mon objectif à long terme est de parvenir à un tel déploiement du MARL dans le monde réel, ce qui est possible grâce à la poursuite de trois objectifs à court terme :
L'efficacité de l'échantillonnage est le problème de l'apprentissage efficace à partir de chaque échantillon de données. Chaque échantillon de données dans RL/MARL constitue une expérience pour l'agent qui interagit avec l'environnement. Les algorithmes MARL ont généralement besoin de millions d'échantillons de données pour apprendre au niveau des performances humaines, alors que les humains peuvent apprendre de telles politiques en utilisant seulement quelques échantillons. Par exemple, l'algorithme AlphaStar a besoin de 200 ans de données de jeu pour apprendre de bonnes politiques. Un autre exemple est l'algorithme OpenAI Five, qui est entraîné sur 180 ans de données de jeu, avec une infrastructure informatique composée de 256 GPU et 128 000 cœurs de CPU. Dans de nombreux domaines du monde réel, il s'agit d'un problème critique ; il y a une pénurie relative de données pour que les agents puissent apprendre efficacement.
Des recherches antérieures ont recommandé différentes approches pour améliorer l'efficacité de l'échantillonnage des méthodes MARL. L'une d'entre elles consiste à utiliser des récompenses supplémentaires (appelées récompenses d'exploration) pour encourager l'apprentissage de certains comportements, qui sont ensuite réduits au fil du temps. D'autres recommandations incluent l'ajout d'une perte d'entropie pour la politique afin de décourager la convergence vers un optimum local et l'utilisation d'une motivation intrinsèque pour l'exploration. Bien que ces approches aient leurs mérites, des études récentes montrent que les récompenses pour l'exploration et la perte d'entropie peuvent modifier la politique optimale du problème original (à moins qu'elle ne soit conçue avec soin pour chaque environnement), et que la motivation intrinsèque peut ne pas être efficace dans plusieurs scénarios multi-agents. En outre, toutes ces approches entraînent les algorithmes MARL à partir de zéro dans chaque environnement, ce qui peut s'avérer inefficace.
Ma recherche adopte une approche différente. Une observation importante dans ce contexte est que de nombreux environnements réels déploient déjà, dans la pratique, des approches sous-optimales, artisanales (utilisant des règles basées sur la physique) ou heuristiques pour générer des politiques. Une possibilité utile qui se présente est de faire le meilleur usage de ces approches en tant que conseillers pour aider à améliorer la formation MARL. Nos travaux antérieurs ont exploré l'apprentissage à partir de sources externes de connaissances dans MARL. Toutefois, ces travaux reposent sur plusieurs hypothèses rigoureuses qui empêchent leur application dans des environnements pratiques. Nos recherches antérieures ont fourni un cadre fondé sur des principes pour l'intégration de recommandations d'action provenant d'une classe générale de conseillers en ligne, éventuellement sous-optimaux, dans des environnements multi-agents à somme générale non restrictifs, dans le cas d'un conseiller unique et de conseillers multiples. Nos recherches antérieures ont également fourni de nouveaux algorithmes RL pour le contrôle continu qui peuvent tirer parti de conseillers multiples. Séparément, nous avons mené des études théoriques approfondies sur cette approche, en fournissant des garanties de performance et de stabilité. Parmi les exemples de conseillers, on peut citer les modèles de conduite dans la conduite autonome, les modèles de propagation basés sur la physique dans les incendies de forêt et les modèles mathématiques de marketing pour la commercialisation des produits. Les conseillers peuvent également être des humains ayant des connaissances préalables dans ces domaines. Alors que mes travaux antérieurs se limitaient à l'obtention de recommandations d'action de la part des conseillers, mes travaux actuels portent sur l'étude des effets d'une large catégorie de méthodes de transfert multi-agents (par l'intermédiaire de conseillers), telles que le transfert par l'intermédiaire de fonctions de valeur, la formation de récompenses et la politique.
Traditionnellement, les algorithmes MARL dépendent de manière exponentielle du nombre d'agents, tant en termes de complexité temporelle qu'en termes de complexité spatiale. Par conséquent, ces algorithmes sont irréalisables dans des environnements comportant de nombreux agents. Dans la littérature, ce problème est appelé la malédiction de la dimensionnalité.
Trois types de solutions ont été proposés pour la mise à l'échelle des algorithmes MARL : l'apprentissage indépendant (IL), le partage des paramètres (PS) et les méthodes de champ moyen. Chacune d'entre elles présente des avantages et des inconvénients. Les méthodes d'apprentissage indépendant considèrent que tous les autres agents font partie de l'environnement et ne modélisent pas les autres agents, ce qui les rend extensibles. Bien qu'elles soient simples et efficaces dans certaines situations, ces méthodes ne sont pas solides sur le plan théorique, et il n'est donc pas tout à fait clair quels environnements ou situations multi-agents conviennent le mieux aux méthodes IL. Les méthodes PS utilisent un seul réseau pour l'apprentissage, dont les paramètres sont partagés par tous les agents. Ces méthodes ne sont applicables que dans des environnements coopératifs avec un ensemble d'agents homogènes. Les méthodes de champ moyen utilisent la théorie du champ moyen pour abstraire les autres agents de l'environnement par un agent moyen virtuel. Bien qu'efficaces, ces méthodes souffrent de plusieurs hypothèses strictes, telles que l'exigence d'agents totalement homogènes, l'observabilité totale de l'environnement et des paramètres d'apprentissage centralisés, qui empêchent leur application à grande échelle dans des environnements pratiques.
Mes travaux antérieurs ont contribué à l'amélioration de ces méthodes en s'attaquant aux limites existantes et en rendant ces méthodes plus largement applicables. En ce qui concerne l'apprentissage automatique, nos recherches antérieures ont fourni une analyse expérimentale élaborée élucidant les forces et les faiblesses des méthodes d'apprentissage automatique dans des environnements multi-agents coopératifs, compétitifs et à motivation mixte. Nous avons montré que les méthodes d'IL sont aussi efficaces que les méthodes d'apprentissage multi-agents dans plusieurs environnements coopératifs et compétitifs, mais qu'elles souffrent dans les environnements à motivation mixte. En ce qui concerne les méthodes PS, nos travaux antérieurs ont recommandé de nouveaux protocoles de communication permettant aux agents de partager des informations tout en utilisant des réseaux distincts et indépendants pour l'apprentissage. Pour les méthodes de champ moyen, nos travaux antérieurs ont assoupli chacune des hypothèses restrictives. Tout d'abord, nous avons assoupli l'hypothèse de l'homogénéité totale des agents en utilisant la classification des types. Ensuite, nous avons fourni de nouveaux algorithmes de champ moyen qui peuvent fonctionner efficacement dans des environnements partiellement observables. Enfin, nous avons également fourni de nouveaux algorithmes de champ moyen capables d'apprendre de bonnes politiques à l'aide de protocoles d'apprentissage entièrement décentralisés. Cependant, les méthodes de champ moyen continuent de présenter certaines limites, comme le fait de supposer que chaque agent a le même impact sur les autres agents, et de montrer des comportements d'apprentissage instables, ce que j'aborde dans mes recherches en cours.
Ma recherche étudie l'efficacité des solutions RL et MARL dans un ensemble de domaines du monde réel comme preuve de concept : lutte contre les incendies de forêt, découverte de matériaux et conduite autonome.
Dans le domaine des incendies de forêt, nos recherches antérieures ont porté sur l'application de la RL à l'amélioration des modèles de simulation spatiale des incendies existants et à la préparation de meilleures stratégies de lutte contre les incendies pour deux grands incendies de forêt en Alberta : l'incendie de Fort McMurray et l'incendie de Richardson. En outre, d'autres chercheurs ont publié un simulateur de feu de forêt détaillé, Fire Commander, qui simule l'effet des stratégies d'intervention en cas de feu de forêt et rend compte des mesures des brûlures. Bien que ce simulateur ait été utilisé pour tester les performances des algorithmes MARL dans des environnements de feux de forêt fictifs, aucune tentative n'a été faite pour étudier les performances des algorithmes MARL dans des scénarios de contrôle des feux de forêt liés à un incendie réel. Mon travail actuel porte sur une telle étude à grande échelle. En outre, nous avons publié une étude détaillée sur l'application des algorithmes d'apprentissage automatique dans le domaine de la lutte contre les incendies de forêt, ainsi qu'une liste détaillée des possibilités futures mettant en évidence le potentiel inexploité de ce secteur d'activité. Cet article d'étude a reçu une attention considérable, accumulant des centaines de citations en peu de temps.
Dans le domaine de la découverte de matériaux, des travaux antérieurs ont utilisé des techniques RL pour la recherche dans le vaste espace chimique combinatoire, mais ont fait état de difficultés à obtenir suffisamment d'échantillons de données pour l'entraînement RL. Pour remédier à cette difficulté, nous avons récemment mis en libre accès un simulateur Chemistry Gym qui simule l'effet de différentes réactions chimiques et constitue un outil efficace pour l'entraînement des algorithmes RL/MARL à la manipulation des réactifs chimiques. Nous avons également fourni une forme fondamentalement différente de RL, à savoir une formulation de récompense maximale, qui est plus pertinente pour la découverte de matériaux que la formulation standard qui utilise les récompenses cumulées attendues.
Pour la conduite autonome, l'utilisation de techniques RL à agent unique présente des avantages . Bien que la conduite soit un environnement multi-agents avec plusieurs véhicules différents sur la route en même temps, les travaux antérieurs étaient considérablement limités à l'utilisation de techniques indépendantes. Nos travaux antérieurs ont permis d'ouvrir plusieurs bancs d'essai de conduite MARL et de fournir de nouveaux algorithmes MARL pour la conduite autonome. Ces algorithmes ont largement surpassé les techniques indépendantes. En outre, nous avons réalisé une vaste étude sur l'utilisation potentielle du RL pour l'apprentissage des contraintes sur les autoroutes allemandes et fourni de nouveaux algorithmes RL pour améliorer les décisions autonomes dans des conditions routières difficiles telles que les zones à forte circulation, les zones à faible visibilité et les itinéraires soumis à des conditions météorologiques difficiles. Mes travaux en cours visent à améliorer les capacités MARL dans les domaines de la conduite autonome et de la découverte de matériaux, dans le but de parvenir à un déploiement à grande échelle de MARL dans ces deux domaines.
Les algorithmes MARL permettent de former des agents autonomes et de les déployer dans des environnements partagés avec différents types d'autres agents. Ces agents peuvent atteindre leurs objectifs en collaborant et/ou en rivalisant avec d'autres agents (y compris ceux qu'ils n'ont jamais vus auparavant pendant la formation). Après un entraînement intensif dans des environnements complexes comportant divers adversaires, scénarios et objectifs, ces agents seront capables d'apprendre à naviguer de manière autonome dans des environnements en évolution dynamique, à s'adapter efficacement à de nouvelles situations et à planifier l'avenir sur la base de l'incertitude des résultats de leurs actions/stratégies. Notamment, les algorithmes MARL ont également fait leurs preuves dans des environnements partiellement observables où ils peuvent exploiter efficacement les informations limitées capturées par les capteurs de l'agent.
Le déploiement de MARL dans le monde réel présente plusieurs avantages dans un large éventail de domaines d'application. Pour les applications critiques en matière de sécurité, comme la lutte contre les incendies de forêt, le déploiement fiable de plusieurs robots capables de combattre le feu de manière autonome pourrait réduire le nombre de pompiers humains sur le terrain, ce qui permettrait de sauver des vies. Dans des domaines tels que les soins de santé, où il y a une pénurie de main-d'œuvre humaine, les agents autonomes peuvent contribuer à améliorer l'efficacité. Par exemple, on pourrait assister à une augmentation du nombre de chirurgies assistées par des robots, de robots de soins pour les personnes âgées et d'aides-soignants robotisés. De nombreux autres domaines d'application tels que la finance, le développement durable et la conduite autonome peuvent également bénéficier des algorithmes MARL, où les robots peuvent contribuer à automatiser les opérations, à améliorer l'efficacité et à réduire les coûts.
D'un point de vue technique, deux limitations majeures empêchent un large déploiement des algorithmes MARL dans les problèmes du monde réel. En raison de ces limitations, MARL s'est traditionnellement concentré sur des problèmes jouets simples impliquant deux (ou dizaines) d'agents avec un ensemble restrictif d'applications. Ma recherche recommande de nouvelles solutions à ces limitations et explore directement l'efficacité de ces solutions dans certaines applications du monde réel pour servir de preuve de concepts. Elle comble le fossé entre les succès académiques dans le domaine du MARL et le déploiement dans le monde réel.