Vector AI Engineering Blog : Benchmarking Robustness of Reinforcement Learning Approaches using safe-control-gym (en anglais)

23 août 2022

2022 Perspectives

Par Catherine Glossop

23 août 2022

Les robots sont de plus en plus présents dans notre vie quotidienne : ils prennent la route sous la forme de véhicules autonomes, participent aux opérations dans nos hôpitaux, travaillent à nos côtés dans l'industrie et font même leur apparition dans nos propres maisons. 

L'apprentissage par renforcement est devenu un domaine de recherche prometteur pour les robots qui apprennent à effectuer des tâches. Il a été appliqué au suivi de trajectoire, à l'atteinte d'objectifs et à de nombreux autres problèmes pour divers types de robots, depuis les manipulateurs robotiques jusqu'aux véhicules autopilotés. La sécurité lors de l'utilisation de l'apprentissage par renforcement (RL) pour résoudre ces problèmes du monde réel doit être primordiale. Une interaction dangereuse avec l'environnement et les personnes qui s'y trouvent peut avoir de graves conséquences, allant, surtout, de la blessure des personnes à la destruction du robot lui-même. Pour que la sécurité soit garantie, l'agent (robot) doit satisfaire aux contraintes qui définissent un comportement sûr (c'est-à-dire ne pas produire d'actions qui endommagent le robot, heurtent des obstacles ou des personnes) et être résistant aux variations de l'environnement, à sa propre dynamique et aux situations imprévues qui apparaissent dans le monde réel. 

Dans cette revue, les performances des approches d'apprentissage par renforcement existantes dans le contexte du contrôle robotique ("contrôleurs") seront évaluées en fonction de leur robustesse et de leurs performances quantitatives et qualitatives. Pour ce faire, gymnase de contrôle sûrun banc d'essai de sécurité RL, sera utilisé pour examiner et comparer les approches de contrôle avec une variété de perturbations appliquées.

Cette revue vise à fournir une base pour la poursuite de la recherche sur le contrôle robuste avec RL et à présenter des outils utiles, tels que safe-control-gym, qui peuvent être utilisés pour évaluer les performances de nouveaux algorithmes robustes. 

Contexte

Figure 1. Apprentissage par renforcement avec perturbations

Dans l'apprentissage par renforcement, un agentdans le cas présent, un robot simulé, effectue une action et reçoit un retour d'information ou une récompense de l'environnement l'environnement en fonction de la conformité de l'action avec le comportement souhaité (c'est-à-dire si elle a rapproché l'agent de l'objectif, s'il a suivi une trajectoire de près), perçoit la mise à jour de l état résultant de l'action entreprise et répète le processus, en apprenant au fur et à mesure à améliorer les actions qu'il entreprend pour se rapprocher du comportement souhaité et atteindre ses objectifs. Ce comportement est appelé politique et fait correspondre l'état de l'agent à l'action.

Dans cette étude, nous introduisons des perturbations à différents points de cette boucle afin de simuler les situations réelles que l'agent pourrait rencontrer. Le système utilisé est un chariot se déplaçant le long d'un rail à une dimension. 

  • Perturbations dynamiques externes sont des perturbations directement appliquées au robot qui peuvent être considérées comme des facteurs environnementaux tels que le vent ou d'autres forces externes. Dans les expériences suivantes, cette perturbation est bidimensionnelle et mesurée en newtons. Elle est mise en œuvre sous la forme d'une force de frappe appliquée au sommet de la perche.
  • Perturbations de l'action peuvent se produire lorsque l'actionnement des moteurs du robot ne correspond pas exactement à la sortie de commande spécifiée, ce qui entraîne une différence entre l'action réelle et l'action prévue. Dans les expériences suivantes, cette perturbation est unidimensionnelle et mesurée en newtons. Il s'agit d'une force dans la direction x directement appliquée à l'articulation glissière-chariot.
  • Les perturbations d'état/d'observation se produisent lorsque les capteurs du robot ne peuvent pas percevoir l'état exact du robot. Il s'agit d'un problème très courant en robotique, qui est traité par des méthodes d'estimation de l'état. Dans les expériences suivantes, cette perturbation est quadridimensionnelle, tout comme l'état, et est mesurée en mètres dans la première dimension, en radians dans la deuxième, en mètres par seconde dans la troisième et en radians par seconde dans la quatrième. Cette perturbation est mise en oeuvre en modifiant directement l'état observé par le système.

salle de sport sécurisée

Figure 2. Schéma fonctionnel de la salle de gymnastique sécurisée (source)

Gymnastique de contrôle est une salle de sport de référence RL d'évaluation développé par le Laboratoire des systèmes dynamiques dirigé par le professeur Angela Schoellig de l'Institut d'études aérospatiales de l'université de Toronto. Ce gymnase permet de combler le fossé entre les environnements simulés et les environnements réels tout en fournissant des outils pour évaluer la sécurité.

Voici quelques points forts de la salle de sport : 

  • Exploite le moteur physique de PyBullet et le cadre symbolique de CasADi (qui permet de prendre en charge le contrôle traditionnel et les approches basées sur un modèle).
  • Permet de spécifier des contraintes sur l'état et l'entrée et de suivre les violations de contraintes pendant la formation et les tests.
  • Il permet de spécifier des perturbations sur l'état, l'entrée et la dynamique externe et d'initialiser aléatoirement l'état et les propriétés inertielles pour tester la robustesse tout au long de l'entraînement et des essais.
  • met en œuvre plusieurs approches de contrôle traditionnelles, RL et basées sur l'apprentissage qui peuvent être facilement comparées à une approche de contrôle nouvellement mise en œuvre.
  • Fournit plus de 3 robots différents pour s'entraîner/tester (y compris des agents cartpole et quadrotors dans des environnements unidimensionnels, bidimensionnels et tridimensionnels).

Dans le document publié avec le référentiel, la sécurité est décomposée en robustesse et en satisfaction des contraintes. La satisfaction des contraintes des approches mises en œuvre dans le gymnase est étudiée plus en profondeur dans le document. Compte tenu de l'importance de la robustesse pour la transposition dans le monde réel de la RL et des autres approches apprises, il est utile d'explorer en détail les performances des approches de contrôle dans le contexte de la robustesse, comme cela est fait dans cette revue.

Agents RL

Pour simplifier ces expériences, la formation et l'évaluation seront effectuées à l'aide de l'environnement cartpole sur un sous-ensemble de contrôleurs. 

Les contrôleurs qui seront comparés sont les suivants : 

  • Optimisation de la politique proximale (PPO)
  • Acteur-Critique souple (SAC)
  • Apprentissage par renforcement robuste (RARL)
  • Apprentissage par renforcement robuste avec des populations adverses (RARL) 
  • PPO avec une couche de sécurité (Safe Explorer PPO)

Optimisation de la politique proximale (PPO)

PPO est une méthode de gradient de politique de pointe proposée en 2017 par OpenAI. Elle améliore les méthodes d'optimisation des politiques précédentes comme TRPO (Trust Region Policy Optimisation) et ACER (Actor-Critic with Experience Replay). PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle fonction objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.

safe-control-gym Mise en œuvre de l'OPP

Acteur-Critique souple (SAC) 

SAC est un algorithme de RL profond critique des acteurs hors politique proposé en 2018 par le laboratoire de recherche en intelligence artificielle de l'UC Berkeley. L'algorithme fusionne l'optimisation stochastique de la politique et les méthodes hors politique comme DDPG (Deep Deterministic Policy Gradient). Cela lui permet de mieux s'attaquer au compromis exploration-exploitation omniprésent dans tous les problèmes d'apprentissage par renforcement en faisant en sorte que l'acteur maximise à la fois la récompense et l'entropie de la politique. Cela permet d'accroître l'exploration et d'éviter que la politique ne reste bloquée dans des optima locaux.

Mise en œuvre du CAS "safe-control-gym

Apprentissage par renforcement robuste (RARL)

RARL a été proposé en 2017 par des chercheurs de l'université Carnegie Mellon et de Google Brain. Contrairement aux deux approches précédentes, RARLainsi que l'approche suivante, RAP, sont conçues pour être robustes et combler le fossé entre les résultats simulés et les performances dans le monde réel. Pour ce faire, un adversaire est introduit, qui apprend une politique de déstabilisation optimale et applique ces forces déstabilisantes à l'agent, augmentant ainsi sa robustesse aux perturbations réelles.

safe-control-gym Mise en œuvre de RARL

Apprentissage par renforcement robuste avec des populations adverses (RAP)

RAP est un algorithme introduit par des chercheurs de l'UC Berkeley en 2020 qui étend RARL en introduisant une population d'adversaires qui sont échantillonnés et contre lesquels on s'entraîne. Cet algorithme espère réduire la vulnérabilité des formulations adverses précédentes face aux nouveaux adversaires en augmentant les types d'adversaires et donc les comportements adverses observés lors de l'entraînement.

safe-control-gym Mise en œuvre du PAR

PPO avec couche de sécurité (Safe Explorer PPO)

La couche de sécurité couche de sécurité est une approche proposée par des chercheurs de l'Institut israélien de technologie et de Google DeepMind. Elle ajoute une couche directement à la politique qui corrige l'action à chaque étape afin qu'elle ne viole pas les contraintes définies. La fonction de correction de l'action est apprise sur des trajectoires passées avec des actions arbitraires.

safe-control-gym Mise en œuvre d'un OPP sûr

Expériences

Safe-control-gym fournit une pléthore de paramètres pour tester les effets des changements de paramètres du robot et de différents types de bruits/perturbations sur les actions, les observations et la dynamique externe de l'agent au cours de la formation et de l'évaluation. Pour limiter la portée de cet examen, les approches de contrôle seront évaluées sur différents types de bruit dans les trois catégories disponibles et non sur des incertitudes de paramètres. 

Chaque agent RL a été formé à l'aide d'un état initial aléatoire afin d'améliorer les performances[1]. Pour des raisons de cohérence dans les tests, un seul état initial arbitraire est utilisé. La gamme des niveaux de perturbation utilisés dans chaque expérience a ensuite été réglée manuellement pour trouver une série de valeurs permettant de comparer les performances des agents à des niveaux de perturbation relativement faibles jusqu'à ce qu'ils ne parviennent plus à stabiliser le chariot. L'objectif du contrôleur est de stabiliser le chariot à une position de 0 m, ou centre, en x et de 0 rads en thêta, lorsque le poteau est debout. 

Robustesse

Pour mesurer la robustesse et les performances de ces contrôleurs, la moyenne du rendement quadratique négatif est calculée sur la durée de chaque cycle d'évaluation sur 25 cycles d'évaluation. La même fonction coût/récompense a été utilisée pour la formation et l'évaluation.

L'équation 1 montre le coût calculé à chaque étape, id'un cycle d'évaluation où x et xᵍᵒᵃˡ représentent l'état réel et l'état cible du système, u et uᵍᵒᵃˡ sont l'entrée réelle et l'entrée cible du système, et Wₓ et Wᵤ sont des poids de récompense constants. L est le nombre d'étapes d'une évaluation donnée. L'équation 2 montre le rendement calculé à partir de la fonction de coût où L est le nombre d'étapes de l'exécution. L peut atteindre un maximum de 250 étapes, mais ce nombre sera inférieur si l'agent échoue prématurément. L'équation 3 montre le rendement moyen pour N (25) cycles d'évaluation, appelé récompense dans la présente étude.

En plus de cette mesure quantitative, des visualisations de la performance des approches seront fournies pour une comparaison qualitative dans certains cas. 

Satisfaction des contraintes

Comme la majorité de ces approches n'intègrent pas la satisfaction des contraintes et que celle-ci a été étudiée dans l'article susmentionné, la satisfaction des contraintes ne sera pas évaluée dans le cadre de cette étude. Cependant, si la mise en œuvre de versions de ces approches qui permettent la satisfaction des contraintes est intéressante, voir l'article intitulé article sur le contrôle de la gymnastique en toute sécurité pour plus d'informations.

Expérience 0 : lignes de base

Tout d'abord, examinons les résultats sans aucune perturbation appliquée pendant la formation ou l'évaluation. Cela montre la robustesse de base des contrôleurs sans avoir vu de bruit pendant la formation ou avoir à compenser les perturbations pendant l'évaluation. Il devrait donc s'agir de la meilleure performance qu'ils puissent atteindre dans un environnement essentiellement idéal.

Figure 3. Nombre d'étapes de formation par rapport à la récompense de l'évaluation, en moyenne sur 10 exécutions

Figure 4. Nombre d'étapes de formation par rapport à l'EQM de l'évaluation, moyenne sur 10 exécutions

Les performances de base de chacun des contrôleurs peuvent être visualisées dans les GIF ci-dessous.

Fig. 5. Base de référence de l'OPP

Fig. 6. Base SAC

Fig. 7. Ligne de base RARL

Fig. 8. Référence RAP

Fig. 9. PPO avec couche de sécurité de base

Discussion

Les trois algorithmes qui atteignent le plus rapidement la convergence sont SAC, PPO et RAP. SAC et PPO bénéficient des caractéristiques stochastiques de leurs mises à jour. RARL et safe explorer PPO s'entraînent plus lentement. Cela est normal pour RARL, car il apprend également à contrer l'adversaire, bien que ce comportement ne soit pas observé pour RAP. L'explorateur sûr PPO n'obtient pas une récompense aussi élevée que les autres algorithmes au cours de l'apprentissage. 

Performance de Safe Explorer PPO

L'expérience 0 montre que si les quatre premiers algorithmes ont des performances très similaires, l'explorateur sûr PPO n'obtient pas de bons résultats dans l'expérience la plus simple. Dans la configuration du contrôleur, deux contraintes absolues sont fixées, l'une sur theta et l'autre sur x, ce qui réduit l'état autorisé de l'agent. Cependant, la couche de sécurité ne peut satisfaire qu'une seule contrainte à la fois, ce qui entraîne un échec si une contrainte est rompue alors que l'on tente de satisfaire l'autre. Bien que la satisfaction des contraintes soit un élément essentiel de la sécurité, nous ne l'explorerons pas plus avant dans le présent rapport et cette approche sera donc omise dans les expériences ultérieures, car elle ne fournit pas de comparaison utile. Une discussion plus approfondie sur la satisfaction des contraintes est disponible dans le document lié à la page GitHub safe-control-gym. 

Expérience 1 : perturbations dues au bruit blanc 

Safe-control-gym offre la possibilité d'appliquer des perturbations aux entrées, aux observations et à la dynamique externe afin de simuler les différents points où le bruit peut être présent dans le système. Pour commencer, nous examinerons les perturbations de type bruit blanc pour imiter le bruit stochastique naturel qu'un agent peut voir dans le monde réel. 

Figure 10. Exemple de bruit blanc unidimensionnel

Le bruit est appliqué pendant les essais à des valeurs croissantes de l'écart-type par rapport à zéro. Dans les trois figures suivantes, les résultats pour la dynamique externe, les actions et les observations sont respectivement les suivants : 

Figure 11. Comparaison de la récompense de l'évaluation pour le bruit blanc appliqué à la dynamique externe

Figure 12. Comparaison de la récompense de l'évaluation pour le bruit blanc appliqué aux actions

Figure 13. Comparaison de la récompense de l'évaluation pour le bruit blanc appliqué aux observations

Discussion

Les performances sont très similaires d'une approche de contrôle à l'autre pour les perturbations de bruit blanc sur la dynamique externe, avec une diminution linéaire de la récompense à mesure que le bruit augmente. Le PPO est légèrement plus performant. Il est surprenant de constater que les approches robustes, RARL et RAP, ne présentent pas de différence significative en termes de performances. Les performances avec les perturbations sont illustrées à la figure 14. 

 

Figure 14. Performance de l'OPP avec une perturbation de bruit blanc sur la dynamique externe pour des valeurs d'écart type de 0,1, 0,5 et 1,0.

Pour les perturbations liées à l'action, le RARL obtient systématiquement la récompense la plus élevée. Pour les perturbations dues à l'observation, c'est le PPO qui est le plus rémunérateur. Les figures 15 et 16 montrent les performances des approches de contrôle pour certaines valeurs de l'écart-type afin de visualiser la différence de performance. Dans l'ensemble, la différence de performance entre les quatre approches n'est pas importante et elles démontrent toutes leur robustesse lorsqu'un bruit blanc est appliqué aux observations et aux actions.

 

 

     

Figure 15. Visualisation des performances avec un bruit blanc appliqué aux actions avec un écart-type de 4,0

Figure 16. Visualisation des performances avec un bruit blanc appliqué aux observations avec un écart-type de 0,15

Expérience 2 : perturbations de pas

Les perturbations par paliers nous permettent de voir la réaction du système à un changement soudain et durable.

Figure 17. Exemple d'une fonction en escalier unidimensionnelle

Comme pour l'expérience précédente, la perturbation est appliquée à des niveaux variables, ici en tant qu'ampleur de l'étape. L'étape est fixée à deux étapes dans l'épisode pour tous les essais. 

Figure 18. Comparaison de la récompense de l'évaluation pour une perturbation en échelon appliquée à la dynamique externe

Figure 19. Comparaison de la récompense de l'évaluation pour une perturbation en échelon appliquée aux actions

Figure 20. Comparaison de la récompense de l'évaluation pour une perturbation par paliers appliquée aux observations

Discussion

Par rapport à la robustesse des contrôleurs au bruit blanc, la perturbation par paliers a un effet beaucoup plus important et des perturbations de faible ampleur entraînent une forte diminution de la récompense. La récompense diminue considérablement lorsque l'agent ne peut plus stabiliser le mât, comme le montrent les figures 19 et 20. 

Pour les perturbations par paliers de la dynamique externe, il n'y a pas de contrôleur significativement meilleur, bien que PPO ait une récompense plus élevée dans l'ensemble pour les différentes amplitudes. Pour les actions et les observations, le PPO obtient à nouveau la meilleure performance globale, sa récompense ne diminuant qu'une fois que l'amplitude de l'échelon atteint plus de 5 N pour les perturbations d'action, ce qui est comparativement beaucoup plus élevé que les autres approches. SAC conserve une récompense légèrement plus élevée que les autres approches, mais c'est là que SAC échoue rapidement lorsque l'amplitude de l'échelon est élevée. Il en résulte une récompense plus élevée en raison d'un dénominateur plus petit (moins d'étapes) dans l'équation 3. Ce comportement est illustré à la figure 22, où SAC échoue alors que PPO parvient à stabiliser le cartpole. 

Figure 21. Visualisation des performances avec une perturbation de type "action step" d'une magnitude de 2,0

Figure 22. Visualisation de la performance avec une perturbation de type "action step" d'une magnitude de 4,5

Parmi toutes ces approches, la PPO est la plus robuste en ce qui concerne les perturbations de l'échelon. 

Expérience 3 : Perturbations impulsionnelles

Les perturbations impulsionnelles nous permettent de voir la réponse du système à un changement soudain, mais temporaire. 

Figure 23. Exemple de fonction d'impulsion unidimensionnelle

Une fois de plus, nous examinons différents niveaux d'amplitude de l'impulsion pour tester la robustesse des contrôleurs. La largeur de l'impulsion est maintenue à 2 pas pour toutes les exécutions. 

Figure 24. Comparaison de la salle d'évaluation pour une perturbation impulsionnelle appliquée à la dynamique externe

Figure 25. Comparaison de la récompense de l'évaluation pour une perturbation impulsionnelle appliquée aux actions

Figure 26. Comparaison de la récompense de l'évaluation pour une perturbation impulsionnelle appliquée aux observations

Discussion

La diminution spectaculaire de la récompense observée dans l'expérience précédente avec la perturbation par étapes est encore plus prononcée avec la perturbation par impulsions. Les perturbations par impulsion peuvent être traitées plus facilement que les perturbations par palier, ce qui est compréhensible car les réponses par palier exigent que le système s'adapte à une nouvelle ligne de base, alors que pour les perturbations par impulsion, le changement n'est que temporaire, ce qui permet à l'agent de gérer des perturbations de plus grande ampleur. En revanche, le changement de récompense est plus spectaculaire lorsque la forte perturbation empêche l'agent de se stabiliser, comme le montrent les figures 24 et 25. Le PPO est le plus robuste aux perturbations impulsionnelles de la dynamique externe et le RARL a une robustesse accrue par rapport à ses performances avec les perturbations par paliers. 

En ce qui concerne les perturbations appliquées aux actions, SAC et PPO sont en mesure de gérer des perturbations impulsionnelles de plus grande ampleur que RARL ou RAP. 

Figure 27. Visualisation de la performance avec une perturbation impulsionnelle d'une magnitude de 110

La perturbation impulsionnelle sur les observations n'affecte aucune des approches de contrôle, même à des valeurs très élevées. Cela peut être dû au fait que la perturbation se produit en deux étapes, ce qui signifie que l'effet ne dure pas comme les autres types de perturbations présentés précédemment. 

Enquête complémentaire : Perturbations périodiques

Outre le bruit blanc, les perturbations par paliers et les impulsions, il est intéressant d'étudier la capacité des contrôleurs à gérer les perturbations périodiques. Ces types de perturbations constituent un défi pour les approches, car il existe une perturbation constante, similaire au bruit blanc, qui les oblige à être robustes face à des modèles de perturbation plus complexes.

Expérience 4 : Perturbations de l'onde de scie

Une dent de scie ou onde de scie est une onde cyclique qui augmente linéairement jusqu'à une magnitude donnée et retombe instantanément à un point de départ avant de répéter le cycle. Ce type de perturbation présente certaines des caractéristiques des perturbations par paliers et par impulsions, mais il est maintenant appliqué périodiquement pendant toute la durée de l'évaluation.

Figure 28. Exemple d'une onde en dents de scie unidimensionnelle

L'amplitude ou la magnitude de l'onde est modifiée dans cette expérience, tandis que la période, le signe et le décalage restent les mêmes pour tous les essais. Le signe de l'onde peut être sélectionné pour chaque dimension. Si le signe est négatif, la fonction d'onde diminuera de la valeur de départ à la magnitude fixée et pour un signe positif, la fonction d'onde augmentera de la valeur de départ à la valeur de magnitude. Pour les perturbations dynamiques externes, la première dimension a un signe positif et la deuxième dimension a un signe négatif. Pour la perturbation de l'action, qui est unidimensionnelle, le signe est positif. Pour les perturbations d'observation, la première et la troisième dimension ont un signe positif et la deuxième et la quatrième ont un signe négatif.

Figure 29. Comparaison de la récompense de l'évaluation pour une perturbation en forme d'onde de scie appliquée à la dynamique externe

Figure 30. Comparaison de la récompense de l'évaluation pour une perturbation due à une vague de scie appliquée aux actions

Figure 31. Comparaison de la récompense de l'évaluation pour une perturbation par ondes de scie appliquée aux observations

Discussion

La différence de performance entre les approches semble moins évidente par rapport aux autres types de perturbations appliquées dans les expériences précédentes. Pour les perturbations de la dynamique externe, il y a peu de différence de performance entre les approches de contrôle. RARL est plus performant que les autres approches à des amplitudes de bruit plus faibles et SAC, comme dans l'expérience 3, a une récompense plus élevée en raison d'une défaillance rapide. Pour les perturbations de l'action, le PPO montre une faible diminution de la récompense alors que les autres approches, en particulier le SAC, ont une récompense plus faible.

Figure 32. Visualisation de la performance en cas de perturbation due à une onde de scie sur des actions d'une amplitude/magnitude de 4,0

La figure 32 montre que le RAP et le RARL échouent plus souvent que le PPO et le SAC, ce qui se traduit par une récompense moyenne plus faible. SAC met plus de temps à se stabiliser, ce qui crée un dénominateur plus important dans l'équation 3, et donc une récompense plus faible. Lorsque la perturbation de l'onde de scie est appliquée aux observations, toutes les approches ont des difficultés à se stabiliser et la récompense tombe rapidement à zéro.

Expérience 5 : Perturbations de l'onde triangulaire

Une onde triangulaire est une onde cyclique qui augmente linéairement jusqu'à une valeur donnée et diminue au même rythme jusqu'à un point de départ avant de se répéter. Ce type de perturbation est très similaire à l'onde de scie, mais son comportement est plus proche de celui d'une onde sinusoïdale.

Figure 33. Exemple d'onde triangulaire

Les mêmes paramètres ont été utilisés pour cette expérience que pour la précédente.

Figure 34. Comparaison de la récompense de l'évaluation pour une perturbation de type onde triangulaire appliquée à la dynamique externe

Figure 35. Comparaison de la récompense de l'évaluation pour une perturbation de type onde triangulaire appliquée aux actions

Figure 36. Comparaison de la récompense de l'évaluation pour une perturbation de type onde triangulaire appliquée aux observations

Discussion

Comme prévu, les résultats des perturbations par onde triangulaire sont similaires à ceux des perturbations par onde en dents de scie. La perturbation par onde triangulaire donne lieu à une récompense légèrement inférieure à celle de la perturbation par onde en dents de scie, mais les performances relatives des approches de contrôle restent les mêmes. Les performances de SAC sont légèrement inférieures dans le cas des perturbations appliquées à la dynamique. La baisse de la récompense survient plus tôt pour tous les contrôleurs dans le cas des perturbations appliquées aux observations, ce qui montre la sensibilité accrue à la perturbation par onde triangulaire par rapport à la perturbation par onde en dents de scie.

Expérience 6 : Entraînement avec perturbations

Dans les expériences précédentes, aucune perturbation n'a été introduite pendant la formation. On peut s'attendre à ce que l'introduction d'un certain niveau de bruit ou de perturbation pendant la formation améliore les performances des contrôleurs pendant l'évaluation. Le fait de voir plus de variations dans l'environnement pendant l'entraînement crée un modèle plus généralisé, de la même manière que le RARL et le RAP utilisent un adversaire pour accroître la robustesse. 

Par conséquent, dans cette expérience, nous examinerons deux approches de contrôle différentes, PPO, une approche RL classique de pointe, et RAP, une approche robuste récente, entraînée sur des niveaux variables de bruit blanc (pour 1000000 étapes) afin de voir si la robustesse est améliorée. 

Figure 37. Carte thermique de la récompense de l'évaluation de l'OPP et du PAR formés et testés avec différents niveaux de bruit blanc appliqués à la dynamique externe

Figure 38. Carte thermique des récompenses de l'évaluation de PPO et RAP formés et testés avec différents niveaux de bruit blanc appliqués aux actions

Figure 39. Carte thermique de la récompense de l'évaluation de l'OPP et du PAR formés et testés avec différents niveaux de bruit blanc appliqués aux observations

En général, les performances de l'évaluation sur des niveaux de bruit plus élevés sont en fait meilleures lorsque l'entraînement se fait sur des niveaux de bruit plus faibles, tout en atteignant les meilleures performances lorsque l'entraînement se fait sans perturbations. Pour les perturbations de la dynamique externe, la récompense diminue progressivement à mesure que le bruit d'entraînement augmente. Pour des valeurs de bruit d'entraînement plus élevées, la récompense pour des valeurs de bruit de test plus élevées s'améliore légèrement, ce qui suggère une légère amélioration des performances. Pour les perturbations de l'action, la récompense n'est pas affectée par l'augmentation du bruit d'entraînement ou du bruit de test, sauf pour certaines valeurs élevées où la récompense diminue de façon spectaculaire. En général, l'ajout de bruit d'entraînement ne produit pas d'amélioration de la robustesse face aux perturbations de l'action. En ce qui concerne le bruit ajouté aux observations, on observe une diminution soudaine de la récompense, qui devient presque nulle lorsque le bruit est introduit pendant l'apprentissage. RAP, qui utilise des populations adverses pour l'apprentissage, a généralement une récompense plus élevée que PPO et semble avoir une performance légèrement meilleure pour des valeurs plus élevées de bruit d'apprentissage, bien que cela soit négligeable. L'introduction de bruit dans la dynamique externe pendant l'entraînement semble être le seul cas où l'on observe une amélioration. 

Figure 40. PPO formé sans perturbations, testé sur des perturbations dynamiques externes de bruit blanc avec un écart type de 0, 0,5, 1,0

Figure 41. PPO entraîné avec un bruit blanc d'écart-type 0,25, testé sur une dynamique externe perturbée par un bruit blanc d'écart-type 0, 0,5, 1,0.

On pourrait faire valoir que si l'on disposait de plus de temps pour s'entraîner dans cet environnement plus difficile, il serait possible d'obtenir de meilleurs résultats. C'est pourquoi le modèle de l'OPP pour la dynamique externe a été entraîné pour 500 000 et 1 000 000 de pas supplémentaires, car c'est le seul cas où l'on peut observer un potentiel d'amélioration.

Figure 42. Carte thermique des récompenses de l'évaluation des OPP formés et testés sur différents niveaux de bruit blanc pour 500 000, 1 500 000 et 2 000 000 pas.

Dans la figure 42, les résultats de l'entraînement à moins de 1 000 000 d'étapes (500 000 étapes) montrent que la récompense est toujours inférieure à celle du meilleur modèle. Au fur et à mesure que le modèle est entraîné, à 1 500 000 et 2 000 000 pas, ses performances se dégradent encore, ce qui se traduit par une récompense plus faible pour les mêmes valeurs de bruit de test et d'entraînement. On observe une légère amélioration pour des valeurs élevées de bruit d'entraînement à 1 500 000 pas, bien qu'elle ne soit pas comparable à la performance en l'absence de bruit d'entraînement. Cette amélioration disparaît au fur et à mesure que l'entraînement se poursuit. Une explication possible de ce résultat est que le modèle n'a pas la capacité d'apprendre le comportement des deux systèmes (le cartpole et le bruit), ce qui se traduit par de moins bonnes performances, mais une exploration plus poussée est nécessaire.

Une extension intéressante de cette expérience consisterait à entraîner les modèles pendant un certain nombre d'épisodes sans perturbations, puis à introduire des perturbations, soit en continuant à s'entraîner avec des perturbations, soit en alternant entre avec et sans perturbations. En outre, la variation des paramètres de la perturbation, similaire à l'approche de RAP, pourrait contribuer à améliorer la diversité des perturbations observées lors de l'entraînement. Cette question est laissée en suspens pour des travaux futurs. 

Dans l'ensemble, ces résultats suggèrent qu'il n'y a pas d'amélioration de la performance et que celle-ci peut souvent diminuer lorsque le bruit est inclus dans la formation, même avec des sessions de formation plus longues. 

Conclusion et perspectives

À partir de cet examen, nous pouvons commencer à comprendre les effets des perturbations sur les algorithmes d'apprentissage par renforcement pendant la formation et les tests. La robustesse à ces perturbations continuera à prendre de l'importance au fur et à mesure que les algorithmes seront appliqués dans le monde réel.

Les approches sont robustes face aux perturbations des actions, mais sont souvent plus difficiles à gérer face aux perturbations de la dynamique et des observations, ce qui entraîne des diminutions importantes et soudaines de la récompense, sauf dans le cas de perturbations impulsives des observations. Pour mieux gérer ces perturbations, l'estimation de l'état est un élément supplémentaire dont bénéficieraient de nombreuses approches RL appliquées au contrôle robotique. Cette composante pourrait être un modèle appris ou connu introduit dans le système qui améliorera la connaissance de l'état de l'agent en présence de perturbations et d'incertitude. Garantir à l'agent une meilleure connaissance de son état serait un ajout nécessaire pour l'application de l'apprentissage par renforcement dans le monde réel.

Si l'on considère les résultats dans leur ensemble, l'algorithme le plus robuste est PPO, qui obtient le plus souvent la récompense la plus élevée pour tous les types de perturbations sur la dynamique externe, les actions et les observations dans ces expériences. RARL et SAC semblent être les approches suivantes les plus robustes, obtenant des récompenses plus élevées l'une que l'autre dans différentes expériences. RAP est souvent moins stable que RARL ou SAC. 

En ce qui concerne l'utilisation des perturbations dans la formation pour améliorer les performances, la simple introduction de perturbations tout au long de la formation ne semble pas être une approche prometteuse et compromet souvent les performances de l'approche. D'autres méthodes non contradictoires d'introduction de perturbations pendant la formation pour améliorer les performances devraient être explorées.

L'apprentissage par renforcement robuste continuera à se développer pour assurer la sécurité dans les environnements réels. Dans le contexte du travail avec le safe-control-gym, de nombreuses étapes intéressantes peuvent être franchies. 

  • Mise en œuvre d'un algorithme RL plus récent conçu pour être robuste (par exemple, les algorithmes ATLA et RH-UCRL)
  • Comparaison des algorithmes RL aux approches de contrôle traditionnelles telles que le contrôle prédictif de modèle ou le contrôle prédictif de modèle avec des processus gaussiens (GP MPC), tous deux disponibles dans safe-control-gym.
  • Mettre en œuvre d'autres types de perturbations et trouver différentes manières d'introduire des perturbations pour améliorer les performances au cours de la formation, comme indiqué dans l'expérience 6. 
  • Réaliser ces mêmes expériences sur différentes tâches, telles que le suivi, et avec différents agents robotiques, tels que le quadrotor, ce qui est possible avec safe-control-gym. 

Remerciements 

Ce rapport bénéficie du soutien de l'Institut Vecteur et du Laboratoire des systèmes dynamiques. Je tiens à remercier tout particulièrement Amrit Krishnan (Institut Vecteur), Jacopo Panerati (Laboratoire des systèmes dynamiques), Justin Yuan (Laboratoire des systèmes dynamiques) et le professeur Angela Schoellig (Laboratoire des systèmes dynamiques) pour leur soutien et leurs conseils. 

Références

[1] B. Mehta, M. Diaz, F. Golemo, C. J. Pal, L. Paull, "Active Domain Randomization", Proceedings of the Conference on Robot Learning, vol. 100, pp. 1162-1176, Oct. 2020

En rapport :

Photo de Wenhu Chen, membre de la faculté Vector
2024
Perspectives
Recherche
Recherche 2024

Wenhu Chen, chercheur en sciences vectorielles, sur l'amélioration et l'étalonnage des modèles de fondation

Vector Membre de la faculté Gautam Kamath
2024
Perspectives
Recherche
Recherche 2024

Gautam Kamath, chercheur spécialisé dans les vecteurs, analyse les derniers développements en matière de robustesse et de protection de la vie privée.

2024
Perspectives
Grands modèles linguistiques
Recherche
Recherche 2024

Des protocoles normalisés sont essentiels pour un déploiement responsable des modèles linguistiques