Vector AI Engineering Blog : Benchmarking Robustness of Reinforcement Learning Approaches using safe-control-gym (en anglais)
23 août 2022
23 août 2022
Par Catherine Glossop
23 août 2022
Les robots sont de plus en plus présents dans notre vie quotidienne : ils prennent la route sous la forme de véhicules autonomes, participent aux opérations dans nos hôpitaux, travaillent à nos côtés dans l'industrie et font même leur apparition dans nos propres maisons.
L'apprentissage par renforcement est devenu un domaine de recherche prometteur pour les robots qui apprennent à effectuer des tâches. Il a été appliqué au suivi de trajectoire, à l'atteinte d'objectifs et à de nombreux autres problèmes pour divers types de robots, depuis les manipulateurs robotiques jusqu'aux véhicules autopilotés. La sécurité lors de l'utilisation de l'apprentissage par renforcement (RL) pour résoudre ces problèmes du monde réel doit être primordiale. Une interaction dangereuse avec l'environnement et les personnes qui s'y trouvent peut avoir de graves conséquences, allant, surtout, de la blessure des personnes à la destruction du robot lui-même. Pour que la sécurité soit garantie, l'agent (robot) doit satisfaire aux contraintes qui définissent un comportement sûr (c'est-à-dire ne pas produire d'actions qui endommagent le robot, heurtent des obstacles ou des personnes) et être résistant aux variations de l'environnement, à sa propre dynamique et aux situations imprévues qui apparaissent dans le monde réel.
Dans cette revue, les performances des approches d'apprentissage par renforcement existantes dans le contexte du contrôle robotique ("contrôleurs") seront évaluées en fonction de leur robustesse et de leurs performances quantitatives et qualitatives. Pour ce faire, gymnase de contrôle sûrun banc d'essai de sécurité RL, sera utilisé pour examiner et comparer les approches de contrôle avec une variété de perturbations appliquées.
Cette revue vise à fournir une base pour la poursuite de la recherche sur le contrôle robuste avec RL et à présenter des outils utiles, tels que safe-control-gym, qui peuvent être utilisés pour évaluer les performances de nouveaux algorithmes robustes.
Figure 1. Apprentissage par renforcement avec perturbations
Dans l'apprentissage par renforcement, un agentdans le cas présent, un robot simulé, effectue une action et reçoit un retour d'information ou une récompense de l'environnement l'environnement en fonction de la conformité de l'action avec le comportement souhaité (c'est-à-dire si elle a rapproché l'agent de l'objectif, s'il a suivi une trajectoire de près), perçoit la mise à jour de l état résultant de l'action entreprise et répète le processus, en apprenant au fur et à mesure à améliorer les actions qu'il entreprend pour se rapprocher du comportement souhaité et atteindre ses objectifs. Ce comportement est appelé politique et fait correspondre l'état de l'agent à l'action.
Dans cette étude, nous introduisons des perturbations à différents points de cette boucle afin de simuler les situations réelles que l'agent pourrait rencontrer. Le système utilisé est un chariot se déplaçant le long d'un rail à une dimension.
Figure 2. Schéma fonctionnel de la salle de gymnastique sécurisée (source)
Gymnastique de contrôle est une salle de sport de référence RL d'évaluation développé par le Laboratoire des systèmes dynamiques dirigé par le professeur Angela Schoellig de l'Institut d'études aérospatiales de l'université de Toronto. Ce gymnase permet de combler le fossé entre les environnements simulés et les environnements réels tout en fournissant des outils pour évaluer la sécurité.
Voici quelques points forts de la salle de sport :
Dans le document publié avec le référentiel, la sécurité est décomposée en robustesse et en satisfaction des contraintes. La satisfaction des contraintes des approches mises en œuvre dans le gymnase est étudiée plus en profondeur dans le document. Compte tenu de l'importance de la robustesse pour la transposition dans le monde réel de la RL et des autres approches apprises, il est utile d'explorer en détail les performances des approches de contrôle dans le contexte de la robustesse, comme cela est fait dans cette revue.
Pour simplifier ces expériences, la formation et l'évaluation seront effectuées à l'aide de l'environnement cartpole sur un sous-ensemble de contrôleurs.
Les contrôleurs qui seront comparés sont les suivants :
PPO est une méthode de gradient de politique de pointe proposée en 2017 par OpenAI. Elle améliore les méthodes d'optimisation des politiques précédentes comme TRPO (Trust Region Policy Optimisation) et ACER (Actor-Critic with Experience Replay). PPO réduit la complexité de la mise en œuvre, de l'échantillonnage et du réglage des paramètres en utilisant une nouvelle fonction objective qui effectue une mise à jour de la région de confiance compatible avec la descente de gradient stochastique.
safe-control-gym Mise en œuvre de l'OPP
SAC est un algorithme de RL profond critique des acteurs hors politique proposé en 2018 par le laboratoire de recherche en intelligence artificielle de l'UC Berkeley. L'algorithme fusionne l'optimisation stochastique de la politique et les méthodes hors politique comme DDPG (Deep Deterministic Policy Gradient). Cela lui permet de mieux s'attaquer au compromis exploration-exploitation omniprésent dans tous les problèmes d'apprentissage par renforcement en faisant en sorte que l'acteur maximise à la fois la récompense et l'entropie de la politique. Cela permet d'accroître l'exploration et d'éviter que la politique ne reste bloquée dans des optima locaux.
Mise en œuvre du CAS "safe-control-gym
RARL a été proposé en 2017 par des chercheurs de l'université Carnegie Mellon et de Google Brain. Contrairement aux deux approches précédentes, RARLainsi que l'approche suivante, RAP, sont conçues pour être robustes et combler le fossé entre les résultats simulés et les performances dans le monde réel. Pour ce faire, un adversaire est introduit, qui apprend une politique de déstabilisation optimale et applique ces forces déstabilisantes à l'agent, augmentant ainsi sa robustesse aux perturbations réelles.
safe-control-gym Mise en œuvre de RARL
RAP est un algorithme introduit par des chercheurs de l'UC Berkeley en 2020 qui étend RARL en introduisant une population d'adversaires qui sont échantillonnés et contre lesquels on s'entraîne. Cet algorithme espère réduire la vulnérabilité des formulations adverses précédentes face aux nouveaux adversaires en augmentant les types d'adversaires et donc les comportements adverses observés lors de l'entraînement.
safe-control-gym Mise en œuvre du PAR
La couche de sécurité couche de sécurité est une approche proposée par des chercheurs de l'Institut israélien de technologie et de Google DeepMind. Elle ajoute une couche directement à la politique qui corrige l'action à chaque étape afin qu'elle ne viole pas les contraintes définies. La fonction de correction de l'action est apprise sur des trajectoires passées avec des actions arbitraires.
safe-control-gym Mise en œuvre d'un OPP sûr
Safe-control-gym fournit une pléthore de paramètres pour tester les effets des changements de paramètres du robot et de différents types de bruits/perturbations sur les actions, les observations et la dynamique externe de l'agent au cours de la formation et de l'évaluation. Pour limiter la portée de cet examen, les approches de contrôle seront évaluées sur différents types de bruit dans les trois catégories disponibles et non sur des incertitudes de paramètres.
Chaque agent RL a été formé à l'aide d'un état initial aléatoire afin d'améliorer les performances[1]. Pour des raisons de cohérence dans les tests, un seul état initial arbitraire est utilisé. La gamme des niveaux de perturbation utilisés dans chaque expérience a ensuite été réglée manuellement pour trouver une série de valeurs permettant de comparer les performances des agents à des niveaux de perturbation relativement faibles jusqu'à ce qu'ils ne parviennent plus à stabiliser le chariot. L'objectif du contrôleur est de stabiliser le chariot à une position de 0 m, ou centre, en x et de 0 rads en thêta, lorsque le poteau est debout.
Pour mesurer la robustesse et les performances de ces contrôleurs, la moyenne du rendement quadratique négatif est calculée sur la durée de chaque cycle d'évaluation sur 25 cycles d'évaluation. La même fonction coût/récompense a été utilisée pour la formation et l'évaluation.
L'équation 1 montre le coût calculé à chaque étape, id'un cycle d'évaluation où x et xᵍᵒᵃˡ représentent l'état réel et l'état cible du système, u et uᵍᵒᵃˡ sont l'entrée réelle et l'entrée cible du système, et Wₓ et Wᵤ sont des poids de récompense constants. L est le nombre d'étapes d'une évaluation donnée. L'équation 2 montre le rendement calculé à partir de la fonction de coût où L est le nombre d'étapes de l'exécution. L peut atteindre un maximum de 250 étapes, mais ce nombre sera inférieur si l'agent échoue prématurément. L'équation 3 montre le rendement moyen pour N (25) cycles d'évaluation, appelé récompense dans la présente étude.
En plus de cette mesure quantitative, des visualisations de la performance des approches seront fournies pour une comparaison qualitative dans certains cas.
Comme la majorité de ces approches n'intègrent pas la satisfaction des contraintes et que celle-ci a été étudiée dans l'article susmentionné, la satisfaction des contraintes ne sera pas évaluée dans le cadre de cette étude. Cependant, si la mise en œuvre de versions de ces approches qui permettent la satisfaction des contraintes est intéressante, voir l'article intitulé article sur le contrôle de la gymnastique en toute sécurité pour plus d'informations.
Tout d'abord, examinons les résultats sans aucune perturbation appliquée pendant la formation ou l'évaluation. Cela montre la robustesse de base des contrôleurs sans avoir vu de bruit pendant la formation ou avoir à compenser les perturbations pendant l'évaluation. Il devrait donc s'agir de la meilleure performance qu'ils puissent atteindre dans un environnement essentiellement idéal.
Figure 3. Nombre d'étapes de formation par rapport à la récompense de l'évaluation, en moyenne sur 10 exécutions
Figure 4. Nombre d'étapes de formation par rapport à l'EQM de l'évaluation, moyenne sur 10 exécutions
Les performances de base de chacun des contrôleurs peuvent être visualisées dans les GIF ci-dessous.
Fig. 5. Base de référence de l'OPP
Fig. 6. Base SAC
Fig. 7. Ligne de base RARL
Fig. 8. Référence RAP
Fig. 9. PPO avec couche de sécurité de base
Les trois algorithmes qui atteignent le plus rapidement la convergence sont SAC, PPO et RAP. SAC et PPO bénéficient des caractéristiques stochastiques de leurs mises à jour. RARL et safe explorer PPO s'entraînent plus lentement. Cela est normal pour RARL, car il apprend également à contrer l'adversaire, bien que ce comportement ne soit pas observé pour RAP. L'explorateur sûr PPO n'obtient pas une récompense aussi élevée que les autres algorithmes au cours de l'apprentissage.
L'expérience 0 montre que si les quatre premiers algorithmes ont des performances très similaires, l'explorateur sûr PPO n'obtient pas de bons résultats dans l'expérience la plus simple. Dans la configuration du contrôleur, deux contraintes absolues sont fixées, l'une sur theta et l'autre sur x, ce qui réduit l'état autorisé de l'agent. Cependant, la couche de sécurité ne peut satisfaire qu'une seule contrainte à la fois, ce qui entraîne un échec si une contrainte est rompue alors que l'on tente de satisfaire l'autre. Bien que la satisfaction des contraintes soit un élément essentiel de la sécurité, nous ne l'explorerons pas plus avant dans le présent rapport et cette approche sera donc omise dans les expériences ultérieures, car elle ne fournit pas de comparaison utile. Une discussion plus approfondie sur la satisfaction des contraintes est disponible dans le document lié à la page GitHub safe-control-gym.
Safe-control-gym offre la possibilité d'appliquer des perturbations aux entrées, aux observations et à la dynamique externe afin de simuler les différents points où le bruit peut être présent dans le système. Pour commencer, nous examinerons les perturbations de type bruit blanc pour imiter le bruit stochastique naturel qu'un agent peut voir dans le monde réel.
Figure 10. Exemple de bruit blanc unidimensionnel
Le bruit est appliqué pendant les essais à des valeurs croissantes de l'écart-type par rapport à zéro. Dans les trois figures suivantes, les résultats pour la dynamique externe, les actions et les observations sont respectivement les suivants :
Figure 11. Comparaison de la récompense de l'évaluation pour le bruit blanc appliqué à la dynamique externe
Figure 12. Comparaison de la récompense de l'évaluation pour le bruit blanc appliqué aux actions
Figure 13. Comparaison de la récompense de l'évaluation pour le bruit blanc appliqué aux observations
Les performances sont très similaires d'une approche de contrôle à l'autre pour les perturbations de bruit blanc sur la dynamique externe, avec une diminution linéaire de la récompense à mesure que le bruit augmente. Le PPO est légèrement plus performant. Il est surprenant de constater que les approches robustes, RARL et RAP, ne présentent pas de différence significative en termes de performances. Les performances avec les perturbations sont illustrées à la figure 14.
Figure 14. Performance de l'OPP avec une perturbation de bruit blanc sur la dynamique externe pour des valeurs d'écart type de 0,1, 0,5 et 1,0.
Pour les perturbations liées à l'action, le RARL obtient systématiquement la récompense la plus élevée. Pour les perturbations dues à l'observation, c'est le PPO qui est le plus rémunérateur. Les figures 15 et 16 montrent les performances des approches de contrôle pour certaines valeurs de l'écart-type afin de visualiser la différence de performance. Dans l'ensemble, la différence de performance entre les quatre approches n'est pas importante et elles démontrent toutes leur robustesse lorsqu'un bruit blanc est appliqué aux observations et aux actions.
Figure 15. Visualisation des performances avec un bruit blanc appliqué aux actions avec un écart-type de 4,0
Figure 16. Visualisation des performances avec un bruit blanc appliqué aux observations avec un écart-type de 0,15
Les perturbations par paliers nous permettent de voir la réaction du système à un changement soudain et durable.
Figure 17. Exemple d'une fonction en escalier unidimensionnelle
Comme pour l'expérience précédente, la perturbation est appliquée à des niveaux variables, ici en tant qu'ampleur de l'étape. L'étape est fixée à deux étapes dans l'épisode pour tous les essais.
Figure 18. Comparaison de la récompense de l'évaluation pour une perturbation en échelon appliquée à la dynamique externe
Figure 19. Comparaison de la récompense de l'évaluation pour une perturbation en échelon appliquée aux actions
Figure 20. Comparaison de la récompense de l'évaluation pour une perturbation par paliers appliquée aux observations
Par rapport à la robustesse des contrôleurs au bruit blanc, la perturbation par paliers a un effet beaucoup plus important et des perturbations de faible ampleur entraînent une forte diminution de la récompense. La récompense diminue considérablement lorsque l'agent ne peut plus stabiliser le mât, comme le montrent les figures 19 et 20.
Pour les perturbations par paliers de la dynamique externe, il n'y a pas de contrôleur significativement meilleur, bien que PPO ait une récompense plus élevée dans l'ensemble pour les différentes amplitudes. Pour les actions et les observations, le PPO obtient à nouveau la meilleure performance globale, sa récompense ne diminuant qu'une fois que l'amplitude de l'échelon atteint plus de 5 N pour les perturbations d'action, ce qui est comparativement beaucoup plus élevé que les autres approches. SAC conserve une récompense légèrement plus élevée que les autres approches, mais c'est là que SAC échoue rapidement lorsque l'amplitude de l'échelon est élevée. Il en résulte une récompense plus élevée en raison d'un dénominateur plus petit (moins d'étapes) dans l'équation 3. Ce comportement est illustré à la figure 22, où SAC échoue alors que PPO parvient à stabiliser le cartpole.
Figure 21. Visualisation des performances avec une perturbation de type "action step" d'une magnitude de 2,0
Figure 22. Visualisation de la performance avec une perturbation de type "action step" d'une magnitude de 4,5
Parmi toutes ces approches, la PPO est la plus robuste en ce qui concerne les perturbations de l'échelon.
Les perturbations impulsionnelles nous permettent de voir la réponse du système à un changement soudain, mais temporaire.
Figure 23. Exemple de fonction d'impulsion unidimensionnelle
Une fois de plus, nous examinons différents niveaux d'amplitude de l'impulsion pour tester la robustesse des contrôleurs. La largeur de l'impulsion est maintenue à 2 pas pour toutes les exécutions.
Figure 24. Comparaison de la salle d'évaluation pour une perturbation impulsionnelle appliquée à la dynamique externe
Figure 25. Comparaison de la récompense de l'évaluation pour une perturbation impulsionnelle appliquée aux actions
Figure 26. Comparaison de la récompense de l'évaluation pour une perturbation impulsionnelle appliquée aux observations
La diminution spectaculaire de la récompense observée dans l'expérience précédente avec la perturbation par étapes est encore plus prononcée avec la perturbation par impulsions. Les perturbations par impulsion peuvent être traitées plus facilement que les perturbations par palier, ce qui est compréhensible car les réponses par palier exigent que le système s'adapte à une nouvelle ligne de base, alors que pour les perturbations par impulsion, le changement n'est que temporaire, ce qui permet à l'agent de gérer des perturbations de plus grande ampleur. En revanche, le changement de récompense est plus spectaculaire lorsque la forte perturbation empêche l'agent de se stabiliser, comme le montrent les figures 24 et 25. Le PPO est le plus robuste aux perturbations impulsionnelles de la dynamique externe et le RARL a une robustesse accrue par rapport à ses performances avec les perturbations par paliers.
En ce qui concerne les perturbations appliquées aux actions, SAC et PPO sont en mesure de gérer des perturbations impulsionnelles de plus grande ampleur que RARL ou RAP.
Figure 27. Visualisation de la performance avec une perturbation impulsionnelle d'une magnitude de 110
La perturbation impulsionnelle sur les observations n'affecte aucune des approches de contrôle, même à des valeurs très élevées. Cela peut être dû au fait que la perturbation se produit en deux étapes, ce qui signifie que l'effet ne dure pas comme les autres types de perturbations présentés précédemment.
Outre le bruit blanc, les perturbations par paliers et les impulsions, il est intéressant d'étudier la capacité des contrôleurs à gérer les perturbations périodiques. Ces types de perturbations constituent un défi pour les approches, car il existe une perturbation constante, similaire au bruit blanc, qui les oblige à être robustes face à des modèles de perturbation plus complexes.
Une dent de scie ou onde de scie est une onde cyclique qui augmente linéairement jusqu'à une magnitude donnée et retombe instantanément à un point de départ avant de répéter le cycle. Ce type de perturbation présente certaines des caractéristiques des perturbations par paliers et par impulsions, mais il est maintenant appliqué périodiquement pendant toute la durée de l'évaluation.
Figure 28. Exemple d'une onde en dents de scie unidimensionnelle
L'amplitude ou la magnitude de l'onde est modifiée dans cette expérience, tandis que la période, le signe et le décalage restent les mêmes pour tous les essais. Le signe de l'onde peut être sélectionné pour chaque dimension. Si le signe est négatif, la fonction d'onde diminuera de la valeur de départ à la magnitude fixée et pour un signe positif, la fonction d'onde augmentera de la valeur de départ à la valeur de magnitude. Pour les perturbations dynamiques externes, la première dimension a un signe positif et la deuxième dimension a un signe négatif. Pour la perturbation de l'action, qui est unidimensionnelle, le signe est positif. Pour les perturbations d'observation, la première et la troisième dimension ont un signe positif et la deuxième et la quatrième ont un signe négatif.
Figure 29. Comparaison de la récompense de l'évaluation pour une perturbation en forme d'onde de scie appliquée à la dynamique externe
Figure 30. Comparaison de la récompense de l'évaluation pour une perturbation due à une vague de scie appliquée aux actions
Figure 31. Comparaison de la récompense de l'évaluation pour une perturbation par ondes de scie appliquée aux observations
La différence de performance entre les approches semble moins évidente par rapport aux autres types de perturbations appliquées dans les expériences précédentes. Pour les perturbations de la dynamique externe, il y a peu de différence de performance entre les approches de contrôle. RARL est plus performant que les autres approches à des amplitudes de bruit plus faibles et SAC, comme dans l'expérience 3, a une récompense plus élevée en raison d'une défaillance rapide. Pour les perturbations de l'action, le PPO montre une faible diminution de la récompense alors que les autres approches, en particulier le SAC, ont une récompense plus faible.
Figure 32. Visualisation de la performance en cas de perturbation due à une onde de scie sur des actions d'une amplitude/magnitude de 4,0
La figure 32 montre que le RAP et le RARL échouent plus souvent que le PPO et le SAC, ce qui se traduit par une récompense moyenne plus faible. SAC met plus de temps à se stabiliser, ce qui crée un dénominateur plus important dans l'équation 3, et donc une récompense plus faible. Lorsque la perturbation de l'onde de scie est appliquée aux observations, toutes les approches ont des difficultés à se stabiliser et la récompense tombe rapidement à zéro.
Une onde triangulaire est une onde cyclique qui augmente linéairement jusqu'à une valeur donnée et diminue au même rythme jusqu'à un point de départ avant de se répéter. Ce type de perturbation est très similaire à l'onde de scie, mais son comportement est plus proche de celui d'une onde sinusoïdale.
Figure 33. Exemple d'onde triangulaire
Les mêmes paramètres ont été utilisés pour cette expérience que pour la précédente.
Figure 34. Comparaison de la récompense de l'évaluation pour une perturbation de type onde triangulaire appliquée à la dynamique externe
Figure 35. Comparaison de la récompense de l'évaluation pour une perturbation de type onde triangulaire appliquée aux actions
Figure 36. Comparaison de la récompense de l'évaluation pour une perturbation de type onde triangulaire appliquée aux observations
Comme prévu, les résultats des perturbations par onde triangulaire sont similaires à ceux des perturbations par onde en dents de scie. La perturbation par onde triangulaire donne lieu à une récompense légèrement inférieure à celle de la perturbation par onde en dents de scie, mais les performances relatives des approches de contrôle restent les mêmes. Les performances de SAC sont légèrement inférieures dans le cas des perturbations appliquées à la dynamique. La baisse de la récompense survient plus tôt pour tous les contrôleurs dans le cas des perturbations appliquées aux observations, ce qui montre la sensibilité accrue à la perturbation par onde triangulaire par rapport à la perturbation par onde en dents de scie.
Dans les expériences précédentes, aucune perturbation n'a été introduite pendant la formation. On peut s'attendre à ce que l'introduction d'un certain niveau de bruit ou de perturbation pendant la formation améliore les performances des contrôleurs pendant l'évaluation. Le fait de voir plus de variations dans l'environnement pendant l'entraînement crée un modèle plus généralisé, de la même manière que le RARL et le RAP utilisent un adversaire pour accroître la robustesse.
Par conséquent, dans cette expérience, nous examinerons deux approches de contrôle différentes, PPO, une approche RL classique de pointe, et RAP, une approche robuste récente, entraînée sur des niveaux variables de bruit blanc (pour 1000000 étapes) afin de voir si la robustesse est améliorée.
Figure 37. Carte thermique de la récompense de l'évaluation de l'OPP et du PAR formés et testés avec différents niveaux de bruit blanc appliqués à la dynamique externe
Figure 38. Carte thermique des récompenses de l'évaluation de PPO et RAP formés et testés avec différents niveaux de bruit blanc appliqués aux actions
Figure 39. Carte thermique de la récompense de l'évaluation de l'OPP et du PAR formés et testés avec différents niveaux de bruit blanc appliqués aux observations
En général, les performances de l'évaluation sur des niveaux de bruit plus élevés sont en fait meilleures lorsque l'entraînement se fait sur des niveaux de bruit plus faibles, tout en atteignant les meilleures performances lorsque l'entraînement se fait sans perturbations. Pour les perturbations de la dynamique externe, la récompense diminue progressivement à mesure que le bruit d'entraînement augmente. Pour des valeurs de bruit d'entraînement plus élevées, la récompense pour des valeurs de bruit de test plus élevées s'améliore légèrement, ce qui suggère une légère amélioration des performances. Pour les perturbations de l'action, la récompense n'est pas affectée par l'augmentation du bruit d'entraînement ou du bruit de test, sauf pour certaines valeurs élevées où la récompense diminue de façon spectaculaire. En général, l'ajout de bruit d'entraînement ne produit pas d'amélioration de la robustesse face aux perturbations de l'action. En ce qui concerne le bruit ajouté aux observations, on observe une diminution soudaine de la récompense, qui devient presque nulle lorsque le bruit est introduit pendant l'apprentissage. RAP, qui utilise des populations adverses pour l'apprentissage, a généralement une récompense plus élevée que PPO et semble avoir une performance légèrement meilleure pour des valeurs plus élevées de bruit d'apprentissage, bien que cela soit négligeable. L'introduction de bruit dans la dynamique externe pendant l'entraînement semble être le seul cas où l'on observe une amélioration.
Figure 40. PPO formé sans perturbations, testé sur des perturbations dynamiques externes de bruit blanc avec un écart type de 0, 0,5, 1,0
Figure 41. PPO entraîné avec un bruit blanc d'écart-type 0,25, testé sur une dynamique externe perturbée par un bruit blanc d'écart-type 0, 0,5, 1,0.
On pourrait faire valoir que si l'on disposait de plus de temps pour s'entraîner dans cet environnement plus difficile, il serait possible d'obtenir de meilleurs résultats. C'est pourquoi le modèle de l'OPP pour la dynamique externe a été entraîné pour 500 000 et 1 000 000 de pas supplémentaires, car c'est le seul cas où l'on peut observer un potentiel d'amélioration.
Figure 42. Carte thermique des récompenses de l'évaluation des OPP formés et testés sur différents niveaux de bruit blanc pour 500 000, 1 500 000 et 2 000 000 pas.
Dans la figure 42, les résultats de l'entraînement à moins de 1 000 000 d'étapes (500 000 étapes) montrent que la récompense est toujours inférieure à celle du meilleur modèle. Au fur et à mesure que le modèle est entraîné, à 1 500 000 et 2 000 000 pas, ses performances se dégradent encore, ce qui se traduit par une récompense plus faible pour les mêmes valeurs de bruit de test et d'entraînement. On observe une légère amélioration pour des valeurs élevées de bruit d'entraînement à 1 500 000 pas, bien qu'elle ne soit pas comparable à la performance en l'absence de bruit d'entraînement. Cette amélioration disparaît au fur et à mesure que l'entraînement se poursuit. Une explication possible de ce résultat est que le modèle n'a pas la capacité d'apprendre le comportement des deux systèmes (le cartpole et le bruit), ce qui se traduit par de moins bonnes performances, mais une exploration plus poussée est nécessaire.
Une extension intéressante de cette expérience consisterait à entraîner les modèles pendant un certain nombre d'épisodes sans perturbations, puis à introduire des perturbations, soit en continuant à s'entraîner avec des perturbations, soit en alternant entre avec et sans perturbations. En outre, la variation des paramètres de la perturbation, similaire à l'approche de RAP, pourrait contribuer à améliorer la diversité des perturbations observées lors de l'entraînement. Cette question est laissée en suspens pour des travaux futurs.
Dans l'ensemble, ces résultats suggèrent qu'il n'y a pas d'amélioration de la performance et que celle-ci peut souvent diminuer lorsque le bruit est inclus dans la formation, même avec des sessions de formation plus longues.
À partir de cet examen, nous pouvons commencer à comprendre les effets des perturbations sur les algorithmes d'apprentissage par renforcement pendant la formation et les tests. La robustesse à ces perturbations continuera à prendre de l'importance au fur et à mesure que les algorithmes seront appliqués dans le monde réel.
Les approches sont robustes face aux perturbations des actions, mais sont souvent plus difficiles à gérer face aux perturbations de la dynamique et des observations, ce qui entraîne des diminutions importantes et soudaines de la récompense, sauf dans le cas de perturbations impulsives des observations. Pour mieux gérer ces perturbations, l'estimation de l'état est un élément supplémentaire dont bénéficieraient de nombreuses approches RL appliquées au contrôle robotique. Cette composante pourrait être un modèle appris ou connu introduit dans le système qui améliorera la connaissance de l'état de l'agent en présence de perturbations et d'incertitude. Garantir à l'agent une meilleure connaissance de son état serait un ajout nécessaire pour l'application de l'apprentissage par renforcement dans le monde réel.
Si l'on considère les résultats dans leur ensemble, l'algorithme le plus robuste est PPO, qui obtient le plus souvent la récompense la plus élevée pour tous les types de perturbations sur la dynamique externe, les actions et les observations dans ces expériences. RARL et SAC semblent être les approches suivantes les plus robustes, obtenant des récompenses plus élevées l'une que l'autre dans différentes expériences. RAP est souvent moins stable que RARL ou SAC.
En ce qui concerne l'utilisation des perturbations dans la formation pour améliorer les performances, la simple introduction de perturbations tout au long de la formation ne semble pas être une approche prometteuse et compromet souvent les performances de l'approche. D'autres méthodes non contradictoires d'introduction de perturbations pendant la formation pour améliorer les performances devraient être explorées.
L'apprentissage par renforcement robuste continuera à se développer pour assurer la sécurité dans les environnements réels. Dans le contexte du travail avec le safe-control-gym, de nombreuses étapes intéressantes peuvent être franchies.
Ce rapport bénéficie du soutien de l'Institut Vecteur et du Laboratoire des systèmes dynamiques. Je tiens à remercier tout particulièrement Amrit Krishnan (Institut Vecteur), Jacopo Panerati (Laboratoire des systèmes dynamiques), Justin Yuan (Laboratoire des systèmes dynamiques) et le professeur Angela Schoellig (Laboratoire des systèmes dynamiques) pour leur soutien et leurs conseils.
[1] B. Mehta, M. Diaz, F. Golemo, C. J. Pal, L. Paull, "Active Domain Randomization", Proceedings of the Conference on Robot Learning, vol. 100, pp. 1162-1176, Oct. 2020