Blogue d’ingénierie de l’IA vectorielle : Évaluation comparative de la robustesse des approches d’apprentissage par renforcement utilisant le safe-control-gym
23 août 2022
23 août 2022
Par Catherine Glossop
23 août 2022
Les robots sont de plus en plus présents dans notre vie quotidienne alors qu’ils prennent la route sous forme de véhicules autonomes, assistent aux opérations dans nos hôpitaux, travaillent à nos côtés dans des environnements industriels, et apparaissent même dans nos propres foyers.
L’apprentissage par renforcement est devenu un domaine de recherche prometteur pour les robots qui apprennent à accomplir des tâches. Il a été appliqué au suivi de trajectoire, à l’atteinte d’objectifs et à bien d’autres problèmes chez divers types de robots, allant des manipulateurs robotiques aux véhicules autonomes. La sécurité lors de l’utilisation de l’apprentissage par renforcement (RL) pour résoudre ces problèmes réels doit être primordiale. L’interaction dangereuse avec l’environnement et les personnes dans cet environnement peut avoir de graves conséquences, allant surtout des dommages aux humains à la destruction du robot lui-même. Pour garantir la sécurité, l’agent (robot) doit satisfaire aux contraintes qui définissent le comportement sécuritaire (c’est-à-dire ne pas produire d’actions qui nuisent au robot, ne heurtent pas d’obstacles ou de personnes) et être robuste face aux variations de l’environnement, à sa propre dynamique et aux situations invisibles qui émergent dans le monde réel.
Dans cette revue, la performance des approches existantes d’apprentissage par renforcement dans le contexte du contrôle robotique (« contrôleurs ») sera évaluée sur leur robustesse et leur performance quantitativement et qualitativement. Pour ce faire, le safe-control-gym, un gymnase de référence de sécurité RL, sera utilisé pour examiner et comparer les approches témoins avec une variété de perturbations appliquées.
Cette revue vise à fournir une base pour de futures recherches sur le contrôle robuste avec RL et à introduire des outils utiles, comme le safe-control gym, qui peuvent être exploités pour évaluer la performance de nouveaux algorithmes robustes.

Figure 1. Apprentissage par renforcement avec perturbations
En apprentissage par renforcement, un agent, dans ce cas un robot simulé, effectue une action et reçoit une rétroaction ou une récompense de l’environnement basée sur le degré d’alignement de l’action avec son comportement désiré (c’est-à-dire s’il a rapproché l’agent de l’objectif, a-t-il suivi une trajectoire de près), perçoit l’état mis à jour résultant de l’action entreprise et répète le processus, apprenant au fur et à mesure pour améliorer les actions nécessaires afin de se rapprocher du comportement désiré et d’atteindre ses objectifs. Ce comportement s’appelle la politique et associe l’état de l’agent à l’action.
Dans cette revue, nous introduisons des perturbations à différents moments de cette boucle pour simuler les situations réelles que l’agent pourrait rencontrer. Le système utilisé est un poteau de cart se déplaçant le long d’un rail unidimensionnel.

Figure 2. Schéma bloc du gymnase à contrôle sécurisé (source)
Safe-control-gym est un gymnase de benchmarking RL développé par le Dynamic Systems Lab dirigé par la professeure Angela Schoellig de l’Institut d’études aérospatiales de l’Université de Toronto. Ce gymnase aide à combler le fossé entre les environnements simulés et réels tout en fournissant des outils pour évaluer la sécurité.
Voici quelques faits saillants du gym :
Dans l’article publié avec le dépôt, la sécurité est divisée en robustesse et satisfaction des contraintes. La satisfaction des contraintes des approches mises en œuvre dans le gymnase est explorée plus en profondeur dans l’article. Étant donné l’importance de la robustesse pour traduire le RL et d’autres approches apprises dans le monde réel, il vaut la peine d’explorer en détail la performance des approches de contrôle dans le contexte de la robustesse, comme cela est fait dans cette revue.
Pour simplifier ces expériences, la formation et l’évaluation seront effectuées en utilisant l’environnement cartpole sur un sous-ensemble des contrôleurs.
Les contrôleurs qui seront comparés sont :
Le PPO est une méthode de gradient politique à la fine pointe de la technologie, proposée en 2017 par OpenAI. Il améliore les méthodes d’optimisation des politiques précédentes telles que TRPO (Optimisation des politiques par région de confiance) et ACER (Acteur-Critique avec Replay d’Expérience). PPO réduit la complexité de l’implémentation, de l’échantillonnage et de l’ajustement des paramètres grâce à une nouvelle fonction objectif qui effectue une mise à jour de la région de confiance compatible avec la descente du gradient stochastique.
Mise en œuvre d’un PPO de gym à contrôle sécuritaire
Le SAC est un algorithme de RL profond hors politique des acteurs-critiques, proposé en 2018 par le laboratoire de recherche en intelligence artificielle de l’UC Berkeley. L’algorithme fusionne l’optimisation stochastique des politiques et des méthodes hors politique comme le DDPG (Deep Deterministic Policy Gradient). Cela lui permet de mieux s’attaquer au compromis exploration-exploitation omniprésent dans tous les problèmes d’apprentissage par renforcement en faisant maximiser à l’acteur à la fois la récompense et l’entropie de la politique. Cela aide à augmenter l’exploration et à empêcher que la police ne reste coincée dans les optima locaux.
Mise en œuvre du SAC dans le safe-control-gym
RARL a été proposé en 2017 par des chercheurs de l’Université Carnegie Mellon et de Google Brain. Contrairement aux deux approches précédentes, RARL, ainsi que l’approche suivante, RAP, sont conçues pour être robustes et combler l’écart entre les résultats simulés et la performance dans le monde réel. Pour y parvenir, un adversaire est introduit qui apprend une politique de déstabilisation optimale et applique ces forces déstabilisatrices à l’agent, augmentant ainsi sa robustesse face aux perturbations réelles.
Implémentation RARL de safe-control-gym
RAP est un algorithme introduit par des chercheurs de l’UC Berkeley en 2020 qui étend RARL en introduisant une population d’adversaires échantillonnés et entraînés contre eux. Cet algorithme vise à réduire la vulnérabilité que les formulations adversaires précédentes avaient face à de nouveaux adversaires en augmentant les types d’adversaires et donc les comportements adversaires observés à l’entraînement.
Mise en œuvre du RAP de gym à contrôle sécuritaire
La couche de sécurité est une approche proposée par des chercheurs de l’Institut israélien de technologie et Google DeepMind. Il ajoute une couche directement à la politique qui corrige l’action à chaque étape afin qu’elle ne viole pas les contraintes définies. La fonction de correction d’action s’apprend sur des trajectoires passées avec des actions arbitraires.
Mise en œuvre de safe-control-gym Safe PPO
Safe-control-gym offre une multitude de réglages pour tester les effets des changements dans les paramètres du robot et différents types de bruit/perturbations sur les actions, les observations et la dynamique externe de l’agent pendant l’entraînement et l’évaluation. Pour limiter la portée de cette revue, les approches de contrôle seront évaluées selon différents types de bruit dans les trois catégories disponibles, et non sur des incertitudes de paramètres.
Chaque agent RL a été entraîné à l’aide d’un état initial randomisé pour améliorer la performance[1]. Pour la cohérence dans les tests, un seul état initial arbitraire est utilisé. La plage des niveaux de perturbation utilisée dans chaque expérience a ensuite été ajustée manuellement pour trouver une série de valeurs permettant de comparer la performance des agents à des niveaux relativement faibles de perturbations jusqu’à ce qu’ils ne stabilisent plus le cartpole. Le but du contrôleur est de stabiliser le pôle de cart à une pose de 0 m, ou centre, en x et 0 rads en thêta, lorsque le poteau est droit.
Pour mesurer la robustesse et la performance de ces contrôleurs, le rendement quadratique négatif est moyenné sur la durée de chaque exécution d’évaluation sur 25 exécutions. La même fonction coût/récompense a été utilisée pour la formation et l’évaluation.



L’équation 1 montre le coût calculé à chaque étape, i, d’une exécution d’évaluation où x et x-but représentent les états réel et objectif du système, tu et u-objectif sont les entrées réelles et objectifs du système, et Wₓ et Wu sont des poids de récompense constants. L est le nombre d’étapes dans une exécution d’évaluation donnée. L’équation 2 montre le rendement calculé à partir de la fonction de coût où L est le nombre d’étapes dans la séquence. L peut faire un maximum de 250 étapes, mais ce sera moins si l’agent échoue tôt. L’équation 3 montre le rendement moyen pour N (25) séances d’évaluation, noté comme la récompense dans cette revue.
En plus de cette mesure quantitative, des visualisations de la performance des approches seront fournies pour la comparaison qualitative dans certains cas.
Comme la majorité de ces approches n’intègrent pas la satisfaction des contraintes et que cela a été exploré dans l’article mentionné, la satisfaction des contraintes ne sera pas évaluée dans cette revue. Cependant, si la mise en œuvre de versions de ces approches permettant la satisfaction des contraintes vous intéresse, consultez l’article sur le gymnase de contrôle sécuritaire pour plus d’informations.
D’abord, regardons les résultats sans qu’aucune perturbation n’ait été appliquée pendant la formation ou l’évaluation. Cela montre la robustesse de base des contrôleurs sans avoir vu de bruit pendant l’entraînement ni avoir à compenser les perturbations lors de l’évaluation. Par conséquent, cela devrait être la meilleure performance possible dans un environnement essentiellement idéal.

Figure 3. Nombre d’étapes d’entraînement par rapport à la récompense d’évaluation en moyenne sur 10 points

Figure 4. Nombre d’étapes d’entraînement par rapport à l’évaluation MSE a en moyenne plus de 10 passages
La performance de base de chacun des contrôleurs peut être visualisée dans les GIFs ci-dessous.

Fig. 5. Référence PPO

Fig. 6. Référence SAC

Fig. 7. Référence RARL

Fig. 8. Référence RAP

Fig. 9. PPO avec la base de la couche de sécurité
Les trois algorithmes qui atteignent la convergence le plus rapidement étaient SAC, PPO et RAP. SAC et PPO bénéficient des caractéristiques stochastiques de leurs mises à jour. RARL et Safe Explorer PPO s’entraînent plus lentement. Cela serait attendu pour le RARL, qui apprend aussi à contrer l’adversaire, bien que ce comportement ne soit pas observé pour le RAP. Safe Explorer PPO n’offre pas une récompense aussi élevée pendant l’entraînement que les autres algorithmes.
L’expérience 0 montre que, bien que les quatre premiers algorithmes aient des performances très similaires, Safe Explorer PPO ne fonctionne pas bien dans l’expérience la plus simple. Dans la configuration du contrôleur, deux contraintes absolues sont fixées, une sur theta et une sur x, réduisant l’état permis de l’agent. Cependant, la couche de sécurité ne peut satisfaire qu’une seule contrainte à la fois, ce qui entraîne une défaillance si une contrainte est brisée en essayant de satisfaire l’autre. Bien que la satisfaction des contraintes soit une partie essentielle de la sécurité, nous ne l’explorerons pas davantage dans ce rapport et, par conséquent, cette approche sera omise dans d’autres expériences car elle ne fournit pas de comparaison utile. Une discussion plus approfondie sur la satisfaction des contraintes est disponible dans l’article lié à la page GitHub de safe-control-gym.
Safe-control-gym offre la capacité d’appliquer des perturbations aux entrées, observations et dynamiques externes afin de simuler les différents points où le bruit peut être présent dans le système. Pour commencer, nous allons examiner les perturbations du bruit blanc pour imiter le bruit stochastique naturel qu’un agent pourrait percevoir dans le monde réel.

Figure 10. Exemple de bruit blanc unidimensionnel
Le bruit est appliqué lors des essais à des valeurs croissantes d’écart-type par rapport à zéro. Dans les trois figures suivantes, les résultats pour la dynamique externe, les actions et les observations sont les suivants :

Figure 11. Comparaison de la récompense d’évaluation pour le bruit blanc appliquée à la dynamique externe

Figure 12. Comparaison de la récompense d’évaluation pour le bruit blanc appliquée aux actions

Figure 13. Comparaison de la récompense d’évaluation pour le bruit blanc appliquée aux observations
La performance est très similaire entre les approches de contrôle pour les perturbations du bruit blanc sur la dynamique externe, avec une diminution linéaire de la récompense à mesure que le bruit augmente. PPO performe un peu mieux. Étonnamment, les approches robustes, RARL et RAP, ne montrent aucune différence significative de performance. La performance avec la perturbation est visualisée à la figure 14.



Figure 14. La performance de la PPO avec une perturbation du bruit blanc sur la dynamique externe sur des valeurs d’écart-type de 0,1, 0,5 et 1,0
Pour les perturbations d’action, RARL offre constamment la plus grande récompense. Pour les perturbations d’observation, le PPO offre la plus grande récompense. Les figures 15 et 16 montrent la performance des approches de contrôle à certaines valeurs d’écart-type pour visualiser la différence de performance. Dans l’ensemble, la différence de performance entre les quatre approches n’est pas grande et elles démontrent toutes leur robustesse lorsque le bruit blanc est appliqué aux observations et aux actions.




Figure 15. Visualisation de la performance avec bruit blanc appliqué aux actions à un écart-type de 4,0




Figure 16. Visualisation de la performance avec bruit blanc appliquée aux observations à un écart-type de 0,15
Les perturbations par pas nous permettent de voir la réponse du système à un changement soudain et soutenu.

Figure 17. Exemple d’une fonction pas à pas unidimensionnelle
Comme pour l’expérience précédente, la perturbation est appliquée à différents niveaux, ici sous forme de magnitude de l’étape. L’étape doit se produire deux étapes après le début de l’épisode pour toutes les diffusions.

Figure 18. Comparaison de la récompense d’évaluation pour une perturbation des pas appliquée à la dynamique externe

Figure 19. Comparaison de la récompense d’évaluation pour une perturbation de pas appliquée à des actions

Figure 20. Comparaison de la récompense d’évaluation pour une perturbation par escalier appliquée aux observations
Comparé à la robustesse des contrôleurs au bruit blanc, la perturbation par escalier a un effet beaucoup plus important et des amplitudes plus faibles entraînent une forte diminution de la récompense. Il y a une baisse spectaculaire de la récompense lorsque l’agent ne peut plus stabiliser le poteau du cart, comme on le voit dans les figures 19 et 20.
Pour la perturbation des escaliers sur la dynamique externe, il n’y a pas de contrôleur significativement meilleur, bien que le PPO offre une récompense globale plus élevée selon les magnitudes variables. Pour les actions et observations, la PPO atteint encore la meilleure performance globale, ne diminuant pas sa récompense avant que la magnitude de l’étape atteigne plus de 5 N pour les perturbations d’action, comparativement beaucoup plus élevée que les autres approches. Le SAC reste à une récompense légèrement supérieure comparée aux autres approches, cependant, pour les grandes magnitudes, c’est là que le SAC échoue rapidement. Cela entraîne une récompense plus élevée en raison d’un dénominateur plus petit (moins d’étapes) dans l’équation 3. Ce comportement est montré à la figure 22 où le SAC échoue tandis que le PPO réussit à stabiliser le cartpole.




Figure 21. Visualisation de la performance avec une perturbation par pas d’action d’une magnitude de 2,0




Figure 22. Visualisation de la performance avec une perturbation par pas d’action d’une magnitude de 4,5
La PPO est l’approche la plus robuste pour les perturbations des escaliers parmi ces approches.
Les perturbations impulsionnelles nous permettent de voir la réponse du système à un changement soudain, mais temporaire.

Figure 23. Exemple d’une fonction impulsionnelle unidimensionnelle
Encore une fois, nous examinons différents niveaux de l’ampleur de l’impulsion pour tester la robustesse des contrôleurs. La largeur de l’impulsion est maintenue à 2 pas pour toutes les courses.

Figure 24. Comparaison de la salle d’évaluation pour une perturbation impulsionnelle appliquée à la dynamique externe

Figure 25. Comparaison de la récompense d’évaluation pour une perturbation impulsionnelle appliquée aux actions

Figure 26. Comparaison de la récompense d’évaluation pour une perturbation impulsionnelle appliquée aux observations
La diminution spectaculaire de la récompense observée lors de l’expérience précédente avec la perturbation des pas est encore plus marquée avec la perturbation des impulsions. Les perturbations impulsionnelles peuvent être plus faciles à gérer que les perturbations à pas, ce qui est compréhensible puisque les réponses par étapes exigent que le système s’adapte à une nouvelle base alors que pour les perturbations impulsionnelles, le changement n’est que temporaire, permettant à l’agent de gérer des perturbations de plus grande ampleur. D’un autre côté, elle montrera un changement plus marqué de la récompense lorsque la perturbation brutale empêche l’agent de se stabiliser, comme le montrent les figures 24 et 25. Le PPO est le plus robuste aux perturbations impulsionnelles sur la dynamique externe et le RARL présente une robustesse accrue comparée à sa performance avec les perturbations à pas.
Pour les perturbations appliquées aux actions, le SAC et le PPO sont capables de gérer des amplitudes plus élevées de perturbations impulsionnelles que le RARL ou le RAP.




Figure 27. Visualisation de la performance avec une perturbation impulsionnelle d’action d’une magnitude de 110
La perturbation impulsionnelle lors des observations n’affecte aucune des approches de contrôle, même à des valeurs très élevées. Cela peut être dû au fait que la perturbation se produit sur deux étapes, ce qui signifie que l’effet ne dure pas comme les autres types de perturbations montrées précédemment.
En plus du bruit blanc, des perturbations des pas et des impulsions, il vaut la peine d’explorer la capacité des contrôleurs à gérer les perturbations périodiques. Ce type de perturbations remet en question ces approches puisqu’il y a une perturbation constante, semblable au bruit blanc, qui les force à être robustes face à des schémas de perturbation plus complexes.
Une onde en dent de scie ou en scie est une onde cyclique qui augmente linéairement jusqu’à une magnitude fixe et redescend instantanément à un point de départ avant de répéter le cycle. Ce type de perturbation introduit certaines caractéristiques des perturbations à pas et à impulsion, mais il est maintenant appliqué périodiquement tout au long de l’évaluation.

Figure 28. Exemple d’onde en dent de scie unidimensionnelle

L’amplitude ou la magnitude de l’onde est modifiée dans cette expérience, tandis que la période, le signe et le décalage sont maintenus les mêmes pour toutes les courses. Le signe de l’onde peut être sélectionné pour chaque dimension. Si le signe est négatif, la fonction d’onde diminuera de la valeur de départ à la magnitude fixe et, pour un signe positif, la fonction d’onde augmentera de la valeur de départ à la valeur de magnitude. Pour les perturbations dynamiques externes, la première dimension a un signe positif et la deuxième dimension un signe négatif. Pour la perturbation de l’action, qui est unidimensionnelle, le signe est positif. Pour les perturbations d’observation, les première et troisième dimensions ont un signe positif et les deuxième et quatrième ont un signe négatif.
Figure 29. Comparaison de la récompense d’évaluation pour une perturbation d’onde de scie appliquée à la dynamique externe

Figure 30. Comparaison de la récompense d’évaluation pour une perturbation de l’onde sciée appliquée aux actions

Figure 31. Comparaison de la récompense d’évaluation pour une perturbation d’onde de scie appliquée aux observations
La différence de performance entre ces approches semble moins évidente comparée aux autres types de perturbations appliquées dans les expériences précédentes. Pour les perturbations dans la dynamique externe, il y a peu de différence de performance entre les approches de contrôle. RARL fonctionne mieux que les autres approches à des amplitudes de bruit plus faibles et SAC, similaire à l’expérience 3, offre une récompense plus élevée grâce à une défaillance rapide. Pour les perturbations d’action, le PPO montre peu de diminution de la récompense tandis que les autres approches, en particulier le SAC, offrent une récompense plus faible.




Figure 32. Visualisation de la performance avec une perturbation de l’onde scie sur des actions d’amplitude/magnitude de 4,0
À la figure 32, on peut voir que le RAP et le RARL échouent plus souvent que le PPO et le SAC, ce qui entraîne une récompense moyenne plus faible. Le SAC met plus de temps à se stabiliser, créant un dénominateur plus grand dans l’équation 3, et donc une récompense plus faible. Lorsque la perturbation de l’onde de scie est appliquée aux observations, toutes les approches ont de la difficulté à se stabiliser et la récompense chute rapidement à zéro.
Une onde triangulaire est une onde cyclique qui augmente linéairement jusqu’à une magnitude fixe et diminue au même rythme jusqu’à un point de départ avant de se répéter. Ce type de perturbation est très similaire à la perturbation de l’onde de scie, mais agit davantage comme une onde sinusoïdale.

Figure 33. Exemple d’onde triangulaire
Les mêmes réglages ont été utilisés pour cette expérience que la précédente.

Figure 34. Comparaison de la récompense d’évaluation pour une perturbation d’onde triangulaire appliquée à la dynamique externe

Figure 35. Comparaison de la récompense d’évaluation pour une perturbation d’onde triangulaire appliquée à des actions

Figure 36. Comparaison de la récompense d’évaluation pour une perturbation d’onde triangulaire appliquée aux observations
Comme prévu, les résultats des perturbations des ondes triangulaires ressemblent à ceux des perturbations des ondes en dents de scie. La perturbation de l’onde triangulaire donne une récompense légèrement inférieure à celle de l’onde de scie, mais les performances relatives des approches témoins restent les mêmes. Le SAC performe légèrement moins bien dans le cas de perturbations appliquées à la dynamique. La baisse de la récompense se produit plus tôt pour tous les contrôleurs pour les perturbations appliquées aux observations, montrant la sensibilité accrue à la perturbation de l’onde triangulaire comparée à la perturbation de l’onde en dents de scie.
Dans les expériences précédentes, aucune perturbation n’a été introduite pendant l’entraînement. On s’attendrait à ce que l’inclusion d’un certain niveau de bruit ou de perturbation pendant la formation améliore la performance des contrôleurs lors de l’évaluation. Observer plus de variations dans l’environnement pendant l’entraînement crée un modèle plus généralisé, similaire à la façon dont le RARL et le RAP utilisent un adversaire pour augmenter la robustesse.
Ainsi, dans cette expérience, nous examinerons deux approches de contrôle différentes : PPO, une approche RL classique à la fine pointe de la technologie, et RAP, une approche robuste récente, entraînée sur différents niveaux de bruit blanc (pour 1000 000 pas) afin de voir si la robustesse est améliorée.


Figure 37. Carte thermique de récompense d’évaluation de PPO et RAP entraînée et testée avec différents niveaux de bruit blanc appliqués à la dynamique externe


Figure 38. Évaluation : carte thermique de récompense du PPO et du RAP, entraînée et testée avec différents niveaux de bruit blanc appliqués aux actions


Figure 39. Carte thermique de récompense d’évaluation de PPO et RAP, entraînée et testée avec différents niveaux de bruit blanc appliqués aux observations
En général, la performance d’évaluation sur des niveaux de bruit élevés est en fait meilleure lorsqu’elle est entraînée sur des niveaux de bruit plus faibles, obtenant tout de même la meilleure performance lorsqu’elle est entraînée sans perturbation. Pour les perturbations dynamiques externes, la récompense diminue graduellement à mesure que le bruit d’entraînement augmente. À des valeurs plus élevées de bruit d’entraînement, la récompense à des valeurs de bruit de test plus élevées s’améliore légèrement, ce qui suggère qu’il pourrait y avoir une légère amélioration des performances. Pour les perturbations d’action, la récompense n’est pas affectée par l’augmentation du bruit d’entraînement ou du bruit de test, sauf à des valeurs spécifiques et élevées où la récompense diminue de façon spectaculaire. En général, ajouter du bruit d’entraînement ne produit pas d’amélioration de la robustesse face aux perturbations d’action. Pour le bruit ajouté aux observations, il y a une diminution soudaine à presque nulle récompense lorsque le bruit est introduit pendant l’entraînement. Le RAP, qui utilise des populations adversaires pour s’entraîner, offre généralement une récompense plus élevée que le PPO et semble offrir une performance légèrement meilleure à des niveaux plus élevés de bruit d’entraînement, bien que ce soit négligeable. Appliquer du bruit à la dynamique externe pendant l’entraînement semble être le seul cas où il y a une amélioration.



Figure 40. PPO entraîné sans perturbations, testé sur la dynamique externe des perturbations du bruit blanc avec écart-type 0, 0,5, 1,0

Figure 41. PPO entraînée avec une perturbation du bruit blanc d’écart-type 0,25, testée sur la perturbation dynamique externe du bruit blanc avec écart-type 0, 0,5, 1,0
On pourrait soutenir qu’avec plus de temps pour s’entraîner dans cet environnement plus difficile, il serait possible d’obtenir de meilleurs résultats. Par conséquent, le modèle PPO pour la dynamique externe a été entraîné pour 500 000 et 1 000 000 étapes supplémentaires, car c’est le seul cas où un potentiel d’amélioration peut être observé.



Figure 42. Carte thermique de récompense d’évaluation du PPO entraînée et testée sur différents niveaux de bruit blanc pour 500 000, 1 500 000 et 2 000 000 d’étapes
Dans la figure 42, les résultats d’entraînement à moins de 1 000 000 d’étapes (500 000 pas) montrent que la récompense reste inférieure à celle du meilleur modèle. À mesure que le modèle est entraîné davantage, à 1 500 000 et 2 000 000 d’étapes, ses performances se détériorent encore, ce qui entraîne une récompense plus faible aux mêmes valeurs de bruit de test et d’entraînement. Il y a une légère amélioration à des valeurs élevées du bruit d’entraînement à 1 500 000 pas, bien que cela ne soit pas comparable à la performance lorsqu’il n’y a pas de bruit d’entraînement. Cette amélioration disparaît à mesure que l’entraînement se poursuit. Une explication possible de ce résultat est que le modèle n’a pas la capacité d’apprendre le comportement des deux systèmes (le cartpole et le bruit), ce qui entraîne une performance moins bonne, mais une exploration supplémentaire est nécessaire.
Une extension intéressante de cette expérience serait d’entraîner les modèles pour un certain nombre d’épisodes sans perturbations, puis d’introduire ces perturbations, soit en continuant à s’entraîner avec des perturbations, soit en alternant entre avec et sans perturbations. De plus, la variation des paramètres de la perturbation, similaire à l’approche du RAP, pourrait aider à améliorer la diversité des perturbations observées lors de l’entraînement. C’est pour les travaux futurs.
Dans l’ensemble, ces résultats suggèrent qu’il n’y a pas d’amélioration de la performance et souvent la performance peut souffrir lorsque du bruit est inclus pendant l’entraînement, même lors de séances d’entraînement plus longues.
À partir de cette revue, nous pouvons commencer à comprendre les effets des perturbations sur les algorithmes d’apprentissage par renforcement pendant l’entraînement et les tests. La robustesse face à ces perturbations continuera de gagner en importance à mesure que les algorithmes seront appliqués dans le monde réel.
Les approches sont robustes face aux perturbations lors des actions, mais rencontrent souvent plus de difficultés avec les perturbations sur la dynamique et les observations, ce qui entraîne des baisses importantes et soudaines de la récompense, sauf dans le cas des perturbations impulsionnelles lors des observations. Pour mieux gérer ces perturbations, un composant supplémentaire dont de nombreuses approches RL appliquées au contrôle robotique bénéficieraient est l’estimation de l’état. Cette composante pourrait être un modèle appris ou connu introduit dans le système, qui améliorera la connaissance de l’agent sur son état en présence de perturbations et d’incertitudes. S’assurer que l’agent possède une meilleure connaissance de son état serait un ajout nécessaire pour l’application réelle de l’apprentissage par renforcement.
En regardant les résultats dans leur ensemble, l’algorithme le plus robuste est le PPO, qui obtient la récompense la plus élevée le plus souvent pour tous les types de perturbations sur la dynamique externe, les actions et les observations dans ces expériences. RARL et SAC semblent être les approches les plus robustes suivantes, obtenant une récompense plus élevée l’une que l’autre dans différentes expériences. Le RAP est souvent moins stable que le RARL ou le SAC.
Pour utiliser les perturbations dans l’entraînement afin d’améliorer la performance, simplement introduire des perturbations tout au long de la formation ne semble pas être une approche prometteuse et compromet souvent la performance de l’approche. D’autres méthodes non conflictuelles pour introduire des perturbations pendant la formation afin d’améliorer la performance devraient être explorées.
L’apprentissage par renforcement robuste continuera de croître pour assurer la sécurité dans les environnements réels. Dans le contexte du travail avec une salle de sport à contrôle sécuritaire, il y a plusieurs étapes intéressantes à suivre.
Ce rapport est appuyé par le Vector Institute et le Dynamic Systems Lab. Je tiens à remercier particulièrement Amrit Krishnan (Vector Institute), Jacopo Panerati (Dynamic Systems Lab), Justin Yuan (Dynamic Systems Lab) et la professeure Angela Schoellig (Dynamic Systems Lab) pour leur soutien et leurs conseils.
[1] B. Mehta, M. Diaz, F. Golemo, C. J. Pal, L. Paull, « Randomisation du domaine actif », Actes de la conférence sur l’apprentissage robotique, vol. 100, pp. 1162–1176, oct. 2020