Parler aux machines : un nouveau modèle d’apprentissage automatique permet une communication plus « expressive » entre les chercheurs et les systèmes d’IA
15 juillet 2021
15 juillet 2021
14 juillet 2021
Par Ian Gormely
L’édition 2021 de la Conférence internationale sur l’apprentissage automatique (ICML), tenue virtuellement du 18 au 24 juillet, réunira à nouveau la communauté de l’apprentissage automatique pour partager et découvrir les dernières recherches de pointe en apprentissage automatique.
Parmi les articles coécrits par les chercheurs de Vector lors de la conférence de cette année figure « LTL2Action : Generalizing LTL Instructions for Multi-Task RL », coécrit par Pashootan Vaezipoor, Andrew Li, Rodrigo Toro Icarte et Sheila McIlraith, présidente d’IA au Canada CIFAR et membre du corps professoral Vector. Il progresse vers la construction d’un système d’apprentissage automatique (ML) capable d’accomplir une grande variété de tâches et de suivre des instructions ouvertes. « Nous voulons qu’un humain soit capable de dire à un système d’IA, comme un robot ou un téléphone, ce qu’il veut que l’IA fasse de manière simple et naturelle pour l’humain », explique le coauteur Andrew Li. Mais l’ambiguïté et la nature ouverte de la façon dont les humains parlent et écrivent naturellement peuvent être déroutant pour les machines.
Le groupe s’est tourné vers la logique temporelle linéaire (LTL), un langage formel expressif qui ne possède pas l’ambiguïté du langage naturel, mais qui peut tout de même communiquer les types d’instructions requis par les systèmes d’apprentissage automatique. « Vous avez ce langage très riche qui est très utile lorsqu’on travaille dans des domaines comme la robotique », explique Pashootan Vaezipoor. « Les possibilités sont infinies. »
Ce travail s’appuie sur les travaux antérieurs de Toro Icarte et d’autres membres du groupe de recherche de McIlraith, qui utilisaient LTL et d’autres langages formels comme moyens de communiquer ce qu’un humain veut qu’un système d’apprentissage automatique fasse. « Habituellement, il faut d’énormes quantités de données ou d’interactions d’un être humain pour entraîner un modèle comme celui-ci », explique McIlraith. LTL2Action est différent en ce qu’il se généralise à des instructions jamais vues auparavant pour plus de 10³⁹ tâches possibles sans nécessiter de rétroaction humaine. « C’est quelque chose de vraiment puissant dans ce travail. »
Vous trouverez ci-dessous des résumés et des résumés simplifiés de plusieurs des articles acceptés coécrits par les membres du corps professoral de Vector.
Apprentissage par renforcement multi-agents entraîneur-joueur pour une composition d’équipe dynamique
Bo Liu, Qiang Liu, Peter Stone, Animesh Garg, Yuke Zhu, Animashree Anandkumar
Dans les systèmes multi-agents réels, des agents avec différentes capacités peuvent rejoindre ou partir sans modifier les objectifs globaux de l’équipe. Coordonner des équipes avec une composition aussi dynamique est un défi : la stratégie d’équipe optimale varie selon la composition. Nous proposons COPA, un cadre entraîneur-joueur pour s’attaquer à ce problème. Nous supposons que l’entraîneur a une vision globale de l’environnement et coordonne les joueurs, qui n’ont que des vues partielles, en distribuant des stratégies individuelles. Plus précisément, nous 1) adoptons le mécanisme d’attention tant pour l’entraîneur que pour les joueurs; 2) proposer un objectif variationnel pour régulariser l’apprentissage; et 3) concevoir une méthode de communication adaptative permettant à l’entraîneur de décider quand communiquer avec les joueurs. Nous validons nos méthodes pour une tâche de collecte de ressources, un jeu de sauvetage et les tâches de microgestion StarCraft. Nous démontrons la généralisation zéro tir à de nouvelles compositions d’équipes. Notre méthode offre des performances comparables, voire supérieures, à celles où tous les joueurs ont une vue complète de l’environnement. De plus, on constate que la performance reste élevée même lorsque l’entraîneur communique aussi peu que 13% du temps en utilisant la stratégie de communication adaptative.
Tests statistiques efficaces : une approche par noyau tangent neuronal
Sheng Jia, Ehsan Nezhadarya, Yuhuai Wu, Jimmy Ba
Êtes-vous certain que votre modèle d’apprentissage automatique peut faire des prédictions fiables sur les données de test? Et si la précision est faible simplement parce que vos données de test sont intrinsèquement différentes des données d’entraînement?
Dans nos travaux les plus récents sur « Tests statistiques efficaces : une approche du noyau tangent neural », nous démontrons une méthode efficace pour détecter les divergences de données entre deux ensembles d’échantillons à l’aide d’un test à deux échantillons basé sur un noyau tangent neuronal. Grâce à notre approche, les praticiens en apprentissage automatique peuvent rapidement déterminer si leurs échantillons de test proviennent de la même distribution que les échantillons de formation. Le principal avantage de notre méthode est que nous n’avons pas besoin d’entraîner notre noyau tout en conservant la composition du noyau pour les données de haute dimension utilisant des réseaux de neurones. Notre processus de test permettra rapidement d’identifier si votre modèle est prêt à être déployé sur les nouvelles tâches.
Inférence environnementale pour l’apprentissage invariant
Elliot Creager, Jörn-Henrik Jacobsen, Richard Zemel
Bien que les systèmes d’apprentissage automatique aient tendance à bien fonctionner dans des contextes similaires aux données d’entraînement, ils peuvent échouer lorsqu’ils sont déployés dans de nouveaux contextes qui diffèrent subtilement de ceux observés auparavant. L’apprentissage invariant cherche à corriger ce type de fragilité en apprenant des caractéristiques « invariantes » aux changements de contexte pendant l’entraînement. Malheureusement, cela nécessite que les données d’entraînement soient partitionnées manuellement en « environnements » encodant les contextes pertinents. Pour répondre au contexte plus réaliste où cette information est indisponible, nous proposons l’Inférence d’Environnement pour l’Apprentissage Invariant (EIIL), une méthode qui déduit directement les étiquettes d’environnement du pire cas à partir des données d’entraînement, ce qui peut améliorer les méthodes d’Apprentissage Invariant en aval dans certains contextes.
Apprentissage f-domaine-adversarial : théorie et algorithmes
David Acuna, Guojun Zhang, Marc T. Law, Sanja Fidler
L’adaptation non supervisée du domaine est utilisée dans de nombreuses applications d’apprentissage automatique où, pendant l’entraînement, un modèle a accès à des données non étiquetées dans le domaine cible, ainsi qu’à un ensemble de données associé et étiqueté. Dans cet article, nous introduisons un cadre nouveau et général entre le domaine et l’adversité. Plus précisément, nous dérivons une nouvelle généralisation liée à l’adaptation de domaine qui exploite une nouvelle mesure de l’écart entre distributions basée sur une caractérisation variationnelle des f-divergences. Il retrouve les résultats théoriques de Ben-David et al. (2010a) comme cas particulier et soutient les divergences utilisées en pratique. Sur la base de cette borne, nous dérivons un nouveau cadre algorithmique qui introduit une correction clé dans la méthode originale d’entraînement adversarial de Ganin et al. (2016). Nous montrons que de nombreux régularisateurs et objectifs ad hoc introduits au cours des dernières années dans ce cadre ne sont alors pas nécessaires pour atteindre des performances comparables (voire supérieures) aux méthodes adversaires de domaine de pointe. Des analyses expérimentales menées sur des ensembles de données réels du langage naturel et de la vision par ordinateur montrent que notre cadre surpasse les références existantes et obtient les meilleurs résultats pour les f-divergences qui n’avaient pas été prises en compte auparavant dans l’apprentissage domaine-adversaire.
Au niveau de l’image ou au niveau de l’objet? Une histoire de deux stratégies de rééchantillonnage pour la détection à longue queue
Nadine Chang, Zhiding Yu, Yu-Xiong Wang, Anima Anandkumar, Sanja Fidler, Jose M. Alvarez
L’entraînement sur des ensembles de données à distributions à longue queue a été difficile pour des tâches majeures de reconnaissance telles que la classification et la détection. Pour relever ce défi, le rééchantillonnage d’image est généralement introduit comme une approche simple mais efficace. Cependant, nous observons que la détection à longue queue diffère de la classification puisque plusieurs classes peuvent être présentes dans une même image. En conséquence, le rééchantillonnage d’image seul ne suffit pas à produire une distribution suffisamment équilibrée au niveau de l’objet. Nous abordons le rééchantillonnage au niveau de l’objet en introduisant une stratégie de relecture mémoire centrée sur l’objet basée sur des banques de mémoire dynamiques et épisodiques. Notre stratégie proposée présente deux avantages : 1) un rééchantillonnage pratique au niveau de l’objet sans calcul supplémentaire significatif, et 2) une augmentation implicite au niveau des caractéristiques à partir des mises à jour du modèle. Nous montrons que les rééchantillonnages au niveau de l’image et au niveau de l’objet sont tous deux importants, et les unifions ainsi avec une stratégie conjointe de rééchantillonnage (RIO). Notre méthode surpasse les méthodes de détection et de segmentation à longue queue de pointe sur LVIS v0.5 sur divers réseaux dorsales.
Amélioration des taux de compression sans perte via le codage bits-back de Monte Carlo
Yangjun Ruan, Karen Ullrich, Daniel Severo, James Townsend, Ashish Khisti, Arnaud Doucet, Alireza Makhzani, Chris J. Maddison
Des modèles à variables latentes ont été appliqués avec succès en compression sans perte avec l’algorithme de codage bits-back. Cependant, le bits-back souffre d’une augmentation du débit binaire égale à la divergence KL entre l’arrière approximatif et le vrai postérieur. Dans cet article, nous montrons comment éliminer cet écart asymptotiquement en dérivant des algorithmes de codage bits-back à partir de bornes variationnelles plus serrées. L’idée clé est d’exploiter les représentations en espace étendu des estimateurs de Monte Carlo de la vraisemblance marginale. Appliqués naïvement, nos schémas nécessiteraient plus de bits initiaux que le codeur standard à bits-back, mais nous montrons comment réduire drastiquement ce coût supplémentaire grâce à des couplages dans l’espace latent. Lorsque les architectures parallèles peuvent être exploitées, nos codeurs peuvent obtenir de meilleurs débits que le bits-back avec peu de coûts supplémentaires. Nous démontrons une amélioration des taux de compression sans perte dans divers contextes, notamment en compression hors distribution ou séquentielle.
Attaques d’inférence d’adhésion uniquement sur l’étiquette
Christopher A. Choquette-Choo, Florian Tramer, Nicholas Carlini, Nicolas Papernot
Êtes-vous tenté d’éviter de payer l’utilité du modèle pour une garantie théorique de confidentialité en contournant des attaques spécifiques comme l’inférence d’appartenance? Nous identifions un groupe de défenses que nous appelons « masquage de confiance » que nous montrons ne pas être une défense viable contre les attaques d’inférence d’appartenance. Nous faisons cela en créant les premières attaques d’inférence d’adhésion uniquement sur étiquettes et en montrant que ces attaques adaptatives peuvent extraire avec succès l’appartenance malgré l’utilisation de ces défenses qui masquent les scores de confiance. Grâce à nos attaques, nous fournissons une évaluation rigoureuse de l’efficacité de nombreuses défenses et montrons que la formation privée différenciée avec l’apprentissage par transfert permet de faire le meilleur compromis entre la fuite de confidentialité et la performance du modèle.
Apprendre un modèle universel pour la généralisation de jeux de données en quelques coups
Eleni Triantafillou, Hugo Larochelle, Richard Zemel, Vincent Dumoulin
L’apprentissage par peu de coups est le problème d’apprendre de nouveaux concepts à partir d’une poignée d’exemples identifiés. Cela pose un défi important pour les algorithmes traditionnels d’apprentissage automatique, qui sont gourmands en données et dépendent de la disponibilité de grands ensembles de données étiquetés, en contraste frappant avec les capacités d’apprentissage flexibles des humains. Notre travail s’attaque à un scénario particulièrement difficile d’apprentissage par quelques coups, où l’on nous donne des exemples identifiés issus d’un ensemble diversifié de jeux de données (incluant des images de fleurs, champignons, textures, croquis, caractères manuscrits, etc.), dans le but de construire un modèle qui pourra ensuite utiliser des classes d’apprentissage en peu de tirs provenant de jeux de données inédits. Comparé au problème bien étudié de classification à quelques tirs, cette formulation présente le défi supplémentaire que les nouvelles classes sont thématiquement et visuellement distinctes de celles disponibles pour la formation. Pour cela, nous proposons d’apprendre un « modèle » de modèle (un sous-ensemble de couches d’un réseau de neurones) qui, lorsqu’il est « comblé » de manière appropriée (en choisissant les valeurs des couches restantes), définit des modèles qui fonctionnent bien pour différentes distributions de données, lui permettant d’apprendre rapidement divers ensembles de classes. Nous proposons une instanciation évolutive et efficace de cette idée, qui obtient de solides résultats sur l’apprentissage en peu de coups en offrant des ensembles variés de classes.
LIME : Apprentissage du biais inductif pour les primitives du raisonnement mathématique
Yuhuai Wu, Markus Rabe, Wenda Li, Jimmy Ba, Roger Grosse, Christian Szegedy
Le « biais inductif » fait référence aux façons dont un modèle se généralise à des situations qu’il n’a jamais connues auparavant. Bien que les biais inductifs soient généralement spécifiés à travers une architecture de modèle ou une distribution a priori, nous proposons une approche alternative pour spécifier des biais inductifs utiles : définir un ensemble de tâches auxiliaires synthétiques pour lesquelles ce biais inductif est utile. Nous appliquons avec succès cette approche à plusieurs étapes d’apprentissage du raisonnement mathématique.
LTL2Action : Généralisation des instructions LTL pour la RL multitâche
Pashootan Vaezipoor, Andrew Li, Rodrigo Toro Icarte, Sheila McIlraith
Imaginez une IA polyvalente capable d’accomplir diverses tâches et de suivre des instructions linguistiques ouvertes. En général, entraîner une telle IA à comprendre et à obéir aux commandes linguistiques est un processus laborieux, nécessitant un retour humain substantiel — soit de manière interactive, soit sous forme d’un grand corpus d’instructions marquées par des humains. Nous proposons plutôt un cadre d’apprentissage par renforcement profond (RL) qui utilise des instructions formelles de langage non ambiguës et compositionnelles, permettant la génération automatique de rétroaction pour l’entraînement. Les instructions sont spécifiées dans la logique temporelle linéaire (LTL), qui peut exprimer des motifs temporels complexes dans une syntaxe interprétable par l’humain. Nous démontrons dans des domaines complexes de la robotique que notre agent RL apprend à interpréter le langage, lui permettant de généraliser à des instructions jamais vues auparavant à partir d’un espace diversifié de plus de10 à 39 tâches possibles.
Markpainting : l’apprentissage automatique adversarial rencontre l’inpainting
David Khachatourov, Ilia Shumailov, Yiren Zhao, Nicolas Papernot, Ross Anderson
L’inpainting est une technique d’interpolation apprise basée sur la modélisation générative et utilisée pour peupler des pièces masquées ou manquantes dans une image; Il a de vastes applications dans le retouche et le montage d’images. Récemment, l’inpainting a commencé à être utilisée pour enlever les filigranes, ce qui soulève des inquiétudes. Dans cet article, nous étudions comment le manipuler en utilisant notre technique de peinture de marques. Premièrement, nous montrons comment un propriétaire d’image ayant accès à un modèle d’inpainting peut augmenter son image de manière à ce que toute tentative de l’éditer avec ce modèle ajoutera une information visible arbitraire. Nous constatons que nous pouvons cibler plusieurs modèles différents simultanément avec notre technique. Cela peut être conçu pour reconstituer un filigrane si l’éditeur a essayé de le retirer. Deuxièmement, nous montrons que notre technique de marquage est transférable à des modèles ayant différentes architectures ou ayant été entraînés sur différents ensembles de données, donc les filigranes créés à l’aide sont difficiles à retirer pour les adversaires. La peinture de marques est nouvelle et peut être utilisée comme une alarme de manipulation qui devient visible en cas d’inpainting.
Oups, j’ai pris un gradient : échantillonnage évolutif pour distributions discrètes
Will Grathwohl, Milad Hashemi, Kevin Swersky, David Duvenaud, Chris Maddison.
Souvent, les scientifiques veulent explorer automatiquement toutes les hypothèses possibles qui pourraient expliquer certaines données. Mais habituellement, la plupart des hypothèses correspondent très mal aux données, et il est difficile de trouver celles qui sont compatibles avec les données. C’est particulièrement vrai dans les cas où les hypothèses ont de nombreux degrés de liberté, mais au cours des dernières décennies, les méthodes qui cherchent en fonction du gradient de l’ajustement de l’hypothèse ont atteint des dizaines de milliers ou des millions de degrés de liberté. Nous avons élaboré une méthode simple pour appliquer cette recherche basée sur le gradient à des hypothèses décrites par des choix discrets. Nous démontrons cette approche pour modéliser les données de repliement des protéines.
Algorithme d’itération accélérée de valeurs PID
Amir-massoud Farahmand, Mohammmad Ghavamzadeh
Comment pouvons-nous accélérer le calcul de la politique optimale pour les agents d’apprentissage par renforcement (RL)? Beaucoup d’algorithmes RL sont basés sur un algorithme fondamental appelé itération de valeur (VI). L’itération de la valeur, cependant, est assez lente pour les problèmes avec un long horizon de planification où l’agent doit regarder loin dans l’avenir. Ce travail propose des modifications à VI pour accélérer sa convergence. L’idée clé est que le VI peut être interprété comme un système dynamique, qui peut ensuite être modifié à l’aide d’outils issus de la théorie du contrôle, tels que le contrôleur à dérivée proportionnelle (PID), afin de concevoir des variantes plus rapides de l’algorithme VI.
Exploration fondée sur des principes via le bootstrap optimiste et l’induction en arrière
Chenjia Bai, Lingxiao Wang, Lei Han, Jianye Hao, Animesh Garg, Peng Liu, Zhaoran Wang
Une approche de principe pour une exploration prouvablement efficace consiste à incorporer la borne supérieure de confiance (UCB) dans la fonction de valeur comme bonus. Cependant, l’UCB est spécifié pour gérer les réglages linéaires et tabulaires et est incompatible avec l’apprentissage par renforcement profond (DRL). Dans cet article, nous proposons une méthode d’exploration fondée sur des principes pour la DRL grâce à l’Optimistic Bootstrapping and Backward Induction (OB2I). OB2I construit un bonus UCB à usage général via un bootstrap non paramétrique en DRL. Le bonus UCB estime l’incertitude épistémique des paires état-action pour une exploration optimiste. Nous établissons des liens théoriques entre le bonus proposé de l’UCB et le LSVI-UCB dans un contexte linéaire. Nous propageons l’incertitude future de manière cohérente dans le temps grâce à une mise à jour épisodique à rebours, qui exploite l’avantage théorique et améliore empiriquement l’efficacité de l’échantillon. Nos expériences dans le labyrinthe MNIST et la suite Atari suggèrent qu’OB2I surpasse plusieurs approches d’exploration de pointe.
S2SD : Auto-distillation simultanée basée sur la similarité pour l’apprentissage métrique profond
Karsten Roth, Timo Milbich, Björn Ommer, Joseph Paul Cohen, Marzyeh Ghassemi
L’apprentissage métrique profond (DML) offre un outil crucial pour la similarité visuelle et les applications zero-shot en apprenant la généralisation des espaces d’embedding, bien que des travaux récents en DML aient montré une forte saturation de performance à travers les objectifs d’entraînement. Cependant, la capacité de généralisation est connue pour évoluer avec la dimensionnalité de l’espace d’immersion. Malheureusement, les embeddings à haute dimension entraînent aussi un coût de récupération plus élevé pour les applications en aval. Pour y remédier, nous proposons \emph{Auto-distillation simultanée basée sur la similarité (S2SD). S2SD étend le DML avec la distillation des connaissances à partir d’un embedding auxiliaire, de haute dimension et d’espaces de fonctionnalités afin de tirer parti du contexte complémentaire pendant la formation tout en conservant le coût en temps de test et avec des changements négligeables du temps d’entraînement. Des expériences et des ablations à travers différents objectifs et benchmarks standards montrent que S2SD offre des améliorations notables allant jusqu’à 7% en Recall@1, tout en établissant un nouveau pointage de la technologie. Code disponible ici.
Processus gaussiens variationnels évolutifs via décomposition harmonique
Shengyang Sun, Jiaxin Shi, Andrew Gordon Wilson, Roger Grosse
Les processus gaussiens définissent des distributions sur les fonctions. Nous introduisons la décomposition du noyau harmonique, qui décompose un GP obéissant à certaines symétries en une somme de GP orthogonales. En utilisant cette décomposition, nous donnons un algorithme d’inférence pour les GP plus évolutif que les approches précédentes.
Segmentation des trajectoires hybrides avec des EDO latentes
Ruian Shi, Quaid Morris
Les trajectoires hybrides sont un type de données de séries temporelles qui comportent des changements soudains dans la façon dont les données sont générées. Par exemple, les mesures de l’état médical d’un patient peuvent changer brusquement en raison de l’acquisition d’une nouvelle maladie. De nombreux ensembles de données de séries temporelles réelles contiennent des trajectoires hybrides, mais il est difficile pour les méthodes traditionnelles de les modéliser avec précision, surtout lorsque les positions du changement sont inconnues. Ainsi, nous développons l’ODE segmentée latente (LatSegODE), qui fournit une interpolation et une extrapolation précises des trajectoires hybrides, et détecte précisément les positions de changement abrupt. Le LatSegODE utilise un algorithme de recherche optimisé pour trouver la meilleure reconstruction tout en considérant toutes les positions possibles de changement dans une trajectoire hybride, ce qui lui permet d’opérer sans savoir à l’avance où et combien de positions de changement existent.
SketchEmbedNet : Apprendre des concepts inédits en imitant des dessins
Alexander Wang, Mengye Ren, Richard S. Zemel
Les croquis capturent les informations essentielles des concepts visuels. Des travaux antérieurs ont démontré que les réseaux de neurones sont capables de produire des croquis d’objets naturels tirés d’un petit nombre de classes. Alors que les approches antérieures se concentrent sur la qualité de génération ou la récupération, nous explorons les propriétés des représentations d’images apprises en entraînant un modèle à produire des croquis d’images. Nous montrons que ce modèle génératif, indépendant de la classe, produit des embeddings informatifs d’images issues d’exemples, de classes et même de jeux de données inédits dans un contexte de quelques plans. De plus, nous constatons que ces représentations apprises présentent une structure et une compositionnalité intéressantes.
Tesseract : acteurs tensorisés pour l’apprentissage par renforcement multi-agents
Anuj Mahajan, Mikayel Samvelyan, Lei Mao, Viktor Makoviychuk, Animesh Garg, Jean Kossaifi, Shimon Whiteson, Yuke Zhu, Animashree Anandkumar
L’apprentissage par renforcement dans de grands espaces d’action est un défi complexe. L’apprentissage par renforcement coopératif multi-agents (MARL) aggrave la situation en imposant diverses contraintes à la communication et à l’observabilité. Dans ce travail, nous considérons l’obstacle fondamental qui affecte à la fois les approches basées sur la valeur et les approches sur le gradient de politique : une explosion exponentielle de l’espace d’actions avec le nombre d’agents. Pour les méthodes basées sur la valeur, cela pose des défis pour représenter avec précision la fonction de valeur optimale. Pour les méthodes de gradient politique, cela rend la formation du critique difficile et aggrave le problème du critique en retard. Nous montrons que, du point de vue de la théorie de l’apprentissage, les deux problèmes peuvent être abordés en représentant avec précision la fonction action-valeur associée avec une classe d’hypothèses de faible complexité. Cela nécessite de modéliser avec précision les interactions entre agents de manière efficace pour l’échantillonnage. À cette fin, nous proposons une nouvelle formulation tensorisée de l’équation de Bellman. Cela donne naissance à notre méthode Tesseract, qui considère la fonction Q comme un tenseur dont les modes correspondent aux espaces d’actions de différents agents. Les algorithmes dérivés du Tesseract décomposent le Q-tenseur entre les agents et utilisent des approximations de tenseur de bas rang pour modéliser les interactions entre agents pertinentes à la tâche. Nous fournissons une analyse PAC pour les algorithmes basés sur le Tesseract et soulignons leur pertinence pour la classe des MDP d’observation riches. Les résultats empiriques dans différents domaines confirment les gains du Tesseract en efficacité d’échantillonnage prédits par la théorie.
Représentation non supervisée des pièces par des capsules de flux
Sara Sabour, Andrea Tagliasacchi, Soroosh Yazdani, Geoffrey E. Hinton, David J. Fleet
Les réseaux capsule visent à analyser les images en une hiérarchie d’objets, de parties et de relations. Bien que prometteuses, elles restent limitées par leur incapacité à apprendre des descriptions efficaces de pièces de bas niveau. Pour résoudre ce problème, nous proposons une méthode pour apprendre les encodeurs capsules primaires qui détectent les parties atomiques à partir d’une seule image. Pendant l’entraînement, nous exploitons le mouvement comme un indice perceptif puissant pour la définition des parties, avec un décodeur expressif pour la génération de parties au sein d’un modèle d’image en couches avec occlusion. Les expériences démontrent une découverte robuste de pièces en présence de multiples objets, de fonds encombrés et d’occlusion. Le décodeur de pièces déduit les masques de forme sous-jacentes, remplissant ainsi les régions occluses des formes détectées. Nous évaluons les FlowCapsules sur segmentation non supervisée des pièces et classification non supervisée des images.
Itération de valeurs dans les actions, états et temps continus
Michael Lutter, Shie Mannor, Jan Peters, Dieter Fox, Animesh Garg
Les approches classiques d’itération de valeur ne s’appliquent pas aux environnements avec des états et des actions continus. Pour de tels environnements, les états et actions sont généralement discrétisés, ce qui entraîne une augmentation exponentielle de la complexité computationnelle. Dans cet article, nous proposons l’itération continue des valeurs ajustées (cFVI). Cet algorithme permet la programmation dynamique pour des états et actions continus avec un modèle dynamique connu. En tirant parti de la formulation en temps continu, la politique optimale peut être dérivée pour la dynamique non linéaire du contrôle affine. Cette solution en forme fermée permet l’extension efficace de l’itération de la valeur à des environnements continus. Nous montrons dans des expériences de contrôle non linéaire que la solution de programmation dynamique obtient la même performance quantitative que les méthodes d’apprentissage par renforcement profond en simulation, mais excelle lorsqu’elle est transférée au système physique. La politique obtenue par cFVI est plus robuste aux changements de dynamique malgré l’utilisation uniquement d’un modèle déterministe et sans incorporation explicite de robustesse dans l’optimisation. Des vidéos du système physique sont disponibles ici.