Parler aux machines : un nouveau modèle de ML permet une communication plus "expressive" entre les chercheurs et les systèmes d'IA

14 juillet 2021

Par Ian Gormely

L'édition 2021 de la Conférence internationale sur l'apprentissage automatique (ICML), qui se tiendra virtuellement du 18 au 24 juillet, réunira une fois de plus la communauté de l'apprentissage automatique afin de partager et d'apprendre les dernières recherches de pointe en la matière.

Parmi les articles cosignés par les chercheurs de Vector lors de la conférence de cette année, on peut citer "LTL2Action : Généralisation des instructions LTL pour les tâches multiples RL", coécrit par Pashootan Vaezipoor, Andrew Li, Rodrigo Toro Icarte et Sheila McIlraith, membre de la faculté Vecteur et titulaire de la chaire d'IA du CIFAR au Canada. Il constitue une avancée dans la construction d'un système d'apprentissage automatique capable d'effectuer un large éventail de tâches et de suivre des instructions ouvertes. "Nous voulons qu'un humain puisse dire à un système d'IA, tel qu'un robot ou un téléphone, ce qu'il veut que l'IA fasse d'une manière simple et naturelle pour l'humain", explique Andrew Li, coauteur de l'étude. Mais l'ambiguïté et la nature ouverte de la façon dont les humains parlent et écrivent naturellement peuvent être déroutantes pour les machines.

Le groupe s'est tourné vers la logique temporelle linéaire (LTL), un langage formel expressif qui n'a pas l'ambiguïté du langage naturel, mais qui peut toujours communiquer les types d'instructions requis par les systèmes de ML. "Vous disposez d'un langage très riche qui est très utile pour travailler dans des domaines tels que la robotique", explique Pashootan Vaezipoor. "Les possibilités sont infinies.

Ces travaux s'appuient sur des travaux antérieurs de Toro Icarte et d'autres membres du groupe de recherche de M. McIlraith, qui utilisaient le LTL et d'autres langages formels pour communiquer ce qu'un être humain attend d'un système de ML. "Habituellement, il faut d'énormes quantités de données étiquetées ou d'interactions avec un être humain pour former un tel modèle", explique M. McIlraith. LTL2Action est différent, car il se généralise à des instructions jamais vues auparavant pour plus de 10³⁹ tâches possibles sans nécessiter de retour d'information de la part de l'homme. "C'est ce qui fait la force de ce travail.

Vous trouverez ci-dessous les résumés et les sommaires simplifiés de plusieurs des articles acceptés, cosignés par des membres de la faculté Vecteur.

Apprentissage par renforcement multi-agents de l'entraîneur et du joueur pour la composition dynamique d'une équipe
Bo Liu, Qiang Liu, Peter Stone, Animesh Garg, Yuke Zhu, Animashree Anandkumar

Dans les systèmes multi-agents du monde réel, des agents dotés de capacités différentes peuvent se joindre à l'équipe ou la quitter sans que les objectifs généraux de l'équipe ne soient modifiés. Coordonner des équipes avec une telle composition dynamique est un défi : la stratégie optimale de l'équipe varie en fonction de la composition. Nous proposons COPA, un cadre entraîneur-joueur pour résoudre ce problème. Nous supposons que l'entraîneur a une vue globale de l'environnement et qu'il coordonne les joueurs, qui n'ont qu'une vue partielle, en distribuant des stratégies individuelles. Plus précisément, nous 1) adoptons le mécanisme d'attention pour l'entraîneur et les joueurs ; 2) proposons un objectif variationnel pour régulariser l'apprentissage ; et 3) concevons une méthode de communication adaptative pour permettre à l'entraîneur de décider quand communiquer avec les joueurs. Nous validons nos méthodes sur une tâche de collecte de ressources, un jeu de sauvetage et les tâches de microgestion de StarCraft. Nous démontrons la généralisation de la méthode "zero-shot" à de nouvelles compositions d'équipe. Notre méthode permet d'obtenir des performances comparables, voire meilleures, que dans le cas où tous les joueurs ont une vue complète de l'environnement. En outre, nous constatons que les performances restent élevées même lorsque l'entraîneur ne communique que 13 % du temps à l'aide de la stratégie de communication adaptative.

Tests statistiques efficaces : Une approche par noyau neuronal tangent
Sheng Jia, Ehsan Nezhadarya, Yuhuai Wu, Jimmy Ba

Êtes-vous sûr que votre modèle de ML peut faire des prédictions fiables sur les données de test ? Que se passe-t-il si la précision est faible simplement parce que vos données de test sont intrinsèquement différentes des données d'apprentissage ?

Dans notre dernier travail intitulé "Efficient Statistical Tests : A Neural Tangent Kernel Approach", nous montrons un moyen efficace de détecter les divergences de données entre deux ensembles d'échantillons à l'aide d'un test à deux échantillons basé sur un noyau de tangente neuronal. En utilisant notre approche, les praticiens de la ML peuvent rapidement identifier si leurs échantillons de test proviennent de la même distribution que les échantillons d'apprentissage. Le principal avantage de notre méthode est qu'il n'est pas nécessaire d'entraîner notre noyau tout en conservant la composition du noyau pour les données de haute dimension à l'aide de réseaux neuronaux. Notre processus de test permettra d'identifier rapidement si votre modèle est prêt à être déployé sur les nouvelles tâches.

Inférence de l'environnement pour l'apprentissage invariant
Elliot Creager, Jörn-Henrik Jacobsen, Richard Zemel

Alors que les systèmes de ML ont tendance à bien fonctionner dans des contextes similaires aux données d'apprentissage, ils peuvent échouer lorsqu'ils sont déployés dans de nouveaux contextes qui diffèrent subtilement de ceux observés auparavant. L'apprentissage invariant cherche à remédier à ce type de fragilité en apprenant des caractéristiques qui sont "invariantes" aux changements de contexte pendant la formation. Malheureusement, cette méthode exige que les données d'apprentissage soient divisées manuellement en "environnements" qui encodent les contextes pertinents. Pour aborder le cas plus réaliste où cette information n'est pas disponible, nous proposons Environment Inference for Invariant Learning (EIIL), une méthode qui infère des étiquettes d'environnement dans le pire des cas directement à partir des données d'apprentissage, ce qui peut améliorer les méthodes d'apprentissage invariant en aval dans certains contextes.

f-Domain-Adversarial Learning : Théorie et algorithmes
David Acuna, Guojun Zhang, Marc T. Law, Sanja Fidler

L'adaptation au domaine non supervisé est utilisée dans de nombreuses applications d'apprentissage automatique où, pendant la formation, un modèle a accès à des données non étiquetées dans le domaine cible et à un ensemble de données étiquetées connexes. Dans cet article, nous présentons un nouveau cadre général d'adaptation au domaine. Plus précisément, nous dérivons une nouvelle limite de généralisation pour l'adaptation au domaine qui exploite une nouvelle mesure de l'écart entre les distributions basée sur une caractérisation variationnelle des f-divergences. Elle récupère les résultats théoriques de Ben-David et al. (2010a) en tant que cas particulier et prend en charge les divergences utilisées dans la pratique. Sur la base de cette limite, nous dérivons un nouveau cadre algorithmique qui introduit une correction clé dans la méthode originale d'apprentissage contradictoire de Ganin et al. (2016). Nous montrons que de nombreux régularisateurs et objectifs ad-hoc introduits au cours des dernières années dans ce cadre ne sont alors pas nécessaires pour atteindre des performances comparables (voire meilleures) à celles des méthodes adversariales de domaine de l'état de l'art. L'analyse expérimentale menée sur des ensembles de données réels de langage naturel et de vision par ordinateur montre que notre cadre surpasse les lignes de base existantes, et obtient les meilleurs résultats pour les divergences f qui n'ont pas été considérées auparavant dans l'apprentissage inversarial de domaine.

Niveau de l'image ou niveau de l'objet ? Deux stratégies de rééchantillonnage pour la détection à longue traîne
Nadine Chang, Zhiding Yu, Yu-Xiong Wang, Anima Anandkumar, Sanja Fidler, Jose M. Alvarez

L'entraînement sur des ensembles de données présentant des distributions à longue queue est un défi pour les principales tâches de reconnaissance telles que la classification et la détection. Pour relever ce défi, le rééchantillonnage d'images est généralement présenté comme une approche simple mais efficace. Cependant, nous observons que la détection des queues longues diffère de la classification, puisque plusieurs classes peuvent être présentes dans une image. Par conséquent, le rééchantillonnage d'images ne suffit pas à produire une distribution suffisamment équilibrée au niveau de l'objet. Nous abordons le rééchantillonnage au niveau de l'objet en introduisant une stratégie de relecture de la mémoire centrée sur l'objet et basée sur des banques de mémoire dynamique et épisodique. La stratégie que nous proposons présente deux avantages : 1) un rééchantillonnage pratique au niveau de l'objet sans calcul supplémentaire significatif, et 2) une augmentation implicite au niveau des caractéristiques à partir des mises à jour du modèle. Nous montrons que les rééchantillonnages au niveau de l'image et au niveau de l'objet sont tous deux importants, et nous les unifions donc avec une stratégie de rééchantillonnage conjointe (RIO). Notre méthode est plus performante que les méthodes de détection et de segmentation de la longue queue les plus récentes sur LVIS v0.5 à travers différents backbones.

Amélioration des taux de compression sans perte grâce au codage Monte Carlo Bits-Back
Yangjun Ruan, Karen Ullrich, Daniel Severo, James Townsend, Ashish Khisti, Arnaud Doucet, Alireza Makhzani, Chris J. Maddison

Les modèles de variables latentes ont été appliqués avec succès à la compression sans perte avec l'algorithme de codage bits-back. Toutefois, ce dernier souffre d'une augmentation du débit binaire égale à la divergence KL entre la postériorité approximative et la postériorité réelle. Dans cet article, nous montrons comment supprimer cet écart asymptotiquement en dérivant les algorithmes de codage bits-back à partir de limites variationnelles plus étroites. L'idée clé est d'exploiter les représentations de l'espace étendu des estimateurs de Monte Carlo de la vraisemblance marginale. Appliqués naïvement, nos schémas nécessiteraient plus de bits initiaux que le codeur bits-back standard, mais nous montrons comment réduire considérablement ce coût supplémentaire grâce à des couplages dans l'espace latent. Lorsque les architectures parallèles peuvent être exploitées, nos codeurs peuvent atteindre de meilleurs taux que le codage en retour de bits avec un faible coût supplémentaire. Nous démontrons l'amélioration des taux de compression sans perte dans une variété de contextes, en particulier dans la compression de données séquentielles ou hors distribution.

Attaques par inférence d'appartenance sans étiquette
Christopher A. Choquette-Choo, Florian Tramer, Nicholas Carlini, Nicolas Papernot

Êtes-vous tenté d'éviter de payer l'utilité d'un modèle pour une garantie théorique de confidentialité en déjouant des attaques spécifiques telles que l'inférence d'appartenance ? Nous identifions un groupe de défenses que nous appelons "masquage de confiance" et nous montrons qu'il ne s'agit pas d'une défense viable contre les attaques par inférence d'appartenance. Pour ce faire, nous créons les premières attaques d'inférence d'appartenance par étiquette seulement et nous montrons que ces attaques adaptatives peuvent réussir à extraire l'appartenance malgré l'utilisation de ces défenses qui masquent les scores de confiance. En utilisant nos attaques, nous fournissons une évaluation rigoureuse de l'efficacité de nombreuses défenses et nous montrons que l'apprentissage différentiellement privé avec l'apprentissage par transfert permet d'obtenir le meilleur compromis entre la perte de confidentialité et la performance du modèle.

Apprentissage d'un modèle universel pour la généralisation d'un ensemble de données à faible tirage
Eleni Triantafillou, Hugo Larochelle, Richard Zemel, Vincent Dumoulin

L'apprentissage à partir de quelques exemples est le problème de l'apprentissage de nouveaux concepts à partir d'une poignée d'exemples étiquetés. Il s'agit d'un défi de taille pour les algorithmes traditionnels d'apprentissage automatique, qui sont avides de données et dépendent de la disponibilité de vastes ensembles de données étiquetées, ce qui contraste fortement avec les capacités d'apprentissage flexibles des humains. Notre travail s'attaque à un scénario d'apprentissage en quelques secondes particulièrement difficile, dans lequel nous recevons des exemples étiquetés provenant d'un ensemble diversifié de données (y compris des images de fleurs, de champignons, de textures, d'esquisses, de caractères manuscrits, etc. Par rapport au problème bien étudié de la classification en quelques secondes, cette formulation présente un défi supplémentaire : les nouvelles classes sont thématiquement et visuellement distinctes de celles qui étaient disponibles pour l'apprentissage. Pour cela, nous proposons d'apprendre un "modèle" de modèle (un sous-ensemble de couches d'un réseau neuronal) qui, lorsqu'il est "rempli" de manière appropriée (en choisissant des valeurs pour les couches restantes), définit des modèles qui fonctionnent bien pour différentes distributions de données, ce qui lui permet d'apprendre rapidement divers ensembles de classes. Nous proposons une instanciation évolutive et efficace de cette idée qui permet d'obtenir de bons résultats sur l'apprentissage en quelques secondes de divers ensembles de classes.

LIME : Apprentissage de biais inductifs pour les primitives de raisonnement mathématique
Yuhuai Wu, Markus Rabe, Wenda Li, Jimmy Ba, Roger Grosse, Christian Szegedy

Le "biais inductif" fait référence à la façon dont un modèle généralise des situations qu'il n'a jamais vues auparavant. Alors que les biais inductifs sont généralement spécifiés par le biais d'une architecture de modèle ou d'une distribution préalable, nous proposons une approche alternative pour spécifier les biais inductifs utiles : définir un ensemble de tâches auxiliaires synthétiques pour lesquelles ce biais inductif est utile. Nous appliquons avec succès cette approche à plusieurs critères d'apprentissage du raisonnement mathématique.

LTL2Action : Généralisation des instructions LTL pour la RL multi-tâches
Pashootan Vaezipoor, Andrew Li, Rodrigo Toro Icarte, Sheila McIlraith

Imaginez une IA polyvalente capable d'effectuer diverses tâches et de suivre des instructions linguistiques ouvertes. Généralement, l'apprentissage d'une telle IA à comprendre et à suivre des instructions linguistiques est un processus laborieux, qui nécessite un retour d'information important de la part de l'homme - soit de manière interactive, soit sous la forme d'un vaste corpus d'instructions étiquetées par l'homme. Nous proposons à la place un cadre d'apprentissage par renforcement profond (RL) qui utilise des instructions linguistiques formelles non ambiguës et compositionnelles, ce qui permet un apprentissage automatique automatique automatique d'un retour d'information pour la formation. Les instructions sont spécifiées en logique temporelle linéaire (LTL)qui permet d'exprimer des modèles temporels complexes dans une syntaxe interprétable par l'homme. Nous démontrons dans des domaines robotiques complexes que notre agent RL apprend à interpréter le langage, ce qui lui permet de généraliser à des instructions jamais vues auparavant dans un espace diversifié de plus de 1039 tâches possibles.

Markpainting : L'apprentissage automatique adversarial rencontre l'inpainting
David Khachaturov, Ilia Shumailov, Yiren Zhao, Nicolas Papernot, Ross Anderson

L'inpainting est une technique d'interpolation basée sur la modélisation générative et utilisée pour remplir les parties masquées ou manquantes d'une image ; elle trouve de nombreuses applications dans l'édition et la retouche d'images. Récemment, l'inpainting a commencé à être utilisé pour la suppression de filigranes, ce qui a suscité des inquiétudes. Dans cet article, nous étudions comment manipuler l'inpainting à l'aide de notre technique de markpainting. Tout d'abord, nous montrons comment un propriétaire d'image ayant accès à un modèle d'inpainting peut augmenter son image de telle sorte que toute tentative d'édition à l'aide de ce modèle ajoutera des informations visibles arbitraires. Nous constatons que notre technique permet de cibler simultanément plusieurs modèles différents. Celle-ci peut être conçue pour reconstituer un filigrane si l'éditeur a essayé de le supprimer. Deuxièmement, nous montrons que notre technique de marquage est transférable à des modèles qui ont des architectures différentes ou qui ont été formés sur des ensembles de données différents, de sorte que les filigranes créés à l'aide de cette technique sont difficiles à supprimer pour les adversaires. Le markpainting est nouveau et peut être utilisé comme une alarme de manipulation qui devient visible en cas d'inpainting.

Oups, j'ai pris un gradient : Échantillonnage évolutif pour les distributions discrètes
Will Grathwohl, Milad Hashemi, Kevin Swersky, David Duvenaud, Chris Maddison.

Les scientifiques souhaitent souvent explorer automatiquement toutes les hypothèses susceptibles d'expliquer certaines données. Mais en général, la plupart des hypothèses s'adaptent très mal aux données et il est difficile de trouver celles qui sont compatibles avec les données. Cela est particulièrement vrai dans les cas où les hypothèses ont de nombreux degrés de liberté, mais au cours des dernières décennies, les méthodes de recherche basées sur le gradient de l'adéquation de l'hypothèse se sont étendues à des dizaines de milliers ou des millions de degrés de liberté. Nous avons élaboré une méthode simple pour appliquer cette recherche basée sur le gradient aux hypothèses qui sont décrites par des choix discrets. Nous démontrons cette approche sur des données de modélisation du repliement des protéines.

Algorithme d'itération de valeur accélérée PID
Amir-massoud Farahmand, Mohammmad Ghavamzadeh

Comment pouvons-nous accélérer le calcul de la politique optimale pour les agents d'apprentissage par renforcement (RL) ? De nombreux algorithmes d'apprentissage par renforcement sont basés sur un algorithme fondamental appelé itération de valeur (VI). L'itération de valeur est cependant assez lente pour les problèmes à long horizon de planification dans lesquels l'agent doit regarder loin dans le futur. Ce travail propose des modifications de l'algorithme VI afin d'accélérer sa convergence. L'idée principale est que VI peut être interprété comme un système dynamique, qui peut ensuite être modifié en utilisant des outils de la théorie du contrôle, tels que le contrôleur proportionnel-dérivé-intégral (PID), pour concevoir des variantes plus rapides de l'algorithme VI.

Exploration fondée sur des principes par bootstrapping optimiste et induction à rebours
Chenjia Bai, Lingxiao Wang, Lei Han, Jianye Hao, Animesh Garg, Peng Liu, Zhaoran Wang

Une approche fondée sur des principes pour une exploration dont l'efficacité est prouvée consiste à incorporer la limite supérieure de confiance (BSC) dans la fonction de valeur en tant que bonus. Cependant, l'UCB est spécifiée pour traiter les paramètres linéaires et tabulaires et est incompatible avec l'apprentissage par renforcement profond (DRL). Dans cet article, nous proposons une méthode d'exploration fondée sur des principes pour l'apprentissage par renforcement profond par le biais de l'amorçage optimiste et de l'induction à rebours (OB2I). OB2I construit un bonus UCB à usage général par bootstrap non paramétrique dans le DRL. Le bonus UCB estime l'incertitude épistémique des paires état-action pour l'exploration optimiste. Nous établissons des liens théoriques entre le bonus UCB proposé et le LSVI-UCB dans un cadre linéaire. Nous propageons l'incertitude future de manière cohérente dans le temps par le biais d'une mise à jour épisodique à rebours, qui exploite l'avantage théorique et améliore empiriquement l'efficacité de l'échantillon. Nos expériences dans le labyrinthe MNIST et la suite Atari suggèrent qu'OB2I surpasse plusieurs approches d'exploration de pointe.

S2SD : Autodistillation basée sur la similarité simultanée pour l'apprentissage métrique profond
Karsten Roth, Timo Milbich, Björn Ommer, Joseph Paul Cohen, Marzyeh Ghassemi

Le Deep Metric Learning (DML) fournit un outil crucial pour les applications de similarité visuelle et de zéro-coup en apprenant des espaces d'intégration généralisés, bien que les travaux récents en DML aient montré une forte saturation des performances à travers les objectifs d'entraînement. Cependant, on sait que la capacité de généralisation augmente avec la dimension de l'espace d'intégration. Malheureusement, les encastrements de grande dimension entraînent également des coûts d'extraction plus élevés pour les applications en aval. Pour y remédier, nous proposons l'autodistillation basée sur la similarité simultanée (S2SD). S2SD étend DML avec la distillation de connaissances à partir d'espaces d'intégration et de caractéristiques auxiliaires à haute dimension afin d'exploiter le contexte complémentaire pendant la formation tout en conservant le coût du temps de test et avec des changements négligeables du temps de formation. Des expériences et des ablations sur différents objectifs et benchmarks standards montrent que S2SD offre des améliorations notables allant jusqu'à 7% dans Recall@1, tout en établissant un nouvel état de l'art. Code disponible ici.

Processus gaussiens variationnels évolutifs via la décomposition du noyau harmonique
Shengyang Sun, Jiaxin Shi, Andrew Gordon Wilson, Roger Grosse

Les processus gaussiens définissent des distributions sur des fonctions. Nous introduisons la décomposition harmonique du noyau, qui décompose un processus gaussien obéissant à certaines symétries en une somme de processus gaussiens orthogonaux. En utilisant cette décomposition, nous donnons un algorithme d'inférence pour les processus gaussiens qui est plus évolutif que les approches précédentes.

Segmentation de trajectoires hybrides avec des ODE latentes
Ruian Shi, Quaid Morris

Les trajectoires hybrides sont un type de données de séries temporelles qui contiennent des changements soudains dans la manière dont les données sont générées. Par exemple, les mesures de l'état de santé d'un patient peuvent changer brusquement en raison de l'apparition d'une nouvelle maladie chez le patient. De nombreux ensembles de données de séries temporelles du monde réel contiennent des trajectoires hybrides, mais il est difficile pour les méthodes traditionnelles de les modéliser avec précision, en particulier lorsque les positions de changement sont inconnues. Nous développons donc l'ODE segmentée latente (LatSegODE), qui permet une interpolation et une extrapolation précises des trajectoires hybrides et détecte avec précision les positions de changement brusque. LatSegODE utilise un algorithme de recherche optimisé pour trouver la meilleure reconstruction tout en tenant compte de toutes les positions de changement possibles dans une trajectoire hybride, ce qui lui permet de fonctionner sans connaissance préalable de l'emplacement et du nombre de positions de changement.

SketchEmbedNet : Apprendre de nouveaux concepts en imitant des dessins
Alexander Wang, Mengye Ren, Richard S. Zemel

Les dessins d'esquisses capturent les informations saillantes des concepts visuels. Des travaux antérieurs ont montré que les réseaux neuronaux sont capables de produire des croquis d'objets naturels à partir d'un petit nombre de classes. Alors que les approches précédentes se concentrent sur la qualité de la génération ou la récupération, nous explorons les propriétés des représentations d'images apprises en entraînant un modèle à produire des croquis d'images. Nous montrons que ce modèle génératif, indépendant des classes, produit des représentations informatives d'images à partir de nouveaux exemples, de nouvelles classes et même de nouveaux ensembles de données dans un contexte de quelques essais. En outre, nous constatons que les représentations apprises présentent une structure et une composition intéressantes.

Tesseract : Acteurs tensorisés pour l'apprentissage par renforcement multi-agents
Anuj Mahajan, Mikayel Samvelyan, Lei Mao, Viktor Makoviychuk, Animesh Garg, Jean Kossaifi, Shimon Whiteson, Yuke Zhu, Animashree Anandkumar

L'apprentissage par renforcement dans les grands espaces d'action est un problème difficile. L'apprentissage par renforcement multi-agents coopératif (MARL) aggrave les choses en imposant diverses contraintes sur la communication et l'observabilité. Dans ce travail, nous considérons l'obstacle fondamental qui affecte à la fois les approches basées sur la valeur et celles basées sur le gradient de politique : une explosion exponentielle de l'espace d'action avec le nombre d'agents. Pour les méthodes basées sur la valeur, cela pose des problèmes de représentation précise de la fonction de valeur optimale. Pour les méthodes de gradient de politique, cela rend l'entraînement du critique difficile et exacerbe le problème du retard du critique. Nous montrons que, du point de vue de la théorie de l'apprentissage, ces deux problèmes peuvent être résolus en représentant avec précision la fonction action-valeur associée à l'aide d'une classe d'hypothèses à faible complexité. Pour ce faire, il faut modéliser avec précision les interactions entre les agents d'une manière efficace du point de vue de l'échantillonnage. À cette fin, nous proposons une nouvelle formulation tensorielle de l'équation de Bellman. Cela donne lieu à notre méthode Tesseract, qui considère la fonction Q comme un tenseur dont les modes correspondent aux espaces d'action des différents agents. Les algorithmes dérivés de Tesseract décomposent le tenseur Q entre les agents et utilisent des approximations tensorielles de faible rang pour modéliser les interactions des agents pertinentes pour la tâche. Nous fournissons une analyse PAC pour les algorithmes basés sur Tesseract et soulignons leur pertinence pour la classe des MDP à observation riche. Des résultats empiriques dans différents domaines confirment les gains d'efficacité d'échantillonnage de Tesseract prévus par la théorie.

Représentation non supervisée de pièces par des capsules de flux
Sara Sabour, Andrea Tagliasacchi, Soroosh Yazdani, Geoffrey E. Hinton, David J. Fleet

Les réseaux de capsules visent à analyser les images en une hiérarchie d'objets, de parties et de relations. Bien que prometteurs, ils restent limités par leur incapacité à apprendre des descriptions de pièces de bas niveau efficaces. Pour résoudre ce problème, nous proposons un moyen d'apprendre des codeurs de capsules primaires qui détectent des parties atomiques à partir d'une seule image. Pendant l'apprentissage, nous exploitons le mouvement comme un indice perceptif puissant pour la définition des pièces, avec un décodeur expressif pour la génération de pièces dans un modèle d'image en couches avec occlusion. Les expériences démontrent une découverte robuste des pièces en présence d'objets multiples, d'arrière-plans encombrés et d'occlusions. Le décodeur de pièces déduit les masques de forme sous-jacents, remplissant efficacement les régions occluses des formes détectées. Nous évaluons FlowCapsules sur la segmentation non supervisée des pièces et la classification non supervisée des images.

Itération de la valeur dans les actions, les états et le temps continus
Michael Lutter, Shie Mannor, Jan Peters, Dieter Fox, Animesh Garg

Les approches classiques d'itération de la valeur ne sont pas applicables aux environnements dont les états et les actions sont continus. Pour ces environnements, les états et les actions sont généralement discrétisés, ce qui entraîne une augmentation exponentielle de la complexité des calculs. Dans cet article, nous proposons l'itération de valeur ajustée continue (cFVI). Cet algorithme permet la programmation dynamique pour des états et des actions continus avec un modèle dynamique connu. En s'appuyant sur la formulation en temps continu, la politique optimale peut être dérivée pour les dynamiques de contrôle-affine non linéaires. Cette solution fermée permet d'étendre efficacement l'itération de la valeur à des environnements continus. Nous montrons dans des expériences de contrôle non linéaire que la solution de programmation dynamique obtient les mêmes performances quantitatives que les méthodes d'apprentissage par renforcement profond en simulation, mais qu'elle excelle lorsqu'elle est transférée au système physique. La politique obtenue par cFVI est plus robuste aux changements dans la dynamique malgré l'utilisation d'un modèle déterministe et sans incorporer explicitement la robustesse dans l'optimisation. Des vidéos du système physique sont disponibles ici.

En rapport :

Les chercheurs de Vector s'attaquent aux défis de l'IA dans le monde réel à l'occasion de l'ICML 2025

L'écosystème de l'IA en Ontario : une croissance économique réelle grâce à un nombre record d'emplois et d'investissements privés

Transformer le soutien à la santé mentale des jeunes : Le modèle de réponse à la crise du FAIIR alimenté par l'IA