La recherche vectorielle à l'honneur à l'ICLR 2023

12 juin 2023

Recherche

Par Natasha Ali

Plusieurs articles de membres et d'affiliés de la faculté Vecteur ont été acceptés dans les actes de la 2023 International Conference on Learning Representations (ICLR). L'événement annuel s'est déroulé du 1er au 5 mai et a donné lieu à des présentations et des ateliers de chercheurs en apprentissage profond du monde entier.

Parmi les 21 articles présentés par la faculté Vector et ses affiliés, on trouve de nouveaux travaux et de nouvelles approches dans les domaines du traitement automatique des langues, de l'intelligence artificielle prédictive et de l'apprentissage par renforcement.

Les chercheurs du secteur vectoriel réalisent des progrès remarquables dans le domaine de l'intelligence artificielle générative et de l'apprentissage par renforcement

Jimmy Ba, membre de la faculté des sciences vectorielles, est coauteur de "Large Language Models are Human-Level Prompt Engineers", qui propose un nouvel algorithme permettant de générer automatiquement des instructions à partir d'entrées en langage naturel. Appelé "Automatic Prompt Engineering", cet algorithme permet aux chercheurs de programmer de grands modèles de langage (LLM) pour traiter les commandes humaines, créer une liste d'instructions potentiellement pertinentes et choisir le modèle d'instruction le plus compatible. Cette méthode permet aux LLM de traiter le langage humain avec plus de précision et d'exécuter les instructions souhaitées. L'objectif ultime est de faciliter l'interaction homme-machine et d'obtenir des performances de niveau humain avec les modèles de génération de texte.

L'article de Pascal Poupart intitulé "Benchmarking Constraint Inference in Inverse Reinforcement Learning" a également été accepté à la conférence de cette année. Cet article souligne l'importance de recueillir des données expérimentales pour développer des modèles d'apprentissage automatique qui imitent le comportement humain. Pour créer des représentations précises de scénarios réels, les chercheurs ont créé un simulateur de course humaine comprenant des composants et des obstacles réalistes. Explorant les perspectives de l'IA dans la conduite automatisée, ils ont mis au point une simulation de conduite sur autoroute et recruté des agents humains pour effectuer des démonstrations contrôlées. En observant la réaction humaine aux contraintes et aux obstacles dans des conditions de conduite réelles, ils ont recueilli des données pratiques pour développer un algorithme d'apprentissage automatique. Grâce à l'apprentissage par renforcement sous contrainte inverse (ICRL), l'algorithme a été entraîné à reconnaître les modèles de comportement humain et à éviter les contraintes environnementales en conséquence. En récompensant les comportements qui imitent les données expérimentales, ils ont renforcé les comportements humains et développé des modèles ICRL efficaces.

ICLR 2023 Documents de recherche vectorielle

Vous trouverez ci-dessous les résumés de chacun des articles cosignés par des membres de la faculté Vector et des membres affiliés de la faculté qui ont été acceptés à l'ICLR de cette année.

Analyse comparative de l'inférence de contraintes dans l'apprentissage par renforcement inverse

Guiliang Liu, Yudong Luo, Ashish Gaurav, Kasra Rezaee, Pascal Poupart

Lorsque l'on déploie des agents d'apprentissage par renforcement (RL) dans un système physique, il faut s'assurer que ces agents sont bien conscients des contraintes sous-jacentes. Dans de nombreux problèmes réels, cependant, les contraintes sont souvent difficiles à spécifier mathématiquement et inconnues des agents d'apprentissage par renforcement. Pour résoudre ces problèmes, l'apprentissage par renforcement avec contraintes inverses (ICRL) estime empiriquement les contraintes à partir de démonstrations d'experts. En tant que sujet de recherche émergent, l'ICRL ne dispose pas de références communes, et les travaux précédents ont testé des algorithmes dans des environnements créés à la main avec des démonstrations d'experts générées manuellement. Dans cet article, nous construisons un benchmark ICRL dans le contexte des domaines d'application de la RL, y compris le contrôle des robots et la conduite autonome. Pour chaque environnement, nous concevons des contraintes pertinentes et formons des agents experts pour générer des données de démonstration. En outre, contrairement aux lignes de base existantes qui apprennent une contrainte déterministe, nous proposons une méthode ICRL variationnelle pour modéliser une distribution a posteriori des contraintes candidates. Nous menons des expériences approfondies sur ces algorithmes dans le cadre de notre benchmark et montrons comment ils peuvent faciliter l'étude d'importants défis de recherche pour l'ICRL.

Équilibrage occasionnel pour la généralisation du domaine

Xinyi Wang, Michael Saxon, Jiachen Li, Hongyang Zhang, Kun Zhang, William Yang Wang

Alors que les modèles d'apprentissage automatique font rapidement progresser l'état de l'art dans diverses tâches du monde réel, la généralisation hors domaine (OOD) reste un problème difficile étant donné la vulnérabilité de ces modèles aux corrélations parasites. Nous proposons une stratégie d'échantillonnage équilibré par mini-lots pour transformer une distribution de données biaisée en une distribution équilibrée sans corrélations parasites, basée sur l'invariance des mécanismes causaux sous-jacents pour le processus de génération de données. Nous soutenons que les classificateurs optimaux de Bayes formés sur une telle distribution équilibrée sont minimax optimaux dans un espace d'environnement suffisamment diversifié. Nous fournissons également une garantie d'identifiabilité du modèle de variable latente du processus de génération de données proposé, lors de l'utilisation d'un nombre suffisant d'environnements d'entraînement. Des expériences sont menées sur DomainBed, démontrant empiriquement que notre méthode obtient la meilleure performance parmi 20 lignes de base rapportées sur le benchmark.

Confidentiel-PROFITT : Preuve confidentielle de la formation de l'arbre à la forêt

Ali Shahin Shamsabadi, Sierra Calanda Wyllie, Nicholas Franzese, Natalie Dullerud, Sébastien Gambs, Nicolas Papernot, Xiao Wang, Adrian Weller

L'audit post hoc de l'équité du modèle présente des inconvénients potentiels : (1) l'audit peut être très sensible aux échantillons de test choisis ; (2) le modèle et/ou ses données d'apprentissage peuvent devoir être partagés avec un auditeur, ce qui rompt la confidentialité. Nous nous attaquons à ces problèmes en fournissant un certificat qui démontre que l'algorithme d'apprentissage lui-même est équitable et que, par conséquent, le modèle formé l'est aussi. Nous présentons une méthode permettant de fournir une preuve confidentielle de l'équité de l'apprentissage, dans le contexte d'arbres de décision largement utilisés, que nous appelons Confidential-PROFITT. Nous proposons de nouveaux algorithmes d'apprentissage d'arbres de décision équitables ainsi que des protocoles de preuve à connaissance nulle personnalisés afin d'obtenir une preuve d'équité pouvant être vérifiée par une tierce partie. L'utilisation de preuves à connaissance nulle nous permet de garantir la confidentialité du modèle et de ses données d'apprentissage. Nous montrons empiriquement que le fait de limiter le gain d'information de chaque nœud en ce qui concerne les attributs sensibles réduit l'iniquité de l'arbre final. Lors d'expériences approfondies sur les ensembles de données COMPAS, Communities and Crime, Default Credit et Adult, nous démontrons qu'une entreprise peut utiliser Confidential-PROFITT pour certifier l'équité de son arbre de décision à un auditeur en moins de 2 minutes, ce qui indique l'applicabilité de notre approche. Cela est vrai pour les définitions de l'équité de la parité démographique et des probabilités égalisées. Enfin, nous étendons Confidential-PROFITT aux ensembles d'arbres.

Expansion de la valeur basée sur un modèle bayésien conservateur pour les services hors ligne

Optimisation des politiques

Jihwan Jeong, Xiaoyu Wang, Michael Gimelfarb, Hyunwoo Kim, Baher abdulhai, Scott Sanner

L'apprentissage par renforcement hors ligne (RL) aborde le problème de l'apprentissage d'une politique performante à partir d'un lot fixe de données collectées en suivant une certaine politique comportementale. Les approches basées sur des modèles sont particulièrement intéressantes dans le cadre de l'apprentissage hors ligne, car elles permettent d'extraire davantage de signaux d'apprentissage de l'ensemble des données enregistrées en apprenant un modèle de l'environnement. Cependant, les performances des approches existantes basées sur des modèles sont inférieures à celles des approches sans modèle, en raison de l'accumulation des erreurs d'estimation dans le modèle appris. Partant de cette observation, nous soutenons qu'il est essentiel pour une méthode basée sur un modèle de comprendre quand faire confiance au modèle et quand s'appuyer sur des estimations sans modèle, et comment agir de manière conservatrice par rapport aux deux. À cette fin, nous dérivons une méthodologie simple et élégante appelée expansion de valeur conservatrice bayésienne basée sur le modèle pour l'optimisation de politique hors ligne (CBOP), qui échange les estimations sans modèle et basées sur le modèle pendant l'étape d'évaluation de la politique en fonction de leurs incertitudes épistémiques, et facilite le conservatisme en prenant une borne inférieure sur l'estimation de valeur bayésienne a posteriori. Sur les tâches standard de contrôle continu D4RL, nous constatons que notre méthode surpasse de manière significative les approches précédentes basées sur des modèles : par exemple, MOPO de 116,4%, MOReL de 23,2% et COMBO de 23,7%. En outre, CBOP atteint des performances de pointe sur 11 des 18 ensembles de données de référence et fait jeu égal avec les autres ensembles de données.

L'apprentissage contrastif permet de trouver une base optimale pour l'approximation

Fonctions invariantes

Daniel D. Johnson, Ayoub El Hanchi, Chris J. Maddison

L'apprentissage contrastif est un cadre puissant pour l'apprentissage de représentations auto-supervisées qui se généralisent bien aux tâches supervisées en aval. Nous montrons que plusieurs méthodes d'apprentissage contrastif existantes peuvent être réinterprétées comme l'apprentissage d'un noyau positif-défini qui se rapproche d'un *noyau contrastif* particulier défini par les paires positives. Les composantes principales des données sous ce noyau correspondent exactement aux fonctions propres d'une chaîne de Markov à paires positives, et ces fonctions propres peuvent être utilisées pour construire une représentation qui minimise de manière prouvée la pire erreur d'approximation des prédicteurs linéaires sous l'hypothèse que les paires positives ont des étiquettes similaires. Nous donnons des limites de généralisation pour la prédiction linéaire en aval en utilisant cette représentation optimale, et nous montrons comment approximer cette représentation en utilisant l'ACP à noyau. Nous explorons également les représentations à base de noyau sur une tâche MNIST bruyante pour laquelle la distribution des paires positives a une forme fermée, et nous comparons les propriétés des fonctions propres réelles avec leurs approximations apprises.

Restauration d'étiquettes par lots en fonction de l'instance via des gradients dans les systèmes fédérés.

Apprentissage

Kailang Ma, Yu Sun, Jian Cui, Dawei Li, Zhenyu Guan, Jianwei Liu

Les attaques par inversion de gradient ont constitué une menace sérieuse pour la confidentialité de l'apprentissage fédéré. Ces attaques recherchent la paire optimale d'entrées et d'étiquettes correspondant le mieux aux gradients partagés et l'espace de recherche des attaques peut être réduit par la restauration préalable des étiquettes. Récemment, la technique de restauration des étiquettes permet d'extraire analytiquement les étiquettes des gradients, mais même l'état de l'art reste limité à l'identification de la présence de catégories (c'est-à-dire la restauration des étiquettes en fonction de la classe). Ce travail prend en compte des situations plus réelles, où il existe plusieurs instances de chaque classe dans un lot d'apprentissage. Une méthode analytique est proposée pour effectuer une restauration des étiquettes par lot à partir du seul gradient de la couche finale. Sur la base des encastrements approximatifs récupérés par classe et des probabilités post-softmax, nous établissons des équations linéaires des gradients, des probabilités et des étiquettes pour dériver le nombre d'instances (NoI) par classe à l'aide de l'algorithme pseudo-inverse de Moore-Penrose. Nos évaluations expérimentales atteignent une précision d'existence d'étiquette de plus de 99 % (LeAcc) et dépassent 96 % de précision de nombre d'étiquettes (LnAcc) dans la plupart des cas sur trois ensembles de données d'images et quatre modèles de classification. Ces deux mesures sont utilisées pour évaluer la précision de la restauration des étiquettes au niveau de la classe et au niveau de l'instance, respectivement. La récupération est possible même avec une taille de lot de 4096 et des activations partiellement négatives (par exemple, Leaky ReLU et Swish). En outre, nous démontrons que notre méthode facilite les attaques par inversion de gradient existantes en exploitant les étiquettes récupérées, avec une augmentation de 6 à 7 du PSNR sur MNIST et CIFAR100.

Les grands modèles linguistiques sont des ingénieurs d'aide à la décision de niveau humain

Yongchao Zhou, Andrei Ioan Muresanu, Ziwen Han, Keiran Paster, Silviu Pitis, Harris Chan, Jimmy Ba

En conditionnant les instructions en langage naturel, les grands modèles de langage (LLM) ont fait preuve de capacités impressionnantes en tant qu'ordinateurs à usage général. Cependant, la performance des tâches dépend de manière significative de la qualité de l'invite utilisée pour piloter le modèle, et les invites les plus efficaces ont été conçues à la main par des humains. Inspirés par la synthèse de programme classique et l'approche humaine de l'ingénierie des invites, nous proposons Automatic Prompt Engineer (APE) pour la génération et la sélection automatiques d'instructions. Dans notre méthode, nous considérons l'instruction comme le "programme", optimisé par une recherche sur un ensemble de candidats instructions proposés par un LLM afin de maximiser une fonction de score choisie. Pour évaluer la qualité de l'instruction sélectionnée, nous évaluons la performance zéro-shot d'un autre LLM suivant l'instruction sélectionnée. Des expériences sur 24 tâches NLP montrent que nos instructions générées automatiquement surpassent largement la ligne de base LLM antérieure et atteignent des performances meilleures ou comparables aux instructions générées par des annotateurs humains sur 21/24 tâches. Nous effectuons des analyses qualitatives et quantitatives approfondies pour explorer les performances d'APE. Nous montrons que les invites conçues par l'APE peuvent être appliquées pour orienter les modèles vers la véracité et/ou l'informativité, ainsi que pour améliorer les performances d'apprentissage à court terme en les ajoutant simplement aux invites d'apprentissage en contexte standard.

Structure des acquis de l'apprentissage pour l'exploration structurée dans le domaine de l'éducation et de la formation.

Domaines avec récompense éparse

Zihan Zhou, Animesh Garg

Nous proposons Structured Exploration with Achievements (SEA), un algorithme d'apprentissage par renforcement en plusieurs étapes conçu pour les environnements basés sur les réalisations, un type particulier d'environnement avec un ensemble de réalisations internes. SEA utilise d'abord des données hors ligne pour apprendre une représentation des réalisations connues avec une fonction de perte déterminante, puis récupère le graphe de dépendance des réalisations apprises avec un algorithme heuristique, et enfin interagit avec l'environnement en ligne pour apprendre des politiques qui maîtrisent les réalisations connues et en explorent de nouvelles à l'aide d'un contrôleur construit avec le graphe de dépendance récupéré. Nous démontrons empiriquement que SEA peut récupérer la structure des réalisations avec précision et améliorer l'exploration dans des domaines difficiles tels que Crafter qui sont générés de manière procédurale avec des observations à haute dimension comme les images.

Apprentissage de contraintes souples à partir de démonstrations d'experts avec contraintes

Ashish Gaurav, Kasra Rezaee, Guiliang Liu, Pascal Poupart

Les méthodes d'apprentissage par renforcement inverse (IRL) supposent que les données de l'expert sont générées par un agent optimisant une fonction de récompense. Cependant, dans de nombreux cas, l'agent peut optimiser une fonction de récompense soumise à certaines contraintes, où les contraintes induisent des comportements qu'il serait difficile d'exprimer avec une simple fonction de récompense. Nous considérons le cas où la fonction de récompense est donnée et où les contraintes sont inconnues, et nous proposons une méthode qui permet de récupérer ces contraintes de manière satisfaisante à partir des données de l'expert. Alors que les travaux précédents se sont concentrés sur la récupération des contraintes dures, notre méthode peut récupérer les contraintes douces cumulatives que l'agent satisfait en moyenne par épisode. En mode IRL, notre méthode résout ce problème en ajustant la fonction de contrainte itérativement à travers une procédure d'optimisation contrainte, jusqu'à ce que le comportement de l'agent corresponde au comportement de l'expert. Nous démontrons notre approche sur des environnements synthétiques, des environnements robotiques et des scénarios réels de conduite sur autoroute.

Mesurer l'oubli d'exemples de formation mémorisés

Matthew Jagielski, Om Thakkar, Florian Tramer, Daphne Ippolito, Katherine Lee, Nicholas Carlini, Eric Wallace, Shuang Song, Abhradeep Guha Thakurta, Nicolas Papernot, Chiyuan Zhang

Les modèles d'apprentissage automatique présentent deux phénomènes apparemment contradictoires : la mémorisation des données d'apprentissage et diverses formes d'oubli. Dans le cas de la mémorisation, les modèles surajoutent des exemples d'apprentissage spécifiques et deviennent sensibles aux attaques contre la vie privée. Dans le cas de l'oubli, les exemples apparus au début de la formation sont oubliés à la fin. Dans ce travail, nous établissons un lien entre ces phénomènes. Nous proposons une technique permettant de mesurer dans quelle mesure les modèles "oublient" les spécificités des exemples d'apprentissage, devenant ainsi moins sensibles aux atteintes à la vie privée sur les exemples qu'ils n'ont pas vus récemment. Nous montrons que, si la non-convexité peut empêcher l'oubli dans le pire des cas, les modèles standard d'image, de parole et de langage oublient empiriquement des exemples au fil du temps. Nous identifions le nondéterminisme comme une explication potentielle, en montrant que les modèles formés de manière déterministe n'oublient pas. Nos résultats suggèrent que les exemples vus tôt lors de la formation avec des ensembles de données extrêmement importants - par exemple les exemples utilisés pour préformer un modèle - peuvent présenter des avantages en termes de protection de la vie privée au détriment des exemples vus plus tard.

Archéologie des métadonnées : Mettre au jour des sous-ensembles de données en s'appuyant sur

Dynamique de la formation

Shoaib Ahmed Siddiqui, Nitarshan Rajkumar, Tegan Maharaj, David Krueger, Sara Hooker

La recherche moderne sur l'apprentissage automatique s'appuie sur un nombre relativement limité d'ensembles de données soigneusement conservés. Même dans ces ensembles de données, et généralement dans des données brutes ou "désordonnées", les praticiens sont confrontés à des problèmes importants de qualité et de diversité des données, dont le traitement peut nécessiter une main-d'œuvre considérable. Les méthodes existantes pour faire face à ces défis ont tendance à faire de fortes suppositions sur les problèmes particuliers en jeu, et nécessitent souvent des connaissances a priori ou des métadonnées telles que les étiquettes de domaine. Notre travail est orthogonal à ces méthodes : nous nous concentrons plutôt sur la fourniture d'un cadre unifié et efficace pour l'archéologie des métadonnées - découvrir et déduire les métadonnées des exemples dans un ensemble de données. Nous sélectionnons différents sous-ensembles de données susceptibles d'exister dans un ensemble de données (par exemple des exemples mal étiquetés, atypiques ou hors distribution) à l'aide de transformations simples, et nous tirons parti des différences dans la dynamique d'apprentissage entre ces suites de sondes pour déduire les métadonnées d'intérêt. Notre méthode est comparable à des méthodes d'atténuation beaucoup plus sophistiquées dans différentes tâches : identification et correction des exemples mal étiquetés, classification des échantillons de groupes minoritaires, hiérarchisation des points pertinents pour la formation et possibilité d'un audit humain évolutif des exemples pertinents.

Apprentissage par renforcement multiobjectif : Convexité, stationnarité

et l'optimalité de Pareto

Haoye Lu, Daniel Herman, Yaoliang Yu

Ces dernières années, les algorithmes d'apprentissage par renforcement à objectif unique (SORL) ont fait l'objet d'une attention particulière et ont obtenu de bons résultats. Cependant, il est généralement reconnu que de nombreux problèmes pratiques ont des propriétés multi-objectifs intrinsèques qui ne peuvent pas être facilement traitées par les algorithmes SORL. Bien que de nombreux algorithmes d'apprentissage par renforcement multi-objectifs (MORL) aient été proposés, les propriétés fondamentales des espaces dans lesquels nous apprenons ont été peu explorées récemment. Dans cet article, nous effectuons une analyse rigoureuse des fonctions de valeur induites par la politique et utilisons les résultats pour distinguer trois points de vue sur l'optimalité de Pareto. Les résultats impliquent la convexité de la plage de la fonction de valeur induite pour les politiques stationnaires et suggèrent que tout point de son front de Pareto peut être atteint en entraînant une politique à l'aide de la scalarisation linéaire (LS). Nous montrons que le problème qui conduit à la performance sous-optimale de la LS peut être résolu en ajoutant des termes fortement concaves aux récompenses immédiates, ce qui nous motive à proposer un nouvel algorithme d'apprentissage Q basé sur les récompenses vectorielles, CAPQL. Combiné à une formulation critique de l'acteur, notre algorithme atteint des performances de pointe sur de multiples tâches MuJoCo dans le cadre agnostique des préférences. En outre, nous montrons empiriquement que, contrairement à d'autres algorithmes basés sur les LS, notre approche est significativement plus stable, obtenant des résultats similaires pour différentes graines aléatoires.

VAE à taux multiples : s'entraîner une fois, obtenir la courbe complète de distorsion de taux

Juhan Bae, Michael R. Zhang, Michael Ruan, Eric Wang, So Hasegawa, Jimmy Ba, Roger Baker Grosse

Les autoencodeurs variationnels (VAE) sont des outils puissants pour l'apprentissage de représentations latentes de données utilisées dans un large éventail d'applications. Dans la pratique, les autoencodeurs variationnels nécessitent généralement plusieurs cycles d'apprentissage pour choisir la quantité d'informations que la variable latente doit conserver. Ce compromis entre l'erreur de reconstruction (distorsion) et la divergence KL (taux) est typiquement paramétré par un hyperparamètre β. Dans cet article, nous présentons la VAE multi-taux (MR-VAE), un cadre informatiquement efficace pour l'apprentissage de paramètres optimaux correspondant à différents β en un seul cycle d'apprentissage. L'idée principale est de formuler explicitement une fonction de réponse à l'aide d'hyperréseaux qui font correspondre β aux paramètres optimaux. Nous justifions l'architecture proposée en analysant les VAE linéaires et en montrant qu'elle peut représenter les fonctions de réponse exactement pour les VAE linéaires. Avec l'hyperréseau appris, les MR-VAE peuvent construire la courbe de distorsion de taux sans formation supplémentaire et peuvent être déployés avec beaucoup moins de réglage d'hyperparamètres. Empiriquement, notre approche est compétitive et dépasse souvent les performances de la formation de plusieurs β-VAEs avec des frais généraux de calcul et de mémoire minimes.

Contrôle du risque de quantile : Un cadre flexible pour délimiter le risque quantile

Probabilité de prédictions à forte perte

Jake Snell, Thomas P Zollo, Zhun Deng, Toniann Pitassi, Richard Zemel

Des garanties rigoureuses sur les performances des algorithmes prédictifs sont nécessaires pour assurer leur utilisation responsable. Les travaux antérieurs se sont largement concentrés sur la limitation de la perte attendue d'un prédicteur, mais cela n'est pas suffisant dans de nombreuses applications sensibles au risque où la distribution des erreurs est importante. Dans ce travail, nous proposons un cadre flexible pour produire une famille de bornes sur les quantiles de la distribution des pertes encourues par un prédicteur. Notre méthode tire parti des statistiques d'ordre des valeurs de perte observées plutôt que de s'appuyer uniquement sur la moyenne de l'échantillon. Nous montrons qu'un quantile est un moyen instructif de quantifier la performance prédictive et que notre cadre s'applique à une variété de mesures basées sur les quantiles, chacune ciblant des sous-ensembles importants de la distribution des données. Nous analysons les propriétés théoriques de la méthode proposée et démontrons sa capacité à contrôler rigoureusement les quantiles de perte sur plusieurs ensembles de données du monde réel.

Re-Imagen : Générateur de texte-image amélioré par la recherche d'informations

Wenhu Chen, Hexiang Hu, Chitwan Saharia, William W. Cohen

La recherche sur la génération de texte à partir d'images a connu des progrès significatifs dans la génération d'images diverses et photo-réalistes, grâce à des modèles de diffusion et d'autorégression entraînés sur des données image-texte à grande échelle. Bien que les modèles de pointe puissent générer des images de haute qualité d'entités courantes, ils ont souvent des difficultés à générer des images d'entités peu courantes, telles que "Chortai (chien)" ou "Picarones (nourriture)". Pour résoudre ce problème, nous présentons le générateur d'images à partir de textes enrichis par extraction (Re-Imagen), un modèle génératif qui utilise les informations extraites pour produire des images fidèles et de haute fidélité, même pour des entités rares ou inédites. À partir d'un texte, Re-Imagen accède à une base de connaissances multimodale externe pour récupérer les paires (image, texte) pertinentes et les utilise comme références pour générer l'image. Grâce à cette étape de récupération, Re-Imagen est enrichi de la connaissance de la sémantique de haut niveau et des détails visuels de bas niveau des entités mentionnées, ce qui améliore sa précision dans la génération des apparences visuelles des entités. Nous entraînons ReImagen sur un ensemble de données construit contenant des triples (image, texte, recherche) afin d'apprendre au modèle à s'adapter à la fois à l'invite textuelle et à la recherche. En outre, nous développons une nouvelle stratégie d'échantillonnage pour intercaler le guidage sans classificateur pour les conditions de texte et de recherche afin d'équilibrer l'alignement du texte et de la recherche. Re-Imagen obtient un gain significatif sur le score FID par rapport à COCO et WikiImage. Pour mieux évaluer les capacités du modèle, nous présentons EntityDrawBench, un nouveau benchmark qui évalue la génération d'images pour diverses entités, des plus fréquentes aux plus rares, dans plusieurs catégories d'objets, notamment les chiens, les aliments, les points de repère, les oiseaux et les personnages. L'évaluation humaine sur EntityDrawBench montre que Re-Imagen peut améliorer de manière significative la fidélité des images générées, en particulier pour les entités les moins fréquentes.

Autosupervision par segments aléatoires avec des segments autorégressifs

Codage (RandSAC)

Tianyu Hua, Yonglong Tian, Sucheng Ren, Michalis Raptis, Hang Zhao, Leonid Sigal

Inspiré par le succès de l'apprentissage autosupervisé de représentations autorégressives en langage naturel (GPT et ses variantes), et par les progrès réalisés récemment dans la conception d'architectures visuelles avec les transformateurs de vision (ViT), cet article explore l'effet de divers choix de conception sur le succès de l'application de telles stratégies d'apprentissage pour l'apprentissage de caractéristiques visuelles. Plus précisément, nous introduisons une nouvelle stratégie que nous appelons Segments aléatoires avec codage autorégressif (RandSAC). Dans RandSAC, nous regroupons les représentations de patchs (jetons d'image) en segments hiérarchisés ; dans chaque segment, les jetons sont prédits en parallèle, comme dans BERT, tandis que les prédictions entre segments sont séquentielles, comme dans GPT. Nous montrons que la sérialisation aléatoire des segments améliore considérablement les performances et permet de répartir les prédictions spatialement longues (d'un segment à l'autre) et courtes (à l'intérieur d'un segment), ce qui est efficace pour l'apprentissage des caractéristiques. Nous illustrons la pertinence de ces choix de conception et explorons des alternatives sur un certain nombre d'ensembles de données (par exemple, CIFAR10, CIFAR100, ImageNet). Alors que notre stratégie de pré-entraînement fonctionne avec le Transformer vanille, nous proposons également un ajout conceptuellement simple, mais très efficace, au décodeur qui permet des sauts de connexion apprenables vers les couches de caractéristiques de l'encodeur, ce qui améliore encore les performances.

L'autoencodeur variationnel incliné : amélioration de la sortie de distribution

Détection

Griffin Floto, Stefan Kremer, Mihai Nica

L'un des problèmes liés à l'utilisation de la distribution gaussienne comme a priori pour un autoencodeur variationnel (VAE) est que l'ensemble sur lequel les gaussiennes ont une densité de probabilité élevée est petit lorsque la dimension latente augmente. C'est un problème car les VAE visent à obtenir à la fois une probabilité élevée par rapport à une distribution préalable et, en même temps, une séparation entre les points pour une meilleure reconstruction. Par conséquent, un petit volume dans la région à haute densité de l'a priori est problématique car il limite la séparation des points latents. Pour résoudre ce problème, nous proposons une généralisation simple de la distribution gaussienne, la gaussienne inclinée, dont la densité de probabilité maximale se produit sur une sphère au lieu d'un seul point. La gaussienne inclinée a un volume exponentiellement plus important dans les régions à forte densité que la gaussienne standard en fonction de la dimension de la distribution. Nous démontrons empiriquement que cette simple modification de la distribution préalable améliore les performances de la VAE pour la détection d'échantillons non supervisés hors distribution (OOD). Nous présentons également une nouvelle procédure de test OOD, appelée test Will-It-Move, dans laquelle la gaussienne inclinée permet d'obtenir des performances OOD remarquables.

Quand l'adaptation du domaine sans source rencontre l'apprentissage avec des étiquettes bruyantes

Li Yi, Gezheng Xu, Pengcheng Xu, Jiaqi Li, Ruizhi Pu, Charles Ling, Ian McLeod, Boyu Wang

Les méthodes récentes d'adaptation de domaine sans source (SFDA) se sont concentrées sur l'apprentissage de structures de grappes significatives dans l'espace des caractéristiques, ce qui a permis d'adapter les connaissances du domaine source au domaine cible non étiqueté sans accéder aux données privées de la source. Toutefois, les méthodes existantes reposent sur les pseudo-étiquettes générées par les modèles source, qui peuvent être bruitées en raison du changement de domaine. Dans cet article, nous étudions la SFDA du point de vue de l'apprentissage avec bruit d'étiquette (LLN). Contrairement au bruit d'étiquette dans le scénario LLN conventionnel, nous prouvons que le bruit d'étiquette dans l'AFD suit une hypothèse de distribution différente. Nous prouvons également qu'une telle différence rend les méthodes LLN existantes qui s'appuient sur leurs hypothèses de distribution incapables de traiter le bruit d'étiquette dans la SFDA. Les preuves empiriques suggèrent que seules des améliorations marginales sont obtenues en appliquant les méthodes LLN existantes pour résoudre le problème SFDA. D'autre part, bien qu'il existe une différence fondamentale entre le bruit d'étiquette dans les deux scénarios, nous démontrons théoriquement que le phénomène de formation précoce (ETP), qui a été observé précédemment dans des contextes conventionnels de bruit d'étiquette, peut également être observé dans le problème SFDA. Des expériences approfondies démontrent des améliorations significatives des algorithmes SFDA existants en tirant parti de l'ETP pour traiter le bruit d'étiquette dans le SFDA.

SlotFormer : Simulation visuelle non supervisée de la dynamique avec

Modèles centrés sur l'objet

Ziyi Wu, Nikita Dvornik, Klaus Greff, Thomas Kipf, Animesh Garg

Comprendre la dynamique à partir d'observations visuelles est un problème difficile qui nécessite de démêler les objets individuels de la scène et d'apprendre leurs interactions. Bien que les modèles récents centrés sur l'objet puissent décomposer avec succès une scène en objets, la modélisation efficace de leur dynamique reste un défi. Nous nous attaquons à ce problème en introduisant SlotFormer, un modèle autorégressif basé sur Transformer qui fonctionne sur des représentations apprises centrées sur l'objet. À partir d'un clip vidéo, notre approche raisonne sur les caractéristiques des objets pour modéliser les relations spatio-temporelles et prédire avec précision les états futurs des objets. Dans cet article, nous appliquons avec succès SlotFormer à la prédiction vidéo sur des ensembles de données comportant des interactions complexes entre les objets. En outre, le modèle dynamique non supervisé de SlotFormer peut être utilisé pour améliorer les performances des tâches supervisées en aval, telles que la réponse aux questions visuelles (VQA) et la planification conditionnée par les objectifs. Par rapport aux travaux antérieurs sur la modélisation de la dynamique, notre méthode permet d'obtenir une meilleure synthèse à long terme de la dynamique des objets, tout en conservant une génération visuelle de haute qualité. En outre, SlotFormer permet aux modèles VQA de raisonner sur le futur sans étiquettes au niveau de l'objet, même en surpassant leurs homologues qui utilisent des annotations de vérité au sol. Enfin, nous démontrons sa capacité à servir de modèle mondial pour la planification basée sur des modèles, ce qui est compétitif par rapport aux méthodes conçues spécifiquement pour de telles tâches.

Apprentissage mutuel d'étiquettes partielles avec un bruit d'étiquettes concurrentiel

Yan Yan, Yuhong Guo

L'apprentissage par étiquettes partielles (PLL) est un important problème d'apprentissage faiblement supervisé, où chaque instance d'apprentissage est associée à un ensemble d'étiquettes candidates qui comprennent à la fois l'étiquette réelle et des étiquettes bruyantes supplémentaires. La plupart des méthodes PLL existantes supposent que les étiquettes bruyantes candidates sont choisies au hasard, ce qui n'est guère possible dans les scénarios d'apprentissage du monde réel. Dans cet article, nous considérons un scénario PLL plus réaliste avec un bruit d'étiquette compétitif qui est plus difficile à distinguer de la véritable étiquette que le bruit d'étiquette aléatoire. Nous proposons une nouvelle approche PLL basée sur l'apprentissage mutuel, appelée ML-PLL, pour résoudre ce problème difficile. ML-PLL apprend un classificateur basé sur un réseau de prédiction et un classificateur basé sur un prototype de classe de manière coopérative par le biais d'un apprentissage mutuel interactif et d'une correction d'étiquette. En outre, nous utilisons un réseau de transformation pour modéliser les relations d'association entre la véritable étiquette et les étiquettes candidates, et nous l'apprenons en même temps que le réseau de prédiction pour faire correspondre les étiquettes candidates observées dans les données d'apprentissage et améliorer la correction des étiquettes. Des expériences approfondies sont menées sur plusieurs ensembles de données PLL de référence, et l'approche ML-PLL proposée démontre une performance de pointe pour l'apprentissage d'étiquettes partielles.

Adaptation non supervisée d'un domaine à étiquette partielle avec alignement classe-prototype

Yan Yan, Yuhong Guo

L'apprentissage par étiquettes partielles (PLL) s'attaque au problème où chaque instance est associée à un ensemble d'étiquettes candidates, dont une seule est l'étiquette de vérité. La plupart des approches d'apprentissage par étiquettes partielles existantes supposent que les ensembles d'apprentissage et de test partagent une distribution de données identique. Cependant, cette hypothèse ne tient pas dans de nombreux scénarios réels où les données d'apprentissage et de test proviennent de distributions différentes. Dans cet article, nous formalisons ce scénario d'apprentissage sous la forme d'un nouveau problème appelé adaptation de domaine non supervisée à étiquette partielle (PLUDA). Pour résoudre ce problème difficile de PLUDA, nous proposons une nouvelle méthode PLUDA basée sur l'alignement des prototypes, appelée PAPLUDA, qui affine dynamiquement les pseudo-étiquettes des instances des domaines source et cible en consultant les sorties d'un modèle enseignant-étudiant de manière moyenne mobile, et comble l'écart entre les domaines grâce à l'alignement classe-prototype interdomaine. En outre, une régularisation contrastive basée sur le modèle enseignant-élève est déployée pour renforcer la stabilité de la prédiction et donc améliorer les prototypes de classe dans les deux domaines pour PLUDA. Des résultats expérimentaux complets démontrent que PAPLUDA atteint des performances de pointe sur les ensembles de données de référence largement utilisés.

En rapport :

Des protocoles normalisés sont essentiels pour un déploiement responsable des modèles linguistiques

Les inconnues connues : Geoff Pleiss, chercheur chez Vector, se penche sur l'incertitude pour rendre les modèles de ML plus précis.

Trois personnes regardent fixement un ordinateur portable portant un logo Vector.
IA générative
Recherche

Évaluation comparative de Grok-1 de xAI