Recherche vectorielle présentée à l’ICLR 2023

12 juin 2023

2023Recherche sur les grands modèles de langage: recherche sur l’apprentissage automatique2023

Par Natasha Ali

Les membres du corps professoral et affiliés de Vector ont vu plusieurs communications acceptées lors des actes 2023 de la Conférence internationale sur les représentations d’apprentissage (ICLR). L’événement annuel s’est tenu du 1er au 5 mai et a présenté des présentations et des ateliers animés par des chercheurs en apprentissage profond du monde entier.

Parmi les 21 articles de Vector Faculty and Faculty Affiliates, on trouve de nouveaux travaux et des approches novatrices dans les domaines du traitement automatisé du langage, de l’IA prédictive et de l’apprentissage par renforcement.

Les chercheurs en vecteurs réalisent des progrès remarquables en intelligence artificielle générative et apprentissage par renforcement

Jimmy Ba, membre du corps professoral de Vector, co-auteur de « Large Language Models are Human-Level Prompt Engineers », qui propose un algorithme novateur générant automatiquement des instructions en utilisant des entrées en langage naturel. Appelé Ingénierie automatique des prompts, il permet aux chercheurs de programmer de grands modèles de langage (LLM) pour traiter des commandes humaines, créer une liste d’instructions potentiellement pertinentes et choisir le modèle d’instructions le plus compatible. Cette méthode permet aux LLM de traiter le langage humain avec plus de précision et d’exécuter les instructions désirées. Leur objectif ultime est de faciliter l’interaction homme-machine et d’atteindre des performances de niveau humain grâce à des modèles de génération de texte.

A également été accepté à la conférence de cette année l’article de Pascal Poupart intitulé « Benchmarking Constraint Inference in Inverse Reinforcement Learning ». Cet article souligne l’importance de recueillir des données expérimentales pour développer des modèles d’apprentissage automatique qui imitent le comportement humain. Pour créer des représentations fidèles de scénarios réels, les chercheurs ont créé un simulateur de course humaine incluant des composants et obstacles réalistes. En explorant les perspectives de l’IA dans la conduite automatisée, ils ont développé une simulation de conduite sur autoroute et recruté des agents humains pour effectuer des démonstrations contrôlées. En observant la réponse humaine aux contraintes et obstacles dans des conditions de conduite réelles, ils ont recueilli des données pratiques pour développer un algorithme d’apprentissage automatique. Grâce à l’apprentissage par renforcement contraint inverse (ICRL), l’algorithme a été entraîné à reconnaître les schémas du comportement humain et à éviter les contraintes environnementales en conséquence. En récompensant des comportements qui imitent les données expérimentales, ils ont renforcé un comportement humain et développé des modèles ICRL efficaces.

Articles de recherche sur les vecteurs ICLR 2023

Voici les résumés de chacun des articles coécrits par Vector Faculty et Faculty Affiliates acceptés à l’ICLR de cette année.

Benchmarking de l’inférence de contraintes dans l’apprentissage inverse par renforcement

Guiliang Liu, Yudong Luo, Ashish Gaurav, Kasra Rezaee, Pascal Poupart

Lors du déploiement d’agents d’apprentissage par renforcement (RL) dans un système physique, nous devons nous assurer que ces agents sont bien conscients des contraintes sous-jacentes. Dans de nombreux problèmes réels, cependant, les contraintes sont souvent difficiles à spécifier mathématiquement et inconnues des agents RL. Pour aborder ces problèmes, l’apprentissage par renforcement contraint inverse (ICRL) estime empiriquement les contraintes issues de démonstrations d’experts. En tant que sujet de recherche émergent, l’ICRL ne dispose pas de benchmarks communs, et des travaux antérieurs ont testé des algorithmes dans des environnements faits à la main avec des démonstrations d’experts générées manuellement. Dans cet article, nous construisons un benchmark ICRL dans le contexte des domaines d’application RL, incluant le contrôle robotique et la conduite autonome. Pour chaque environnement, nous concevons des contraintes pertinentes et formons des agents experts à générer des données de démonstration. De plus, contrairement aux bases existantes qui apprennent une contrainte déterministe, nous proposons une méthode ICRL variationnelle pour modéliser une distribution a posteriori des contraintes candidates. Nous menons des expériences approfondies sur ces algorithmes dans le cadre de notre référence et montrons comment ils peuvent faciliter l’étude des défis de recherche importants pour l’ICRL.

Équilibrage occasionnel pour la généralisation des domaines

Xinyi Wang, Michael Saxon, Jiachen Li, Hongyang Zhang, Kun Zhang, William Yang Wang

Bien que les modèles d’apprentissage automatique fassent rapidement progresser l’état de l’art sur diverses tâches réelles, la généralisation hors domaine (OOD) demeure un défi en raison de la vulnérabilité de ces modèles aux corrélations fallacieuses. Nous proposons une stratégie d’échantillonnage équilibré par mini-lots pour transformer une distribution de données biaisée en une distribution équilibrée sans parasites, basée sur l’invariance des mécanismes causaux sous-jacents au processus de génération des données. Nous soutenons que les classificateurs optimaux bayes entraînés sur une telle distribution équilibrée sont minimax optimaux dans un espace environnemental suffisamment diversifié. Nous offrons également une garantie d’identification du modèle de variables latentes du processus de génération de données proposé, lorsque nous utilisons suffisamment d’environnements de trains. Des expériences sont menées sur DomainBed, démontrant empiriquement que notre méthode obtient la meilleure performance sur 20 bases rapportées sur le benchmark.

Confidential-PROFITT : Responsable confidentiel de l’éducation des arbres

Ali Shahin Shamsabadi, Sierra Calanda Wyllie, Nicholas Franzese, Natalie Dullerud, Sébastien Gambs, Nicolas Papernot, Xiao Wang, Adrian Weller

L’audit post hoc de l’équité du modèle présente des inconvénients potentiels : (1) l’audit peut être très sensible aux échantillons de test choisis; (2) le modèle et/ou ses données d’entraînement peuvent devoir être partagés avec un auditeur, brisant ainsi la confidentialité. Nous répondons à ces problèmes en fournissant plutôt un certificat qui démontre que l’algorithme d’apprentissage lui-même est équitable, et donc, par conséquent, le modèle entraîné l’est aussi. Nous introduisons une méthode pour fournir une preuve confidentielle d’équité pour la formation, dans le contexte des arbres de décision largement utilisés, que nous appelons Confidential-PROFITT. Nous proposons de nouveaux algorithmes d’apprentissage équitable des arbres de décision ainsi que des protocoles personnalisés de preuve à connaissance nulle afin d’obtenir une preuve d’équité pouvant être auditée par un tiers. L’utilisation de preuves à connaissance zéro nous permet de garantir la confidentialité à la fois du modèle et de ses données d’entraînement. Nous montrons empiriquement que limiter le gain d’information de chaque nœud par rapport aux attributs sensibles réduit l’injustice de l’arbre final. Dans des expériences approfondies sur les ensembles de données COMPAS, Communities and Crime, Default Credit et Adult, nous démontrons qu’une entreprise peut utiliser Confidential-PROFITT pour certifier l’équité de son arbre de décision à un auditeur en moins de 2 minutes, indiquant ainsi l’applicabilité de notre approche. C’est vrai tant pour la parité démographique que pour la définition des chances égalisées de l’équité. Enfin, nous étendons Confidential-PROFITT pour s’appliquer aux ensembles d’arbres.

Expansion de valeur basée sur des modèles bayésiens conservateurs pour le mode hors ligne

Optimisation des politiques

Jihwan Jeong, Xiaoyu Wang, Michael Gimelfarb, Hyunwoo Kim, Baher abdulhai, Scott Sanner

L’apprentissage par renforcement hors ligne (RL) répond au problème d’apprendre une politique performante à partir d’un lot fixe de données collectées en suivant une certaine politique comportementale. Les approches basées sur des modèles sont particulièrement attrayantes en milieu hors ligne, car elles peuvent extraire davantage de signaux d’apprentissage à partir du jeu de données enregistré en apprenant un modèle de l’environnement. Cependant, la performance des approches existantes basées sur des modèles est inférieure à celle des homologues sans modèle, en raison de la multiplication des erreurs d’estimation dans le modèle appris. Poussés par cette observation, nous soutenons qu’il est crucial qu’une méthode basée sur un modèle comprenne quand faire confiance au modèle et quand se fier à des estimations sans modèle, ainsi que comment agir de manière prudente par rapport aux deux. À cette fin, nous dérivons une méthodologie élégante et simple appelée expansion de valeur basée sur des modèles bayésiens conservateurs pour l’optimisation des politiques hors ligne (CBOP), qui échange les estimations sans modèle et basées sur le modèle lors de l’étape d’évaluation des politiques selon leurs incertitudes épistémiques, et facilite le conservatisme en adoptant une borne inférieure sur l’estimation de la valeur bayésienne a posteriori. Sur les tâches standard de contrôle continu D4RL, nous constatons que notre méthode surpasse significativement les approches modèles précédentes : par exemple, MOPO de 116,4%, MOReL de 23,2% et COMBO de 23,7%. De plus, le CBOP obtient des performances de pointe sur 11 des 18 ensembles de données de référence tout en s’en sortant à égalité avec les autres ensembles de données.

L’apprentissage contrastif peut trouver une base optimale pour environ

Fonctions invariantes de vue

Daniel D. Johnson, Ayoub El Hanchi, Chris J. Maddison

L’apprentissage contrastif est un cadre puissant pour apprendre des représentations auto-supervisées qui se généralisent bien aux tâches supervisées en aval. Nous montrons que plusieurs méthodes d’apprentissage contrastif existantes peuvent être réinterprétées comme l’apprentissage d’un noyau positif défini qui approxime un *noyau contrastif* particulier défini par les paires positives. Les composantes principales des données sous ce noyau correspondent exactement aux fonctions propres d’une chaîne de Markov à paires positives, et ces fonctions propres peuvent être utilisées pour construire une représentation qui minimise de manière démontrable l’erreur d’approximation dans le pire des prédicteurs linéaires sous l’hypothèse que les paires positives ont des étiquettes similaires. Nous donnons des bornes de généralisation pour la prédiction linéaire en aval en utilisant cette représentation optimale, et montrons comment approximer cette représentation en utilisant la PCA du noyau. Nous explorons également les représentations basées sur le noyau sur une tâche MNIST bruitée pour laquelle la distribution de paires positive a une forme fermée, et comparons les propriétés des vraies fonctions propres avec leurs approximations apprises.

Restauration d’étiquettes par lots par instance via gradients dans Federated

Apprentissage

Kailang Ma, Yu Sun, Jian Cui, Dawei Li, Zhenyu Guan, Jianwei Liu

Les attaques par inversion de gradient représentent une menace sérieuse pour la vie privée de l’apprentissage fédéré. Les attaques recherchent la paire optimale d’entrées et d’étiquettes correspondant le mieux aux gradients partagés, et l’espace de recherche des attaques peut être réduit en pré-restaurant les labels. Récemment, la technique de restauration d’étiquettes permet d’extraire analytiquement des étiquettes à partir de gradients, mais même l’état de l’art reste limité à l’identification de la présence de catégories (c’est-à-dire la restauration d’étiquettes par classe). Ce travail considère les contextes plus réels, où il y a plusieurs instances de chaque classe dans un lot de formation. Une méthode analytique est proposée pour effectuer la restauration par lots d’étiquettes instance par instance uniquement à partir du gradient de la couche finale. Sur la base des plongements approximatifs récupérés classe par classe et des probabilités post-softmax, nous établissons des équations linéaires des gradients, probabilités et étiquettes pour dériver le nombre d’instances (NoI) par classe grâce à l’algorithme pseudoinverse de Moore-Penrose. Nos évaluations expérimentales atteignent plus de 99% de précision d’existence des étiquettes (LeAcc) et dépassent 96% de précision des numéros d’étiquettes (LnAcc) dans la plupart des cas sur trois ensembles de données d’images et quatre modèles de classification. Les deux métriques sont utilisées pour évaluer respectivement la précision de la restauration des étiquettes par classe et par instance. Et la récupération est rendue possible même avec un lot de 4096 et des activations partiellement négatives (par exemple, Leaky ReLU et Swish). De plus, nous démontrons que notre méthode facilite les attaques d’inversion de gradient existantes en exploitant les labels récupérés, avec une augmentation de 6-7 du PSNR sur MNIST et CIFAR100.

Les grands modèles de langage sont des ingénieurs de prompts au niveau humain

Yongchao Zhou, Andrei Ioan Muresanu, Ziwen Han, Keiran Paster, Silviu Pitis, Harris Chan, Jimmy Ba

En s’appuyant sur des instructions en langage naturel, les grands modèles de langage (LLM) ont démontré des capacités impressionnantes en tant qu’ordinateurs polyvalents. Cependant, la performance des tâches dépend beaucoup de la qualité de l’invite utilisée pour orienter le modèle, et la plupart des prompts efficaces ont été conçus à la main par des humains. Inspirés par la synthèse classique des programmes et l’approche humaine de l’ingénierie des prompts, nous proposons l’Ingénieur automatique des prompts (APE) pour la génération et la sélection automatiques des instructions. Dans notre méthode, nous traitons l’instruction comme le « programme », optimisé en recherchant dans un ensemble de candidats à l’instruction proposés par un LLM afin de maximiser une fonction de score choisie. Pour évaluer la qualité de l’instruction sélectionnée, nous évaluons la performance zéro coup d’un autre LLM suivant l’instruction sélectionnée. Des expériences sur 24 tâches NLP montrent que nos instructions générées automatiquement surpassent largement la référence LLM précédente et obtiennent de meilleures performances ou comparables aux instructions générées par les annotateurs humains sur 21/24 tâches. Nous réalisons des analyses qualitatives et quantitatives approfondies afin d’explorer la performance de l’EPA. Nous montrons que les incitations conçues par l’APE peuvent être appliquées pour orienter les modèles vers la véracité et/ou l’information, ainsi que pour améliorer la performance de l’apprentissage en quelques coups en les préposant simplement aux consignes d’apprentissage en contexte standard.

Structure de la réussite d’apprentissage pour l’exploration structurée dans

Domaines avec une récompense parcimonieuse

Zihan Zhou, Animesh Garg

Nous proposons l’Exploration structurée avec réalisations (SEA), un algorithme d’apprentissage par renforcement en plusieurs étapes conçu pour des environnements basés sur la réussite, un type particulier d’environnement avec un ensemble interne de réussites. SEA utilise d’abord des données hors ligne pour apprendre une représentation des réalisations connues avec une fonction de perte déterminante, puis récupère le graphe de dépendance des réalisations apprises avec un algorithme heuristique, et enfin interagit avec l’environnement en ligne pour apprendre des politiques qui maîtrisent les réalisations connues et en explorer de nouvelles avec un contrôleur construit avec le graphe de dépendance récupéré. Nous démontrons empiriquement que SEA peut récupérer la structure de réussite avec précision et améliorer l’exploration dans des domaines difficiles comme Crafter, qui sont générés procéduralement à partir d’observations en haute dimension comme des images.

Apprentissage des contraintes souples à partir de démonstrations d’experts contraintes

Ashish Gaurav, Kasra Rezaee, Guiliang Liu, Pascal Poupart

Les méthodes d’apprentissage par renforcement inverse (IRL) supposent que les données expertes sont générées par un agent optimisant une fonction de récompense. Cependant, dans de nombreux contextes, l’agent peut optimiser une fonction de récompense sous certaines contraintes, où ces contraintes induisent des comportements qui pourraient autrement être difficiles à exprimer avec une seule fonction de récompense. Nous considérons le contexte où la fonction récompense est donnée et où les contraintes sont inconnues, et proposons une méthode capable de récupérer ces contraintes de manière satisfaisante à partir des données expertes. Alors que les travaux précédents se sont concentrés sur la récupération de contraintes dures, notre méthode peut récupérer des contraintes souples cumulatives que l’agent satisfait en moyenne par épisode. Dans la réalité, notre méthode résout ce problème en ajustant la fonction de contrainte de façon itérative via une procédure d’optimisation contrainte, jusqu’à ce que le comportement de l’agent corresponde à celui de l’expert. Nous démontrons notre approche sur les environnements synthétiques, robotiques et scénarios réels de conduite sur autoroute.

Mesurer l’oubli des exemples d’entraînement mémorisés

Matthew Jagielski, Om Thakkar, Florian Tramer, Daphne Ippolito, Katherine Lee, Nicholas Carlini, Eric Wallace, Shuang Song, Abhradeep Guha Thakurta, Nicolas Papernot, Chiyuan Zhang

Les modèles d’apprentissage automatique présentent deux phénomènes apparemment contradictoires : la mémorisation de données d’entraînement et diverses formes d’oubli. Dans la mémorisation, les modèles surajustent des exemples d’entraînement spécifiques et deviennent vulnérables aux attaques à la vie privée. En oubliant, les exemples qui apparaissaient tôt dans la formation sont oubliés à la fin. Dans ce travail, nous relions ces phénomènes. Nous proposons une technique pour mesurer dans quelle mesure les modèles « oublient » les détails des exemples d’entraînement, devenant moins vulnérables aux attaques à la vie privée sur des exemples qu’ils n’ont pas vus récemment. Nous montrons que, bien que la non-convexité puisse empêcher l’oubli dans le pire des cas, les modèles standards d’image, de parole et de langage oublient empiriquement les exemples avec le temps. Nous identifions le non-déterminisme comme une explication potentielle, montrant que les modèles entraînés déterministe n’oublient pas. Nos résultats suggèrent que des exemples observés tôt lors de l’entraînement avec des ensembles de données extrêmement volumineux — par exemple ceux utilisés pour pré-entraîner un modèle — peuvent observer des avantages en matière de confidentialité au détriment des exemples vus plus tard.

Archéologie des métadonnées : déterrer des sous-ensembles de données par l’utilisation

Dynamique de l’entraînement

Shoaib Ahmed Siddiqui, Nitarshan Rajkumar, Tegan Maharaj, David Krueger, Sara Hooker

La recherche moderne en apprentissage automatique repose sur relativement peu de jeux de données soigneusement sélectionnés. Même dans ces ensembles de données, et généralement dans les données « désordonnées » ou brutes, les praticiens sont confrontés à d’importants problèmes de qualité et de diversité des données qui peuvent être excessivement laborieux à traiter. Les méthodes existantes pour faire face à ces défis tendent à faire de fortes hypothèses sur les enjeux particuliers en jeu, et nécessitent souvent des connaissances a priori ou des métadonnées telles que des étiquettes de domaine. Notre travail est orthogonal à ces méthodes : nous nous concentrons plutôt sur la fourniture d’un cadre unifié et efficace pour l’archéologie des métadonnées — en découvrant et en inférant les métadonnées d’exemples dans un ensemble de données. Nous sélectionnons différents sous-ensembles de données qui pourraient exister dans un ensemble de données (par exemple, des exemples mal étiquetés, atypiques ou hors distribution) à l’aide de transformations simples, et exploitons les différences dans la dynamique d’apprentissage entre ces suites de sondes pour inférer les métadonnées d’intérêt. Notre méthode est comparable à des méthodes d’atténuation beaucoup plus sophistiquées pour différentes tâches : identifier et corriger des exemples mal étiquetés, classifier les échantillons de groupes minoritaires, prioriser les points pertinents pour la formation et permettre un audit humain évolutif des exemples pertinents.

Apprentissage par renforcement multi-objectifs : convexité, stationnalité

et l’optimalité de Pareto

Haoye Lu, Daniel Herman, Yaoliang Yu

Ces dernières années, les algorithmes d’apprentissage par renforcement à objectif unique (SORL) ont reçu une attention significative et ont obtenu des résultats solides. Cependant, il est généralement reconnu que de nombreux problèmes pratiques possèdent des propriétés intrinsèques multi-objectifs qui ne peuvent pas être facilement traitées par les algorithmes SORL. Bien qu’il y ait eu de nombreux algorithmes d’apprentissage par renforcement multi-objectifs (MORL) proposés, il y a eu peu d’exploration récente des propriétés fondamentales des espaces dans lesquels nous apprenons. Dans cet article, nous réalisons une analyse rigoureuse des fonctions de valeur induites par les politiques et utilisons ces idées pour distinguer trois points de vue de l’optimalité de Pareto. Les résultats impliquent la convexité de la plage de la fonction de valeur induite pour les politiques stationnaires et suggèrent que tout point de son front de Pareto peut être atteint en entraînant une politique utilisant l’escalarisation linéaire (LS). Nous montrons que le problème qui conduit à la performance sous-optimale de LS peut être résolu en ajoutant des termes fortement concapes aux récompenses immédiates, ce qui nous motive à proposer un nouvel algorithme d’apprentissage Q basé sur la récompense vectorielle, CAPQL. Combiné à une formulation acteur-critique, notre algorithme atteint des performances à la fine pointe de la technologie sur plusieurs tâches MuJoCo dans un contexte indépendant des préférences. De plus, nous montrons empiriquement que, contrairement à d’autres algorithmes basés sur LS, notre approche est nettement plus stable, obtenant des résultats similaires à travers diverses graines aléatoires.

VAE à taux multiples : Entraînez une fois, obtenez la courbe taux-distorsion complète

Juhan Bae, Michael R. Zhang, Michael Ruan, Eric Wang, So Hasegawa, Jimmy Ba, Roger Baker Grosse

Les encodeurs automatiques variationnels (VAE) sont des outils puissants pour apprendre les représentations latentes des données utilisées dans un large éventail d’applications. En pratique, les VAE nécessitent habituellement plusieurs rondes d’entraînement pour choisir la quantité d’information que la variable latente doit conserver. Ce compromis entre l’erreur de reconstruction (distorsion) et la divergence KL (débit) est généralement paramétré par un β d’hyperparamètre. Dans cet article, nous introduisons Multi-Rate VAE (MR-VAE), un cadre computationnellement efficace pour apprendre les paramètres optimaux correspondant à divers β lors d’une seule exécution d’entraînement. L’idée clé est de formuler explicitement une fonction de réponse à l’aide d’hyperréseaux qui β associe aux paramètres optimaux. Les MR-EVA construisent un hyperréseau de réponse compact où les pré-activations sont conditionnellement verrouillées selon β. Nous justifions l’architecture proposée en analysant les VAE linéaires et en montrant qu’elle peut représenter exactement des fonctions de réponse pour les VAE linéaires. Avec l’hyperréseau appris, les MR-VAE peuvent construire la courbe débit-distorsion sans entraînement supplémentaire et peuvent être déployés avec un réglage des hyperparamètres nettement moindre. Empiriquement, notre approche est compétitive et dépasse souvent la performance de plusieurs β-VAEs entraînés avec un minimum de surcharges de calcul et de mémoire.

Contrôle du risque quantile : un cadre flexible pour limiter le

Probabilité de prédictions à haute perte

Jake Snell, Thomas P Zollo, Zhun Deng, Toniann Pitassi, Richard Zemel

Des garanties rigoureuses quant à la performance des algorithmes prédictifs sont nécessaires afin d’assurer leur utilisation responsable. Les travaux antérieurs se sont principalement concentrés sur la limitation de la perte attendue d’un prédicteur, mais cela n’est pas suffisant dans de nombreuses applications sensibles au risque où la répartition des erreurs est importante. Dans ce travail, nous proposons un cadre flexible pour produire une famille de bornes sur les quantiles de la distribution de pertes encourue par un prédicteur. Notre méthode tire parti des statistiques d’ordre des valeurs de perte observées plutôt que de se fier uniquement à la moyenne de l’échantillon. Nous montrons qu’un quantile est un moyen informatif de quantifier la performance prédictive, et que notre cadre s’applique à une variété de métriques basées sur le quantile, chacune ciblant des sous-ensembles importants de la distribution des données. Nous analysons les propriétés théoriques de notre méthode proposée et démontrons sa capacité à contrôler rigoureusement les quants de perte sur plusieurs ensembles de données réels.

Re-Imagen : Générateur de texte en image augmenté par la récupération

Wenhu Chen, Hexiang Hu, Chitwan Saharia, William W. Cohen

La recherche sur la génération texte-image a vu des progrès significatifs dans la génération d’images diversifiées et photoréalistes, portées par des modèles de diffusion et d’auto-régression entraînés sur des données image-texte à grande échelle. Bien que les modèles de pointe puissent générer des images de haute qualité d’entités communes, ils ont souvent de la difficulté à générer des images d’entités peu communes, telles que « Chortai (chien) » ou « Picarones (nourriture) ». Pour répondre à ce problème, nous présentons le Retrieval-Augmented Text-to-Image Generator (Re-Imagen), un modèle génératif qui utilise l’information récupérée pour produire des images haute fidélité et fidèles, même pour des entités rares ou invisibles. À l’aide d’une invite textuelle, Re-Imagen accède à une base de connaissances multimodale externe pour récupérer les paires pertinentes (image, texte) et les utilise comme références pour générer l’image. Grâce à cette étape de récupération, Re-Imagen est renforcé par la connaissance de la sémantique de haut niveau et des détails visuels de bas niveau des entités mentionnées, ce qui améliore sa précision dans la génération de l’apparence visuelle des entités. Nous entraînons ReImagen sur un ensemble de données construit contenant (image, texte, récupération) triplets pour enseigner au modèle à se fonder à la fois sur le texte et la récupération. De plus, nous développons une nouvelle stratégie d’échantillonnage pour entrelacer les directives sans classificateur pour le texte et les conditions de récupération, afin d’équilibrer l’alignement entre texte et recherche. Re-Imagen obtient un gain significatif sur le score FID par rapport à COCO et WikiImage. Pour évaluer davantage les capacités du modèle, nous introduisons EntityDrawBench, un nouveau benchmark qui évalue la génération d’images pour diverses entités, des fréquentes aux rares, couvrant plusieurs catégories d’objets, incluant chiens, nourriture, repères, oiseaux et personnages. L’évaluation humaine sur EntityDrawBench montre que Re-Imagen peut améliorer significativement la fidélité des images générées, surtout sur des entités moins fréquentes.

Auto-supervision par segments aléatoires avec autorégressif

Codage (RandSAC)

Tianyu Hua, Yonglong Tian, Sucheng Ren, Michalis Raptis, Hang Zhao, Leonid Sigal

Inspirés par le succès de l’apprentissage auto-supervisé de la représentation en langage naturel (GPT et ses variantes), ainsi que par les avancées récentes en conception d’architecture visuelle avec les Vision Transformers (ViTs), nous explorons dans cet article l’effet que divers choix de conception ont sur le succès de l’application de telles stratégies d’entraînement à l’apprentissage des caractéristiques visuelles. Plus précisément, nous introduisons une stratégie novatrice que nous appelons segments aléatoires avec codage autorégressif (RandSAC). Dans RandSAC, nous regroupons les représentations de patch (jetons image) en segments hiérarchiquement disposés; à l’intérieur de chaque segment, les jetons sont prédits en parallèle, similaire à BERT, tandis que les prédictions entre segments sont séquentielles, semblables à GPT. Nous montrons que la sérialisation aléatoire des segments améliore significativement la performance et entraîne une distribution par rapport aux prédictions spatialement longues (intersegments) et courtes (à l’intérieur du segment), qui sont efficaces pour l’apprentissage des caractéristiques. Nous illustrons la pertinence de ces choix de conception et explorons des alternatives sur plusieurs ensembles de données (par exemple, CIFAR10, CIFAR100, ImageNet). Bien que notre stratégie de pré-entraînement fonctionne avec le Transformer classique, nous proposons aussi un ajout conceptuellement simple, mais très efficace, au décodeur qui permet des connexions de saut apprenables vers les couches de fonctionnalités de l’encodeur, ce qui améliore encore la performance.

L’autoencodeur variationnel incliné : améliorer la sortie de distribution

Détection

Griffin Floto, Stefan Kremer, Mihai Nica

Un problème avec l’utilisation de la distribution gaussienne comme prior pour un autoencodeur variationnel (VAE) est que l’ensemble sur lequel les gaussiennes ont une densité de probabilité élevée est petit à mesure que la dimension latente augmente. C’est un enjeu parce que les EVA visent à atteindre à la fois une forte probabilité par rapport à une distribution antérieure et, en même temps, à séparer les points pour une meilleure reconstruction. Par conséquent, un petit volume dans la région à haute densité du prior pose problème car il restreint la séparation des points latents. Pour y remédier, nous proposons une généralisation simple de la distribution gaussienne, la gaussienne inclinée, dont la densité de probabilité maximale se produit sur une sphère au lieu d’un point unique. La gaussienne inclinée a un volume exponentiellement plus élevé dans les régions à haute densité que la gaussienne standard en fonction de la dimension de distribution. Nous démontrons empiriquement que ce simple changement dans la distribution antérieure améliore la performance de l’EVA pour la tâche de détection des échantillons hors distribution non supervisés (OOD). Nous introduisons également une nouvelle procédure de test OOD, appelée test Will-It-Move, où la gaussienne inclinée obtient une performance OOD remarquable.

Quand l’adaptation de domaine sans source rencontre l’apprentissage avec des étiquettes bruyantes

Li Yi, Gezheng Xu, Pengcheng Xu, Jiaqi Li, Ruizhi Pu, Charles Ling, Ian McLeod, Boyu Wang

Les méthodes récentes d’adaptation de domaine sans source (SFDA) de pointe se sont concentrées sur l’apprentissage de structures de grappes significatives dans l’espace des fonctionnalités, ce qui a réussi à adapter les connaissances du domaine source au domaine cible non étiqueté sans accéder aux données sources privées. Cependant, les méthodes existantes reposent sur les pseudo-étiquettes générées par les modèles sources qui peuvent être bruyantes en raison du décalage de domaine. Dans cet article, nous étudions la SFDA du point de vue de l’apprentissage avec le bruit d’étiquette (LLN). Contrairement au bruit d’étiquette dans le scénario LLN conventionnel, nous prouvons que le bruit d’étiquette dans SFDA suit une hypothèse de distribution différente. Nous prouvons également qu’une telle différence empêche les méthodes LLN existantes qui reposent sur leurs hypothèses de distribution et de traiter le bruit d’étiquette dans la SFDA. Les preuves empiriques suggèrent que seules des améliorations marginales sont obtenues lors de l’application des méthodes LLN existantes pour résoudre le problème SFDA. D’un autre côté, bien qu’il existe une différence fondamentale entre le bruit d’étiquette dans les deux scénarios, nous démontrons théoriquement que le phénomène d’entraînement précoce (ETP), qui a été observé auparavant dans les contextes conventionnels de bruit d’étiquette, peut aussi être observé dans le problème SFDA. Des expériences approfondies démontrent des améliorations significatives des algorithmes existants de SFDA en utilisant l’ETP pour traiter le bruit d’étiquette dans la SFDA.

SlotFormer : Simulation de dynamique visuelle non supervisée avec

Modèles centrés sur l’objet

Ziyi Wu, Nikita Dvornik, Klaus Greff, Thomas Kipf, Animesh Garg

Comprendre la dynamique à partir d’observations visuelles est un défi qui nécessite de démêler des objets individuels de la scène et d’apprendre leurs interactions. Bien que les modèles récents centrés sur l’objet puissent décomposer avec succès une scène en objets, modéliser efficacement leur dynamique demeure un défi. Nous abordons ce problème en introduisant SlotFormer – un modèle autorégressif basé sur Transformer fonctionnant sur des représentations centrées sur l’objet apprises. À partir d’un extrait vidéo, notre approche raisonne sur les caractéristiques de l’objet pour modéliser les relations spatio-temporelles et prédire des états futurs précis de l’objet. Dans cet article, nous appliquons avec succès SlotFormer pour effectuer des prédictions vidéo sur des ensembles de données avec des interactions complexes avec des objets. De plus, le modèle dynamique non supervisé de SlotFormer peut être utilisé pour améliorer la performance des tâches supervisées en aval, telles que la réponse visuelle aux questions (VQA) et la planification conditionnée aux objectifs. Comparé aux travaux antérieurs sur la modélisation dynamique, notre méthode permet une synthèse significativement meilleure à long terme de la dynamique des objets, tout en conservant une génération visuelle de haute qualité. De plus, SlotFormer permet aux modèles VQA de raisonner sur l’avenir sans étiquettes au niveau d’objet, surpassant même les homologues utilisant des annotations fondées sur le terrain. Enfin, nous montrons sa capacité à servir de modèle mondial pour la planification basée sur des modèles, qui est compétitif par rapport aux méthodes conçues spécifiquement pour ce type de tâches.

Apprentissage partiel mutuel des étiquettes avec le bruit concurrentiel des labels

Yan Yan, Yuhong Guo

L’apprentissage partiel des étiquettes (PLL) est un important problème d’apprentissage faiblement supervisé, où chaque instance d’entraînement est associée à un ensemble d’étiquettes candidates incluant à la fois la véritable étiquette et des étiquettes bruitées supplémentaires. La plupart des méthodes PLL existantes supposent que les étiquettes bruitées candidates sont choisies au hasard, ce qui est difficile dans les scénarios d’apprentissage réels. Dans cet article, nous considérons un scénario PLL plus réaliste avec un bruit d’étiquette compétitif, plus difficile à distinguer de l’étiquette réelle que le bruit d’étiquette aléatoire. Nous proposons une nouvelle approche PLL basée sur l’apprentissage mutuel nommée ML-PLL pour répondre à ce problème complexe. ML-PLL apprend coopérativement un classificateur basé sur un réseau de prédiction et un classificateur basé sur un prototype de classe grâce à un apprentissage mutuel interactif et à la correction d’étiquettes. De plus, nous utilisons un réseau de transformation pour modéliser les relations d’association entre la véritable étiquette et les étiquettes candidates, et nous l’apprenons avec le réseau de prédiction pour faire correspondre les étiquettes candidates observées dans les données d’entraînement et améliorer la correction des étiquettes. Des expériences approfondies sont menées sur plusieurs ensembles de données PLL de référence, et l’approche ML-PLL proposée démontre des performances à la fine pointe de la technologie pour l’apprentissage partiel des étiquettes.

Adaptation partielle non supervisée du domaine par étiquette avec alignement classe-prototype

Yan Yan, Yuhong Guo

L’apprentissage partiel des étiquettes (PLL) s’attaque au problème où chaque instance est associée à un ensemble d’étiquettes candidates, dont une seule est l’étiquette de la vérité fondamentale. La plupart des approches PLL existantes supposent que les ensembles d’entraînement et de test partagent une distribution de données identique. Cependant, cette hypothèse ne s’applique pas dans de nombreux scénarios réels où les données d’entraînement et de test proviennent de distributions différentes. Dans cet article, nous formalisons ce scénario d’apprentissage comme un nouveau problème appelé adaptation partielle non supervisée par étiquette (PLUDA). Pour répondre à ce problème complexe de PLIDA, nous proposons une nouvelle méthode PLUDA basée sur l’alignement de prototypes nommée PAPLUDA, qui affine dynamiquement les pseudo-étiquettes des instances provenant des domaines source et cible en consultant les résultats d’un modèle enseignant-élève de manière moyenne mobile, et fait le pont entre les divergences inter-domaines par l’alignement classe-prototype inter-domaines. De plus, une régularisation contrastive basée sur un modèle enseignant-élève est déployée pour améliorer la stabilité de la prédiction et ainsi améliorer les prototypes de classe dans les deux domaines pour PLUDA. Des résultats expérimentaux complets démontrent que PAPLUDA atteint des performances de pointe sur les ensembles de données de référence largement utilisés.

À lire aussi :

2026
Réflexions
Recherche
Recherche 2026

La nouvelle cartographie de l’invisible

Les femmes écrivent sur un tableau blanc. Il y a un homme à sa gauche qui regarde le tableau.
2025
Recherche
Recherche 2025

Les chercheurs en vecteurs font avancer les frontières de l’IA avec 80 articles au NeurIPS 2025

2025
Apprentissage automatique
Recherche
Recherche 2025

Quand l’IA intelligente devient trop intelligente : Principaux enseignements de l’atelier 2025 sur la sécurité et la vie privée en apprentissage automatique de Vector