Les chercheurs en vecteurs ont reçu des prix lors de la Conférence internationale sur les représentations d’apprentissage (ICLR) 2022
19 mai 2022
19 mai 2022
Par Ian Gormely
19 mai 2022
Deux articles coécrits par des chercheurs de Vector ont été récompensés par des prix lors de la Conférence internationale sur les représentations d’apprentissage (ICLR) de cette année.
Nicolas Papernot, membre du corps professoral de Vector, et Thomas Steinke ont remporté un prix d’article exceptionnel pour leur travail « Hyperparameter Tuning with Renyi Differential Privacy ». L’article montre comment la méthode actuelle d’analyse de la confidentialité d’un algorithme lors de l’entraînement peut sous-estimer la fuite d’informations privées. « Nous analysons généralement une seule exécution d’entraînement de l’algorithme », explique Papernot. « Ici, nous montrons comment étendre l’analyse d’une seule exécution d’entraînement de l’algorithme pour capturer la fuite de l’ensemble de l’entraînement, y compris l’ajustement des hyperparamètres. »
A également reçu la mention d’article exceptionnel « Neural Collapse under MSE Loss : Proximity to and Dynamics on the Central Path », par Vardan Papyan, affilié à Vector Faculty et les coauteurs X.Y. Han et David L. Donoho. L’article présente un schéma empirique courant de « Neural Collapse » à travers de nombreux ensembles de données et architectures de classification, une structure géométrique simple qui émerge lors de l’entraînement en réseau profond. « L’analyse théorique de cette structure peut fournir des éclairages sur les propriétés clés des méthodes modernes d’IA telles que la robustesse et la généralisation adversaires », affirme Papyan.
Au total, 21 articles coécrits par des membres du corps professoral de Vector et des affilaites du corps professoral ont été acceptés à la conférence de cette année, qui s’est tenue virtuellement. Deux ont été choisis pour des présentations orales et cinq ont reçu des conférences plus courtes.
Vous trouverez ci-dessous les résumés de plusieurs articles acceptés coécrits par les membres du corps professoral de Vector et les membres affiliés du corps professoral.
Un enthousiasme pour le LIME : vers des distances de modèle indépendantes de l’architecture
Hengrui Jia, Hongyu Chen, Jonas Guan, Ali Shahin Shamsabadi, Nicolas Papernot
Les définitions de la distance entre deux modèles d’apprentissage automatique caractérisent soit la similarité des prédictions des modèles, soit de leurs poids. Bien que la similarité des poids soit attrayante parce qu’elle implique la similarité des prédictions dans la limite, elle souffre d’être inapplicable à la comparaison de modèles avec différentes architectures. D’un autre côté, la similarité des prédictions est largement applicable, mais dépend fortement du choix des entrées du modèle lors de la comparaison. Dans cet article, nous proposons plutôt de calculer la distance entre les modèles boîte noire en comparant leurs Explications Locales Interprétables Indépendantes du Modèle (LIME). Pour comparer deux modèles, nous prendons un ensemble de données de référence et approximons localement les modèles à chaque point de référence avec des modèles linéaires entraînés par LIME. Nous calculons ensuite la distance cosinus entre les poids concaténés des modèles linéaires. Cela donne une approche à la fois indépendante de l’architecture et présente les avantages de comparer des modèles en espace de poids. Nous montrons empiriquement que notre méthode, que nous appelons Zest, peut être appliquée à deux problèmes nécessitant des mesures de similarité de modèle : détecter le vol de modèle et l’apprentissage automatique.
Apprentissage accéléré des politiques avec simulation différentiable parallèle
Jie Xu, Viktor Makoviychuk, Yashraj Narang, Fabio Ramos, Wojciech Matusik, Animesh Garg, Miles Macklin
L’apprentissage par renforcement profond peut générer des politiques de contrôle complexes, mais nécessite de grandes quantités de données d’entraînement pour fonctionner efficacement. Des travaux récents ont tenté de résoudre ce problème en utilisant des simulateurs différentiables. Cependant, des problèmes inhérents tels que les minima locaux et les gradients numériques explosifs/nuls empêchent que ces méthodes soient généralement appliquées à des tâches de contrôle avec des dynamiques complexes riches en contact, comme la locomotion humanoïde dans les benchmarks RL classiques. Dans ce travail, nous présentons un simulateur différentiable haute performance et un nouvel algorithme d’apprentissage des politiques (SHAC) capable d’exploiter efficacement les gradients de simulation, même en présence de non-fluidité. Notre algorithme d’apprentissage atténue les problèmes de minima locaux grâce à une fonction critique fluide, évite les gradients d’annulation ou d’explosion à travers une fenêtre d’apprentissage tronquée, et permet de faire fonctionner de nombreux environnements physiques en parallèle. Nous évaluons notre méthode sur des tâches classiques de contrôle RL, et montrons des améliorations substantielles de l’efficacité de l’échantillonnage et du temps d’horloge murale par rapport aux algorithmes de pointe basés sur RL et simulation différentiable. De plus, nous démontrons l’évolutivité de notre méthode en l’appliquant au problème complexe et dimensionnel de la locomotion actionnée par les muscles avec un grand espace d’action, obtenant ainsi une réduction plus importante du temps d’entraînement par rapport à l’algorithme RL établi le plus performant. Plus de résultats visuels sont disponibles à : https://short-horizon-actor-critic.github.io/
CoordX : Accélération de la représentation neuronale implicite avec une architecture MLP scindée
Ruofan Liang, Hongyi Sun, Nandita Vijaykumar
Les représentations neuronales implicites avec perceptrons multicouches (MLP) ont récemment gagné en importance pour une grande variété de tâches, telles que la synthèse de vues novatrices et la représentation et le rendu d’objets 3D. Cependant, un défi important avec ces représentations est que l’entraînement et l’inférence avec une MLP sur un grand nombre de coordonnées d’entrée pour apprendre et représenter une image, une vidéo ou un objet 3D nécessitent de grands calculs et entraînent de longs temps de traitement. Dans ce travail, nous visons à accélérer l’inférence et l’entraînement des MLP basées sur des coordonnées pour les représentations neuronales implicites en proposant une nouvelle architecture MLP scindée, CoordX. Avec CoordX, les couches initiales sont séparées pour apprendre chaque dimension des coordonnées d’entrée séparément. Les caractéristiques intermédiaires sont ensuite fusionnées par les dernières couches pour générer le signal appris au point de coordonnées correspondant. Cela réduit considérablement la quantité de calcul requise et conduit à d’importantes accélérations dans l’entraînement et l’inférence, tout en atteignant une précision similaire à celle de la MLP de base. Cette approche vise donc d’abord à apprendre des fonctions qui sont une décomposition du signal original, puis à les fusionner pour générer le signal appris. Notre architecture proposée peut généralement être utilisée pour de nombreuses tâches de représentation neuronale implicite sans surcharge mémoire supplémentaire. Nous démontrons une accélération allant jusqu’à 2,92x par rapport au modèle de base pour les tâches de représentation et de rendu d’images, de vidéos et de formes 3D.
Ajustement fin différencié-privé des modèles de langage
Da Yu, Saurabh Naik, Arturs Backurs, Sivakanth Gopi, Huseyin A Inan, Gautam Kamath, Janardhan Kulkarni, Yin Tat Lee, Andre Manoel, Lukas Wutschitz, Sergey Yekhanin, Huishuai Zhang
Nous proposons des algorithmes plus simples, plus clairsemés et plus rapides pour l’ajustement fin différencié-privé de modèles de langage pré-entraînés à grande échelle, qui permettent d’atteindre les compromis de pointe entre la confidentialité et l’utilité sur de nombreuses tâches standard de PLN. Nous proposons un méta-cadre pour ce problème, inspiré par le succès récent de méthodes hautement efficaces en termes de paramètres pour l’ajustement fin. Nos expériences montrent que les adaptations différenciées de ces approches surpassent les algorithmes privés précédents dans trois dimensions importantes : l’utilité, la confidentialité, ainsi que le coût computationnel et mémoire de l’entraînement privé. Sur de nombreux ensembles de données couramment étudiés, l’utilité des modèles privés s’approche de celle des modèles non privés. Par exemple, sur l’ensemble de données MNLI, nous obtenons une précision de 87,8% avec RoBERTa-Large et 83,5% avec RoBERTa-Base, avec un budget de confidentialité de ε = 6,7. En comparaison, en l’absence de contraintes de confidentialité, RoBERTa-Large atteint une précision de 90,2%. Nos résultats sont similaires pour la génération de langage naturel lors de l’ajustement fin privé de GPT-2. Nos expériences montrent aussi que les modèles plus grands sont mieux adaptés à l’ajustement fin privé : bien qu’ils soient bien connus pour obtenir une précision supérieure hors privé, nous constatons qu’ils maintiennent aussi mieux leur précision lorsque la confidentialité est introduite.
Apprentissage par renforcement distributionnel avec splines monotones
Yudong Luo, Guiliang Liu, Haonan Duan, Oliver Schulte, Pascal Poupart
L’apprentissage par renforcement distributif (RL) se distingue du RL traditionnel en estimant la distribution sur les rendements afin de capturer l’incertitude intrinsèque des MDP. Un défi clé en RL distributif réside dans la paramétrisation de la fonction quantile lors de la minimisation de la métrique de Wasserstein des différences temporelles. Les algorithmes existants utilisent des fonctions à pas ou des fonctions linéaires par morceaux. Dans cet article, nous proposons d’apprendre des fonctions quantiles continues lisses représentées par des splines rationnelles-quadratiques monotones, qui résolvent aussi naturellement le problème du croisement de quantiles. Des expériences dans des environnements stochastiques montrent qu’une estimation dense des fonctions quantiles améliore la RL distributive en termes de convergence empirique plus rapide et de récompenses plus élevées dans la plupart des cas.
Entraînement adversarial de domaine : une perspective de jeu
David Acuna, Marc T Law, Guojun Zhang, Sanja Fidler
La principale ligne de travail en adaptation de domaine s’est concentrée sur l’apprentissage des représentations invariantes à l’aide de l’entraînement domaine-adversarial. Dans cet article, nous interprétons cette approche d’un point de vue de théorie des jeux. En définissant les solutions optimales dans l’entraînement domaine-adversarial comme un équilibre de Nash local, nous montrons que la descente du gradient dans l’entraînement domaine-adversarial peut violer les garanties de convergence asymptotique de l’optimiseur, ce qui nuit souvent à la performance de transfert. Notre analyse nous amène à remplacer la descente de gradient par des solveurs d’EDO de haut ordre (c’est-à-dire Runge–Kutta), pour lesquels nous dérivons des garanties de convergence asymptotique. Cette famille d’optimiseurs est nettement plus stable et permet des taux d’apprentissage plus agressifs, ce qui conduit à de hauts gains de performance lorsqu’ils sont utilisés comme remplacement direct par rapport aux optimiseurs standards. Nos expériences montrent qu’en conjonction avec des méthodes adversaires de domaine de pointe, nous obtenons jusqu’à 3,5% d’amélioration avec moins de la moitié des itérations d’entraînement. Nos optimiseurs sont faciles à implémenter, sans paramètres supplémentaires, et peuvent être intégrés à n’importe quel cadre domaine-adversarial.
Réglage des hyperparamètres avec la confidentialité différentielle Renyi
Nicolas Papernot, Thomas Steinke
Pour de nombreux algorithmes différentiellement privés, comme la descente du gradient stochastique bruyante (DP-SGD) très proéminente, l’analyse nécessaire pour limiter la fuite de confidentialité d’une seule exécution d’entraînement est bien comprise. Cependant, peu d’études ont raisonné sur la fuite de confidentialité résultant des multiples entraînements nécessaires pour affiner la valeur des hyperparamètres de l’algorithme d’entraînement. Dans ce travail, nous illustrons d’abord comment le simple fait de définir des hyperparamètres basés sur des entraînements non privés peut divulguer des informations privées. Motivés par cette observation, nous fournissons ensuite des garanties de confidentialité pour les procédures de recherche par hyperparamètres dans le cadre de la confidentialité différentielle de Renyi. Nos résultats améliorent et étendent le travail de Liu et Talwar (STOC 2019). Notre analyse appuie notre observation précédente selon laquelle l’ajustement des hyperparamètres divulgue effectivement des informations privées, mais nous prouvons que, sous certaines hypothèses, cette fuite est modeste, tant que chaque entraînement candidat nécessaire pour sélectionner les hyperparamètres est lui-même différemment privé.
Amélioration de l’estimation mutuelle de l’information avec des bornes recuites et basées sur l’énergie
Rob Brekelmans, Sicong Huang, Marzyeh Ghassemi, Greg Ver Steeg, Roger Baker Grosse, Alireza Makhzani
L’information mutuelle (MI) est une grandeur fondamentale en théorie de l’information et en apprentissage automatique. Cependant, l’estimation directe de l’IM est intractable, même si la vraie densité de probabilité conjointe pour les variables d’intérêt est connue, car elle implique d’estimer une fonction de partition logarithmique potentiellement de haute dimension. Dans cet ouvrage, nous présentons une vision unificatrice des bornes existantes de l’IM du point de vue de l’échantillonnage d’importance, et proposons trois bornes nouvelles basées sur cette approche. Puisqu’une borne d’IM serrée sans information de densité nécessite une taille d’échantillon exponentielle dans le vrai MI, on suppose qu’une seule marginale ou l’information de densité de la jonction complète est connue. Dans les contextes où la densité complète des joints est disponible, nous proposons des bornes d’échantillonnage d’importance recuit multi-échantillon (AIS) sur l’IM, que nous démontrons capables d’estimer précisément de grandes valeurs d’IC dans nos expériences. Dans des contextes où seule une distribution marginale est connue, nous proposons des bornes IWAE généralisées (GIWAE) et MINE-AIS. Notre borne GIWAE unifie les bornes variationnelles et contrastives dans un seul cadre qui généralise les bornes InfoNCE, IWAE et Barber-Agakov. Notre méthode MINE-AIS améliore les méthodes existantes à base d’énergie telles que MINE-DV et MINE-F en optimisant directement une borne inférieure plus serrée sur MI. MINE-AIS utilise l’échantillonnage MCMC pour estimer les gradients pour l’entraînement et l’AIS multi-échantillon pour évaluer la borne. Nos méthodes sont particulièrement adaptées à l’évaluation de l’IM dans des modèles génératifs profonds, puisque des formes explicites des densités marginales ou jointes sont souvent disponibles. Nous évaluons nos limites dans l’estimation de l’IM des VAEs et GAN entraînés sur les ensembles de données MNIST et CIFAR, et démontrons des gains significatifs par rapport aux limites existantes dans ces contextes complexes avec un MI de vérité sur le terrain élevé.
Augmenter le coût de l’extraction du modèle avec une preuve de travail calibrée
Adam Dziedzic, Muhammad Ahmad Kaleem, Yu Shen Lu, Nicolas Papernot
Dans les attaques d’extraction de modèles, les adversaires peuvent voler un modèle d’apprentissage automatique exposé via une API publique en l’interrogeant à plusieurs reprises et en ajustant leur propre modèle selon les prédictions obtenues. Pour prévenir le vol de modèles, les défenses existantes se concentrent sur la détection de requêtes malveillantes, la troncature ou la déformation des résultats, introduisant ainsi nécessairement un compromis entre robustesse et utilité du modèle pour les utilisateurs légitimes. Nous proposons plutôt de freiner l’extraction du modèle en exigeant que les utilisateurs complètent une preuve de travail avant de pouvoir lire les prédictions du modèle. Cela dissuade les attaquants en augmentant considérablement (voire jusqu’à 100 fois) l’effort de calcul nécessaire pour exploiter l’accès aux requêtes pour l’extraction de modèles. Puisque nous calibrons l’effort nécessaire pour compléter la preuve de travail à chaque requête, cela n’introduit qu’une légère surcharge pour les utilisateurs réguliers (jusqu’à 2x). Pour y parvenir, notre calibration applique des outils issus de la confidentialité différentielle pour mesurer l’information révélée par une requête. Notre méthode ne nécessite aucune modification du modèle victime et peut être appliquée par des praticiens de l’apprentissage automatique pour protéger leurs modèles exposés publiquement contre un vol facile.
L’équité est-elle seulement métrique profonde? Évaluation et comblement des lacunes de sous-groupes dans l’apprentissage métrique profond
Natalie Dullerud, Karsten Roth, Kimia Hamidieh, Nicolas Papernot, Marzyeh Ghassemi
L’apprentissage métrique profond (DML) permet un apprentissage avec moins de supervision grâce à son accent sur la structure de similarité des représentations. Beaucoup de travaux ont été réalisés pour améliorer la généralisation de la DML dans des contextes comme la récupération à zéro tir, mais on sait peu de choses sur ses implications pour l’équité. Dans cet article, nous sommes les premiers à évaluer les méthodes DML de pointe entraînées sur des données déséquilibrées, et à montrer l’impact négatif que ces représentations ont sur la performance des sous-groupes minoritaires lorsqu’elles sont utilisées pour des tâches en aval. Dans ce travail, nous définissons d’abord l’équité en DML à travers une analyse de trois propriétés de l’espace de représentation — l’alignement inter-classes, l’alignement intra-classe et l’uniformité — et proposons finDML, le benchmark f-airness in n n on-balanced DML pour caractériser l’équité de la représentation. En utilisant finDML, nous constatons que le biais dans les représentations DML se propage vers des tâches courantes de classification en aval. Étonnamment, ce biais se propage même lorsque les données d’entraînement dans la tâche en aval sont rééquilibrées. Pour résoudre ce problème, nous présentons la décorrélation partielle des attributs (PARADE) pour démêler les représentations des caractéristiques des attributs sensibles et réduire les écarts de performance entre les sous-groupes tant dans l’espace d’immersion que dans les métriques en aval.
Apprendre la dynamique orientée objet pour la planification à partir du texte
Guiliang Liu, Ashutosh Adhikari, Amir-massoud Farahmand, Pascal Poupart
L’avancement des modèles dynamiques permet la planification basée sur des modèles dans des environnements complexes. Les modèles dynamiques existants étudient couramment les jeux basés sur l’image avec des états entièrement observables. Généraliser ces modèles aux jeux basés sur le texte (TBG), qui décrivent couramment les états partiellement observables avec des observations de texte bruyantes, est un défi. Dans ce travail, nous proposons un modèle de dynamique textuelle orientée objet (OOTD) qui permet aux algorithmes de planification de résoudre des problèmes de prise de décision dans des domaines textuels. L’OOTD prédit un graphe mémoire qui se souvient dynamiquement de l’historique des observations d’objets et filtre les informations non pertinentes pour l’objet. Pour faciliter la robustesse de la dynamique, notre modèle OOTD identifie les objets influencés par les actions d’entrée et prédit la croyance des états d’objet avec des couches de transition paramétrées indépendamment. Nous développons des objectifs variationnels dans les contextes supervisés par l’objet et auto-supervisés pour modéliser la stochasticité des dynamiques prédites. Les résultats empiriques montrent que le planificateur basé sur l’OOTD surpasse nettement les références sans modèle en termes d’efficacité d’échantillonnage et de scores de course.
Apprentissage actif à petit budget via la distance de Wasserstein : une approche de programmation entière
Rafid Mahmood, Sanja Fidler, Marc T. Law
L’apprentissage actif est le processus d’entraînement d’un modèle avec des données étiquetées limitées en sélectionnant un sous-ensemble principal d’un pool de données non étiqueté à étiqueter. La grande échelle des ensembles de données utilisés en apprentissage profond oblige la plupart des stratégies de sélection d’échantillons à employer des heuristiques efficaces. Cet article présente un problème d’optimisation en entiers pour sélectionner un ensemble de noyau qui minimise la distance discrète de Wasserstein par rapport au pool non étiqueté. Nous démontrons que ce problème peut être résolu de manière tractable avec un algorithme de décomposition généralisée de Benders. Notre stratégie utilise des caractéristiques latentes de haute qualité qui peuvent être obtenues par apprentissage non supervisé sur le pool non étiqueté. Les résultats numériques sur plusieurs ensembles de données montrent que notre approche d’optimisation est compétitive avec les bases de référence et les surpasse particulièrement dans le régime à petit budget où moins d’un pour cent de l’ensemble de données est indiqué.
Effondrement neuronal sous perte MSE : proximité et dynamique sur le chemin central
X.Y. Han, Vardan Papyan, David L. Donoho
Le phénomène récemment découvert de l’effondrement neuronal (NC) est omniprésent dans le paradigme actuel d’entraînement du deep net, qui pousse la perte d’entropie croisée (CE) vers zéro. Pendant le NC, les caractéristiques de la dernière couche s’effondrent vers leurs moyennes de classe, les classificateurs et les moyennes de classe s’effondrent tous deux dans le même cadre étroit équiangulaire du simplexe, et le comportement du classificateur s’effondre vers la règle de décision de la moyenne de classe la plus proche. Des travaux récents ont démontré que les filets profonds entraînés à la perte d’erreur quadratique moyenne (MSE) performent de manière comparable à ceux entraînés avec l’EC. À titre préliminaire, nous établissons empiriquement que la NC émerge également dans de tels réseaux profonds entraînés par MSE grâce à des expériences sur trois réseaux canoniques et cinq ensembles de données de référence. Nous fournissons, dans un cahier Google Colab, du code PyTorch pour reproduire MSE-NC et CE-NC : https://colab.research.google.com/github/neuralcollapse/neuralcollapse/blob/main/neuralcollapse.ipynb. La perte MSE, traitée analytiquement, offre plus d’opportunités mathématiques que la perte de CE, difficile à analyser, ce qui nous inspire à exploiter la perte MSE pour l’investigation théorique de la NC. Nous développons trois contributions principales : (I) Nous montrons une nouvelle décomposition de la perte MSE en (A) termes directement interprétables à travers le prisme de NC et qui supposent que le classificateur de dernière couche est exactement le classificateur des moindres carrés; et (B) un terme capturant la déviation par rapport à ce classificateur des moindres carrés. (II) Nous présentons des expériences sur des ensembles de données canoniques et des réseaux démontrant que le terme (B) est négligeable pendant l’entraînement. Cela nous motive à introduire une nouvelle construction théorique : le chemin central, où le classificateur linéaire reste optimal pour l’activation des caractéristiques tout au long de la dynamique. (III) En étudiant l’écoulement du gradient renormalisé le long du chemin central, on dérive des dynamiques exactes qui prédisent la NC.
NODE-GAM : Modèle additif généralisé neuronal pour l’apprentissage profond interprétable
Chun-Hao Chang, Rich Caruana, Anna Goldenberg
Le déploiement de modèles d’apprentissage automatique dans des contextes à haut risque réel (par exemple, en santé) dépend souvent non seulement de la précision du modèle, mais aussi de son équité, robustesse et interprétabilité. Les modèles additifs généralisés (GAM) sont une classe de modèles interprétables ayant une longue histoire d’utilisation dans ces domaines à haut risque, mais ils manquent de caractéristiques souhaitables de l’apprentissage profond telles que la différentiabilité et la scalabilité. Dans ce travail, nous proposons un GAM NEURAL (NODE-GAM) et un GA2M neural (NODEGA2M) qui évoluent bien et performent mieux que d’autres GAM sur de grands ensembles de données, tout en restant interprétables comparés à d’autres modèles d’ensemble et d’apprentissage profond. Nous démontrons que nos modèles détectent des motifs intéressants dans les données. Enfin, nous montrons que nous améliorons la précision des modèles grâce à un préentraînement auto-supervisé, une amélioration impossible pour les GAM non différentiables.
Représentations optimales pour le décalage des covariables
Yangjun Ruan, Yann Dubois, Chris J. Maddison
Les systèmes d’apprentissage automatique connaissent souvent un changement de distribution entre la formation et les tests. Dans cet article, nous introduisons un objectif variationnel simple dont les optimaux sont exactement l’ensemble de toutes les représentations sur lesquelles les minimiseurs de risque sont garantis d’être robustes à tout décalage de distribution qui préserve le prédicteur bayesien, par exemple les décalages de covariables. Notre objectif comporte deux composantes. Premièrement, une représentation doit rester discriminante pour la tâche, c’est-à-dire qu’un prédicteur doit pouvoir minimiser simultanément le risque source et cible. Deuxièmement, le soutien marginal de la représentation doit être le même selon la source et la cible. Nous rendons cela pratique en concevant des objectifs auto-supervisés qui n’utilisent que des données non étiquetées et des augmentations pour entraîner des représentations robustes. Nos objectifs donnent un aperçu de la robustesse de CLIP et améliorent encore les représentations de CLIP pour obtenir des résultats SOTA sur DomainBed.
Bootstrapping pessimiste pour l’apprentissage par renforcement hors ligne basé sur l’incertitude
Chenjia Bai, Lingxiao Wang, Zhuoran Yang, Zhi-Hong Deng, Animesh Garg, Peng Liu, Zhaoran Wang
L’apprentissage par renforcement hors ligne (RL) vise à apprendre les politiques à partir de jeux de données déjà collectés sans explorer l’environnement. L’application directe d’algorithmes hors politique au RL hors ligne échoue généralement en raison de l’erreur d’extrapolation causée par les actions hors distribution (OOD). Les méthodes précédentes s’attaquent à ce problème en pénalisant les valeurs Q des actions OOD ou en contraignant la politique entraînée à être proche de la politique comportementale. Néanmoins, ces méthodes empêchent généralement la généralisation des fonctions de valeur au-delà des données hors ligne et manquent également de caractérisation précise des données OOD. Dans cet article, nous proposons le Pessimistic Bootstrapping for offline RL (PBRL), un algorithme hors ligne purement basé sur l’incertitude sans contraintes politiques explicites. Plus précisément, la PBRL effectue la quantification de l’incertitude via le désaccord des fonctions Q bootstrapées, et effectue des mises à jour pessimistes en pénalisant la fonction de valeur en fonction de l’incertitude estimée. Pour corriger l’erreur d’extrapolation, nous proposons en outre une nouvelle méthode d’échantillonnage OOD. Nous montrons que cet échantillonnage OOD et le bootstrapping pessimiste produisent un quantificateur d’incertitude démontrable dans les MDP linéaires, fournissant ainsi la base théorique pour la PBRL. Des expériences approfondies sur le benchmark D4RL montrent que PBRL offre de meilleures performances comparées aux algorithmes de pointe.
Pix2seq : un cadre de modélisation du langage pour la détection d’objets
Ting Chen, Saurabh Saxena, Lala Li, David J. Fleet, Geoffrey Hinton
Nous présentons Pix2Seq, un cadre simple et générique pour la détection d’objets. Contrairement aux approches existantes qui intègrent explicitement les connaissances préalables sur la tâche, nous présentons la détection d’objets comme une tâche de modélisation du langage conditionnée aux entrées de pixels observées. Les descriptions d’objets (par exemple, boîtes englobantes et étiquettes de classe) sont exprimées sous forme de séquences de jetons discrets, et nous entraînons un réseau de neurones pour percevoir l’image et générer la séquence désirée. Notre approche repose principalement sur l’intuition que si un réseau de neurones sait où et quels sont les objets, il suffit de lui apprendre à les lire. Au-delà de l’utilisation d’augmentations de données spécifiques à chaque tâche, notre approche fait très peu d’hypothèses sur la tâche, mais elle obtient des résultats compétitifs sur le complexe jeu de données COCO, comparativement à des algorithmes de détection hautement spécialisés et optimisés.
Réexamen des modèles génératifs d’écoulement pour la détection hors distribution
Dihong Jiang, Sun Sun, Yaoliang Yu
Les modèles génératifs profonds ont été largement utilisés dans des applications pratiques telles que la détection de données hors distribution (OOD). Dans ce travail, nous visons à réexaminer le potentiel des modèles d’écoulement génératif dans la détection de l’OOD. Nous proposons d’abord une combinaison simple de test statistique univarié à un seul échantillon (par exemple, Kolmogorov-Smirnov) et de projections aléatoires dans l’espace latent des modèles d’écoulement pour effectuer la détection OOD. Ensuite, nous proposons une version à deux échantillons de notre test pour tenir compte des modèles d’écoulement imparfaits. De manière assez distincte, notre méthode ne pose pas d’hypothèses paramétriques sur les données OOD et est capable d’exploiter n’importe quel modèle de flux. Expérimentalement, nous confirmons d’abord l’efficacité de notre méthode face à des bases de pointe grâce à des expériences approfondies sur plusieurs ensembles de données d’images; deuxièmement, nous avons étudié la relation entre la précision du modèle (par exemple, la qualité de génération) et la performance de détection hors de champ, et avons constaté, de manière surprenante, qu’elles ne sont pas toujours positivement corrélées; et troisièmement, nous montrons que la détection dans l’espace latent des modèles d’écoulement surpasse généralement la détection dans l’espace échantillon à travers divers ensembles de données OOD, mettant ainsi en lumière les avantages de l’entraînement d’un modèle de flux.
Comprendre l’effondrement de la variance du SVGD en haute dimension
Jimmy Ba, Murat A Erdogdu, Marzyeh Ghassemi, Shengyang Sun, Taiji Suzuki, Denny Wu, Tianzong Zhang
La descente du gradient variationnel de Stein (SVGD) est un algorithme d’inférence déterministe qui fait évoluer un ensemble de particules pour ajuster une distribution cible. Malgré son efficacité computationnelle, SVGD sous-estime souvent la variance de la distribution cible en haute dimension. Dans ce travail, nous tentons d’expliquer l’effondrement de la variance dans SVGD. Du côté qualitatif, nous comparons la mise à jour SVGD avec la descente du gradient sur l’objectif d’écart moyen maximal (MMD); nous observons que le phénomène d’effondrement de la variance est lié au biais des mises à jour déterministes présentes dans la « force motrice » de SVGD, et nous vérifions empiriquement que la suppression de ce biais mène à une estimation de la variance plus précise. Du côté quantitatif, nous démontrons que l’effondrement de la variance de SVGD peut être prédit avec précision dans la limite asymptotique proportionnelle, c’est-à-dire lorsque le nombre de particules et de dimensions divergent au même rythme. En particulier, pour apprendre les gaussiennes isotropes de haute dimension, nous dérivons la variance d’équilibre exacte pour la descente SVGD et MMD sous certaines hypothèses de quasi-orthogonalité sur les particules convergentes, et confirmons que SVGD souffre de la « malédiction de la dimensionnalité ».
Apprentissage par renforcement basé sur des modèles pondéré par gradient de valeurs
Claas A Voelcker, Victor Liao, Animesh Garg, Amir-massoud Farahmand
L’apprentissage par renforcement basé sur les modèles (MBRL) est une technique efficace par exemple pour obtenir des politiques de contrôle, mais des erreurs de modélisation inévitables entraînent souvent une détérioration des performances. Le modèle dans MBRL est souvent uniquement adapté à la reconstruction de la dynamique, en particulier des observations d’état, tandis que l’impact de l’erreur du modèle sur la politique n’est pas capturé par l’objectif d’entraînement. Cela conduit à un décalage entre l’objectif visé du MBRL, qui permet une bonne politique et un bon apprentissage des valeurs, et la cible de la fonction de perte employée en pratique, la prédiction de l’état futur. Une intuition naïve suggérerait que l’apprentissage par modèle conscient de la valeur résoudrait ce problème et, en effet, plusieurs solutions à ce problème de décalage objectif ont été proposées basées sur une analyse théorique. Cependant, elles ont tendance à être inférieures en pratique aux approches basées sur le maximum de vraisemblance (MLE) couramment utilisées. Dans cet article, nous proposons l’apprentissage des modèles pondéré par gradient de valeur (VaGraM), une méthode novatrice pour l’apprentissage des modèles conscients de la valeur qui améliore la performance du MBRL dans des contextes difficiles, tels que la faible capacité du modèle et la présence de dimensions d’état distrayantes. Nous analysons à la fois les approches MLE et conscientes de la valeur, et démontrons comment elles ne tiennent pas compte de l’exploration et du comportement de l’approximation fonctionnelle lors de l’apprentissage de modèles conscients de la valeur, et soulignons les objectifs supplémentaires à atteindre pour stabiliser l’optimisation dans le contexte de l’apprentissage profond. Nous vérifions notre analyse en montrant que notre fonction de perte est capable d’obtenir des rendements élevés sur la suite de benchmarks Mujoco tout en étant plus robuste que les approches basées sur le maximum de vraisemblance.