Des chercheurs du secteur vectoriel récompensés lors de la 2022e conférence internationale sur les représentations d'apprentissage (ICLR)

19 mai 2022

Par Ian Gormely
19 mai 2022

Deux articles co-rédigés par des chercheurs de Vector ont été récompensés lors de la conférence internationale sur les représentations d'apprentissage (ICLR) de cette année. 

Nicolas Papernot, membre de la faculté des sciences vectorielles, et Thomas Steinke ont remporté un Outstanding Paper Award pour leur travail intitulé "Hyperparameter Tuning with Renyi Differential Privacy" (Ajustement des hyperparamètres avec la confidentialité différentielle de Renyi). L'article montre comment la méthode actuelle d'analyse de la confidentialité d'un algorithme pendant l'entraînement peut sous-estimer la fuite d'informations privées. "Nous analysons généralement un seul cycle d'apprentissage de l'algorithme", explique M. Papernot. "Nous montrons ici comment étendre l'analyse d'un seul entraînement de l'algorithme pour capturer la fuite de l'ensemble de l'entraînement, y compris le réglage des hyperparamètres."

L'article suivant a également reçu le prix de l'article exceptionnel "Neural Collapse Under MSE Loss : Proximity to and Dynamics on the Central Path (Effondrement neuronal en cas de perte de l'EQM : proximité et dynamique sur le chemin central)," par Vardan Papyan, affilié à la faculté de Vardan Papyan, affilié à la faculté des sciences vectorielles, et ses coauteurs X.Y. Han et David L. Donoho. L'article montre un modèle empirique d'"effondrement neuronal" commun à de nombreux ensembles de données de classification et architectures, une structure géométrique simple qui émerge lors de l'entraînement des réseaux profonds. "L'analyse L'analyse théorique de cette structure peut donner un aperçu des propriétés clés des méthodes modernes d'intelligence artificielle, telles que la robustesse et la généralisation adverses", explique M. Papyan.

Au total, 21 articles cosignés par des membres de la faculté Vector et des affilés de la faculté ont été acceptés pour la conférence de cette année, qui s'est déroulée virtuellement. Deux d'entre eux ont été retenus pour des présentations orales et cinq ont fait l'objet d'exposés plus courts. 

Vous trouverez ci-dessous les résumés d'un grand nombre d'articles acceptés, rédigés par des membres de la faculté Vector et des affiliés de la faculté.

Un zeste de LIME : vers des distances de modèle indépendantes de l'architecture
Hengrui Jia, Hongyu Chen, Jonas Guan, Ali Shahin Shamsabadi, Nicolas Papernot

Les définitions de la distance entre deux modèles d'apprentissage automatique caractérisent soit la similarité des prédictions des modèles, soit leurs poids. Si la similarité des poids est intéressante parce qu'elle implique la similarité des prédictions dans la limite, elle souffre d'être inapplicable à la comparaison de modèles ayant des architectures différentes. D'autre part, la similarité des prédictions est largement applicable mais dépend fortement du choix des entrées du modèle lors de la comparaison. Dans cet article, nous proposons plutôt de calculer la distance entre les modèles de boîte noire en comparant leurs explicationsgnostiques de modèle interprétables localement (LIME). Pour comparer deux modèles, nous prenons un ensemble de données de référence et approximons localement les modèles sur chaque point de référence avec des modèles linéaires entraînés par LIME. Nous calculons ensuite la distance en cosinus entre les poids concaténés des modèles linéaires. Cette approche est à la fois indépendante de l'architecture et présente les avantages de la comparaison des modèles dans l'espace des poids. Nous montrons empiriquement que notre méthode, que nous appelons Zest, peut être appliquée à deux problèmes qui nécessitent des mesures de la similarité des modèles : la détection du vol de modèle et le désapprentissage automatique.

Apprentissage accéléré des politiques avec la simulation différentiable parallèle
Jie Xu, Viktor Makoviychuk, Yashraj Narang, Fabio Ramos, Wojciech Matusik, Animesh Garg, Miles Macklin

L'apprentissage par renforcement profond peut générer des politiques de contrôle complexes, mais nécessite de grandes quantités de données d'entraînement pour fonctionner efficacement. Des travaux récents ont tenté de résoudre ce problème en s'appuyant sur des simulateurs différentiables. Cependant, des problèmes inhérents tels que les minima locaux et l'explosion/la disparition des gradients numériques empêchent ces méthodes d'être généralement appliquées à des tâches de contrôle avec des dynamiques complexes riches en contacts, telles que la locomotion humanoïde dans les benchmarks RL classiques. Dans ce travail, nous présentons un simulateur différentiable de haute performance et un nouvel algorithme d'apprentissage de politique (SHAC) qui peut exploiter efficacement les gradients de simulation, même en présence de non-lisse. Notre algorithme d'apprentissage atténue les problèmes de minima locaux grâce à une fonction critique lisse, évite les gradients qui s'évanouissent/explosent grâce à une fenêtre d'apprentissage tronquée et permet à de nombreux environnements physiques d'être exécutés en parallèle. Nous évaluons notre méthode sur des tâches de contrôle RL classiques et montrons des améliorations substantielles en termes d'efficacité d'échantillonnage et de temps d'exécution par rapport aux algorithmes RL et de simulation différentiable les plus récents. En outre, nous démontrons l'extensibilité de notre méthode en l'appliquant au problème difficile et de haute dimension de la locomotion actionnée par les muscles avec un grand espace d'action, en obtenant une réduction supérieure du temps de formation par rapport à l'algorithme RL établi le plus performant. D'autres résultats visuels sont disponibles à l'adresse suivante : https://short-horizon-actor-critic.github.io/

CoordX : Accélération de la représentation neuronale implicite avec une architecture MLP divisée
Ruofan Liang, Hongyi Sun, Nandita Vijaykumar

Les représentations neuronales implicites avec des perceptrons multicouches (MLP) ont récemment gagné en importance pour une grande variété de tâches telles que la synthèse de nouvelles vues et la représentation et le rendu d'objets en 3D. Cependant, ces représentations posent un problème important : l'apprentissage et l'inférence d'un MLP sur un grand nombre de coordonnées d'entrée pour apprendre et représenter une image, une vidéo ou un objet 3D nécessitent de grandes quantités de calculs et des temps de traitement longs. Dans ce travail, nous visons à accélérer l'inférence et l'entraînement des MLP basés sur les coordonnées pour les représentations neuronales implicites en proposant une nouvelle architecture MLP divisée, CoordX. Avec CoordX, les couches initiales sont divisées pour apprendre chaque dimension des coordonnées d'entrée séparément. Les caractéristiques intermédiaires sont ensuite fusionnées par les dernières couches pour générer le signal appris au point de coordonnées correspondant. Cela permet de réduire considérablement la quantité de calculs nécessaires et d'accélérer considérablement l'apprentissage et l'inférence, tout en obtenant une précision similaire à celle du MLP de base. Cette approche vise donc à apprendre d'abord des fonctions qui sont une décomposition du signal original, puis à les fusionner pour générer le signal appris. L'architecture que nous proposons peut être utilisée de manière générale pour de nombreuses tâches de représentation neuronale implicite sans surcharge de mémoire supplémentaire. Nous démontrons une accélération allant jusqu'à 2,92x par rapport au modèle de base pour les tâches de représentation et de rendu d'images, de vidéos et de formes 3D.

Ajustement privé différentiel des modèles linguistiques
Da Yu, Saurabh Naik, Arturs Backurs, Sivakanth Gopi, Huseyin A Inan, Gautam Kamath, Janardhan Kulkarni, Yin Tat Lee, Andre Manoel, Lukas Wutschitz, Sergey Yekhanin, Huishuai Zhang

Nous présentons des algorithmes plus simples, plus clairs et plus rapides pour le réglage fin différentiellement privé de modèles de langage pré-entraînés à grande échelle, qui permettent d'atteindre les meilleurs compromis entre confidentialité et utilité pour de nombreuses tâches de NLP standard. Nous proposons un méta-cadre pour ce problème, inspiré par le succès récent de méthodes de réglage fin très efficaces en termes de paramètres. Nos expériences montrent que les adaptations différentiellement privées de ces approches sont plus performantes que les algorithmes privés précédents dans trois dimensions importantes : l'utilité, la confidentialité et les coûts de calcul et de mémoire de l'entraînement privé. Sur de nombreux ensembles de données couramment étudiés, l'utilité des modèles privés est proche de celle des modèles non privés. Par exemple, sur l'ensemble de données MNLI, nous obtenons une précision de 87,8 % en utilisant RoBERTa-Large et de 83,5 % en utilisant RoBERTa-Base avec un budget de confidentialité de ε = 6,7. En comparaison, en l'absence de contraintes de confidentialité, RoBERTa-Large atteint une précision de 90,2 %. Nos résultats sont similaires pour la génération de langage naturel lors de l'ajustement privé de GPT-2. Nos expériences montrent également que les modèles de grande taille sont mieux adaptés au réglage fin privé : s'il est bien connu qu'ils atteignent une précision supérieure sans contrainte de confidentialité, nous constatons qu'ils conservent également mieux leur précision lorsque la confidentialité est introduite.

Apprentissage par renforcement distributionnel avec des splines monotones
Yudong Luo, Guiliang Liu, Haonan Duan, Oliver Schulte, Pascal Poupart

L'apprentissage par renforcement distributionnel diffère de l'apprentissage par renforcement traditionnel en estimant la distribution des rendements afin de tenir compte de l'incertitude intrinsèque des PDM. L'un des principaux défis de l'apprentissage par renforcement distributionnel réside dans la manière de paramétrer la fonction quantile lors de la minimisation de la métrique de Wasserstein des différences temporelles. Les algorithmes existants utilisent des fonctions en escalier ou des fonctions linéaires par morceaux. Dans cet article, nous proposons d'apprendre des fonctions quantile continues et lisses représentées par des splines rationnelles-quadratiques monotones, qui résolvent aussi naturellement le problème du croisement des quantiles. Des expériences dans des environnements stochastiques montrent qu'une estimation dense des fonctions quantile améliore la RL distributionnelle en termes de convergence empirique plus rapide et de récompenses plus élevées dans la plupart des cas.

Formation à l'adversité dans le domaine : Une perspective de jeu
David Acuna, Marc T Law, Guojun Zhang, Sanja Fidler

La ligne de travail dominante en matière d'adaptation de domaine s'est concentrée sur l'apprentissage de représentations invariantes à l'aide d'une formation à l'inversion de domaine. Dans cet article, nous interprétons cette approche dans une perspective de théorie des jeux. En définissant les solutions optimales dans l'apprentissage par domaine comme un équilibre local de Nash, nous montrons que la descente de gradient dans l'apprentissage par domaine peut violer les garanties de convergence asymptotique de l'optimiseur, ce qui nuit souvent à la performance du transfert. Notre analyse nous amène à remplacer la descente de gradient par des solveurs ODE d'ordre élevé (c'est-à-dire Runge-Kutta), pour lesquels nous obtenons des garanties de convergence asymptotique. Cette famille d'optimiseurs est nettement plus stable et permet des taux d'apprentissage plus agressifs, ce qui se traduit par des gains de performance importants lorsqu'elle est utilisée en remplacement des optimiseurs standard. Nos expériences montrent qu'en conjonction avec les méthodes de pointe pour l'inversion de domaine, nous obtenons jusqu'à 3,5 % d'amélioration avec moins de la moitié des itérations d'entraînement. Nos optimiseurs sont faciles à mettre en œuvre, ne nécessitent pas de paramètres supplémentaires et peuvent être intégrés dans n'importe quel cadre de travail fondé sur l'inversion de domaine.

Optimisation des hyperparamètres avec la confidentialité différentielle de Renyi
Nicolas Papernot, Thomas Steinke

Pour de nombreux algorithmes différentiellement privés, tels que la descente de gradient stochastique bruyante proéminente (DP-SGD), l'analyse nécessaire pour limiter la perte de confidentialité d'un seul entraînement est bien comprise. Cependant, peu d'études se sont penchées sur la perte de confidentialité résultant des multiples entraînements nécessaires pour affiner la valeur des hyperparamètres de l'algorithme d'entraînement. Dans ce travail, nous illustrons tout d'abord comment le simple fait de définir des hyperparamètres sur la base d'essais d'entraînement non privés peut entraîner une fuite d'informations privées. Motivés par cette observation, nous fournissons ensuite des garanties de confidentialité pour les procédures de recherche d'hyperparamètres dans le cadre de la confidentialité différentielle de Renyi. Nos résultats améliorent et étendent le travail de Liu et Talwar (STOC 2019). Notre analyse confirme notre observation précédente selon laquelle le réglage des hyperparamètres entraîne effectivement une fuite d'informations privées, mais nous prouvons que, sous certaines hypothèses, cette fuite est modeste, tant que chaque exécution d'entraînement candidate nécessaire pour sélectionner les hyperparamètres est elle-même différentiellement privée.

Amélioration de l'estimation de l'information mutuelle avec des bornes recalées et basées sur l'énergie
Rob Brekelmans, Sicong Huang, Marzyeh Ghassemi, Greg Ver Steeg, Roger Baker Grosse, Alireza Makhzani

L'information mutuelle (IM) est une grandeur fondamentale en théorie de l'information et en apprentissage automatique. Cependant, l'estimation directe de l'IM est difficile à réaliser, même si l'on connaît la véritable densité de probabilité conjointe des variables d'intérêt, car elle implique l'estimation d'une fonction de partition logarithmique potentiellement de haute dimension. Dans ce travail, nous présentons une vue unifiée des bornes d'IM existantes du point de vue de l'échantillonnage d'importance, et nous proposons trois nouvelles bornes basées sur cette approche. Étant donné qu'une limite étroite de l'IM sans information sur la densité nécessite une taille d'échantillon exponentielle par rapport à l'IM réel, nous supposons que l'on connaît soit une seule marge, soit l'information complète sur la densité conjointe. Dans les contextes où la densité conjointe complète est disponible, nous proposons des bornes d'échantillonnage d'importance recalé multi-échantillon (AIS) pour l'IM, dont nous démontrons qu'elles permettent d'estimer avec précision de grandes valeurs de l'IM dans nos expériences. Dans les contextes où seule une distribution marginale unique est connue, nous proposons des bornes IWAE généralisées (GIWAE) et MINE-AIS. Notre borne GIWAE unifie les bornes variationnelles et contrastives dans un cadre unique qui généralise les bornes InfoNCE, IWAE et Barber-Agakov. Notre méthode MINE-AIS améliore les méthodes existantes basées sur l'énergie, telles que MINE-DV et MINE-F, en optimisant directement une borne inférieure plus stricte pour MI. MINE-AIS utilise l'échantillonnage MCMC pour estimer les gradients pour l'entraînement et l'AIS multi-échantillon pour évaluer la limite. Nos méthodes sont particulièrement adaptées à l'évaluation de l'IM dans les modèles génératifs profonds, car les formes explicites des densités marginales ou conjointes sont souvent disponibles. Nous évaluons nos limites sur l'estimation de l'IM des VAE et des GAN formés sur les ensembles de données MNIST et CIFAR, et nous montrons des gains significatifs par rapport aux limites existantes dans ces contextes difficiles avec un IM de vérité de base élevé.

Augmenter le coût de l'extraction de modèles avec une preuve de travail calibrée
Adam Dziedzic, Muhammad Ahmad Kaleem, Yu Shen Lu, Nicolas Papernot

Dans les attaques par extraction de modèle, les adversaires peuvent voler un modèle d'apprentissage automatique exposé via une API publique en l'interrogeant de manière répétée et en ajustant leur propre modèle sur la base des prédictions obtenues. Pour empêcher le vol de modèle, les défenses existantes se concentrent sur la détection des requêtes malveillantes, la troncature ou la distorsion des résultats, ce qui introduit nécessairement un compromis entre la robustesse et l'utilité du modèle pour les utilisateurs légitimes. Au lieu de cela, nous proposons d'empêcher l'extraction de modèles en exigeant des utilisateurs qu'ils accomplissent une preuve de travail avant de pouvoir lire les prédictions du modèle. Cela dissuade les attaquants en augmentant considérablement (jusqu'à 100 fois) l'effort de calcul nécessaire pour tirer parti de l'accès aux requêtes pour l'extraction de modèles. Étant donné que nous calibrons l'effort requis pour réaliser la preuve de travail pour chaque requête, cela n'introduit qu'un léger surcoût pour les utilisateurs réguliers (jusqu'à 2 fois). Pour ce faire, notre étalonnage applique des outils de confidentialité différentielle pour mesurer les informations révélées par une requête. Notre méthode ne nécessite aucune modification du modèle de la victime et peut être appliquée par les praticiens de l'apprentissage automatique pour protéger leurs modèles exposés publiquement contre le vol.

L'équité n'est-elle qu'une question de profondeur métrique ? Évaluation et traitement des écarts entre sous-groupes dans l'apprentissage profond des métriques
Natalie Dullerud, Karsten Roth, Kimia Hamidieh, Nicolas Papernot, Marzyeh Ghassemi

L'apprentissage métrique profond (AMP) permet d'apprendre avec moins de supervision en mettant l'accent sur la structure de similarité des représentations. De nombreux travaux ont été consacrés à l'amélioration de la généralisation de l'apprentissage métrique profond dans des contextes tels que l'extraction à zéro coup, mais on sait peu de choses sur ses implications en matière d'équité. Dans cet article, nous sommes les premiers à évaluer les méthodes DML de pointe entraînées sur des données déséquilibrées et à montrer l'impact négatif de ces représentations sur les performances des sous-groupes minoritaires lorsqu'elles sont utilisées pour des tâches en aval. Dans ce travail, nous définissons d'abord l'équité dans le DML à travers une analyse de trois propriétés de l'espace de représentation - l'alignement inter-classe, l'alignement intra-classe et l'uniformité - et nous proposons la méthode finDML, l'espace de représentation fairness in non-équilibré DML pour caractériser l'équité de la représentation. En utilisant finDMLnous constatons que les biais dans les représentations DML se propagent aux tâches de classification courantes en aval. De manière surprenante, ce biais se propage même lorsque les données d'entraînement de la tâche en aval sont rééquilibrées. Pour résoudre ce problème, nous présentons la dé-corrélation partielle d'attributs (PARADE) pour démêler les représentations des caractéristiques des attributs sensibles et réduire les écarts de performance entre les sous-groupes à la fois dans l'espace d'intégration et dans les métriques en aval.

Apprentissage de la dynamique orientée objet pour la planification à partir de textes
Guiliang Liu, Ashutosh Adhikari, Amir-massoud Farahmand, Pascal Poupart

Les progrès des modèles dynamiques permettent une planification basée sur des modèles dans des environnements complexes. Les modèles dynamiques existants étudient généralement des jeux basés sur l'image avec des états entièrement observables. La généralisation de ces modèles aux jeux basés sur le texte (TBG), qui décrivent généralement les états partiellement observables avec des observations de texte bruitées, est un défi. Dans ce travail, nous proposons un modèle de dynamique textuelle orientée objet (OOTD) qui permet aux algorithmes de planification de résoudre les problèmes de prise de décision dans les domaines textuels. OOTD prédit un graphe de mémoire qui se souvient dynamiquement de l'historique des observations d'objets et filtre les informations non pertinentes pour l'objet. Pour faciliter la robustesse de la dynamique, notre modèle OOTD identifie les objets influencés par les actions d'entrée et prédit la croyance des états des objets avec des couches de transition paramétrées de manière indépendante. Nous développons des objectifs variationnels dans le cadre de la supervision d'objets et de l'auto-supervision pour modéliser la stochasticité des dynamiques prédites. Les résultats empiriques montrent que le planificateur basé sur l'OOTD surpasse de manière significative les lignes de base sans modèle en termes d'efficacité d'échantillonnage et de scores d'exécution.

Apprentissage actif à faible budget via la distance de Wasserstein : Une approche de programmation en nombres entiers
Rafid Mahmood, Sanja Fidler, Marc T. Law

L'apprentissage actif est le processus de formation d'un modèle avec des données étiquetées limitées en sélectionnant un sous-ensemble central d'un pool de données non étiquetées à étiqueter. La grande échelle des ensembles de données utilisés dans l'apprentissage profond oblige la plupart des stratégies de sélection d'échantillons à utiliser des heuristiques efficaces. Cet article présente un problème d'optimisation en nombres entiers pour la sélection d'un ensemble central qui minimise la distance discrète de Wasserstein par rapport à l'ensemble de données non étiquetées. Nous démontrons que ce problème peut être résolu de manière pratique à l'aide d'un algorithme de décomposition de Benders généralisée. Notre stratégie utilise des caractéristiques latentes de haute qualité qui peuvent être obtenues par un apprentissage non supervisé sur l'ensemble des données non étiquetées. Les résultats numériques sur plusieurs ensembles de données montrent que notre approche d'optimisation est compétitive par rapport aux lignes de base et qu'elle les surpasse particulièrement dans le régime à faible budget où moins d'un pour cent de l'ensemble de données est étiqueté.

Effondrement neuronal en cas de perte d'ESM : proximité et dynamique du chemin central
X.Y. Han, Vardan Papyan, David L. Donoho

Le phénomène d'effondrement neuronal (NC), récemment découvert, est omniprésent dans le paradigme actuel de formation des réseaux profonds, qui consiste à faire tendre la perte d'entropie croisée (EC) vers zéro. Lors de l'effondrement neuronal, les caractéristiques de la dernière couche se réduisent à leur moyenne de classe, les classificateurs et les moyennes de classe se réduisent au même cadre serré équiangulaire Simplex et le comportement du classificateur se réduit à la règle de décision de la moyenne de classe la plus proche. Des travaux récents ont démontré que les réseaux profonds formés avec une perte par erreur quadratique moyenne (MSE) ont des performances comparables à celles des réseaux formés avec l'EC. En guise de préliminaire, nous établissons empiriquement que l'EC émerge également dans de tels réseaux profonds entraînés par MSE grâce à des expériences sur trois réseaux canoniques et cinq ensembles de données de référence. Nous fournissons, dans un carnet Google Colab, le code PyTorch pour reproduire MSE-NC et CE-NC : https://colab.research.google.com/github/neuralcollapse/neuralcollapse/blob/main/neuralcollapse.ipynb. La perte MSE analysable offre plus de possibilités mathématiques que la perte CE difficile à analyser, ce qui nous incite à exploiter la perte MSE pour l'étude théorique de la CN. Nous développons trois contributions principales : (I) Nous montrons une nouvelle décomposition de la perte MSE en (A) termes directement interprétables dans l'optique de la CN et qui supposent que le classificateur de la dernière couche est exactement le classificateur des moindres carrés ; et (B) un terme capturant la déviation de ce classificateur des moindres carrés. (II) Nous présentons des expériences sur des ensembles de données et des réseaux canoniques démontrant que le terme-(B) est négligeable pendant l'apprentissage. Cela nous incite à introduire une nouvelle construction théorique : le chemin central, où le classificateur linéaire reste MSE-optimal pour les activations de caractéristiques tout au long de la dynamique. (III) En étudiant le flux de gradient renormalisé le long du chemin central, nous dérivons une dynamique exacte qui prédit le NC.

NODE-GAM : Modèle Additif Généralisé Neural pour l'Apprentissage Profond Interprétable
Chun-Hao Chang, Rich Caruana, Anna Goldenberg

Le déploiement de modèles d'apprentissage automatique dans des environnements réels à haut risque (par exemple, les soins de santé) dépend souvent non seulement de la précision du modèle, mais aussi de son équité, de sa robustesse et de son interprétabilité. dépend souvent non seulement de la précision du modèle, mais aussi de son équité, de sa robustesse et de son interprétabilité. Les modèles additifs généralisés (GAM) sont une classe de modèles interprétables utilisés depuis longtemps dans ces domaines à haut risque, mais ils ne présentent pas les caractéristiques souhaitables de l'apprentissage profond, telles que la différentiabilité et l'évolutivité. Dans ce travail, nous proposons un GAM neuronal (NODE-GAM) et un GA2M neuronal (NODEGA2M) qui s'adaptent bien et donnent de meilleurs résultats que les autres GAM sur de grands ensembles de données, tout en restant interprétables par rapport à d'autres modèles d'ensemble et d'apprentissage profond. Nous démontrons que nos modèles trouvent des modèles intéressants dans les données. Enfin, nous montrons que nous améliorons la précision du modèle via un pré-entraînement auto-supervisé, une amélioration qui n'est pas possible pour les GAM non différentiables.

Représentations optimales pour le déplacement des covariables
Yangjun Ruan, Yann Dubois, Chris J. Maddison

Les systèmes d'apprentissage automatique subissent souvent un changement de distribution entre l'apprentissage et le test. Dans cet article, nous introduisons un objectif variationnel simple dont les optima sont exactement l'ensemble de toutes les représentations sur lesquelles les minimiseurs de risque sont garantis d'être robustes à tout changement de distribution qui préserve le prédicteur de Bayes, par exemple les changements de covariables. Notre objectif comporte deux volets. Premièrement, une représentation doit rester discriminante pour la tâche, c'est-à-dire qu'un prédicteur doit être capable de minimiser simultanément le risque de la source et de la cible. Deuxièmement, le soutien marginal de la représentation doit être le même pour la source et la cible. Nous rendons cela pratique en concevant des objectifs auto-supervisés qui utilisent uniquement des données non étiquetées et des augmentations pour former des représentations robustes. Nos objectifs donnent un aperçu de la robustesse de CLIP et améliorent les représentations de CLIP afin d'obtenir des résultats SOTA sur DomainBed.

Bootstrapping pessimiste pour l'apprentissage par renforcement hors ligne basé sur l'incertitude
Chenjia Bai, Lingxiao Wang, Zhuoran Yang, Zhi-Hong Deng, Animesh Garg, Peng Liu, Zhaoran Wang

L'apprentissage par renforcement hors ligne (RL) vise à apprendre des politiques à partir d'ensembles de données précédemment collectés sans explorer l'environnement. L'application directe d'algorithmes hors politique à l'apprentissage par renforcement hors ligne échoue généralement en raison de l'erreur d'extrapolation causée par les actions hors distribution (OOD). Les méthodes précédentes s'attaquent à ce problème en pénalisant les valeurs Q des actions hors distribution ou en contraignant la politique entraînée à être proche de la politique comportementale. Néanmoins, ces méthodes empêchent généralement la généralisation des fonctions de valeur au-delà des données hors ligne et manquent également d'une caractérisation précise des données OOD. Dans cet article, nous proposons Pessimistic Bootstrapping for offline RL (PBRL), un algorithme hors ligne purement axé sur l'incertitude et sans contraintes politiques explicites. Plus précisément, PBRL quantifie l'incertitude par le biais du désaccord des fonctions Q bootstrappées et effectue des mises à jour pessimistes en pénalisant la fonction de valeur sur la base de l'incertitude estimée. Pour remédier à l'erreur d'extrapolation, nous proposons en outre une nouvelle méthode d'échantillonnage OOD. Nous montrons qu'un tel échantillonnage OOD et un bootstrapping pessimiste permettent d'obtenir un quantificateur d'incertitude prouvable dans les PDM linéaires, fournissant ainsi le fondement théorique du PBRL. Des expériences approfondies sur le benchmark D4RL montrent que le PBRL a de meilleures performances que les algorithmes de pointe.

Pix2seq : un cadre de modélisation linguistique pour la détection d'objets
Ting Chen, Saurabh Saxena, Lala Li, David J. Fleet, Geoffrey Hinton

Nous présentons Pix2Seq, un cadre simple et générique pour la détection d'objets. Contrairement aux approches existantes qui intègrent explicitement des connaissances préalables sur la tâche, nous considérons la détection d'objets comme une tâche de modélisation du langage conditionnée par les entrées de pixels observées. Les descriptions d'objets (par exemple, les boîtes de délimitation et les étiquettes de classe) sont exprimées sous forme de séquences de jetons discrets, et nous formons un réseau neuronal pour qu'il perçoive l'image et génère la séquence souhaitée. Notre approche repose principalement sur l'intuition que si un réseau neuronal sait où et ce que sont les objets, il suffit de lui apprendre à les lire. Au-delà de l'utilisation d'augmentations de données spécifiques à la tâche, notre approche ne pose que peu d'hypothèses sur la tâche, et pourtant elle obtient des résultats compétitifs sur l'ensemble de données COCO, par rapport à des algorithmes de détection hautement spécialisés et bien optimisés.

Réexamen des modèles génératifs de flux pour la détection de l'absence de distribution
Dihong Jiang, Sun Sun, Yaoliang Yu

Les modèles génératifs profonds ont été largement utilisés dans des applications pratiques telles que la détection de données non distribuées. Dans ce travail, nous visons à réexaminer le potentiel des modèles génératifs de flux dans la détection des données hors distribution. Nous proposons tout d'abord une combinaison simple de tests statistiques univariés à un échantillon (par exemple, Kolmogorov-Smirnov) et de projections aléatoires dans l'espace latent des modèles de flux pour effectuer la détection des OOD. Nous proposons ensuite une version à deux échantillons de notre test pour tenir compte des modèles de flux imparfaits. Notre méthode ne pose pas d'hypothèses paramétriques sur les données OOD et est capable d'exploiter n'importe quel modèle de flux. Sur le plan expérimental, nous confirmons tout d'abord l'efficacité de notre méthode par rapport aux lignes de base de l'état de l'art grâce à des expériences approfondies sur plusieurs ensembles de données d'images ; deuxièmement, nous étudions la relation entre la précision du modèle (par exemple, la qualité de la génération) et la performance de détection des OOD, et nous avons découvert de manière surprenante qu'elles ne sont pas toujours positivement corrélées ; et troisièmement, nous montrons que la détection dans l'espace latent des modèles de flux est généralement plus performante que la détection dans l'espace d'échantillonnage sur divers ensembles de données OOD, ce qui met en évidence les avantages de l'entraînement d'un modèle de flux.

Comprendre l'effondrement de la variance du SVGD en haute dimension
Jimmy Ba, Murat A Erdogdu, Marzyeh Ghassemi, Shengyang Sun, Taiji Suzuki, Denny Wu, Tianzong Zhang

La descente de gradient variationnelle de Stein (SVGD) est un algorithme d'inférence déterministe qui fait évoluer un ensemble de particules pour les adapter à une distribution cible. Malgré son efficacité de calcul, la SVGD sous-estime souvent la variance de la distribution cible en haute dimension. Dans ce travail, nous tentons d'expliquer l'effondrement de la variance dans le SVGD. Sur le plan qualitatif, nous comparons la mise à jour du SVGD avec la descente de gradient sur l'objectif de divergence moyenne maximale (MMD) ; nous observons que le phénomène d'effondrement de la variance est lié au biais des mises à jour déterministes présentes dans la "force motrice" du SVGD, et nous vérifions empiriquement que l'élimination de ce biais conduit à une estimation plus précise de la variance. Sur le plan quantitatif, nous démontrons que l'effondrement de la variance de la SVGD peut être prédit avec précision dans la limite asymptotique proportionnelle, c'est-à-dire lorsque le nombre de particules et de dimensions diverge au même rythme. En particulier, pour l'apprentissage de gaussiennes isotropes de haute dimension, nous dérivons la variance d'équilibre exacte à la fois pour le SVGD et le MMD-descent sous certaines hypothèses de quasi-orthogonalité sur les particules convergentes, et confirmons que le SVGD souffre de la "malédiction de la dimensionnalité". 

Apprentissage par renforcement basé sur un modèle pondéré par le gradient de valeur
Claas A Voelcker, Victor Liao, Animesh Garg, Amir-massoud Farahmand

L'apprentissage par renforcement basé sur un modèle (MBRL) est une technique efficace pour obtenir des politiques de contrôle, mais les erreurs de modélisation inévitables entraînent souvent une détérioration des performances. Le modèle dans l'apprentissage par renforcement basé sur un modèle est souvent ajusté uniquement pour reconstruire la dynamique, les observations d'état en particulier, alors que l'impact de l'erreur de modèle sur la politique n'est pas pris en compte par l'objectif d'apprentissage. Il en résulte un décalage entre l'objectif visé par le MBRL, à savoir l'élaboration d'une bonne politique et l'apprentissage de valeurs, et la cible de la fonction de perte employée dans la pratique, à savoir la prédiction de l'état futur. L'intuition naïve suggérerait que l'apprentissage de modèles tenant compte de la valeur résoudrait ce problème et, en effet, plusieurs solutions à ce problème d'inadéquation des objectifs ont été proposées sur la base d'une analyse théorique. Cependant, elles tendent à être inférieures dans la pratique aux approches basées sur le maximum de vraisemblance (MLE) couramment utilisées. Dans cet article, nous proposons l'apprentissage de modèle pondéré par le gradient de valeur (VaGraM), une nouvelle méthode d'apprentissage de modèle tenant compte de la valeur qui améliore les performances du MBRL dans des contextes difficiles, tels que la faible capacité du modèle et la présence de dimensions d'état distrayantes. Nous analysons les approches MLE et value-aware et démontrons qu'elles ne tiennent pas compte de l'exploration et du comportement de l'approximation de la fonction lors de l'apprentissage de modèles value-aware et mettent en évidence les objectifs supplémentaires qui doivent être atteints pour stabiliser l'optimisation dans le cadre de l'apprentissage profond. Nous vérifions notre analyse en montrant que notre fonction de perte est capable d'atteindre des rendements élevés sur la suite de référence Mujoco tout en étant plus robuste que les approches basées sur le maximum de vraisemblance.

En rapport :

Recherche
Une IA digne de confiance

Des experts de renommée mondiale en matière de confiance et de sécurité de l'IA publient un article majeur sur la gestion des risques liés à l'IA dans la revue Science

Des protocoles normalisés sont essentiels pour un déploiement responsable des modèles linguistiques

Les inconnues connues : Geoff Pleiss, chercheur chez Vector, se penche sur l'incertitude pour rendre les modèles de ML plus précis.