Les chercheurs en vecteurs remportent les plus grands honneurs à NeurIPS 2022

28 novembre 2022

Recherche de recherche 20222022

Par Ian Gormely 

Deux articles sur Vector ont remporté les plus grands honneurs lors de la conférence NeurIPS 2022. « Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding », coécrit avec David Fleet, membre du corps professoral de Vector, a reçu un prix d’article exceptionnel. Par ailleurs, « ImageNet Classification with Deep Convolutional Neural Networks », un article de 2012 coécrit par Geoffrey Hinton, conseiller scientifique en chef de Vector, a remporté le prix Test of Time. Cinq autres articles coécrits par des chercheurs de Vector ont été « mis en avant par la conférence pour leur grande qualité.  

Au total, Vector Faculty, Faculty Affiliates et Postdoctorants ont reçu 47 communications acceptées à la conférence de cette année, avec huit autres communications acceptées à cinq ateliers différents.

L’article de Fleet, lauréat du prix Outstanding Paper, présente un modèle de diffusion texte-image qui produit un degré « sans précédent » de photoréalisme et une compréhension approfondie du langage. L’article désormais classique de Hinton a choqué la communauté de la vision par ordinateur en réduisant presque de moitié le taux d’erreur suivant. Cela a marqué une avancée majeure dans la reconnaissance de l’image et son influence est encore visible aujourd’hui. 

Collectivement, les articles acceptés coécrits par les chercheurs de Vector démontrent l’étendue des travaux réalisés dans notre communauté de recherche. Parmi les pièces acceptées figurent cinq articles coécrits par Nicholas Papernot, membre du corps professoral de Vector, et un nouvel article distinct, coécrit par Hinton et Fleet, « A Unified Sequence Interface for Vision Tasks », qui montre comment un ensemble diversifié de tâches de vision par ordinateur « de base » peut être unifié si formulé en termes d’interface pixel-séquence partagée.

Sont également acceptés deux articles portant sur des modèles de fondation, de grands modèles polyvalents entraînés sur des données larges à grande échelle, et plus tard spécialisés pour des tâches spécifiques. Vector a récemment identifié ce domaine comme un domaine d’étude auquel nous pouvons appliquer notre expérience et notre expertise pour aider à démocratiser ces technologies. Une autre paire d’articles concerne des modèles d’IA qui ont été formés à jouer à des jeux vidéo textuels ainsi qu’à Minecraft, respectivement.

Vous trouverez ci-dessous des résumés et des résumés simplifiés de nombreux articles et ateliers acceptés par les membres du corps professoral de Vector. 

Vous pouvez en lire plus sur le travail de Vector lors des conférences des années précédentes ici (2021), ici (2020), ici (2019) et ici (2018).

Exploitation adaptative des d-séparateurs avec des bandits causaux
Blair Bilodeau, Linbo Wang, Daniel M. Roy

Les problèmes de bandits à plusieurs bras fournissent un cadre permettant d’identifier l’intervention optimale sur une séquence d’expériences répétées. Sans hypothèses supplémentaires, la performance optimale minimax (mesurée par le regret cumulé) est bien comprise. Avec l’accès à des variables observées supplémentaires qui d-séparent l’intervention du résultat (c’est-à-dire qu’elles sont un d-séparateur), les algorithmes récents de « bandit causal » suscitent probablement moins de regrets. Cependant, en pratique, il est souhaitable d’être agnostique quant à savoir si les variables observées sont un séparateur d. Idéalement, un algorithme devrait être adaptatif; c’est-à-dire qu’ils fonctionnent presque aussi bien qu’un algorithme ayant une connaissance oraculaire de la présence ou de l’absence d’un séparateur d. Dans ce travail, nous formalisons et étudions cette notion d’adaptivité, et fournissons un algorithme novateur qui atteint simultanément (a) un regret optimal lorsqu’un séparateur d est observé, améliorant les algorithmes minimax classiques, et (b) un regret nettement moindre que les algorithmes bandits causaux récents lorsque les variables observées ne sont pas un séparateur d. Fait crucial, notre algorithme ne nécessite aucune connaissance par oracle pour savoir si un d-séparateur est observé. Nous généralisons aussi cette adaptabilité à d’autres conditions, comme le critère de la porte d’entrée.

Optimisation proximale amortie
Juhan Bae, Paul Vicol, Jeff Z. HaoChen, Roger Grosse

De nombreux algorithmes d’optimisation utilisés en apprentissage automatique peuvent être vus comme des approximations d’un objectif de point proximal qui échange la perte sur le lot actuel d’exemples d’entraînement, la quantité par laquelle il modifie les prédictions sur d’autres exemples, et la distance parcourue dans l’espace des paramètres. Nous présentons une façon directe de méta-apprendre les optimiseurs qui tentent de minimiser cet objectif proximal à chaque étape. Les optimiseurs appris sont compétitifs avec les méthodes d’optimisation de second ordre existantes pour les réseaux de neurones, mais plus simples à mettre en œuvre.

BigBio : Un cadre pour le traitement du langage naturel biomédical centré sur les données
Jason Alan Fries, Leon Weber, Natasha Seelam, Gabriel Altay, Debajyoti Datta, Samuele Garda, Myungsun Kang, Ruisi Su, Wojciech Kusa, Samuel Cahyawijaya, Fabio Barth, Simon Ott, Matthias Samwald, Stephen Bach, Stella Biderman, Mario Sänger, Bo Wang, Alison Callahan, Daniel León Periñán, Théo Gigant, Patrick Haller, Jenny Chim, Jose David Posada, John Michael Giorgi, Karthik Rangasai Sivaraman, Marc Pàmies, Marianna Nezhurina, Robert Martin, Michael Cullan, Moritz Freidank, Nathan Dahlberg, Shubhanshu Mishra, Shamik Bose, Nicholas Michio Broad, Yanis Labrak, Shlok S Deshmukh, Sid Kiblawi, Ayush Singh, Minh Chien Vu, Trishala Neeraj, Jonas Golde, Albert Villanova del Moral, Benjamin Beilharz

L’entraînement et l’évaluation des modèles de langage nécessitent de plus en plus la construction de méta-ensembles de données – des collections diverses de données sélectionnées avec une provenance claire. L’incitation en langage naturel a récemment conduit à une généralisation améliorée du zero-shot en transformant des ensembles de données existants supervisés en une diversité de nouvelles tâches de préentraînement, mettant en lumière les avantages de la curation des méta-ensembles de données. Bien que réussissent dans le texte général, la traduction de ces approches centrées sur les données en modélisation du langage biomédical demeure difficile, car les ensembles de données biomédicaux étiquetés sont significativement sous-représentés dans les centres de données populaires. Pour relever ce défi, nous introduisons BigBIO, une bibliothèque communautaire de 126+ ensembles de données de NLP biomédical, couvrant actuellement 12 catégories de tâches et 10+ langages. BigBIO facilite la curation reproductible de méta-ensembles de données grâce à un accès programmatique aux ensembles de données et à leurs métadonnées, et est compatible avec les plateformes actuelles pour l’ingénierie prompt et l’évaluation complète des modèles de langage peu/zéro. Nous discutons de notre processus d’harmonisation des schémas de tâches, d’audit des données, de lignes directrices pour la contribution, et présentons deux cas d’utilisation illustratifs : l’évaluation zéro des questions biomédicales et l’apprentissage à grande échelle multi-tâches. BigBIO est un effort communautaire continu et est disponible à cette URL https.

Breaking Bad : un ensemble de données pour la fracture géométrique et le réassemblage
Silvia Sellán, Yun-Chun Chen, Ziyi Wu, Animesh Garg, Alec Jacobson

Nous lançons Breaking Bad, un ensemble de données à grande échelle d’objets fracturés. Notre ensemble de données comprend plus d’un million d’objets fracturés simulés à partir de dix mille modèles de base. La simulation de fracture est alimentée par un algorithme récent basé sur la physique qui génère efficacement une variété de modes de fracture d’un objet. Les ensembles de données existants d’assemblage de formes décomposent les objets selon des parties sémantiquement signifiantes, modélisant efficacement le processus de construction. En revanche, Breaking Bad modélise le processus de destruction où un objet géométrique se brise naturellement en fragments. Notre ensemble de données sert de référence permettant l’étude du réassemblage d’objets fracturés et présente de nouveaux défis pour la compréhension des formes géométriques. Nous analysons notre ensemble de données avec plusieurs mesures géométriques et comparons trois méthodes d’assemblage de formes à la fine pointe de la technologie dans divers contextes. De nombreux résultats expérimentaux démontrent la difficulté de notre ensemble de données, faisant appel à des recherches futures sur les conceptions de modèles spécifiquement pour la tâche d’assemblage de formes géométriques. Nous hébergeons notre jeu de données à cette URL https.

Distillation de jeux de données à l’aide de la régression des caractéristiques neuronales
Yongchao Zhou, Ehsan Nezhadarya, Jimmy Ba

Obtenir les bonnes données est l’un des aspects les plus critiques et les plus difficiles de la construction de systèmes d’apprentissage profond puissants. Cependant, comment obtenir un ensemble de données de meilleure qualité pour que le modèle puisse apprendre plus efficacement? Une solution possible est la distillation de jeux de données, qui vise à apprendre un petit ensemble de données synthétique qui préserve la plupart des informations provenant de l’ensemble de données original. Nous avons proposé un algorithme d’apprentissage efficace, « FRePo », qui peut distiller un ensemble de données synthétique compact et informatif à partir d’un grand ensemble de données bruyant. L’ensemble de données distillé permet au modèle d’atteindre des performances comparables à celles entraînées sur l’ensemble de données originales, en seulement une fraction du temps.

Notre article formule la distillation des ensembles de données comme un problème de méta-apprentissage à deux niveaux. La boucle externe optimise le méta-jeu de données, et la boucle interne entraîne un modèle sur les données distillées. Un défi clé dans cette formulation est le calcul en méta-gradient, qui peut être coûteux en termes de temps et de mémoire. Nous relevons ce défi en approximant efficacement l’optimisation de la boucle interne, ce qui aboutit à une performance de pointe avec une réduction de 100 fois le temps d’entraînement et une réduction de 10 fois la mémoire GPU par rapport aux travaux précédents. Cette amélioration de l’efficacité de l’entraînement ouvre une variété d’utilisations aux données distillées, allant de l’apprentissage continu à la recherche d’architecture neuronale. De plus, les « données synthétiques », au sens plus large des données artificielles produites par des modèles génératifs, peuvent aider les chercheurs à comprendre comment une machine d’apprentissage autrement opaque « voit » le monde et potentiellement répondre aux préoccupations courantes en apprentissage automatique concernant la confidentialité des données d’entraînement.

Inférence de jeux de données pour modèles auto-supervisés
Adam Dziedzic, Haonan Duan, Muhammad Ahmad Kaleem, Nikita Dhawan, Jonas Guan, Yannis Cattan, Franziska Boenisch, Nicolas Papernot

Dans les attaques d’extraction de modèles, les adversaires peuvent voler un modèle d’apprentissage automatique exposé via une API publique en le consultant à plusieurs reprises et en ajustant leur propre modèle en fonction des résultats obtenus. Nous proposons une nouvelle défense contre le vol des encodeurs d’apprentissage auto-supervisé (SSL). Contrairement à l’extraction traditionnelle de modèles sur des modèles supervisés qui retournent des étiquettes ou des scores de faible dimension, les encodeurs SSL produisent des représentations, qui sont de dimensionnalité significativement plus élevée comparées aux sorties des modèles supervisés. Récemment, les fournisseurs de ML-as-a-Service ont commencé à offrir des encodeurs SSL entraînés sur des API d’inférence, qui transforment les entrées des utilisateurs en représentations utiles moyennant des frais. Cependant, le coût élevé de l’entraînement de ces modèles et leur exposition aux API rendent l’extraction par boîte noire une menace de sécurité réaliste. Nous introduisons une nouvelle défense d’inférence de jeu de données, qui utilise les points de données privés de l’encodeur victime comme signature pour attribuer sa propriété en cas de vol. L’intuition est que les représentations de sortie de l’encodeur diffèrent entre les données d’entraînement de la victime et les données de test de la victime si l’encodeur est volé à la victime, mais pas si l’encodeur est entraîné indépendamment. Dans le cadre de notre évaluation, nous proposons également de mesurer la fidélité des encodeurs volés et de quantifier l’efficacité de la détection du vol en tirant parti de l’information mutuelle et des mesures de distance.

Benchmark viseur d’EPEPIC-KITCHENS : Segmentations VIP et relations d’objet
Ahmad Darkhalil, Dandan Shan, Bin Zhu, Jian Ma, Amlan Kar, Richard Higgins, Sanja Fidler, David Fouhey, Dima Damen

Avec nos partenaires de l’Université de Bristol et du Michigan, nous lançons VISOR, un nouveau jeu de données d’annotations de pixels et une suite de tests pour segmenter les mains et les objets actifs dans des vidéos égocentriques. VISOR annote les vidéos d’EPIC-KITCHENS, ce qui comporte un nouvel ensemble de défis absents des ensembles de données de segmentation vidéo actuels. Plus précisément, nous devons assurer la cohérence à court et long terme des annotations au niveau des pixels lorsque les objets subissent des interactions transformatives, par exemple lorsqu’un oignon est épluché, coupé en dés et cuit – où nous visons à obtenir des annotations précises au niveau des pixels de la pelure, des morceaux d’oignon, de la planche à découper, du couteau, de la poêle, ainsi que des mains agissantes. VISOR introduit un pipeline d’annotation, propulsé par la Toronto Annotation Suite (https://aidemos.cs.toronto.edu/toras/landing), pour la scalabilité et la qualité. Au total, nous publions publiquement 272 000 masques sémantiques manuels de 257 classes d’objets, 9,9 millions de masques denses interpolés, 67 000 relations main-objet, couvrant 36 heures de 179 vidéos non découpées. En plus des annotations, nous introduisons trois défis : la segmentation des objets vidéo, la compréhension de l’interaction et le raisonnement à long terme.

Bornes de généralisation pour la descente du gradient stochastique via des revêtements de ε localisés
Parc Sejun, Umut Simsekli, Murat Erdogdu

Dans cet article, nous proposons une nouvelle technique de recouvrement localisée pour les trajectoires du SGD. Cette localisation fournit une complexité spécifique à l’algorithme mesurée par le nombre de recouvrement, qui peut avoir une cardinalité indépendante de la dimension, contrairement aux arguments de recouvrement uniformes standard qui entraînent une dépendance exponentielle à la dimension. Sur la base de cette construction localisée, nous montrons que si la fonction objectif est une perturbation finie d’une fonction par morceaux fortement convexe et lisse avec P morceaux, c’est-à-dire non convexe et non lisse en général, l’erreur de généralisation peut être bornée en haut par O((lognlog(nP))/n ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅ ̅√), où n est le nombre d’échantillons de données. En particulier, ce débit est indépendant de la dimension et ne nécessite pas d’arrêter et de décroître prématurément la taille des pas. Enfin, nous utilisons ces résultats dans divers contextes et dérivons des bornes de généralisation pour les modèles linéaires multi-index, les machines à vecteurs de support multi-classes, et le regroupement K-means pour les configurations hard et soft label, améliorant ainsi les taux de pointe connus.

GET3D : Un modèle génératif de formes 3D texturées de haute qualité appris à partir d’images*
Jun Gao, Tianchang Shen, Zian Wang, Wenzheng Chen, Kangxue Yin, Daiqing Li, Or Litany, Zan Gojcic, Sanja Fidler

NVIDIA GET3D est un nouveau modèle d’IA entraîné uniquement avec des images 2D pour générer un nombre pratiquement illimité de formes 3D avec des textures haute fidélité et des détails géométriques complexes. Ces objets 3D sont créés dans le même format que les applications graphiques populaires, permettant aux utilisateurs d’importer immédiatement leurs formes dans des moteurs de rendu 3D et des moteurs de jeu pour une modification ultérieure. Les objets générés pourraient être utilisés dans des représentations 3D de bâtiments, d’espaces extérieurs ou de villes entières, conçus pour des industries telles que le jeu vidéo, la robotique, l’architecture et les médias sociaux. Pour en savoir plus, consultez le blogue NVIDIA et la vidéo GET3D.

*Cet article a été réalisé par NVIDIA avec l’implication de chercheurs en Vector.

Asymptotiques à haute dimension de l’apprentissage des caractéristiques : comment un seul pas de gradient améliore la représentation

Jimmy Ba, Murat Erdogdu, Taiji Suzuki, Zhichao Wang, Denny Wu, Greg Yang

Nous étudions la première étape de descente du gradient sur les paramètres W de la première couche dans un réseau de neurones à deux couches : f(x)=1N√a⊤σ(W⊤x), où W∈Rd×N,a∈RN sont initialisés aléatoirement, et l’objectif d’entraînement est la perte empirique de MSE : 1n∑ni=1(f(xi)−yi)2. Dans la limite asymptotique proportionnelle où n,d,N→∞ au même rythme, et dans un contexte étudiant-enseignant idéalisé, nous montrons que la première mise à jour du gradient contient un « pic » de rang 1, ce qui entraîne un alignement entre les poids de la première couche et la composante linéaire du modèle enseignant f∗. Pour caractériser l’impact de cet alignement, nous calculons le risque de prédiction de régression de crête sur le noyau conjugué après un pas de gradient sur W avec un taux d’apprentissage η, lorsque f∗ est un modèle à indice unique. Nous considérons deux échelons du taux d’apprentissage du premier pas η. Pour de petites η, nous établissons une propriété d’équivalence gaussienne pour la carte de caractéristiques entraînée, et prouvons que le noyau appris améliore le modèle initial de caractéristiques aléatoires, mais ne peut pas vaincre le meilleur modèle linéaire sur l’entrée. Alors que pour des η suffisamment grands, nous prouvons que pour certains f∗, le même estimateur de crête sur des caractéristiques entraînées peut dépasser ce « régime linéaire » et surpasser une large gamme de caractéristiques aléatoires et de noyaux invariants en rotation. Nos résultats démontrent que même un seul pas de gradient peut offrir un avantage considérable sur les caractéristiques aléatoires, et mettent en lumière le rôle de l’échelle du taux d’apprentissage dans la phase initiale de l’entraînement.

Si les fonctions d’influence sont la réponse, alors quelle est la question?
Juhan Bae, Nathan Ng, Alston Lo, Marzyeh Ghassemi, Roger Grosse

Les fonctions d’influence peuvent estimer efficacement ce qui arrive à un modèle lorsqu’un point de données particulier est retiré de l’ensemble d’entraînement. Cependant, des travaux récents ont montré que ces estimations sont assez faibles lorsqu’elles sont appliquées aux réseaux de neurones. Dans ce travail, nous décomposons cette divergence en 5 sources d’erreur et étudions leurs contributions sur diverses architectures et ensembles de données. Nous constatons que les fonctions d’influence sont de mauvaises correspondances pour un réentraînement réel sans un point de données particulier, mais sont de bonnes approximations d’un autre objet que nous appelons la fonction de réponse de Bregman proximale (PBRF). Le PBRF peut être utilisé pour répondre à plusieurs des questions initiales motivant les fonctions d’influence et suggère que les algorithmes actuels d’estimation des fonctions d’influence donnent des résultats plus informatifs que ce que les analyses d’erreur précédentes auraient suggéré.

Implications de l’indétermination du modèle pour les explications des décisions automatisées
Marc-Étienne Brunet, Ashton Anderson, Richard Zemel

Un effort de recherche important s’est concentré sur l’explication des modèles prédictifs, par exemple par l’explicabilité post-hoc et les méthodes de recours. La plupart des techniques proposées fonctionnent sur un modèle prédictif fixe unique. Cependant, il est bien connu qu’avec un ensemble de données et une tâche prédictive, il peut y avoir une multiplicité de modèles qui résolvent le problème (presque) aussi bien. Dans ce travail, nous étudions les implications de ce type d’indétermination des modèles sur les explications post-hoc des modèles prédictifs. Nous montrons comment cela peut mener à une multiplicité explicative, et nous explorons les moteurs sous-jacents. Nous montrons comment la multiplicité prédictive et le concept connexe d’incertitude épistémique ne sont pas des indicateurs fiables de multiplicité explicative. Nous illustrons également comment un ensemble de modèles présentant des performances agrégées très similaires sur un ensemble de données de test peut présenter de grandes variations dans leurs explications locales, c’est-à-dire pour une entrée spécifique A. Nous explorons ces effets pour des explications basées sur la valeur de Shapley sur trois ensembles de données d’évaluation des risques. Nos résultats indiquent que l’indétermination des modèles peut avoir un impact substantiel sur les explications en pratique, menant à des explications incohérentes et même contradictoires.

Dans la confidentialité différentielle, il y a de la vérité : sur la fuite d’histogrammes de vote dans l’apprentissage privé en ensemble
Jiaqi Wang, Roei Schuster, I Shumailov, David Lie, Nicolas Papernot

L’article montre que le mécanisme différenciément privé de PATE, conçu pour préserver la confidentialité des données d’entraînement, cause en réalité la fuite d’éléments sensibles de calcul interne. Cela peut être exploité par les adversaires pour déduire des informations sensibles, comme l’appartenance d’une instance d’entrée à un groupe minoritaire. Ce résultat surprenant met en lumière la prudence à porter lors de l’utilisation et du raisonnement sur la confidentialité différente afin de limiter la fuite d’information.

Génération itérative de graphes de scène
Siddhesh Khandelwal, Leonid Sigal

Les graphes de scène permettent une compréhension large des objets et de leurs interactions au sein d’une scène. Ces graphes se caractérisent par des nœuds représentant des objets, chacun avec une position spatiale et une étiquette de classe, et les arêtes capturant les relations entre les paires d’objets. Générer efficacement de tels graphiques, à partir d’images ou de vidéos, est devenu un problème central en vision par ordinateur. En raison de l’espace de solutions extrêmement vaste, les approches existantes pour la génération de graphes de scène imposent certaines hypothèses simplifiantes. Une de ces simplifications, par exemple, consiste à supposer que les relations entre les paires d’objets n’ont aucune incidence sur leur type/emplacement spatial, ce qui est faux puisque la relation « user » suggère fortement que l’un des objets serait une « personne ». Dans ce travail, nous proposons un cadre novateur pour la génération de graphes de scènes qui répond à cette limitation, et permet ainsi d’estimer et de raisonner conjointement la paire d’objets et les relations. Cela se fait par une procédure itérative où nous générons d’abord une estimation initiale du graphe de la scène, puis affinons continuellement les objets et relations détectés en tirant parti des interactions entre eux. Nous constatons que notre procédure d’affinement itératif proposée surpasse les approches existantes sur cette tâche. De plus, en pratique, certaines relations ont tendance à se produire beaucoup moins fréquemment, ce qui entraîne des biais pendant l’apprentissage. Nous étudions ce phénomène et proposons une approche qui nous permet d’améliorer efficacement la performance sur les relations sous-représentées pour une légère diminution de la performance sur les relations dominantes.

Apprendre à suivre les instructions dans les jeux textuels
Mathieu Tuli, Andrew Li, Pashootan Vaezipoor, Toryn Klassen, Scott Sanner, Sheila McIlraith

Les jeux basés sur le texte sont des environnements virtuels décrits en texte et manipulés par des commandes textuelles comme « ramasser l’épée » ou « déverrouiller la porte ». De tels jeux nécessitent une compréhension du langage et une mémoire à long terme, ce qui représente un défi majeur pour les systèmes d’IA actuels. Nous observons que les méthodes d’apprentissage par renforcement de pointe pour les jeux textuels sont en grande partie incapables de suivre les instructions transmises en langage naturel, ce qui entraîne un faible taux d’accomplissement de tâches. Pour y remédier, nous traduisons ces instructions dans un langage formel (logique) qui soutient la décomposition des tâches et le suivi des progrès. Des expériences sur 500+ jeux du populaire domaine TextWorld démontrent les avantages de notre approche pour suivre des instructions complexes. Au-delà des jeux textuels, nos résultats sont pertinents pour le suivi d’instructions en langage naturel dans une diversité de contextes où un système d’IA doit décider comment agir au fil du temps.

LION : Modèles de diffusion ponctuelle latente pour la génération de formes 3D*
xiaohui zeng, Arash Vahdat, Francis Williams, Zan Gojcic, Or Litany, Sanja Fidler, Karsten Kreis

Le Latent Point Diffusion Model (LION) de NVIDIA est un modèle génératif de formes 3D conçu pour les artistes et créateurs de contenu. LION apprend directement des données géométriques 3D et utilise des modèles de diffusion hautement expressifs pour la réduction du bruit pour son cadre de génération hiérarchique. Cela permet à LION de s’adapter à des ensembles de données 3D variés et complexes. Bien qu’utilisant une représentation 3D en nuage de points, LION peut aussi générer des maillages pratiquement utiles, idéaux pour le traitement en aval avec des logiciels graphiques courants. LION offre non seulement une qualité de génération à la fine pointe de la technologie, mais permet aussi des applications telles que la synthèse 3D guidée par voxel, la réduction du bruit multimodale des formes, la génération texte-vers-forme, la synthèse guidée par image, et plus encore, faisant de LION un outil flexible pour les artistes numériques. Voir la page du projet pour en savoir plus.
*Cet article a été réalisé par NVIDIA avec l’implication de chercheurs en Vector.

Fonctions d’activation logiques : équivalents en espace logit des opérateurs booléens probabilistes
Scott C. Lowe, Robert Earle, Jason d’Eon, Thomas Trappenberg, Sageev Oore

Le choix des fonctions d’activation et leur motivation est un enjeu de longue date au sein de la communauté des réseaux neuronaux. Un neurone biologique individuel a beaucoup plus de complexité qu’un neurone artificiel utilisé en apprentissage automatique, et nous avons demandé si nous pouvions intégrer une partie de cette fonctionnalité dans des neurones artificiels, tout en utilisant des abstractions simples pouvant être construites à grande échelle. Les représentations neuronales dans les réseaux de neurones artificiels sont communément comprises comme des « logits », représentant la probabilité qu’une caractéristique soit présente dans le stimulus sous forme de score log-odds. Par exemple, un neurone individuel dans le réseau peut indiquer la probabilité de la présence de plumes, d’un bec ou d’une poignée de porte, à un point précis de l’image. Ces valeurs sont utilisées par les composants ultérieurs du réseau pour déterminer si l’image est celle d’un canard, par exemple. En considérant les neurones individuels comme représentant des logites, nous avons dérivé de nouvelles fonctions d’activation capables de combiner plusieurs entrées, d’une manière analogue à l’arbre dendritique des neurones biologiques. En particulier, nous avons dérivé des opérateurs d’espace logit équivalents aux portes logiques booléennes probabilistes AND, OR et XNOR pour des probabilités indépendantes. Nous avons déployé ces nouvelles fonctions d’activation, à la fois isolément et conjointement, pour démontrer leur efficacité sur diverses tâches, notamment la classification d’images, l’apprentissage par transfert, le raisonnement abstrait et l’apprentissage compositionnel sans coup.

MoCoDA : Augmentation des données contrefactuelles basée sur des modèles
Silviu Pitis, Elliot Creager, Ajay Mandlekar, Animesh Garg

Le nombre d’états dans un processus dynamique est exponentiel par rapport au nombre d’objets, ce qui rend l’apprentissage par renforcement (RL) difficile dans les domaines complexes à plusieurs objets. Pour que les agents puissent s’adapter au monde réel, ils devront réagir et raisonner sur des combinaisons d’objets invisibles. Nous soutenons que la capacité à reconnaître et à utiliser la factorisation locale dans la dynamique des transitions est un élément clé pour libérer la puissance du raisonnement multi-objet. À cette fin, nous montrons que (1) la structure locale connue dans les transitions environnementales est suffisante pour une réduction exponentielle de la complexité de l’échantillon lors de l’entraînement d’un modèle dynamique, et (2) un modèle dynamique à factorisation locale généralise de manière démontrable l’hors-distribution à des états et actions invisibles. Connaître la structure locale nous permet aussi de prédire quels états et actions invisibles ce modèle de dynamique va généraliser. Nous proposons de tirer parti de ces observations dans un nouveau cadre d’augmentation de données contrefactuelles basée sur des modèles (MoCoDA). MoCoDA applique un modèle de dynamique localisée appris à une distribution augmentée d’états et d’actions afin de générer des transitions contrefactuelles pour RL. MoCoDA travaille avec un ensemble plus large de structures locales que les travaux antérieurs et permet un contrôle direct sur la distribution de formation augmentée. Nous montrons que MoCoDA permet aux agents RL d’apprendre des politiques qui se généralisent à des états et actions invisibles. Nous utilisons MoCoDA pour entraîner un agent RL hors ligne afin de résoudre une tâche de manipulation robotique hors distribution, sur laquelle les algorithmes RL hors ligne standard échouent.

La DE à covariance neuronale : Réseaux façonnés à profondeur et largeur infinie à l’initialisation
Mufan Bill Li, Mihai Nica, Daniel M. Roy

Les sorties logit d’un réseau de neurones feedforward à l’initialisation sont conditionnellement gaussiennes, étant donné une matrice de covariance aléatoire définie par l’avant-dernière couche. Dans ce travail, nous étudions la distribution de cette matrice aléatoire. Des travaux récents ont montré qu’il est nécessaire de façonner la fonction d’activation à mesure que la profondeur du réseau augmente pour que cette matrice de covariance ne soit pas dégénérée. Cependant, la compréhension actuelle de type largeur infinie de cette méthode de façonnage est insatisfaisante pour les grandes profondeurs : les analyses à largeur infinie ignorent les fluctuations microscopiques d’une couche à l’autre, mais ces fluctuations s’accumulent sur de nombreuses couches. Pour surmonter cette lacune, nous étudions la matrice de covariance aléatoire dans la limite de profondeur et largeur infinies formée. Nous identifions la mise à l’échelle précise de la fonction d’activation nécessaire pour parvenir à une limite non triviale, et montrons que la matrice de covariance aléatoire est gouvernée par une équation différentielle stochastique (EDS) que nous appelons l’EDS de covariance neuronale. À l’aide de simulations, nous montrons que le SDE correspond étroitement à la distribution de la matrice de covariance aléatoire des réseaux finis. De plus, nous récupérons une condition si et si seulement pour les normes explosives et nulles des grands réseaux de formes basées sur la fonction d’activation.

Itération des valeurs par division des opérateurs

Amin Rakhsha, Andrew Wang, Mohammad Ghavamzadeh, Amir-massoud Farahmand

Considérez un problème de planification pour un MDP à prix réduit. Supposons que nous ayons accès à un modèle approximatif peu coûteux à utiliser, en plus de la dynamique réelle, qui est coûteuse d’accès. Par exemple, le modèle pourrait être un simulateur de plus faible fidélité, mais rapide, et la vraie dynamique pourrait être un simulateur de haute fidélité, mais lent. Ou, dans le contexte de l’apprentissage par renforcement basé sur des modèles (MBRL), nous avons accès à un modèle appris, à partir duquel des échantillons peuvent être obtenus à moindre coût, alors que nous ne pouvons obtenir que des échantillons coûteux à partir de la dynamique réelle inconnue du système réel. Peut-on utiliser ce modèle approximatif pour accélérer le calcul de la fonction de valeur? Cet article propose un algorithme appelé Operator Splitting Value Iteration (OS-VI) qui bénéficie du modèle approximatif pour potentiellement accélérer la convergence de la séquence de fonction valeur vers la fonction valeur par rapport à la dynamique réelle. OS-VI peut utiliser le modèle approximatif sans introduire d’erreur dans la fonction de valeur calculée. Elle atteint un taux de convergence beaucoup plus rapide lorsque le modèle est suffisamment précis, ce qui entraîne moins de requêtes sur la dynamique réelle. Cela conduit à un meilleur coût computationnel dans les environnements simulés, et potentiellement à une meilleure complexité d’échantillonnage dans les problèmes réels.

Sur l’apprentissage et la réfutation dans la confidentialité différentielle locale non interactive
Alexander Edmonds, Aleksandar Nikolov, Toniann Pitassi

Nous étudions deux tâches statistiques de base dans la confidentialité différentielle locale non interactive (PLD) : l’apprentissage et la réfutation. L’apprentissage nécessite de trouver un concept qui correspond le mieux à une fonction cible inconnue (à partir d’échantillons étiquetés tirés d’une distribution), tandis que la réfutation exige de distinguer entre des distributions de données bien corrélées à un concept de la classe, et des distributions où les étiquettes sont aléatoires. Notre principal résultat est une caractérisation complète de la complexité de l’échantillon de l’apprentissage des PAC agnostiques pour les protocoles LDP non interactifs. Nous montrons que la complexité d’échantillon optimale pour toute classe de concepts est capturée par la norme γ2~approximative d’une matrice naturelle associée à la classe. Combiné aux travaux antérieurs [Edmonds, Nikolov et Ullman, 2019], cela donne une équivalence entre apprentissage et réfutation dans le contexte agnostique.

Sur les limites des défenses de prétraitement stochastique
Yue Gao, I Shumailov, Kassem Fawaz, Nicolas Papernot

Se défendre contre des exemples adverses demeure un problème ouvert. Une croyance courante est que l’aléatoire à l’inférence augmente le coût pour trouver des entrées adverses. Dans cet article, nous étudions les défenses de prétraitement stochastique et découvrons leurs limites théoriques et pratiques. Nous expliquons pourquoi ils ne sont pas censés rendre vos modèles plus robustes face à des exemples adverses et sont vulnérables même contre des attaques non stochastiques standards.

Optimalité et stabilité dans les jeux lisses non convexes
Guojun Zhang, Pascal Poupart, Yaoliang Yu

La convergence vers un point de selle pour les fonctions convexes-concaves est étudiée depuis des décennies, tandis que ces dernières années ont vu un regain d’intérêt pour les jeux lisses non convexes (somme nulle), motivé par leurs applications récentes et étendues. Il demeure un défi de recherche intrigant de savoir comment les points optimaux locaux sont définis et quel algorithme peut converger vers ces points. Un concept intéressant est connu sous le nom de point minimax local, qui est fortement corrélé à l’algorithme de montée en pente très connu. Cet article vise à fournir une analyse complète des points minimax locaux, tels que leur relation avec d’autres concepts de solution et leurs conditions d’optimalité. Nous constatons que les points de selle locaux peuvent être considérés comme un type particulier de points minimax locaux, appelés points minimax uniformément locaux, sous hypothèses de continuité modérée. Dans les jeux quadratiques (non convexes), on montre que les points minimax locaux sont (en un certain sens) équivalents aux points minimax globaux. Enfin, nous étudions la stabilité des algorithmes de gradient près des points minimax locaux. Bien que les algorithmes de gradient puissent converger vers des points minimax locaux/globaux dans le cas non dégénéré, ils échoueraient souvent dans les cas généraux. Cela implique la nécessité soit d’algorithmes novateurs, soit de concepts au-delà des points de selle et des points minimax dans les jeux lisses non convexes.

Optimisation de la collecte de données pour l’apprentissage automatique
Rafid Mahmood, James Lucas, Jose M. Alvarez, Sanja Fidler, Marc Law

Les systèmes modernes d’apprentissage profond nécessitent d’énormes ensembles de données pour obtenir des performances impressionnantes, mais il y a peu d’indications sur la quantité ou le type de données à collecter. La surcollecte de données engendre des coûts présents inutiles, tandis qu’une sous-collecte peut entraîner des coûts futurs et retarder les flux de travail. Nous proposons un nouveau paradigme pour modéliser le flux de travail de collecte de données comme un problème formel optimal de collecte de données, permettant aux concepteurs de spécifier des objectifs de performance, des coûts de collecte, un horizon temporel et des pénalités en cas de non-atteinte des objectifs. De plus, cette formulation se généralise aux tâches nécessitant plusieurs sources de données, telles que les données étiquetées et non étiquetées utilisées dans l’apprentissage semi-supervisé. Pour résoudre notre problème, nous développons Learn-Optimize-Collect (LOC), qui minimise les coûts de collecte futurs attendus. Enfin, nous comparons numériquement notre cadre à la base conventionnelle d’estimation des besoins en données en extrapolant à partir des lois d’échelle neuronale. Nous réduisons considérablement les risques de ne pas atteindre les objectifs de performance souhaités sur plusieurs tâches de classification, segmentation et détection, tout en maintenant de faibles coûts totaux de collecte.

Identification partielle des effets du traitement avec des modèles génératifs implicites

Vahid Balazadeh Meresht, Vasilis Syrgkanis, Rahul G Krishnan

Notre travail propose un nouvel algorithme pour limiter les effets causaux des interventions à partir de données observationnelles. C’est ce qu’on appelle le problème de l’identification partielle. Nous proposons une nouvelle méthode pour l’identification partielle des effets moyens des traitements (ATE) dans des graphiques causaux généraux en utilisant des modèles génératifs profonds. Notre méthode peut obtenir des effets bornés dans des graphes comprenant à la fois des variables aléatoires continues et discrètes. La stratégie que nous adoptons utilise la dérivée de traitement moyenne uniforme (UATD), les dérivées partielles des fonctions de réponse, pour créer une approximation régulière de l’ATE. Nous démontrons que notre algorithme converge vers des bornes strictes sur l’ATE dans les modèles causaux structuraux linéaires (SCM). Pour les SCM non linéaires, nous montrons empiriquement que l’utilisation de l’UATD mène à des bornes plus serrées et plus stables que les méthodes qui optimisent directement l’ATE.

Les réseaux d’équilibre indépendants du chemin peuvent mieux exploiter le calcul au moment du test
Cem Anil, Ashwini Pokle, Kaiqu Liang, Johannes Treutlein, Yuhuai Wu, Shaojie Bai, J. Zico Kolter, Roger Grosse

Nous étudions la capacité des réseaux de neurones à utiliser des ressources computationnelles supplémentaires pour bien fonctionner sur des problèmes plus difficiles que ceux sur lesquels ils ont été entraînés. Nous identifions une propriété de certains réseaux entraînés qui semble fortement corrélée à leur performance de généralisation : l’indépendance du chemin, c’est-à-dire le degré auquel la passe avant du réseau converge vers le même point, peu importe l’initialisation.

Modèles photoréalistes de diffusion texte-image avec une compréhension approfondie du langage Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, Jonathan Ho, David Fleet, Mohammad Norouzi

Nous présentons Imagen, un modèle de diffusion texte-image avec un degré de photoréalisme sans précédent et une compréhension approfondie du langage. Imagen s’appuie sur la puissance des grands modèles de langage transformateurs pour comprendre le texte et repose sur la force des modèles de diffusion dans la génération d’images haute fidélité. Notre découverte clé est que les grands modèles de langage génériques (par exemple T5), pré-entraînés sur des corpus textuels seulement, sont étonnamment efficaces pour encoder le texte pour la synthèse d’images : augmenter la taille du modèle de langage dans Imagen augmente à la fois la fidélité de l’échantillon et l’alignement image-texte bien plus qu’augmenter la taille du modèle de diffusion d’image. Imagen atteint un nouveau score FID à la fine pointe de 7,27 sur l’ensemble de données COCO, sans jamais s’entraîner sur COCO, et les évaluateurs humains trouvent que les échantillons Imagen sont au même niveau que les données COCO elles-mêmes en termes d’alignement image-texte. Pour évaluer les modèles texte-image plus en profondeur, nous introduisons DrawBench, une référence complète et exigeante pour les modèles texte-image. Avec DrawBench, nous comparons Imagen avec des méthodes récentes telles que VQ-GAN+CLIP, Latent Diffusion Models et DALL-E 2, et constatons que les évaluateurs humains préfèrent Imagen à d’autres modèles dans les comparaisons côte à côte, tant en termes de qualité d’échantillon que d’alignement image-texte. Voir https://imagen.research.google/ pour un aperçu des résultats.

L’effet de l’oignon de la vie privée : la mémorisation est relative
Nicholas Carlini, Matthew Jagielski, Chiyuan Zhang, Nicolas Papernot, Andreas Terzis, Florian Tramer

Il a été démontré que les modèles d’apprentissage automatique entraînés sur des ensembles de données privés divulguent leurs données privées. Bien que des travaux récents aient montré que le point de données moyen est rarement divulgué, les échantillons aberrants sont souvent soumis à la mémorisation et, par conséquent, à la fuite de la vie privée. Nous démontrons et analysons un effet oignon de la mémorisation : retirer la « couche » de points aberrants les plus vulnérables à une attaque de confidentialité expose une nouvelle couche de points auparavant sûrs à la même attaque. Nous réalisons plusieurs expériences pour étudier cet effet et comprendre pourquoi il se produit. L’existence de cet effet a diverses conséquences. Par exemple, elle suggère que les propositions visant à se défendre contre la mémorisation sans formation avec des garanties rigoureuses de confidentialité sont peu susceptibles d’être efficaces. De plus, elle suggère que des technologies améliorant la vie privée, comme le désapprentissage automatique, pourraient en fait nuire à la vie privée d’autres utilisateurs.

Apprentissage proximal avec conscience de l’apprentissage de l’adversaire
Stephen Zhao, Chris Lu, Roger Grosse, Jakob Foerster

Apprendre avec conscience de l’apprentissage de l’adversaire (LOLA) (Foerster et al. [2018a]) est un algorithme d’apprentissage par renforcement multi-agents qui apprend généralement la coopération basée sur la réciprocité dans des environnements partiellement compétitifs. Cependant, LOLA ne parvient souvent pas à apprendre ce comportement sur des espaces de politiques plus complexes paramétrés par des réseaux de neurones, en partie parce que la règle de mise à jour est sensible à la paramétrisation des politiques. Ce problème est particulièrement marqué dans le contexte de modélisation de l’adversaire, où la politique de l’adversaire est inconnue et doit être déduite à partir des observations; dans de tels contextes, LOLA est mal spécifié car des politiques d’opposition comportementalement équivalentes peuvent entraîner des mises à jour non équivalentes. Pour corriger cette lacune, nous réinterprétons LOLA comme une approximation d’un opérateur proximal, puis dérivons un nouvel algorithme, LOLA proximal (POLA), qui utilise directement la formulation proximale. Contrairement à LOLA, les mises à jour POLA sont invariantes par paramétrisation, dans le sens où lorsque l’objectif proximal possède un optimum unique, des politiques comportementalement équivalentes entraînent des mises à jour comportementales équivalentes. Nous présentons ensuite des approximations pratiques de la mise à jour idéale de POLA, que nous évaluons dans plusieurs environnements partiellement compétitifs avec l’approximation fonctionnelle et la modélisation des adversaires. Cela démontre empiriquement que POLA réalise une coopération basée sur la réciprocité de manière plus fiable que LOLA.

Reconsidérer les ensembles profonds
Taiga Abe, Estefany Kelly Buchanan, Geoff Pleiss, Richard Zemel, John Cunningham

L’assemblage des réseaux de neurones est un moyen efficace d’augmenter la précision, et peut souvent égaler la performance de modèles individuels plus grands. Cette observation soulève une question naturelle : étant donné le choix entre un ensemble profond et un seul réseau de neurones avec une précision similaire, l’un est-il préférable à l’autre? Des travaux récents suggèrent que les ensembles profonds pourraient offrir des avantages distincts au-delà du pouvoir prédictif : à savoir, la quantification de l’incertitude et la robustesse au changement de jeu de données. Dans ce travail, nous démontrons les limites de ces avantages supposés, et montrons qu’un seul réseau de neurones (mais plus grand) peut reproduire ces qualités. Premièrement, nous montrons que la diversité d’ensemble, selon n’importe quel indicateur, ne contribue pas de manière significative à la capacité d’un ensemble à détecter des données hors distribution (OOD), mais est plutôt fortement corrélée à l’amélioration relative d’un seul modèle plus vaste. Deuxièmement, nous montrons que la performance OOD offerte par les ensembles est fortement déterminée par leur performance en distribution (InD), et – en ce sens – n’indique pas une quelconque « robustesse effective ». Bien que les ensembles profonds soient un moyen pratique d’améliorer la puissance prédictive, la quantification de l’incertitude et la robustesse, nos résultats montrent que ces améliorations peuvent être reproduites par un modèle unique (plus grand).

Réseaux de filtres multiplicatifs résiduels pour la reconstruction multi-échelle
Shayan Shekarforoush, David Lindell, Marcus Brubaker, David Fleet

Les réseaux de coordonnées comme les réseaux à filtres multiplicatifs (MFN) et BACON offrent un certain contrôle sur le spectre fréquentiel utilisé pour représenter des signaux continus tels que des images ou des volumes 3D. Cependant, elles ne sont pas facilement applicables aux problèmes pour lesquels une estimation grossière à fine est requise, y compris divers problèmes inverses dans lesquels l’optimisation grossière à fine joue un rôle clé pour éviter de faibles minima locaux. Nous introduisons une nouvelle architecture de réseau coordonné et un schéma d’entraînement qui permet une optimisation grossière à fine avec un contrôle précis du support fréquentiel des reconstructions apprises. Cela est réalisé grâce à deux innovations clés. Premièrement, nous incorporons des connexions à saut afin que la structure à une échelle soit préservée lors de l’ajustement de structures à plus petite échelle. Deuxièmement, nous proposons un nouveau schéma d’initialisation pour permettre de contrôler le spectre fréquentiel du modèle à chaque étape d’optimisation. Nous démontrons comment ces modifications permettent une optimisation multi-échelle pour un ajustement grossier à fin sur des images naturelles. Nous évaluons ensuite notre modèle sur des ensembles de données générés synthétiquement pour le problème de la reconstruction cryo-EM à particule unique. Nous apprenons des structures multiéchelle haute résolution, au même niveau que l’état de la technologie.

SMPL : Environnements d’apprentissage simulés de fabrication industrielle et de contrôle des procédés
Mohan Zhang, Xiaozhou Wang, Benjamin Decardi-Nelson, Bo Song, An Zhang, Jinfeng Liu, Sile Tao, Jiayi Cheng, Xiaohong Liu, Dengdeng Yu, Matthew Poon, Animesh Garg

Les usines biologiques et pharmaceutiques traditionnelles sont contrôlées par des travailleurs humains ou des seuils prédéfinis. Les usines modernisées disposent d’algorithmes avancés de contrôle de procédé tels que le contrôle prédictif par modèle (MPC). Cependant, il y a peu d’exploration de l’application de l’apprentissage par renforcement profond pour contrôler les usines de fabrication. L’une des raisons est le manque de simulations haute fidélité et d’API standard pour le benchmarking. Pour combler ce fossé, nous développons une bibliothèque facile à utiliser qui comprend cinq environnements de simulation haute fidélité : BeerFMTEnv, ReactorEnv, AtropineEnv, PenSimEnv et mAbEnv, qui couvrent un large éventail de procédés de fabrication. Nous construisons ces environnements sur des modèles dynamiques publiés. De plus, nous comparons des algorithmes d’apprentissage par renforcement en ligne et hors ligne, basés sur des modèles et sans modèle pour comparer les recherches de suivi.

Tempo : Accélération de l’entraînement des modèles basés sur des transformateurs grâce à la réduction de l’empreinte mémoire
Muralidhar Andoorveedu, Zhanda Zhu, Bojian Zheng, Gennady Pekhimenko

Les modèles basés sur les transformateurs sont devenus le modèle dominant appliqué à diverses tâches, incluant la réponse aux questions, la paraphrase, et maintenant même le traitement d’images. Cependant, les entraîner à être efficaces peut être assez coûteux, avec un coût de plusieurs millions de dollars pour des modèles plus récents. En plus de cela, il y a le coût de l’empreinte carbone et du temps. Notre travail peut réduire ces coûts en optimisant les modèles Transformer qui permettent efficacement d’entraîner sur plus de données à la fois, diminuant ainsi le temps nécessaire pour entraîner les modèles, économisant ainsi de l’argent et de l’énergie. Nos résultats montrent une amélioration allant jusqu’à 26% du nombre d’échantillons par seconde pouvant être traités pour les modèles populaires, grâce à une augmentation allant jusqu’à 2 fois la taille des lots.

Apprentissage par renforcement conscient de l’incertitude pour l’évaluation des joueurs sensibles au risque dans un jeu sportif
Guiliang Liu, Yudong Luo, Oliver Schulte, Pascal Poupart

Une tâche majeure de l’analyse sportive est l’évaluation des joueurs. Les méthodes précédentes mesuraient couramment l’impact des actions des joueurs sur les résultats souhaitables (par exemple, les objectifs ou la victoire) sans prendre en compte le risque induit par la dynamique stochastique du jeu.  Dans cet article, nous concevons un cadre d’apprentissage par renforcement (RL) conscient de l’incertitude afin d’apprendre une métrique d’évaluation des joueurs sensible au risque à partir de dynamiques de jeu stochastiques. Pour intégrer le risque des mouvements d’un joueur dans la distribution des valeurs d’action, nous modélisons leur 1) incertitude aléatoire, qui représente la stochasticité intrinsèque dans un jeu de sport, et 2) incertitude épistémique, due à une connaissance insuffisante du modèle concernant les échantillons hors distribution (OoD). Nous démontrons comment un opérateur de Bellman distributif et un modèle de densité en espace de caractéristiques peuvent capturer ces incertitudes. Sur la base de cette estimation de l’incertitude, nous proposons une métrique d’impact de jeu sensible au risque (RiGIM) qui mesure la performance des joueurs sur une saison en conditionnant un niveau de confiance spécifique. Une évaluation empirique, basée sur plus de 9 millions d’événements play-by-play de hockey sur glace et de soccer, montre que RiGIM est fortement corrélé aux mesures de réussite standard et présente une sensibilité constante au risque.

Une interface de séquence unifiée pour les tâches de vision
Ting Chen, Saurabh Saxena, Lala Li, Tsung-Yi Lin, David Fleet, Geoffrey E Hinton

Alors que les tâches de langage sont naturellement exprimées dans un seul cadre de modélisation unifié, c’est-à-dire en générant des séquences de jetons, ce n’est pas le cas en vision par ordinateur. En conséquence, il y a une prolifération d’architectures distinctes et de fonctions de perte pour différentes tâches visuelles. Dans ce travail, nous montrons qu’un ensemble diversifié de tâches de vision par ordinateur « de base » peut aussi être unifié s’il est formulé en termes d’interface partagée pixel-séquence. Nous nous concentrons sur quatre tâches, à savoir la détection d’objets, la segmentation des instances, la détection de points clés et le sous-titrage d’images, toutes avec divers types de sorties, par exemple, des boîtes englobantes ou des masques denses. Malgré cela, en formulant la sortie de chaque tâche comme une séquence de jetons discrets avec une interface unifiée, nous montrons qu’on peut entraîner un réseau de neurones avec une architecture de modèle unique et une fonction de perte sur toutes ces tâches, sans personnalisation spécifique à chaque tâche. Pour résoudre une tâche spécifique, nous utilisons une courte invite comme description de tâche, et la sortie de la séquence s’adapte à l’invite afin de produire une sortie spécifique à chaque tâche. Nous démontrons qu’un tel modèle peut atteindre une performance compétitive comparée à des modèles bien établis spécifiques à chaque tâche.

Laver l’inlavable : Sur l'(im)possibilité de détecter le fairwashing
Ali Shahin Shamsabadi, Mohammad Yaghini, Natalie Dullerud, Sierra Wyllie, Ulrich Aïvodji, Aisha Alaagib, Sébastien Gambs, Nicolas Papernot

Le fairwashing est un nouveau modèle de menace où les entreprises abusent de l’exigence d’explicabilité de leurs modèles en boîte noire pour cacher leur injustice potentielle et en échapper aux conséquences juridiques. Dans cet article, nous montrons que l’utilisation d’un modèle interprétable pour expliquer un modèle boîte noire présente un risque de fairwashing. Nous caractérisons et analysons théoriquement le fairwashing, prouvant que ce phénomène est difficile à éviter en raison d’un facteur irréductible — l’injustice du modèle de boîte noire. Sur la base de la théorie développée, nous proposons une technique novatrice, appelée FRAUD-Detect (FaiRness AUDit Detection), pour détecter les modèles fairwashed en mesurant une divergence par rapport aux mesures de fidélité sous-populationnelles du modèle interprétable. Nous explorons des façons dont un adversaire adaptatif (entreprise malhonnête informée de l’algorithme) pourrait tenter d’échapper à la détection de fraude. Nos résultats empiriques montrent que contourner notre détecteur se fait au prix d’une augmentation significative de l’écart de sous-population, annulant ainsi le fairwashing.

Modèles de diffusion vidéo
Jonathan Ho, Tim Salimans, Alexey Gritsenko, William Chan, Mohammad Norouzi, David Fleet

Nous présentons des résultats sur la génération vidéo à l’aide de modèles de diffusion. Nous proposons une architecture pour les modèles de diffusion vidéo qui est une extension naturelle de l’architecture d’image standard. Nous montrons que cette architecture est efficace pour l’entraînement conjoint à partir de données d’images et de vidéos. Pour générer des vidéos longues et à plus haute résolution, nous introduisons une nouvelle technique de conditionnement qui fonctionne mieux que les méthodes proposées précédemment. Nous présentons des résultats sur la génération vidéo conditionnée par le texte et des résultats de pointe sur un benchmark de génération vidéo inconditionnel.

Préentraînement vidéo (VPT) : Apprendre à agir en regardant des vidéos en ligne non étiquetées
Bowen Baker, Ilge Akkaya, Peter Zhokov, Joost Huizinga, Jie Tang, Adrien Ecoffet, Brandon Houghton, Raul Sampedro, Jeff Clune

Nous avons entraîné un réseau neuronal pour jouer à Minecraft par Video PreTraining (VPT) sur un énorme ensemble de données vidéo non étiquetées de Minecraft humain, tout en utilisant seulement une petite quantité de données de contractuels identifiées. Grâce à l’ajustement fin, notre modèle peut apprendre à fabriquer des outils diamantés, une tâche qui prend habituellement plus de 20 minutes (24 000 actions) aux humains compétents. Notre modèle utilise l’interface humaine native des pressions de touches et des mouvements de souris, ce qui le rend assez général, et représente une avancée vers des agents utilisant l’ordinateur en général.

Vous ne pouvez pas compter sur la chance : pourquoi les transformateurs de décision échouent dans des environnements stochastiques
Keiran Paster, Sheila McIlraith, Jimmy Ba

Une tendance récente dans l’apprentissage par renforcement profond (RL) a été de traiter le RL comme un problème de prédiction supervisée, où la prochaine action de l’agent est décidée de manière probabiliste en sélectionnant l’action la plus probable donnée à un résultat futur (par exemple, l’agent récolte une grande quantité de récompenses). Cependant, dans les environnements stochastiques où les récompenses sont affectées par l’aléa, ce cadre est biaisé. Dans ce travail, nous décrivons les conditions théoriques dans lesquelles ces méthodes échouent et proposons un nouvel algorithme qui permet à RL, via des algorithmes d’apprentissage supervisé tels que Decision Transformer, de fonctionner de manière optimale même dans des environnements très stochastiques. Cela ouvre la voie à une approche unifiée pour la prédiction, la modélisation des séquences et la prise de décision optimale.

Ateliers NeurIPS 2022 coorganisés par des membres du corps professoral de Vector

La symbiose de l’apprentissage profond et des équations différentielles II – Animesh Garg et David Duvenaud

Apprendre des séries temporelles pour la santé – Anna Goldenberg et Marzyeh Ghassemi

Robustesse dans la modélisation des séquences – Marzyeh Ghassemi

Deuxième atelier sur le traitement efficace du langage naturel et de la parole (ENLSP-II) : L’avenir des modèles pré-entraînés – Pascal Poupart

IA pour la conception accélérée des matériaux (AI4Mat) – Alán Aspuru-Guzik

À lire aussi :

2026
Réflexions
Recherche
Recherche 2026

La nouvelle cartographie de l’invisible

Les femmes écrivent sur un tableau blanc. Il y a un homme à sa gauche qui regarde le tableau.
2025
Recherche
Recherche 2025

Les chercheurs en vecteurs font avancer les frontières de l’IA avec 80 articles au NeurIPS 2025

2025
Apprentissage automatique
Recherche
Recherche 2025

Quand l’IA intelligente devient trop intelligente : Principaux enseignements de l’atelier 2025 sur la sécurité et la vie privée en apprentissage automatique de Vector