Les chercheurs de Vector remportent les plus grands honneurs à NeurIPS 2022
28 novembre 2022
28 novembre 2022
Par Ian Gormely
Deux articles de Vector ont été récompensés lors de la conférence NeurIPS 2022. L'article "Photorealistic Text-to-Image Diffusion Models with Deep Language Understanding", co-écrit par David Fleet, membre de la faculté Vector, a reçu le prix Outstanding Paper Award. Entre-temps, "ImageNet Classification with Deep Convolutional Neural Networks," (Classification d'ImageNet avec des réseaux neuronaux convolutionnels profonds) un article de 2012 coécrit par Geoffrey Hinton, conseiller scientifique en chef de Vector, a remporté le prix Test of Time. Cinq autres articles coécrits par des chercheurs de Vector ont été "soulignés par la conférence pour leur grande qualité".
Au total, 47 articles ont été acceptés pour la conférence de cette année par le corps enseignant, les affiliés et les postdocs de Vector, et huit autres articles ont été acceptés pour cinq ateliers différents.
L'article lauréat du Outstanding Paper Award de Fleet présente un modèle de diffusion texte-image qui permet d'obtenir un degré de photoréalisme modèle de diffusion texte-image qui produit un degré "sans précédent" de photoréalisme et un niveau profond de compréhension de la langue. L'article désormais classique de Hinton a choqué la communauté de la vision par ordinateur en réduisant de près de moitié le taux d'erreur suivant. Il s'agit d'une avancée majeure dans le domaine de la reconnaissance d'images, dont l'influence est encore perceptible aujourd'hui.
Collectivement, les articles acceptés et co-rédigés par les chercheurs de Vector montrent l'étendue du travail effectué dans notre communauté de recherche. Parmi les articles acceptés figurent cinq articles cosignés par Nicholas Papernot, membre de la faculté Vector, et un nouvel article distinct cosigné par Hinton et Fleet, intitulé "A Unified Sequence Interface for Vision Tasks", qui montre comment un ensemble diversifié de tâches de vision par ordinateur peut être unifié s'il est formulé en termes d'interface pixel-séquence partagée.
Sont également acceptés deux documents qui traitent des modèles de base, de grands modèles à usage général entraînés sur de vastes données à grande échelle, puis spécialisés pour des tâches spécifiques. Vector a récemment a récemment identifié ce domaine d'étude auquel nous pouvons appliquer notre expérience et notre expertise pour aider à démocratiser ces technologies. Deux autres articles portent sur des modèles d'IA auxquels on a appris à jouer à des jeux de texte. jeux vidéo textuels ainsi qu'à Minecraftrespectivement.
Vous trouverez ci-dessous les résumés et les sommaires simplifiés de nombreux articles et ateliers acceptés par les membres de la faculté Vecteur.
Vous pouvez en savoir plus sur le travail de Vector lors des conférences des années précédentes ici (2021), ici (2020), ici (2019)et ici (2018).
Exploitation adaptative des d-séparateurs avec les bandits causaux
Blair Bilodeau, Linbo Wang, Daniel M. Roy
Les problèmes de bandits à bras multiples fournissent un cadre permettant d'identifier l'intervention optimale sur une séquence d'expériences répétées. Sans hypothèses supplémentaires, la performance optimale minimax (mesurée par le regret cumulatif) est bien comprise. Avec l'accès à des variables observées supplémentaires qui séparent d l'intervention du résultat (c'est-à-dire qu'elles sont un d-séparateur), il est prouvé que les algorithmes récents de "bandit causal" ont moins de regrets. Toutefois, dans la pratique, il est souhaitable de ne pas se préoccuper de savoir si les variables observées sont un d-séparateur. Idéalement, un algorithme devrait être adaptatif, c'est-à-dire qu'il devrait être aussi performant qu'un algorithme ayant une connaissance oracle de la présence ou de l'absence d'un d-séparateur. Dans ce travail, nous formalisons et étudions cette notion d'adaptabilité, et fournissons un nouvel algorithme qui atteint simultanément (a) un regret optimal lorsqu'un d-séparateur est observé, améliorant les algorithmes minimax classiques, et (b) un regret significativement plus faible que les récents algorithmes de bandits causaux lorsque les variables observées ne sont pas un d-séparateur. De manière cruciale, notre algorithme ne nécessite pas d'oracle pour savoir si un d-séparateur est observé. Nous généralisons également cette adaptabilité à d'autres conditions, telles que le critère de la porte d'entrée.
Optimisation proximale amortie
Juhan Bae, Paul Vicol, Jeff Z. HaoChen, Roger Grosse
De nombreux algorithmes d'optimisation utilisés dans l'apprentissage automatique peuvent être considérés comme des approximations d'un objectif de point proximal qui échange la perte sur le lot actuel d'exemples d'apprentissage, le montant par lequel il modifie les prédictions sur d'autres exemples, et la distance déplacée dans l'espace des paramètres. Nous présentons un moyen de méta-apprendre directement des optimiseurs qui tentent de minimiser cet objectif proximal à chaque étape. Les optimiseurs appris sont compétitifs par rapport aux méthodes d'optimisation de second ordre existantes pour les réseaux neuronaux, mais ils sont plus simples à mettre en œuvre.
BigBio : Un cadre pour le traitement du langage naturel biomédical centré sur les données
Jason Alan Fries, Leon Weber, Natasha Seelam, Gabriel Altay, Debajyoti Datta, Samuele Garda, Myungsun Kang, Ruisi Su, Wojciech Kusa, Samuel Cahyawijaya, Fabio Barth, Simon Ott, Matthias Samwald, Stephen Bach, Stella Biderman, Mario Sänger, Bo Wang, Alison Callahan, Daniel León Periñán, Théo Gigant, Patrick Haller, Jenny Chim, Jose David Posada, John Michael Giorgi, Karthik Rangasai Sivaraman, Marc Pàmies, Marianna Nezhurina, Robert Martin, Michael Cullan, Moritz Freidank, Nathan Dahlberg, Shubhanshu Mishra, Shamik Bose, Nicholas Michio Broad, Yanis Labrak, Shlok S Deshmukh, Sid Kiblawi, Ayush Singh, Minh Chien Vu, Trishala Neeraj, Jonas Golde, Albert Villanova del Moral, Benjamin Beilharz
La formation et l'évaluation de modèles de langage nécessitent de plus en plus la construction de méta-datasets, c'est-à-dire de collections diverses de données conservées avec une provenance claire. L'incitation au langage naturel a récemment permis d'améliorer la généralisation à partir de zéro en transformant des ensembles de données supervisés existants en une diversité de nouvelles tâches de préformation, ce qui met en évidence les avantages de la curation de méta-données. Bien que ces approches centrées sur les données aient fait leurs preuves dans le domaine général du texte, leur application à la modélisation du langage biomédical reste un défi, car les ensembles de données biomédicales étiquetées sont largement sous-représentés dans les centres de données les plus populaires. Pour relever ce défi, nous présentons BigBIO, une bibliothèque communautaire de plus de 126 ensembles de données NLP biomédicales, couvrant actuellement 12 catégories de tâches et plus de 10 langues. BigBIO facilite la curation reproductible des méta-datasets via un accès programmatique aux datasets et à leurs métadonnées, et est compatible avec les plateformes actuelles d'ingénierie d'invite et d'évaluation de bout en bout des modèles de langage (few/zero shot). Nous discutons de notre processus d'harmonisation des schémas de tâches, d'audit des données et de directives de contribution, et nous décrivons deux cas d'utilisation illustratifs : l'évaluation à zéro coup des invites biomédicales et l'apprentissage multi-tâches à grande échelle. BigBIO est un effort communautaire continu et est disponible à l'adresse suivante : https URL.
Breaking Bad : Un ensemble de données pour les fractures géométriques et le réassemblage
Silvia Sellán, Yun-Chun Chen, Ziyi Wu, Animesh Garg, Alec Jacobson
Nous présentons Breaking Bad, un ensemble de données à grande échelle d'objets fracturés. Notre ensemble de données comprend plus d'un million d'objets fracturés simulés à partir de dix mille modèles de base. La simulation des fractures est alimentée par un algorithme récent basé sur la physique qui génère efficacement une variété de modes de fracture d'un objet. Les ensembles de données d'assemblage de formes existants décomposent les objets en parties sémantiquement significatives, modélisant ainsi efficacement le processus de construction. En revanche, Breaking Bad modélise le processus de destruction, c'est-à-dire la manière dont un objet géométrique se brise naturellement en fragments. Notre jeu de données sert de référence pour l'étude du réassemblage d'objets fracturés et présente de nouveaux défis pour la compréhension des formes géométriques. Nous analysons notre jeu de données à l'aide de plusieurs mesures géométriques et comparons trois méthodes d'apprentissage profond d'assemblage de formes de pointe dans différents contextes. Des résultats expérimentaux détaillés démontrent la difficulté de notre jeu de données, appelant à de futures recherches sur la conception de modèles spécifiquement pour la tâche d'assemblage de formes géométriques. Nous hébergeons notre jeu de données à cette URL https.
Distillation des ensembles de données à l'aide de la régression neuronale des caractéristiques
Yongchao Zhou, Ehsan Nezhadarya, Jimmy Ba
Obtenir les bonnes données est l'une des parties les plus critiques et les plus difficiles de la construction de puissants systèmes d'apprentissage profond. Cependant, comment pouvons-nous obtenir un ensemble de données de meilleure qualité afin que le modèle puisse apprendre plus efficacement ? Une solution potentielle est la distillation des ensembles de données, qui vise à apprendre un petit ensemble de données synthétiques qui préserve la plupart des informations de l'ensemble de données original. Nous avons proposé un algorithme d'apprentissage efficace, "FRePo", qui peut distiller un ensemble de données synthétiques compact et informatif à partir d'un grand ensemble de données bruitées. L'ensemble de données distillé permet au modèle d'atteindre des performances comparables à celles du modèle formé sur l'ensemble de données original en une fraction du temps.
Notre article formule la distillation des ensembles de données comme un problème de méta-apprentissage à deux niveaux. La boucle extérieure optimise le méta-ensemble de données et la boucle intérieure entraîne un modèle sur les données distillées. L'un des principaux défis de cette formulation est le calcul du méta-gradient, qui peut être coûteux en termes de temps et de mémoire. Nous relevons ce défi en approximant efficacement l'optimisation de la boucle interne, ce qui permet d'obtenir des performances de pointe avec une diminution de 100 fois du temps d'apprentissage et une réduction de 10 fois de la mémoire du GPU par rapport aux travaux antérieurs. Cette amélioration de l'efficacité de la formation ouvre la voie à une variété d'utilisations pour les données distillées, allant de l'apprentissage continu à la recherche d'architectures neuronales. En outre, les "données synthétiques", au sens large de données artificielles produites par des modèles génératifs, peuvent aider les chercheurs à comprendre comment une machine d'apprentissage autrement opaque "voit" le monde et potentiellement répondre aux préoccupations communes de l'apprentissage automatique concernant la confidentialité des données d'entraînement.
Inférence de données pour les modèles auto-supervisés
Adam Dziedzic, Haonan Duan, Muhammad Ahmad Kaleem, Nikita Dhawan, Jonas Guan, Yannis Cattan, Franziska Boenisch, Nicolas Papernot
Dans les attaques par extraction de modèle, les adversaires peuvent voler un modèle d'apprentissage automatique exposé via une API publique en l'interrogeant de manière répétée et en ajustant leur propre modèle sur la base des résultats obtenus. Nous proposons une nouvelle défense contre le vol d'encodeurs d'apprentissage auto-supervisé (SSL). Contrairement à l'extraction de modèle traditionnelle sur des modèles supervisés qui renvoient des étiquettes ou des scores de faible dimension, les encodeurs SSL produisent des représentations qui sont d'une dimensionnalité considérablement plus élevée que les sorties des modèles supervisés. Récemment, les fournisseurs de ML-as-a-Service ont commencé à proposer des encodeurs SSL formés via des API d'inférence, qui transforment les données de l'utilisateur en représentations utiles moyennant paiement. Toutefois, le coût élevé de la formation de ces modèles et leur exposition aux API font de l'extraction en boîte noire une menace réaliste pour la sécurité. Nous présentons une nouvelle défense d'inférence d'ensemble de données, qui utilise les points de données privés de l'encodeur victime comme une signature pour attribuer sa propriété en cas de vol. L'intuition est que les représentations de sortie du codeur diffèrent entre les données d'entraînement de la victime et les données de test de la victime si le codeur est volé à la victime, mais pas si le codeur est entraîné indépendamment. Dans le cadre de notre évaluation, nous proposons également de mesurer la fidélité des codeurs volés et de quantifier l'efficacité de la détection du vol en exploitant l'information mutuelle et les mesures de distance.
EPIC-KITCHENS VISOR Benchmark : Segmentations de vidéos et relations entre objets
Ahmad Darkhalil, Dandan Shan, Bin Zhu, Jian Ma, Amlan Kar, Richard Higgins, Sanja Fidler, David Fouhey, Dima Damen
Avec nos partenaires des universités de Bristol et du Michigan, nous présentons VISOR, un nouvel ensemble de données d'annotations de pixels et une suite de référence pour la segmentation des mains et des objets actifs dans les vidéos égocentriques. VISOR annote les vidéos d'EPIC-KITCHENS, qui présentent un nouvel ensemble de défis que l'on ne retrouve pas dans les ensembles de données de segmentation vidéo actuels. Plus précisément, nous devons garantir la cohérence à court et à long terme des annotations au niveau des pixels lorsque les objets subissent des interactions transformatrices, par exemple lorsqu'un oignon est épluché, coupé en dés et cuit - où nous cherchons à obtenir des annotations précises au niveau des pixels de l'épluchure, des morceaux d'oignon, de la planche à découper, du couteau, de la poêle, ainsi que des mains qui agissent. VISOR introduit un pipeline d'annotation, alimenté par la suite d'annotation de Toronto (https://aidemos.cs.toronto.edu/toras/landing), afin de garantir l'évolutivité et la qualité. Au total, nous publions 272 000 masques sémantiques manuels de 257 classes d'objets, 9,9 millions de masques denses interpolés, 67 000 relations main-objet, couvrant 36 heures de 179 vidéos non découpées. Parallèlement aux annotations, nous présentons trois défis en matière de segmentation des objets vidéo, de compréhension des interactions et de raisonnement à long terme.
Limites de généralisation pour la descente de gradient stochastique via des ε-couverts localisés
Sejun Park, Umut Simsekli, Murat Erdogdu
Dans cet article, nous proposons une nouvelle technique de recouvrement localisée pour les trajectoires de SGD. Cette localisation fournit une complexité spécifique à l'algorithme, mesurée par le nombre de recouvrement, qui peut avoir une cardinalité indépendante de la dimension, contrairement aux arguments de recouvrement uniformes standard qui entraînent une dépendance exponentielle de la dimension. Sur la base de cette construction localisée, nous montrons que si la fonction objective est une perturbation finie d'une fonction fortement convexe et lisse par morceaux avec P morceaux, c'est-à-dire non convexe et non lisse en général, l'erreur de généralisation peut être limitée par O((lognlog(nP))/n‾‾‾‾‾‾‾‾‾‾‾‾‾‾‾√), où n est le nombre d'échantillons de données. En particulier, ce taux est indépendant de la dimension et ne nécessite pas d'arrêt précoce ni de taille de pas décroissante. Enfin, nous utilisons ces résultats dans divers contextes et dérivons des limites de généralisation pour les modèles linéaires multi-index, les machines à vecteurs de support multi-classes et le regroupement K-means pour les configurations à étiquettes dures et souples, en améliorant les taux connus de l'état de l'art.
GET3D : Un modèle génératif de formes 3D texturées de haute qualité appris à partir d'images*
Jun Gao, Tianchang Shen, Zian Wang, Wenzheng Chen, Kangxue Yin, Daiqing Li, Or Litany, Zan Gojcic, Sanja FidlerNVIDIA GET3D est un nouveau modèle d'IA qui s'entraîne en utilisant uniquement des images 2D pour générer un nombre pratiquement illimité de formes 3D avec des textures haute fidélité et des détails géométriques complexes. Ces objets 3D sont créés dans le même format que celui utilisé par les logiciels graphiques les plus répandus, ce qui permet aux utilisateurs d'importer immédiatement leurs formes dans les moteurs de rendu 3D et les moteurs de jeu pour les modifier. Les objets générés peuvent être utilisés dans des représentations 3D de bâtiments, d'espaces extérieurs ou de villes entières, conçues pour des secteurs tels que les jeux, la robotique, l'architecture et les médias sociaux. Pour en savoir plus, consultez le blog de NVIDIA et vidéo GET3D.
*Cet article a été réalisé par NVIDIA avec la participation des chercheurs de Vector.
Asymptotique de l'apprentissage en haute dimension : Comment un pas de gradient améliore la représentation Jimmy Ba, Murat Erdogdu, Taiji Suzuki, Zhichao Wang, Denny Wu, Greg Yang
Nous étudions la première étape de descente de gradient sur les paramètres de la première couche W dans un réseau neuronal à deux couches : f(x)=1N√a⊤σ(W⊤x), où W∈ℝd×N,a∈ℝN sont initialisés de façon aléatoire, et l'objectif d'apprentissage est la perte empirique MSE : 1n∑ni=1(f(xi)-yi)2. Dans la limite asymptotique proportionnelle où n,d,N→∞ au même taux, et dans un cadre élève-enseignant idéalisé, nous montrons que la première mise à jour du gradient contient un "pic" de rang 1, qui résulte en un alignement entre les poids de la première couche et la composante linéaire du modèle de l'enseignant f∗. Pour caractériser l'impact de cet alignement, nous calculons le risque de prédiction de la régression ridge sur le noyau conjugué après un pas de gradient sur W avec un taux d'apprentissage η, lorsque f∗ est un modèle à un seul indice. Nous considérons deux échelles du taux d'apprentissage du premier pas η. Pour un petit η, nous établissons une propriété d'équivalence gaussienne pour la carte des caractéristiques apprises, et nous prouvons que le noyau appris améliore le modèle initial de caractéristiques aléatoires, mais ne peut pas vaincre le meilleur modèle linéaire sur l'entrée. En revanche, pour des η suffisamment grands, nous prouvons que pour certaines f∗, le même estimateur de crêtes sur les caractéristiques entraînées peut aller au-delà de ce "régime linéaire" et surpasser une large gamme de caractéristiques aléatoires et de noyaux invariants par rapport à la rotation. Nos résultats démontrent que même un seul pas de gradient peut conduire à un avantage considérable par rapport aux caractéristiques aléatoires, et soulignent le rôle de l'échelonnement du taux d'apprentissage dans la phase initiale de l'apprentissage.
Si les fonctions d'influence sont la réponse, alors quelle est la question ?
Juhan Bae, Nathan Ng, Alston Lo, Marzyeh Ghassemi, Roger Grosse
Les fonctions d'influence peuvent estimer efficacement ce qui arrive à un modèle lorsqu'un point de données particulier est retiré de l'ensemble d'apprentissage. Cependant, des travaux récents ont montré que ces estimations sont assez médiocres lorsqu'elles sont appliquées aux réseaux neuronaux. Dans ce travail, nous décomposons cette divergence en 5 sources d'erreur et étudions leurs contributions sur différentes architectures et ensembles de données. Nous constatons que les fonctions d'influence correspondent mal au recyclage réel sans point de données particulier, mais qu'elles constituent de bonnes approximations pour un objet différent que nous appelons la fonction de réponse proximale de Bregman (PBRF). La PBRF peut être utilisée pour répondre à de nombreuses questions originales motivant les fonctions d'influence et suggère que les algorithmes actuels d'estimation des fonctions d'influence donnent des résultats plus informatifs que ne le suggèrent les analyses d'erreur antérieures.
Implications de l'indétermination du modèle pour l'explication des décisions automatisées
Marc-Etienne Brunet, Ashton Anderson, Richard Zemel
L'explication des modèles prédictifs a fait l'objet d'un effort de recherche important, notamment par le biais de méthodes d'explicitation et de recours post-hoc. La plupart des techniques proposées s'appuient sur un modèle prédictif unique et fixe. Cependant, il est bien connu qu'étant donné un ensemble de données et une tâche prédictive, il peut y avoir une multiplicité de modèles qui résolvent le problème (presque) aussi bien. Dans ce travail, nous étudions les implications de ce type d'indétermination du modèle sur les explications post hoc des modèles prédictifs. Nous montrons comment cela peut conduire à une multiplicité explicative et nous explorons les facteurs sous-jacents. Nous montrons que la multiplicité prédictive et le concept connexe d'incertitude épistémique ne sont pas des indicateurs fiables de la multiplicité explicative. Nous illustrons en outre comment un ensemble de modèles présentant des performances globales très similaires sur un ensemble de données de test peut présenter de grandes variations dans leurs explications locales, c'est-à-dire pour une entrée spécifique. Nous explorons ces effets pour les explications basées sur la valeur de Shapley sur trois ensembles de données d'évaluation des risques. Nos résultats indiquent que l'indétermination du modèle peut avoir un impact substantiel sur les explications dans la pratique, conduisant à des explications incohérentes, voire contradictoires.
Dans la confidentialité différentielle, il y a la vérité : sur la fuite de l'histogramme du vote dans l'apprentissage privé d'ensemble
Jiaqi Wang, Roei Schuster, I Shumailov, David Lie, Nicolas Papernot
Cet article montre que le mécanisme différentiellement privé de PATE, conçu pour préserver la confidentialité des données d'apprentissage, entraîne en fait la fuite d'éléments de calcul internes sensibles. Cela peut être exploité par des adversaires pour déduire des informations sensibles, telles que l'appartenance d'une instance d'entrée à un groupe minoritaire. Ce résultat surprenant met en évidence le soin qu'il convient d'apporter à l'utilisation et au raisonnement sur la confidentialité différentielle afin d'atténuer les fuites d'informations.
Génération itérative de graphes de scènes
Siddhesh Khandelwal, Leonid Sigal
Les graphes de scène permettent une compréhension globale des objets et de leurs interactions au sein d'une scène. Ces graphes sont caractérisés par des nœuds représentant les objets, chacun avec une localisation spatiale et une étiquette de classe, et les bords capturant les relations entre les paires d'objets. La génération efficace de ces graphes, à partir d'images ou de vidéos, est devenue un problème central dans le domaine de la vision par ordinateur. En raison de l'espace de solution extrêmement vaste, les approches existantes de la génération de graphes de scène reposent sur certaines hypothèses simplificatrices. L'une de ces simplifications, par exemple, consiste à supposer que les relations entre les paires d'objets n'ont aucune incidence sur leur type/emplacement spatial, ce qui est faux puisque la relation "porter" suggère fortement que l'un des objets est une "personne". Dans ce travail, nous proposons un nouveau cadre pour la génération de graphes de scène qui tient compte de cette limitation et qui permet donc d'estimer et de raisonner conjointement sur les paires d'objets et les relations. Nous y parvenons grâce à une procédure itérative dans laquelle nous générons d'abord une estimation initiale du graphe de la scène, puis nous affinons continuellement les objets et les relations détectés en tirant parti des interactions entre eux. Nous constatons que la procédure d'affinage itératif que nous proposons est plus performante que les approches existantes pour cette tâche. En outre, dans la pratique, certaines relations ont tendance à se produire beaucoup moins fréquemment, ce qui entraîne des biais lors de l'apprentissage. Nous étudions ce phénomène et proposons une approche qui nous permet d'améliorer efficacement les performances sur les relations sous-représentées pour une diminution mineure des performances sur les relations dominantes.
Apprendre à suivre des instructions dans des jeux textuels
Mathieu Tuli, Andrew Li, Pashootan Vaezipoor, Toryn Klassen, Scott Sanner, Sheila McIlraith
Les jeux basés sur du texte sont des environnements virtuels décrits par du texte et manipulés à l'aide de commandes textuelles telles que "ramasser l'épée" ou "déverrouiller la porte". Ces jeux nécessitent une compréhension du langage et une mémoire à long terme, ce qui représente un défi important pour les systèmes d'intelligence artificielle actuels. Nous observons que les méthodes d'apprentissage par renforcement les plus récentes pour les jeux basés sur du texte sont largement incapables de suivre des instructions transmises sous forme de texte en langage naturel, ce qui se traduit par un faible taux d'achèvement des tâches. Pour y remédier, nous traduisons ces instructions dans un langage formel (logique) qui permet la décomposition des tâches et le suivi des progrès. Des expériences sur plus de 500 jeux du domaine populaire TextWorld démontrent les avantages de notre approche pour suivre des instructions complexes. Au-delà des jeux textuels, nos résultats sont pertinents pour le suivi d'instructions en langage naturel dans divers contextes où un système d'intelligence artificielle doit décider comment agir au fil du temps.
LION : Modèles de diffusion de points latents pour la génération de formes en 3D*
xiaohuizeng, Arash Vahdat, Francis Williams, Zan Gojcic, Or Litany, Sanja Fidler, Karsten Kreis
Le Latent Point Diffusion Model (LION) de NVIDIA est un modèle génératif de formes 3D conçu pour les artistes et les créateurs de contenu. LION apprend directement à partir des données géométriques 3D et exploite des modèles de diffusion de débruitage très expressifs pour son cadre de génération hiérarchique. Cela permet à LION de s'adapter à des ensembles de données de formes 3D divers et complexes. Bien qu'il utilise une représentation 3D sous forme de nuage de points, LION peut également produire des maillages utiles sur le plan pratique, idéaux pour le traitement en aval avec les logiciels graphiques courants. LION offre non seulement une qualité de génération de pointe, mais permet également des applications telles que la synthèse 3D guidée par voxel, le débruitage de formes multimodales, la génération de texte en forme, la synthèse guidée par l'image, et bien plus encore, faisant de LION un outil flexible pour les artistes numériques. Voir la page du projet pour en savoir plus.
*Cet article a été réalisé par NVIDIA avec la participation des chercheurs de Vector.
Fonctions d'activation logiques : Équivalents de l'espace logit des opérateurs booléens probabilistes
Scott C. Lowe, Robert Earle, Jason d'Eon, Thomas Trappenberg, Sageev Oore
Le choix des fonctions d'activation et leur motivation est une question de longue date au sein de la communauté des réseaux neuronaux. Un neurone biologique individuel est beaucoup plus complexe qu'un neurone artificiel utilisé dans l'apprentissage automatique, et nous nous sommes demandé si nous pouvions incorporer un semblant de cette fonctionnalité dans les neurones artificiels, tout en utilisant des abstractions simples qui peuvent être construites à l'échelle. Les représentations neuronales au sein des réseaux neuronaux artificiels sont généralement comprises comme des "logits", représentant la probabilité qu'une caractéristique soit présente dans le stimulus sous la forme d'un score log-odds. Par exemple, un neurone individuel du réseau peut indiquer la probabilité de présence de plumes, d'un bec ou d'une poignée de porte à un endroit précis de l'image. Ces valeurs sont utilisées par les composants ultérieurs du réseau pour déterminer si l'image représente un canard, par exemple. En considérant les neurones individuels comme des logits, nous avons dérivé de nouvelles fonctions d'activation capables de combiner plusieurs entrées, d'une manière analogue à l'arbre dendritique des neurones biologiques. En particulier, nous avons dérivé des opérateurs de l'espace logit équivalents aux portes logiques booléennes probabilistes ET, OU et XNOR pour les probabilités indépendantes. Nous avons déployé ces nouvelles fonctions d'activation, à la fois isolément et conjointement, pour démontrer leur efficacité dans une variété de tâches, notamment la classification d'images, l'apprentissage par transfert, le raisonnement abstrait et l'apprentissage compositionnel sans prise de vue.
MoCoDA : Augmentation des données contrefactuelles basée sur un modèle
Silviu Pitis, Elliot Creager, Ajay Mandlekar, Animesh Garg
Le nombre d'états dans un processus dynamique est exponentiel dans le nombre d'objets, ce qui rend l'apprentissage par renforcement (RL) difficile dans les domaines complexes et multi-objets. Pour que les agents puissent s'adapter au monde réel, ils devront réagir et raisonner sur des combinaisons d'objets inédites. Nous soutenons que la capacité à reconnaître et à utiliser la factorisation locale dans la dynamique des transitions est un élément clé pour libérer la puissance du raisonnement multi-objets. À cette fin, nous montrons que (1) une structure locale connue dans les transitions de l'environnement est suffisante pour réduire de façon exponentielle la complexité de l'échantillon pour l'apprentissage d'un modèle dynamique, et (2) un modèle dynamique localement factorisé se généralise de façon prouvée en dehors de la distribution pour des états et des actions non vus. La connaissance de la structure locale nous permet également de prédire à quels états et actions inédits ce modèle dynamique se généralisera. Nous proposons d'exploiter ces observations dans un nouveau cadre d'augmentation des données contrefactuelles basé sur un modèle (MoCoDA). MoCoDA applique un modèle dynamique appris et factorisé localement à une distribution augmentée d'états et d'actions afin de générer des transitions contrefactuelles pour RL. MoCoDA travaille avec un ensemble plus large de structures locales que les travaux antérieurs et permet un contrôle direct sur la distribution d'entraînement augmentée. Nous montrons que MoCoDA permet aux agents RL d'apprendre des politiques qui se généralisent à des états et des actions inédits. Nous utilisons MoCoDA pour former un agent RL hors ligne afin de résoudre une tâche de manipulation robotique hors distribution pour laquelle les algorithmes RL hors ligne standard échouent.
L'EDD de covariance neuronale : réseaux de profondeur et de largeur infinies façonnés à l'initialisation
Mufan Bill Li, Mihai Nica, Daniel M. Roy
Les sorties logit d'un réseau neuronal feedforward à l'initialisation sont conditionnellement gaussiennes, étant donné une matrice de covariance aléatoire définie par l'avant-dernière couche. Dans ce travail, nous étudions la distribution de cette matrice aléatoire. Des travaux récents ont montré qu'il est nécessaire de modeler la fonction d'activation à mesure que la profondeur du réseau augmente pour que cette matrice de covariance ne soit pas dégénérée. Cependant, la compréhension actuelle de cette méthode de mise en forme, de type largeur infinie, n'est pas satisfaisante pour une grande profondeur : les analyses de largeur infinie ignorent les fluctuations microscopiques d'une couche à l'autre, mais ces fluctuations s'accumulent sur de nombreuses couches. Pour remédier à cette lacune, nous étudions la matrice de covariance aléatoire dans la limite de la profondeur et de la largeur infinies. Nous identifions l'échelle précise de la fonction d'activation nécessaire pour parvenir à une limite non triviale et montrons que la matrice de covariance aléatoire est régie par une équation différentielle stochastique (EDS) que nous appelons l'EDS de covariance neuronale. À l'aide de simulations, nous montrons que l'EDS correspond étroitement à la distribution de la matrice de covariance aléatoire des réseaux finis. En outre, nous récupérons une condition de type "si et seulement si" pour l'explosion et la disparition des normes des réseaux de grande taille sur la base de la fonction d'activation.
Itération de la valeur du fractionnement de l'opérateur
Amin Rakhsha, Andrew Wang, Mohammad Ghavamzadeh, Amir-massoud Farahmand
Considérons un problème de planification pour un MDP actualisé. Supposons que nous ayons accès à un modèle approximatif dont l'utilisation est peu coûteuse, en plus de la dynamique réelle dont l'accès est coûteux. Par exemple, le modèle peut être un simulateur de faible fidélité, mais rapide, et la dynamique réelle peut être un simulateur de haute fidélité, mais lent. Ou dans le contexte de l'apprentissage par renforcement basé sur un modèle (MBRL), nous avons accès à un modèle appris, à partir duquel des échantillons peuvent être acquis à peu de frais, alors que nous ne pouvons acquérir que des échantillons coûteux à partir de la dynamique réelle inconnue du système réel. Pouvons-nous utiliser ce modèle approximatif pour accélérer le calcul de la fonction de valeur ? Cet article propose un algorithme appelé Operator Splitting Value Iteration (OS-VI) qui tire parti du modèle approximatif pour potentiellement accélérer la convergence de la séquence de la fonction de valeur vers la fonction de valeur par rapport à la dynamique réelle. OS-VI est capable d'utiliser le modèle approximatif sans introduire d'erreur dans la fonction de valeur calculée. Il atteint un taux de convergence beaucoup plus rapide lorsque le modèle est suffisamment précis, ce qui permet de réduire le nombre de requêtes sur la dynamique réelle. Il en résulte un meilleur coût de calcul dans les environnements simulés, et potentiellement une meilleure complexité d'échantillonnage dans les problèmes du monde réel.
Apprentissage et réfutation dans la confidentialité différentielle locale non interactive
Alexander Edmonds, Aleksandar Nikolov, Toniann Pitassi
Nous étudions deux tâches statistiques de base dans la confidentialité différentielle locale non interactive (LDP) : l'apprentissage et la réfutation. L'apprentissage consiste à trouver le concept qui correspond le mieux à une fonction cible inconnue (à partir d'échantillons étiquetés tirés d'une distribution), tandis que la réfutation consiste à faire la distinction entre les distributions de données qui sont bien corrélées avec un certain concept de la classe, et les distributions où les étiquettes sont aléatoires. Notre principal résultat est une caractérisation complète de la complexité d'échantillonnage de l'apprentissage PAC agnostique pour les protocoles LDP non interactifs. Nous montrons que la complexité d'échantillonnage optimale pour toute classe de concepts est capturée par la γ2~norm approximative d'une matrice naturelle associée à la classe. Combiné avec des travaux antérieurs [Edmonds, Nikolov et Ullman, 2019], cela donne une équivalence entre l'apprentissage et la réfutation dans le cadre agnostique.
Limites des défenses par prétraitement stochastique
Yue Gao, I Shumailov, Kassem Fawaz, Nicolas Papernot
La défense contre les exemples adverses reste un problème ouvert. On pense souvent que le caractère aléatoire de l'inférence augmente le coût de la recherche d'entrées adverses. Dans cet article, nous étudions les défenses stochastiques de prétraitement et découvrons leurs limites théoriques et pratiques. Nous expliquons pourquoi ils ne sont pas censés rendre vos modèles plus robustes aux exemples adverses et sont vulnérables même contre les attaques non stochastiques standard.
Optimalité et stabilité dans les jeux lisses non convexes
Guojun Zhang, Pascal Poupart, Yaoliang Yu
La convergence vers un point de selle pour les fonctions convexes-concaves est étudiée depuis des décennies, alors que ces dernières années ont vu un regain d'intérêt pour les jeux lisses non convexes (à somme nulle), motivé par leurs récentes applications à grande échelle. La définition des points optimaux locaux et les algorithmes permettant de converger vers ces points restent un défi de recherche intriguant. Un concept intéressant est connu sous le nom de point local minimax, qui est fortement corrélé avec l'algorithme largement connu de descente de gradient. Cet article vise à fournir une analyse complète des points minimax locaux, notamment leur relation avec d'autres concepts de solution et leurs conditions d'optimalité. Nous constatons que les points de selle locaux peuvent être considérés comme un type spécial de points minimax locaux, appelés points minimax uniformément locaux, sous de légères hypothèses de continuité. Dans les jeux quadratiques (non convexes), nous montrons que les points minimax locaux sont (dans un certain sens) équivalents aux points minimax globaux. Enfin, nous étudions la stabilité des algorithmes de gradient à proximité des points minimax locaux. Bien que les algorithmes de gradient puissent converger vers les points minimax locaux/globaux dans le cas non dégénéré, ils échouent souvent dans les cas généraux. Cela implique la nécessité de nouveaux algorithmes ou concepts au-delà des points de selle et des points minimax dans les jeux lisses non convexes.
Optimiser la collecte de données pour l'apprentissage automatique
Rafid Mahmood, James Lucas, Jose M. Alvarez, Sanja Fidler, Marc Law
Les systèmes modernes d'apprentissage profond nécessitent d'énormes ensembles de données pour atteindre des performances impressionnantes, mais il existe peu d'indications sur la quantité et le type de données à collecter. La surcollecte de données entraîne des coûts actuels inutiles, tandis que la sous-collecte peut entraîner des coûts futurs et retarder les flux de travail. Nous proposons un nouveau paradigme pour modéliser le flux de travail de collecte de données comme un problème formel de collecte optimale de données qui permet aux concepteurs de spécifier des objectifs de performance, des coûts de collecte, un horizon temporel et des pénalités en cas de non-respect des objectifs. En outre, cette formulation se généralise aux tâches nécessitant des sources de données multiples, telles que les données étiquetées et non étiquetées utilisées dans l'apprentissage semi-supervisé. Pour résoudre notre problème, nous développons la méthode Learn-Optimize-Collect (LOC), qui minimise les coûts de collecte futurs attendus. Enfin, nous comparons numériquement notre cadre à la base conventionnelle d'estimation des besoins en données par extrapolation à partir des lois d'échelle neuronales. Nous réduisons considérablement les risques de ne pas atteindre les objectifs de performance souhaités pour plusieurs tâches de classification, de segmentation et de détection, tout en maintenant de faibles coûts totaux de collecte.
Identification partielle des effets de traitement avec des modèles génératifs implicites
Vahid Balazadeh Meresht, Vasilis Syrgkanis, Rahul G Krishnan
Notre travail propose un nouvel algorithme pour limiter les effets causaux des interventions en utilisant des données d'observation. Ce problème est connu sous le nom d'identification partielle. Nous proposons une nouvelle méthode pour l'identification partielle des effets moyens du traitement (ATE) dans les graphes causaux généraux en utilisant des modèles génératifs profonds. Notre méthode permet de délimiter les effets dans des graphes comprenant des variables aléatoires continues et discrètes. La stratégie que nous adoptons utilise la dérivée moyenne uniforme du traitement (UATD), les dérivées partielles des fonctions de réponse, pour créer une approximation régulière de l'ATE. Nous prouvons que notre algorithme converge vers des limites étroites de l'ATE dans les modèles structurels causaux (SCM) linéaires. Pour les MSC non linéaires, nous montrons empiriquement que l'utilisation de l'UATD conduit à des bornes plus étroites et plus stables que les méthodes qui optimisent directement l'ATE.
Les réseaux d'équilibre indépendants du chemin peuvent mieux exploiter le calcul du temps d'essai
Cem Anil, Ashwini Pokle, Kaiqu Liang, Johannes Treutlein, Yuhuai Wu, Shaojie Bai, J. Zico Kolter, Roger Grosse
Nous étudions la capacité des réseaux neuronaux à utiliser des ressources informatiques supplémentaires pour obtenir de bons résultats sur des instances de problèmes plus difficiles que ceux sur lesquels ils ont été entraînés. Nous identifions une propriété de certains réseaux formés qui semble être en corrélation étroite avec leur performance de généralisation : l'indépendance du chemin, ou le degré auquel le passage avant du réseau converge vers le même point indépendamment de l'initialisation.
Modèles de diffusion photoréaliste du texte à l'image avec compréhension approfondie du langage Chitwan Saharia, William Chan, Saurabh Saxena, Lala Li, Jay Whang, Emily Denton, Seyed Kamyar Seyed Ghasemipour, Raphael Gontijo Lopes, Burcu Karagol Ayan, Tim Salimans, Jonathan Ho, David Fleet, Mohammad Norouzi
Nous présentons Imagen, un modèle de diffusion texte-image doté d'un degré de photoréalisme sans précédent et d'un niveau élevé de compréhension du langage. Imagen s'appuie sur la puissance des grands modèles de langage transformateurs pour la compréhension du texte et s'appuie sur la force des modèles de diffusion pour la génération d'images haute fidélité. Notre principale découverte est que les grands modèles de langage génériques (par exemple T5), pré-entraînés sur des corpus de texte uniquement, sont étonnamment efficaces pour encoder du texte pour la synthèse d'images : l'augmentation de la taille du modèle de langage dans Imagen augmente à la fois la fidélité de l'échantillon et l'alignement image-texte beaucoup plus que l'augmentation de la taille du modèle de diffusion d'image. Imagen atteint un nouveau score FID de pointe de 7,27 sur l'ensemble de données COCO, sans jamais s'entraîner sur COCO, et les évaluateurs humains trouvent que les échantillons Imagen sont au même niveau que les données COCO elles-mêmes en ce qui concerne l'alignement image-texte. Pour évaluer les modèles texte-image de manière plus approfondie, nous présentons DrawBench, un benchmark complet et difficile pour les modèles texte-image. Avec DrawBench, nous comparons Imagen avec des méthodes récentes telles que VQ-GAN+CLIP, Latent Diffusion Models et DALL-E 2, et nous constatons que les évaluateurs humains préfèrent Imagen aux autres modèles dans les comparaisons côte à côte, à la fois en termes de qualité de l'échantillon et d'alignement image-texte. Voir https://imagen.research.google/ pour une vue d'ensemble des résultats.
L'effet oignon de la vie privée : La mémorisation est relative
Nicholas Carlini, Matthew Jagielski, Chiyuan Zhang, Nicolas Papernot, Andreas Terzis, Florian Tramer
Il a été démontré que les modèles d'apprentissage automatique formés sur des ensembles de données privés laissent filtrer leurs données privées. Alors que des travaux récents ont montré que le point de données moyen est rarement divulgué, les échantillons aberrants sont souvent sujets à la mémorisation et, par conséquent, à la fuite de données privées. Nous démontrons et analysons un effet oignon de la mémorisation : la suppression de la "couche" de points aberrants qui sont les plus vulnérables à une atteinte à la vie privée expose une nouvelle couche de points précédemment sûrs à la même attaque. Nous réalisons plusieurs expériences pour étudier cet effet et comprendre pourquoi il se produit. L'existence de cet effet a plusieurs conséquences. Par exemple, il suggère que les propositions visant à se défendre contre la mémorisation sans formation avec des garanties rigoureuses de confidentialité ont peu de chances d'être efficaces. En outre, il suggère que les technologies d'amélioration de la vie privée telles que le désapprentissage automatique pourraient en fait nuire à la vie privée d'autres utilisateurs.
Apprentissage proximal avec conscience de l'apprentissage par opposition
Stephen Zhao, Chris Lu, Roger Grosse, Jakob Foerster
Learning With Opponent-Learning Awareness (LOLA) (Foerster et al. [2018a]) est un algorithme d'apprentissage par renforcement multi-agents qui apprend généralement la coopération basée sur la réciprocité dans des environnements partiellement compétitifs. Cependant, LOLA échoue souvent à apprendre un tel comportement sur des espaces politiques plus complexes paramétrés par des réseaux neuronaux, en partie parce que la règle de mise à jour est sensible à la paramétrisation de la politique. Ce problème est particulièrement prononcé dans le cadre de la modélisation de l'adversaire, où la politique de l'adversaire est inconnue et doit être déduite des observations ; dans ce cas, LOLA est mal spécifié car des politiques de l'adversaire équivalentes sur le plan comportemental peuvent donner lieu à des mises à jour non équivalentes. Pour remédier à cette lacune, nous réinterprétons LOLA comme une approximation d'un opérateur proximal, puis nous dérivons un nouvel algorithme, LOLA proximal (POLA), qui utilise directement la formulation proximale. Contrairement à LOLA, les mises à jour de POLA sont invariantes en termes de paramétrage, en ce sens que lorsque l'objectif proximal a un optimum unique, des politiques équivalentes sur le plan comportemental donnent lieu à des mises à jour équivalentes sur le plan comportemental. Nous présentons ensuite des approximations pratiques de la mise à jour POLA idéale, que nous évaluons dans plusieurs environnements partiellement concurrentiels avec approximation de fonction et modélisation de l'adversaire. Nous démontrons empiriquement que POLA permet d'obtenir une coopération basée sur la réciprocité de manière plus fiable que LOLA.
Reconsidérer les ensembles profonds
Taiga Abe, Estefany Kelly Buchanan, Geoff Pleiss, Richard Zemel, John Cunningham
L'assemblage de réseaux neuronaux est un moyen efficace d'accroître la précision et peut souvent égaler les performances de modèles individuels plus importants. Cette observation pose une question naturelle : si l'on a le choix entre un ensemble profond et un réseau neuronal unique d'une précision similaire, l'un est-il préférable à l'autre ? Des travaux récents suggèrent que les ensembles profonds peuvent offrir des avantages distincts au-delà du pouvoir prédictif : à savoir, la quantification de l'incertitude et la robustesse au changement d'ensemble de données. Dans ce travail, nous démontrons les limites de ces avantages supposés, et nous montrons qu'un réseau neuronal unique (mais plus grand) peut reproduire ces qualités. Tout d'abord, nous montrons que la diversité de l'ensemble, quelle que soit la métrique utilisée, ne contribue pas de manière significative à la capacité d'un ensemble à détecter les données hors distribution, mais qu'elle est au contraire fortement corrélée à l'amélioration relative d'un seul modèle plus grand. Deuxièmement, nous montrons que les performances des ensembles en matière de détection des données hors distribution sont fortement déterminées par leurs performances en matière de distribution et, en ce sens, ne sont pas indicatives d'une "robustesse effective". Si les ensembles profonds constituent un moyen pratique d'améliorer le pouvoir prédictif, la quantification de l'incertitude et la robustesse, nos résultats montrent que ces améliorations peuvent être reproduites à l'aide d'un modèle unique (plus grand).
Réseaux de filtres multiplicatifs résiduels pour la reconstruction multi-échelle
Shayan Shekarforoush, David Lindell, Marcus Brubaker, David Fleet
Les réseaux de coordonnées tels que les réseaux de filtres multiplicatifs (MFN) et BACON offrent un certain contrôle sur le spectre de fréquences utilisé pour représenter des signaux continus tels que des images ou des volumes 3D. Cependant, ils ne sont pas facilement applicables aux problèmes pour lesquels une estimation grossière à fine est nécessaire, y compris divers problèmes inverses dans lesquels l'optimisation grossière à fine joue un rôle clé en évitant les mauvais minima locaux. Nous présentons une nouvelle architecture de réseau de coordonnées et un nouveau schéma d'apprentissage qui permettent une optimisation grossière à fine avec un contrôle fin sur le support de fréquence des reconstructions apprises. Cet objectif est atteint grâce à deux innovations clés. Tout d'abord, nous incorporons des connexions de saut afin que la structure à une échelle soit préservée lors de l'ajustement de la structure à une échelle plus fine. Deuxièmement, nous proposons un nouveau schéma d'initialisation pour contrôler le spectre de fréquence du modèle à chaque étape de l'optimisation. Nous démontrons comment ces modifications permettent une optimisation multi-échelle pour l'ajustement grossier à fin des images naturelles. Nous évaluons ensuite notre modèle sur des ensembles de données générés synthétiquement pour le problème de la reconstruction cryo-EM d'une seule particule. Nous obtenons des structures multi-échelles à haute résolution, à la hauteur de l'état de l'art.
SMPL : Environnements d'apprentissage de la fabrication industrielle simulée et du contrôle des processus
Mohan Zhang, Xiaozhou Wang, Benjamin Decardi-Nelson, Bo Song, An Zhang, Jinfeng Liu, Sile Tao, Jiayi Cheng, Xiaohong Liu, Dengdeng Yu, Matthew Poon, Animesh Garg
Les usines traditionnelles de fabrication de produits biologiques et pharmaceutiques sont contrôlées par des travailleurs humains ou des seuils prédéfinis. Les usines modernisées disposent d'algorithmes avancés de contrôle des processus, tels que le contrôle prédictif par modèle (MPC). Cependant, l'application de l'apprentissage par renforcement profond au contrôle des usines de fabrication est peu explorée. L'une des raisons est l'absence de simulations haute fidélité et d'API standard pour l'analyse comparative. Pour combler cette lacune, nous développons une bibliothèque facile à utiliser qui comprend cinq environnements de simulation haute fidélité : BeerFMTEnv, ReactorEnv, AtropineEnv, PenSimEnv et mAbEnv, qui couvrent un large éventail de processus de fabrication. Nous construisons ces environnements à partir de modèles dynamiques publiés. En outre, nous comparons des algorithmes d'apprentissage par renforcement en ligne et hors ligne, basés sur des modèles et sans modèle, afin d'établir des comparaisons pour les recherches ultérieures.
Tempo : Accélération de la formation de modèles basés sur des transformateurs par la réduction de l'empreinte mémoire
Muralidhar Andoorveedu, Zhanda Zhu, Bojian Zheng, Gennady Pekhimenko
Les modèles à base de transformateurs sont devenus le modèle dominant appliqué à une variété de tâches différentes, y compris la réponse aux questions, la paraphrase, et maintenant même le traitement d'images. Cependant, les former pour qu'ils soient efficaces peut s'avérer assez coûteux, le coût atteignant des millions de dollars pour les modèles les plus récents. À cela s'ajoutent les coûts liés à l'empreinte carbone et au temps. Notre travail peut réduire ces coûts en optimisant les modèles Transformer, ce qui permet de les entraîner sur un plus grand nombre de données à la fois, réduisant ainsi le temps nécessaire à l'entraînement des modèles, ce qui permet d'économiser de l'argent et de l'énergie. Nos résultats montrent une amélioration de 26 % du nombre d'échantillons par seconde pouvant être traités pour les modèles les plus courants, grâce à une augmentation de la taille des lots pouvant aller jusqu'à 2 fois.
Apprentissage par renforcement tenant compte de l'incertitude pour une évaluation des joueurs sensible au risque dans les jeux sportifs
Guiliang Liu, Yudong Luo, Oliver Schulte, Pascal Poupart
L'évaluation des joueurs est une tâche majeure de l'analyse sportive. Les méthodes précédentes mesuraient généralement l'impact des actions des joueurs sur les résultats souhaités (par exemple, les buts ou la victoire) sans tenir compte du risque induit par la dynamique stochastique du jeu. Dans cet article, nous concevons un cadre d'apprentissage par renforcement tenant compte de l'incertitude pour apprendre une mesure d'évaluation des joueurs sensible au risque à partir de la dynamique stochastique du jeu. Pour intégrer le risque des mouvements d'un joueur dans la distribution des valeurs d'action, nous modélisons 1) l'incertitude aléatoire, qui représente la stochasticité intrinsèque d'un jeu sportif, et 2) l'incertitude épistémique, qui est due à la connaissance insuffisante d'un modèle concernant les échantillons hors distribution (OoD). Nous démontrons comment un opérateur de Bellman distributionnel et un modèle de densité de l'espace des caractéristiques peuvent capturer ces incertitudes. Sur la base de cette estimation de l'incertitude, nous proposons une mesure de l'impact du jeu sensible au risque (RiGIM) qui mesure les performances des joueurs sur une saison en les conditionnant à un niveau de confiance spécifique. L'évaluation empirique, basée sur plus de 9 millions d'événements de hockey sur glace et de football, montre que RiGIM est en corrélation étroite avec les mesures de succès standard et qu'il présente une sensibilité au risque cohérente.
Une interface de séquence unifiée pour les tâches de vision
Ting Chen, Saurabh Saxena, Lala Li, Tsung-Yi Lin, David Fleet, Geoffrey E Hinton
Alors que les tâches linguistiques sont naturellement exprimées dans un cadre de modélisation unique et unifié, à savoir la génération de séquences de jetons, ce n'est pas le cas dans le domaine de la vision par ordinateur. Il en résulte une prolifération d'architectures et de fonctions de perte distinctes pour différentes tâches de vision. Dans ce travail, nous montrons qu'un ensemble diversifié de tâches de vision par ordinateur "de base" peut également être unifié s'il est formulé en termes d'interface pixel-séquence partagée. Nous nous concentrons sur quatre tâches, à savoir la détection d'objets, la segmentation d'instances, la détection de points clés et le sous-titrage d'images, toutes avec divers types de résultats, par exemple des boîtes de délimitation ou des masques denses. Malgré cela, en formulant le résultat de chaque tâche comme une séquence de jetons discrets avec une interface unifiée, nous montrons qu'il est possible d'entraîner un réseau neuronal avec une architecture de modèle et une fonction de perte uniques pour toutes ces tâches, sans personnalisation spécifique à la tâche. Pour résoudre une tâche spécifique, nous utilisons une courte invite comme description de la tâche, et la sortie de la séquence s'adapte à l'invite afin de produire une sortie spécifique à la tâche. Nous montrons qu'un tel modèle peut atteindre des performances compétitives par rapport aux modèles bien établis spécifiques à une tâche.
Laver ce qui n'est pas lavable : l'impossibilité d'une détection du blanchiment d'argent
Ali Shahin Shamsabadi, Mohammad Yaghini, Natalie Dullerud, Sierra Wyllie, Ulrich Aïvodji, Aisha Alaagib, Sébastien Gambs, Nicolas Papernot
Le "fairwashing" est un nouveau modèle de menace dans lequel les entreprises abusent de l'exigence d'explicabilité de leurs modèles "boîte noire" pour dissimuler leur iniquité potentielle et échapper à ses conséquences juridiques. Dans cet article, nous montrons que l'utilisation d'un modèle interprétable pour expliquer un modèle boîte noire introduit un risque de fairwashing. Nous caractérisons et analysons théoriquement le blanchiment d'argent, en prouvant que ce phénomène est difficile à éviter en raison d'un facteur irréductible - l'injustice du modèle de boîte noire. Sur la base de la théorie développée, nous proposons une nouvelle technique, appelée FRAUD-Detect (FaiRness AUDit Detection), qui permet de détecter les modèles "fairwashing" en mesurant une divergence sur les mesures de fidélité à l'échelle de la sous-population du modèle interprétable. Nous explorons les moyens par lesquels un adversaire adaptatif (entreprise malhonnête informée de l'algorithme) peut tenter d'échapper à FRAUD-Detect. Nos résultats empiriques montrent que l'évasion de notre détecteur se fait au prix d'une augmentation significative de l'écart entre les sous-populations, ce qui annule le blanchiment d'argent.
Modèles de diffusion vidéo
Jonathan Ho, Tim Salimans, Alexey Gritsenko, William Chan, Mohammad Norouzi, David Fleet
Nous présentons des résultats sur la génération de vidéos à l'aide de modèles de diffusion. Nous proposons une architecture pour les modèles de diffusion vidéo qui est une extension naturelle de l'architecture d'image standard. Nous montrons que cette architecture est efficace pour l'apprentissage conjoint à partir de données d'images et de vidéos. Pour générer des vidéos longues et de plus haute résolution, nous introduisons une nouvelle technique de conditionnement qui donne de meilleurs résultats que les méthodes proposées précédemment. Nous présentons des résultats sur la génération de vidéos conditionnées par du texte et des résultats de pointe sur un benchmark de génération de vidéos sans condition.
Préformation vidéo (VPT) : apprendre à agir en regardant des vidéos en ligne non étiquetées
Bowen Baker, Ilge Akkaya, Peter Zhokov, Joost Huizinga, Jie Tang, Adrien Ecoffet, Brandon Houghton, Raul Sampedro, Jeff Clune
Nous avons entraîné un réseau neuronal à jouer à Minecraft par préapprentissage vidéo (VPT) sur un énorme ensemble de données vidéo non étiquetées de jeux humains Minecraft, tout en utilisant seulement une petite quantité de données d'entrepreneur étiquetées. Avec un réglage fin, notre modèle peut apprendre à fabriquer des outils en diamant, une tâche qui prend habituellement plus de 20 minutes à des humains compétents (24 000 actions). Notre modèle utilise l'interface humaine native des touches et des mouvements de souris, ce qui le rend assez général et représente un pas en avant vers l'utilisation générale d'agents informatiques.
On ne peut pas compter sur la chance : pourquoi les transformateurs de décision échouent dans des environnements stochastiques
Keiran Paster, Sheila McIlraith, Jimmy Ba
Une tendance récente de l'apprentissage par renforcement profond a été de traiter l'apprentissage par renforcement comme un problème de prédiction supervisée, où la prochaine action de l'agent est décidée de manière probabiliste en sélectionnant l'action la plus probable compte tenu d'un certain résultat futur (par exemple, l'agent recueille un grand nombre de récompenses). Cependant, dans les environnements stochastiques où les récompenses sont affectées par le hasard, ce cadre est biaisé. Dans ce travail, nous décrivons les conditions théoriques dans lesquelles ces méthodes échouent et proposons un nouvel algorithme qui permet au RL via des algorithmes d'apprentissage supervisé tels que Decision Transformer de fonctionner de manière optimale même dans des environnements hautement stochastiques. Cela ouvre la voie à une approche unifiée de la prédiction, de la modélisation des séquences et de la prise de décision optimale.
La symbiose de l'apprentissage profond et des équations différentielles II - Animesh Garg et David Duvenaud
Apprendre des séries temporelles pour la santé - Anna Goldenberg et Marzyeh Ghassemi
Robustesse dans la modélisation des séquences - Marzyeh Ghassemi
Deuxième atelier sur le traitement efficace du langage naturel et de la parole (ENLSP-II) : L'avenir des modèles pré-entraînés - Pascal Poupart
L'IA pour la conception accélérée des matériaux (AI4Mat) - Alán Aspuru-Guzik