Les chercheurs de Vector présentent plus de 65 articles à NeurIPS 2023

4 décembre 2023

Perspectives Recherche

Les chercheurs de Vector présentent 65 articles à la Conférence sur les systèmes de traitement de l'information neuronale (NeurIPS) de cette année. Du 10 au 16 décembre, à la Nouvelle-Orléans et en ligne, les enseignants, les enseignants associés et les boursiers postdoctoraux de Vector présentent de nouveaux travaux qui repoussent les limites de différents domaines de recherche en IA et qui pourraient avoir un impact sur de nombreuses facettes de la vie quotidienne, notamment la santé, la découverte de matériaux chimiques, la confidentialité des données, la musique et notre compréhension du monde naturel.

Vous trouverez ci-dessous des résumés simplifiés de certains des articles et ateliers acceptés par les chercheurs de Vector.

Des descriptions d'articles rédigées par les coauteurs et/ou l'IA générative.

Un pas vers l'évaluation de la biodiversité mondiale : L'ensemble de données BIOSCAN-1M sur les insectes

Un pas vers l'évaluation de la biodiversité mondiale : L'ensemble de données BIOSCAN-1M sur les insectes
Zahra Gharaee, ZeMing Gong, Nicholas Pellegrino, Iuliia Zarubiieva, Joakim Bruslund Haurum, Scott C. Lowe, Jaclyn T.A. McKeown, Chris C.Y. Ho, Joschka McLeod, Yi-Yun C Wei, Jireh Agda, Sujeevan Ratnasingham, Dirk Steinke, Angel X. Chang, Graham W. Taylor, Paul Fieguth

Cette étude crée un catalogue de la biodiversité des insectes : L'ensemble de données BIOSCAN-Insectes. L'ensemble de données contient des images étiquetées de divers insectes, classées taxonomiquement par des experts du domaine, et des données génomiques associées collectées sous la forme de séquences de nucléotides bruts "code-barres ADN". La base de données contient plus d'un million d'images permettant d'entraîner des modèles de vision artificielle pour l'évaluation taxonomique. Il peut également intéresser la communauté plus large de l'apprentissage automatique en raison des défis intrinsèques qu'il présente, tels que la distribution asymétrique des images entre les types d'insectes et la complexité détaillée de l'étiquetage taxonomique. Au-delà de l'identification des insectes à partir d'images, ce travail contribue également aux efforts visant à utiliser l'imagerie et les données génomiques de manière complémentaire pour étudier la biodiversité. L'article présente l'ensemble de données et explore la tâche de classification à l'aide de méthodes modernes basées sur les convolutions et les transformateurs.

Aging with GRACE : Lifelong Model Editing with Discrete Key-Value Adaptors (Vieillir avec GRACE : édition de modèles tout au long de la vie avec des adaptateurs clé-valeur discrets)

Vieillir avec GRACE : édition de modèles tout au long de la vie avec des adaptateurs clé-valeur discrets
Thomas Hartvigsen, Swami Sankaranarayanan, Hamid Palangi, Yoon Kim, Marzyeh Ghassemi

Comme tout outil, les modèles d'IA peuvent devenir obsolètes ou se comporter de manière inattendue. Dans cet article, nous présentons un nouvel outil appelé GRACE, une méthode d'édition de modèles tout au long de la vie qui permet d'affiner ces modèles d'IA lorsqu'ils se comportent mal, sans perturber leur fonctionnement général. C'est un peu comme si l'on ajustait un instrument de musique sans en changer le caractère. GRACE le fait en créant une liste interne de modifications, plutôt qu'en modifiant la structure du modèle. Il peut le faire des milliers de fois en n'utilisant que des exemples d'erreurs, ce qui constitue une nouvelle prouesse. Nous avons testé GRACE sur divers modèles d'IA populaires et avons constaté que non seulement il corrigeait efficacement les erreurs, mais qu'il s'adaptait également bien à de nouvelles situations inédites.

Spotlight Poster | AlpacaFarm : Un cadre de simulation pour les méthodes qui apprennent à partir du feedback humain

AlpacaFarm : Un cadre de simulation pour les méthodes qui apprennent à partir du feedback humain
Yann Dubois, Xuechen Li, Rohan Taori, Tianyi Zhang, Ishaan Gulrajani, Jimmy Ba, Carlos Guestrin, Percy Liang, Tatsunori Hashimoto

AlpacaFarm est un nouveau simulateur conçu pour s'attaquer à trois obstacles principaux dans le développement de grands modèles de langage comme ChatGPT : la collecte de données coûteuses, les évaluations peu fiables et le manque de méthodes standard. Il crée des messages-guides LLM pour un feedback humain simulé, réduisant les coûts de 45x par rapport à l'utilisation de véritables travailleurs de foule tout en maintenant une grande cohérence avec les réponses humaines. AlpacaFarm introduit un mécanisme d'évaluation automatique, confirmé par des interactions dans le monde réel, et fournit des implémentations standard pour des méthodes telles que PPO et l'itération d'experts, en utilisant l'apprentissage par retour d'information par paire. Nous constatons que les méthodes qui utilisent un modèle de récompense peuvent améliorer considérablement le réglage fin supervisé et que notre implémentation PPO de référence conduit à une amélioration de 10 % du taux de victoire par rapport à Davinci003.

Une alternative à la variance : Écart de Gini pour le gradient de politique d'aversion au risque

Une alternative à la variance : L'écart de Gini pour le gradient de politique d'aversion au risque
Yudong Luo, Guiliang Liu, Pascal Poupart, Yangchen Pan

Dans l'étude de l'intelligence artificielle, et plus particulièrement de l'apprentissage par renforcement (AR), il est courant d'apprendre aux machines à prendre des décisions prudentes. Traditionnellement, cela se fait en contrôlant l'imprévisibilité des résultats des performances de la machine. Toutefois, il s'agit d'un processus délicat qui peut entraver l'apprentissage. L'article propose une approche alternative avec une nouvelle mesure du risque appelée écart de Gini. Les auteurs proposent une nouvelle stratégie permettant aux machines d'apprendre tout en gérant ce risque. Les tests ont montré que leur méthode surpasse les anciennes stratégies en maintenant des performances efficaces avec moins de risques, réussissant dans des domaines où les méthodes précédentes étaient inadéquates pour guider efficacement le comportement des machines.

Batchnorm permet des attaques radiales non supervisées

Batchnorm permet des attaques radiales non supervisées
Amur Ghose, Apurv Gupta, Yaoliang Yu, Pascal Poupart

Les chercheurs en vision artificielle ont souvent besoin de tester la robustesse des systèmes de reconnaissance d'images en essayant de les tromper avec des images modifiées, appelées exemples adverses. Généralement, pour créer ces images trompeuses, il faut avoir accès aux résultats du modèle, tels que les étiquettes de classification et les niveaux de confiance associés. Cependant, cette étude a révélé que lorsqu'il s'agit de modèles d'apprentissage profond pour la reconnaissance d'images qui utilisent une certaine technique appelée normalisation par lots, il est possible de créer des exemples trompeurs en examinant simplement les calculs du modèle à mi-processus. Ils peuvent le faire en se concentrant sur la mesure dans laquelle ces calculs s'écartent d'un type standard de distribution géométrique, le tout sans aucune connaissance des étiquettes réelles ou de la sortie finale. Ces calculs en cours de processus forment naturellement des modèles qui ressemblent à des formes et à des distributions mathématiques bien connues. Ils ont également découvert que cette tactique peut exposer une faille de sécurité dans ces modèles, y compris lorsqu'ils sont adaptés à d'autres tâches. Plus précisément, la vulnérabilité est liée à l'utilisation de la normalisation des lots, et sa suppression peut réduire le risque. En outre, cette découverte est importante non seulement pour les modèles de reconnaissance d'images, mais aussi pour les derniers modèles basés sur des transformateurs, en particulier ceux qui sont conçus pour traiter des informations visuelles.

Inférence distribuée et mise au point de grands modèles linguistiques sur l'internet

Inférence distribuée et mise au point de grands modèles linguistiques sur l'internet
Alexander Borzunov, Dmitry Baranchuk, Tim Dettmers, Max Ryabinin, Younes Belkada, Artem Chumachenko, Pavel Samygin, Colin Raffel

Cette étude présente Petals, un nouveau système qui permet aux chercheurs d'unir leurs forces et de combiner leur puissance de calcul pour utiliser plus efficacement les grands modèles. Les grands modèles récents ont besoin d'ordinateurs puissants pour fonctionner, ce dont beaucoup de chercheurs ne disposent pas. Il existe des solutions de contournement, comme le stockage de certaines parties du modèle ailleurs (déchargement de la mémoire vive) ou l'utilisation de services en ligne (API hébergées), mais ces solutions présentent des inconvénients : Le déchargement rend les modèles trop lents pour une utilisation en temps réel, et les API ne permettent pas aux chercheurs de modifier les modèles en fonction des besoins pour des études approfondies. Avec Petals, vous pouvez utiliser même les plus grands modèles sur des configurations informatiques normales sans les problèmes des autres méthodes. De plus, Petals offre un aperçu transparent du fonctionnement interne des modèles, ce qui est essentiel pour les chercheurs qui souhaitent les personnaliser et les améliorer.

Capacité d'apprentissage et robustesse de la distribution

Apprentissage et robustesse de la distribution
Shai Ben-David, Alex Bie, Gautam Kamath, Tosca Lechner

Cette étude porte sur la capacité de l'IA à apprendre à partir de données et à rester robuste lorsque les données sont corrompues. En règle générale, nous espérons que si une IA peut apprendre à partir de données propres, elle peut également traiter des données qui ont été corrompues dans une certaine mesure par une source malveillante. Les chercheurs se sont concentrés sur l'estimation d'une distribution de probabilité inconnue et ont découvert que cela était vrai lorsque la perturbation n'impliquait que l'ajout de points de données trompeurs. Par exemple, dans le cadre d'un modèle de contamination appelé Huber, si un adversaire ajoute de fausses informations à l'ensemble de données, l'IA peut encore apprendre efficacement. Mais la situation change si l'adversaire commence à retirer des points de données de l'ensemble - un processus connu sous le nom de contamination soustractive. Dans ce cas, si l'IA a appris à partir de données parfaites, cela ne signifie pas nécessairement qu'elle obtiendra de bons résultats avec l'ensemble de données compromis. Cela remet en question l'hypothèse selon laquelle la capacité d'apprendre dans des situations idéales suppose souvent que l'apprentissage dans des conditions moins qu'idéales est également possible. L'étude examine en outre les conséquences de ces résultats pour les méthodes de compression des données et l'apprentissage avec des garanties de confidentialité, comme la confidentialité différentielle.

Équivalence de modèles distributionnels pour l'apprentissage par renforcement sensible au risque

Distributional Model Equivalence for Risk-Sensitive Reinforcement Learning
Tyler Kastner, Murat A. Erdogdu, Amir-massoud Farahmand

Le monde dans lequel nous vivons est intrinsèquement stochastique, et chaque décision que nous prenons nous oblige à prendre en compte les risques qui y sont associés. L'apprentissage par renforcement sensible au risque est axé sur la conception d'agents capables de prendre des décisions en tenant compte du risque, qu'un agent apprend par le biais d'interactions avec l'environnement. Il est souvent avantageux d'apprendre un modèle de l'environnement que l'agent peut ensuite utiliser pour interagir avec lui plutôt que d'utiliser l'environnement lui-même. Cette approche permet à un agent d'effectuer moins d'interactions avec l'environnement réel, ce qui est particulièrement important lorsque les interactions avec l'environnement réel sont coûteuses ou dans les applications critiques pour la sécurité, lorsque des erreurs dans l'environnement réel doivent être évitées. Dans ce travail, nous étudions le problème de la meilleure façon d'apprendre de tels modèles pour l'apprentissage sensible au risque. Cette question a été étudiée à de nombreuses reprises dans le contexte de l'apprentissage sans risque, mais nous montrons que ces approches sont loin d'être optimales dans le cadre de l'apprentissage sensible au risque. Nous présentons un cadre général pour l'apprentissage de ces modèles et démontrons qu'il est possible de choisir le type de risque dont le modèle doit être le plus conscient. Nous montrons que notre cadre peut être combiné avec une large gamme d'algorithmes sans modèle existants et nous démontrons empiriquement les avantages de notre approche.

Spotlight Paper | Contrôle statistique de dispersion sans distribution pour des applications sociétales

Contrôle de dispersion statistique sans distribution pour des applications sociétales
Zhun Deng, Thomas P. Zollo, Jake C. Snell, Toniann Pitassi, Richard Zemel

Pour les systèmes d'IA qui assument des tâches lourdes de conséquences, il est essentiel de comprendre la fiabilité du système. Traditionnellement, l'objectif est de prédire la précision globale du système ou ses marges d'erreur. Cependant, dans les domaines où les décisions ont un impact sociétal important, il est nécessaire de s'assurer que les erreurs du système n'affectent pas injustement différents groupes. Pour répondre à ce besoin, cet article présente un nouveau cadre qui va au-delà de la performance moyenne, en évaluant le degré d'équité des décisions d'un système au sein d'une population. Il s'agit d'une approche plus large qui tient compte d'une variété de résultats possibles et de leurs effets sur la société, et qui peut gérer des analyses statistiques plus complexes que les techniques antérieures. L'efficacité de ce cadre a été prouvée dans diverses applications, telles que la détection d'un langage préjudiciable, l'aide au diagnostic médical à partir d'images et la recommandation de films. Ces travaux constituent un pas en avant vers une IA responsable, juste et fiable pour les scénarios à fort enjeu. Cette recherche souligne l'importance non seulement des performances de l'IA, mais aussi de l'égalité de son impact sur la société.

Protocole d'apprentissage peer-to-peer doublement robuste

Protocole d'apprentissage peer-to-peer doublement robuste
Nicholas Franzese, Adam Dziedzic, Christopher A. Choquette-Choo, Mark R. Thomas, Muhammad Ahmad Kaleem, Stephan Rabanser, Congyu Fang, Somesh Jha, Nicolas Papernot, Xiao Wang

Cette étude se concentre sur l'apprentissage automatique collaboratif, où différentes organisations travaillent ensemble et combinent leurs données pour construire de meilleurs modèles. Même si ce type de collaboration semble protéger la confidentialité des données de chacun, il existe toujours un risque. Le serveur central qui collecte les mises à jour de tous les clients, ou les clients (les différentes organisations) eux-mêmes, peuvent ne pas respecter les règles convenues. Un serveur malhonnête pourrait essayer de fouiller dans les données des clients, ou les clients pourraient envoyer des données nuisibles pour perturber le processus d'apprentissage. Idéalement, chaque partie, qu'il s'agisse du client ou du serveur, veut être sûre que l'autre partie jouera franc jeu. La recherche propose une nouvelle façon de travailler ensemble, où les apprenants sont des pairs égaux et où il n'y a pas de serveur central. Cette méthode vise à empêcher un serveur de prendre l'avantage et à empêcher les clients d'envoyer de mauvaises données. Cet article présente un cadre flexible qui peut prendre n'importe quel bon algorithme pour combiner des mises à jour de modèles et le faire fonctionner en toute sécurité dans un monde où les serveurs et les clients peuvent mal se comporter. Les chercheurs montrent également que leur approche peut gérer de grands modèles avec de nombreux paramètres et un grand nombre de pairs, ce qui prouve qu'elle est pratique pour une utilisation réelle.

DynGFN : vers l'inférence bayésienne des réseaux de régulation génétique avec les GFlowNets

DynGFN : Towards Bayesian Inference of Gene Regulatory Networks with GFlowNets
Lazar Atanackovic, Alexander Tong, Bo Wang, Leo J. Lee, Yoshua Bengio, Jason Hartford

Cette étude explore la manière dont les cellules contrôlent l'activité et la fonction des gènes. Les chercheurs s'attachent à comprendre le réseau complexe d'interactions entre les gènes, en abordant deux questions essentielles. Premièrement, les réseaux de gènes sont circulaires, et non à sens unique. Deuxièmement, les observations sont souvent bruyantes, ce qui rend difficile l'identification de modèles exacts. Les approches traditionnelles s'attaquent soit à la nature circulaire, soit au problème du bruit, mais pas aux deux. Ici, l'équipe utilise la vitesse de l'ARN - la rapidité avec laquelle les gènes créent des produits - pour créer une méthode qui relève les deux défis. Ils introduisent une nouvelle technique utilisant les réseaux de flux génératifs, qui aide à cartographier les interactions génétiques potentielles en tenant compte de leur nature dynamique et circulaire. Cette méthode permet de mieux comprendre les réseaux de gènes que les tentatives précédentes.

Troupes de perroquets stochastiques : Apprentissage de stimuli différentiellement privés pour les grands modèles de langage

Troupes de perroquets stochastiques : Apprentissage de stimuli différentiellement privés pour les grands modèles linguistiques
Haonan Duan, Adam Dziedzic, Nicolas Papernot, Franziska Boenisch

Cette recherche aborde les risques liés à la protection de la vie privée dans les grands modèles de langage (LLM), qui apprennent à partir d'invites de données. Ces invites peuvent, par inadvertance, laisser échapper des informations sensibles. Les chercheurs confirment que les menaces pour la vie privée sont réelles en démontrant une attaque simple mais efficace qui révèle si des données spécifiques ont été utilisées pour former un LLM. La solution conventionnelle, qui consiste à affiner les modèles à l'aide d'algorithmes privés de descente de gradient, sacrifie la simplicité et la rapidité qu'offrent les messages-guides. Pour remédier à ce problème, les chercheurs introduisent une méthode innovante appelée "apprentissage privé à l'invite". Ils trouvent un moyen de créer des "invites douces" - des entrées modifiables pour les LLM - de manière privée. Toutefois, cela n'est pas possible pour les "invites discrètes", qui sont fixes et spécifiques. Comme solution, ils suggèrent de collecter et de fusionner les résultats de plusieurs LLM en utilisant une technique qu'ils comparent à une "volée de perroquets stochastiques". Ce résultat collectif devient une invite unique, respectueuse de la vie privée. Les résultats révèlent que les performances des LLM utilisant cette méthode axée sur la protection de la vie privée sont proches de celles des méthodes standard, non privées, ce qui indique sa viabilité pour une utilisation pratique avec les services d'IA en ligne existants.

Confidentialité différentielle fonctionnelle de Renyi pour la modélisation générative

Confidentialité différentielle fonctionnelle de Renyi pour la modélisation générative
Dihong Jiang, Sun Sun, Yaoliang Yu

L'étude explore la confidentialité différentielle R'enyi (RDP), un concept qui gagne du terrain en tant qu'alternative à la confidentialité différentielle traditionnelle (DP) en raison de sa meilleure composabilité et de sa flexibilité. Les méthodes existantes de protection de la vie privée utilisant la RDP sont limitées à la randomisation des sorties qui sont des vecteurs de longueur fixe. Dans ce travail, les chercheurs s'appuient sur des études antérieures pour adapter la RDP à des scénarios où le résultat pourrait être une fonction, potentiellement de dimension infinie. Ils développent un ensemble d'outils, notamment une version du mécanisme gaussien adaptée aux données échantillonnées, ainsi que des règles de composition et de post-traitement. Ces outils sont conçus pour faciliter l'intégration de la RDP dans les applications pratiques. Pour démontrer son utilité, ils appliquent cette version étendue de la RDP, appelée RDP fonctionnelle (f-RDP), à des fonctions dans l'espace mathématique connu sous le nom d'espace de Hilbert à noyau reproducteur (RKHS). Dans ce contexte, ils créent un modèle génératif différentiellement privé (DPGM), dans lequel le processus de formation du modèle d'apprentissage automatique consiste à libérer en toute sécurité des fonctions de perte avec la protection RDP. Les résultats empiriques suggèrent que cette nouvelle approche de formation offre un meilleur équilibre entre la confidentialité et la performance par rapport aux méthodes actuelles.

GAUCHE : Une bibliothèque pour les processus gaussiens en chimie

GAUCHE : une bibliothèque pour les processus gaussiens en chimie
Ryan-Rhys Griffiths, Leo Klarner, Henry B. Moss, Aditya Ravuri, Sang Truong, Samuel Stanton, Gary Tom, Bojana Rankovic, Yuanqi Du, Arian Jamasb, Aryan Deshwal, Julius Schwartz, Austin Tripp, Gregory Kell, Simon Frieder, Anthony Bourached, Alex Chan, Jacob Moss, Chengzhi Guo, Johannes Durholt, Saudamini Chaurasia, Felix Strieth-Kalthoff, Alpha A. Lee, Bingqing Cheng, Alán Aspuru-Guzik, Philippe Schwaller, Jian Tang

GAUCHE est une bibliothèque d'outils mathématiques conçus pour apprendre à partir de données chimiques. Elle est conçue pour traiter les processus gaussiens, une technique d'apprentissage automatique réputée pour son excellente capacité à mesurer l'incertitude et à améliorer la prise de décision sur la base de prédictions. Les processus gaussiens sont très efficaces pour deviner l'inconnu sur la base de ce qui est connu, en particulier dans les situations complexes où l'incertitude est importante. Cependant, les utiliser en chimie revient à essayer de faire entrer une cheville carrée dans un trou rond. Les données chimiques peuvent être très complexes, ressemblant à des graphiques complexes, à des chaînes d'informations ou même à une série de signaux tout ou rien (vecteurs de bits). GAUCHE est conçu pour travailler avec ces formats complexes, transformant les processus gaussiens en un outil puissant pour les chimistes. Les créateurs de GAUCHE visent à faciliter l'adoption par les chimistes de mesures d'incertitude avancées et de l'optimisation bayésienne, une méthode qui équilibre l'exploration de nouvelles possibilités et le développement de celles qui existent déjà. Ils démontrent le potentiel de GAUCHE dans deux domaines importants : la découverte de nouvelles molécules et la détermination des meilleures conditions pour les réactions chimiques. En substance, GAUCHE est censé être un pont qui relie les techniques avancées d'apprentissage automatique aux énigmes du monde réel de la chimie.

Apprentissage de caractéristiques basé sur le gradient dans le cadre de données structurées

Apprentissage de caractéristiques basé sur le gradient dans le cadre de données structurées
Alireza Mousavi-Hosseini, Denny Wu, Taiji Suzuki, Murat Erdogdu

Des résultats récents suggèrent que pour l'apprentissage par gradient de modèles à indice unique (qui dépendent d'une projection unidimensionnelle de l'entrée), le nombre d'échantillons d'apprentissage nécessaires, ou "complexité de l'échantillon", est influencé par ce que l'on appelle l'exposant de l'information. Les recherches antérieures se sont concentrées sur les données isotropes, où l'entrée est uniformément distribuée sans orientation distincte. Cependant, les données réelles présentent souvent une "structure de covariance à pointes", où les données sont distribuées de manière inégale, ce qui influence le processus d'apprentissage. Cet article examine l'impact des données ayant une telle structure sur l'apprentissage des modèles. Les chercheurs découvrent que les méthodes de gradient sphérique standard peuvent ne pas détecter l'orientation correcte des données, même si elle correspond au résultat souhaité. Ils suggèrent que des techniques similaires à la normalisation par lots dans les réseaux neuronaux peuvent atténuer ce problème. En outre, en exploitant la distribution particulière des données et son alignement avec les résultats ciblés, ils démontrent une amélioration de la complexité de l'échantillon par rapport aux scénarios isotropes. Notamment, avec un pic suffisamment important dans la structure des données, l'étude montre que l'apprentissage basé sur le gradient peut nécessiter moins d'échantillons et surpasser certaines méthodes établies, malgré la complexité suggérée par l'exposant d'information.

Faites ce que vous voulez : Attribution individualisée de la protection de la vie privée pour le DP-SGD

Faites ce que vous voulez : Assignation individualisée de la vie privée pour DP-SGD
Franziska Boenisch, Christopher Mühl, Adam Dziedzic, Roy Rinberg, Nicolas Papernot

Cet article modifie une méthode populaire axée sur la protection de la vie privée et utilisée dans l'apprentissage des machines, connue sous le nom de descente stochastique de gradient différentiellement privée (DP-SGD). Pour protéger la confidentialité des informations personnelles dans le cadre de l'apprentissage automatique, les chercheurs utilisent souvent un "budget de confidentialité". Il s'agit d'une limite à la protection de la vie privée lorsque les données d'une personne sont utilisées pour aider un ordinateur à prendre des décisions. Cependant, chacun accorde une importance différente à sa vie privée. Certains ne voient pas d'inconvénient à partager davantage de données, tandis que d'autres souhaitent que leurs données restent aussi confidentielles que possible. Pour y remédier, l'étude propose une nouvelle idée : pourquoi ne pas laisser chaque personne fixer ses propres limites en matière de protection de la vie privée ? Cet article présente une nouvelle méthode appelée DP-SGD individualisé (IDP-SGD). En modifiant la manière dont la machine sélectionne et utilise les données et en ajustant le "bruit" ajouté pour préserver l'anonymat des données, l'IDP-SGD permet de respecter la vie privée en fonction des préférences de chacun. Le résultat est un système plus équilibré où la vie privée et l'utilité des données sont mieux alignées pour répondre aux besoins individuels.

Poison caché : Le désapprentissage automatique permet des attaques d'empoisonnement camouflées

Poison caché : Le désapprentissage automatique permet des attaques d'empoisonnement camouflées
Jimmy Z. Di, Jack Douglas, Jayadev Acharya, Gautam Kamath, Ayush Sekhari

La recherche présente une menace subtile mais puissante pour la cybersécurité : les attaques par empoisonnement de données camouflées. Ces attaques sont particulièrement pertinentes dans les situations où les modèles d'apprentissage automatique sont fréquemment mis à jour ou "désapprennent" des données spécifiques - un processus qui peut se produire lorsqu'il est demandé d'oublier ou de supprimer certaines informations. Voici comment fonctionne l'attaque : L'attaquant glisse furtivement quelques points de données modifiés dans l'ensemble d'apprentissage. Ces points sont conçus pour rester inactifs, n'ayant initialement que peu ou pas d'effet sur le comportement du modèle. Plus tard, l'attaquant déclenche la suppression de certains de ces points de données. C'est à ce moment - le réentraînement du modèle - que l'attaque prend effet et que les prédictions du modèle commencent à se tromper. Plus précisément, l'attaque vise à amener le modèle à étiqueter de manière incorrecte un élément de données particulier - il peut s'agir d'une mauvaise identification d'une image ou d'une mauvaise classification d'un texte. Pour démontrer le concept, des expériences ont été menées sur des ensembles de données d'images tels que CIFAR-10, Imagenette et Imagewoof. L'astuce réside dans la manière dont ces points empoisonnés sont créés ; ils sont camouflés pour se fondre dans les données normales, de sorte que l'effet néfaste n'est apparent qu'après la suppression de l'une des pilules empoisonnées au cours du réapprentissage du modèle. Cette méthode d'attaque soulève de nouvelles questions quant à la robustesse des modèles dans des environnements dynamiques où des données sont fréquemment ajoutées ou supprimées.

Amélioration de la généralisation de quelques clichés par l'exploration et l'exploitation de données auxiliaires

Amélioration de la généralisation de quelques clichés par l'exploration et l'exploitation de données auxiliaires
Alon Albalak, Colin Raffel, William Yang Wang

Apprendre à un modèle à apprendre à partir d'un petit ensemble d'exemples, connu sous le nom d'apprentissage à quelques reprises, conduit souvent à des modèles qui ne peuvent pas bien se généraliser - ils deviennent trop adaptés à leurs données limitées (un problème appelé surajustement). Cette étude présente une technique améliorée pour l'apprentissage à partir d'un petit nombre d'exemples qui incorpore des données supplémentaires pour améliorer les performances sur la tâche cible. Les méthodes précédentes intégraient des données supplémentaires mais devenaient lourdes à gérer avec de grandes quantités d'informations. 

Cette innovation utilise des stratégies issues du problème du bandit à plusieurs bras - l'équilibre entre l'essai de nouvelles options et l'utilisation de ce qui est connu - pour gérer efficacement des ensembles de données beaucoup plus importants. Deux nouveaux algorithmes, EXP3-FLAD et UCB1-FLAD, sont introduits, qui ne sont pas submergés par la quantité de données auxiliaires et qui mélangent efficacement l'exploration et l'exploitation. Les résultats montrent une augmentation de 4 % des performances par rapport aux méthodes précédentes. Ils ont également permis de former des modèles de langage avec moins de paramètres pour surpasser les capacités du modèle GPT-3 plus grand, indiquant une voie prometteuse pour créer des modèles d'IA qui généralisent mieux à partir d'exemples limités.

Spotlight Poster | STEVE-1 : Un modèle génératif pour la conversion de texte en comportement dans Minecraft

STEVE-1 : un modèle génératif pour la conversion du texte en comportement dans Minecraft
Shalev Lifshitz, Keiran Paster, Harris Chan, Jimmy Ba, Sheila McIlraith

L'IA va au-delà des chatbots et pénètre dans le monde ouvert de Minecraft. Cet article présente un puissant modèle génératif formé sur des années de jeu Minecraft à partir de vidéos YouTube, qui peut jouer au jeu et suivre des instructions textuelles et visuelles en langage naturel. Le modèle, appelé STEVE-1 (Steve est le personnage principal de Minecraft), joue en regardant les pixels sur l'écran et en choisissant comment déplacer le clavier et la souris. L'article présente une nouvelle méthodologie, inspirée de modèles texte-image antérieurs tels que DALL-E 2, qui nous permet de nous appuyer sur des modèles de base existants avec un coût supplémentaire relativement faible pour créer cet agent puissant et instructible qui peut trouver des ressources, fabriquer des objets, explorer et bien plus encore. STEVE-1 fait le lien entre les entrées textuelles et visuelles et le contrôle comportemental de bas niveau sous la forme de frappes de clavier et de clics de souris. Il est important de noter qu'en utilisant une nouvelle variante de l'étiquetage rétrospectif, STEVE-1 apprend à suivre des instructions sans s'entraîner à un ensemble spécifique de tâches. Le matériel de recherche, y compris les poids des modèles et les scripts de formation, a été partagé en vue d'une exploration plus poussée sur le terrain.

Apprentissage en présence d'une structure de faible dimension : Une perspective de matrice aléatoire à pointes

Apprentissage en présence d'une structure de faible dimension : Une perspective de matrice aléatoire à pointes
Jimmy Ba, Murat A Erdogdu, Taiji Suzuki, Zhichao Wang, Denny Wu

Dans cette recherche, nous étudions comment les modèles d'apprentissage automatique apprennent une fonction cible à indice unique dans le cas de données de covariance à pointes. Nous posons la question suivante : quelle doit être l'ampleur des pointes pour que les méthodes à noyau et les réseaux neuronaux entraînés par descente de gradient puissent apprendre la fonction cible sous-jacente ? Nos résultats démontrent que les méthodes à noyau et les réseaux neuronaux bénéficient tous deux de structures à faible dimension dans les données ; en outre, dans notre cadre, les réseaux neuronaux peuvent s'adapter à de telles structures de manière plus efficace.

MagicBrush : Un ensemble de données annotées manuellement pour l'édition d'images guidée par l'enseignement

MagicBrush : Un ensemble de données annotées manuellement pour l'édition d'images guidée par l'enseignement
Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, Yu Su

L'édition d'images guidée par le texte, utile à des fins personnelles et professionnelles comme Photoshop, dépend souvent fortement des ajustements manuels en raison des limites des méthodes actuelles de prise de vue zéro ou de celles qui sont formées sur des ensembles de données synthétisées et bruyantes. Pour améliorer cette situation, nous avons développé MagicBrush, un ensemble de données inédit et soigneusement sélectionné, destiné aux tâches d'édition d'images basées sur des instructions. Il comprend plus de 10 000 ensembles d'images associées à des instructions textuelles et à leurs résultats d'édition, correspondant à une variété de contextes d'édition, y compris des séquences d'édition uniques et multiples, avec ou sans masques fournis. Nous avons affiné un modèle appelé InstructPix2Pix à l'aide de MagicBrush et obtenu des résultats nettement meilleurs sur la base d'évaluations humaines. En outre, nous avons rigoureusement testé les modèles actuels d'édition d'images par rapport à MagicBrush au moyen de diverses évaluations, en mettant en évidence les défis posés par notre ensemble de données et en soulignant le décalage entre les technologies existantes et les exigences de l'édition d'images dans le monde réel.

MARBLE : Critère de référence pour la représentation audio de la musique en vue d'une évaluation universelle

MARBLE : Comparaison de la représentation audio de la musique pour une évaluation universelle
Ruibin Yuan, Yinghao Ma, Yizhi Li, Ge Zhang, Xingran Chen, Hanzhi Yin, Le Zhuo, Yiqi Liu, Jiawen Huang, Zeyue Tian, Binyue Deng, Ningzhi Wang, Chenghua Lin, Emmanouil Benetos, Anton Ragni, Norbert Gyenge, Roger Dannenberg, Wenhu Chen, Gus Xia, Wei Xue, Si Liu, Shi Wang, Ruibo Liu, Yike Guo, Jie Fu

Le rôle de l'intelligence artificielle dans la musique, en particulier dans sa compréhension, est à la traîne par rapport à d'autres projets artistiques d'IA tels que la création d'art visuel et l'aide à l'écriture. Pour relever les défis posés par la rareté des ressources d'apprentissage approfondi et des critères de référence normalisés dans le domaine de l'IA musicale, nous présentons MARBLE. Cette plateforme d'évaluation comparative s'adresse aux tâches de recherche d'informations musicales (MIR) et propose une taxonomie détaillée qui s'étend des caractéristiques acoustiques aux descriptions abstraites. MARBLE met en œuvre un protocole d'évaluation standard utilisant 14 tâches sur 8 ensembles de données publiques afin d'évaluer de manière cohérente les capacités de divers modèles d'IA musicale. Conçu pour être accessible, évolutif et conforme aux normes de droit d'auteur, MARBLE ouvre la voie à une recherche reproductible tout en encourageant l'amélioration et l'innovation dans le domaine de l'IA musicale. Les résultats préliminaires mettent en évidence le potentiel des récents modèles musicaux à grande échelle, tout en offrant des possibilités d'amélioration. L'accès au tableau de classement et aux ressources de MARBLE est accessible au public afin d'inspirer les futurs développements de l'IA musicale.

MeGraph : Capturer les interactions à longue portée en alternant l'agrégation locale et hiérarchique sur une hiérarchie de graphes à plusieurs échelles

MeGraph : Capturer les interactions à longue portée en alternant l'agrégation locale et hiérarchique sur une hiérarchie de graphes à plusieurs échelles
Honghua Dong,, Jiawei Xu, Yu Yang, Rui Zhao, Shiwen Wu, Chun Yuan, Xiu Li, Chris J. Maddison, Lei Han

Les réseaux neuronaux graphiques (GNN) excellent généralement dans le traitement des données locales, mais ne sont pas à la hauteur lorsqu'il s'agit de reconnaître les interactions à longue portée (LRI) au sein des graphes. Notre modèle MeGraph fusionne de manière innovante les structures graphiques locales avec une hiérarchie graphique globale dans un cadre unifié pour résoudre ce problème. Cette approche en couches alterne le passage de messages locaux à différentes échelles et l'intégration d'informations dans l'ensemble de la hiérarchie des graphes. En mélangeant continuellement les informations locales et globales de cette manière, MeGraph atteint un meilleur équilibre dans l'analyse des données. Validé par un nouveau benchmark spécialement conçu pour tester la détection des LRI, MeGraph affiche des performances supérieures. Il tient tête ou surpasse les principaux modèles dans les tests de référence établis et démontre ses capacités dans divers ensembles de données réelles, soulignant sa polyvalence et son efficacité dans l'analyse des données graphiques.

Apprentissage multimodal par renforcement contraint inverse à partir d'un mélange de démonstrations

Apprentissage multimodal par renforcement contraint inverse à partir d'un mélange de démonstrations
Guanren Qiao, Guiliang Liu, Pascal Poupart, zhiqiang xu

L'apprentissage par renforcement des contraintes inverses (ICRL) permet d'apprendre les règles cachées que les experts appliquent sans qu'on le leur dise explicitement. Les méthodes traditionnelles partent du principe que tous les comportements des experts proviennent d'un seul type d'expert, ce qui simplifie à l'excès les situations réelles où les experts sont divers. Notre nouvelle technique, le Multi-Modal Inverse Constrained Reinforcement Learning (MMICRL), permet de distinguer et d'apprendre les règles de plusieurs experts à la fois. Elle identifie différents experts dans les données et s'adapte aux contraintes spécifiques de chacun. Le MMICRL affine son processus d'apprentissage grâce à un objectif qui lui permet de reproduire les comportements nuancés de différents experts tout en préservant la diversité des comportements. Intégré à l'apprentissage contrastif pour améliorer sa robustesse, MMICRL a prouvé lors de tests qu'il excellait dans l'identification des contraintes et l'exécution des tâches, surpassant ainsi d'autres méthodes.

Simulation neuronale de l'éclairage pour les scènes urbaines

Simulation neuronale de l'éclairage pour les scènes urbaines
Ava Pun, Gary Sun, Jingkang Wang, Yun Chen, Ze Yang, Sivabalan Manivasagam, Wei-Chiu Ma, Raquel Urtasun

Les changements d'éclairage extérieur peuvent nuire à l'efficacité des robots qui s'appuient sur des données visuelles, en particulier s'ils n'ont pas été entraînés dans des conditions d'éclairage variables. LightSim est notre solution : un outil de simulation de caméra conçu pour créer un ensemble varié et réaliste d'images dans différents scénarios d'éclairage. Ce système utilise les données des capteurs pour générer des modèles 3D détaillés d'environnements urbains, dont les éléments peuvent être modifiés, supprimés ou vus sous de nouvelles perspectives, tout en conservant un éclairage précis. LightSim utilise une combinaison de techniques de rendu fidèle à la réalité et d'ajustements basés sur l'apprentissage pour modifier les conditions d'éclairage, comme la position et l'intensité de la lumière du soleil. Le résultat est un ensemble cohérent de vidéos virtuelles qui imitent les variations de lumière réelles. Les tests démontrent la capacité supérieure de LightSim à reproduire un éclairage réaliste par rapport aux systèmes précédents. Plus important encore, lorsque les robots sont entraînés avec des vidéos de LightSim, leur capacité à percevoir et à comprendre des données visuelles dans des conditions d'éclairage différentes s'améliore nettement.

Limites optimales d'excès de risque pour la minimisation empirique du risque sur la régression linéaire $p$-normée

Limites optimales de l'excès de risque pour la minimisation du risque empirique sur la régression linéaire $p$-normée
Ayoub El Hanchi, Murat Erdogdu

Dans cette étude, nous examinons une méthode statistique connue sous le nom de minimisation empirique du risque, utilisée pour prédire les relations entre les variables dans la régression linéaire, en nous concentrant sur la "norme p" pour des valeurs "p" allant d'un peu plus de 1 à l'infini. Nous découvrons que, lorsque notre modèle prédit parfaitement le résultat sans aucune hypothèse préalable, seul un nombre d'échantillons égal au nombre de variables prédictives est nécessaire pour mettre en évidence la relation exacte. Lorsque "p" est égal ou supérieur à 2, compte tenu d'hypothèses minimales, nous confirmons une estimation fiable de la mesure dans laquelle le risque de notre prédiction peut dépasser le risque réel. Cela s'applique également aux valeurs "p" comprises entre 1 et 2, en supposant que l'applicabilité de la méthode soit confirmée par certaines conditions mathématiques.

Spotlight Poster | Private Distribution Learning with Public Data : Le point de vue de la compression d'échantillons

Apprentissage d'une distribution privée avec des données publiques : Le point de vue de la compression d'échantillons
Shai Ben-David, Alex Bie, Clément L. Canonne, Gautam Kamath, Vikrant Singhal

Cette recherche examine comment apprendre une distribution de données d'une manière qui garde certaines données privées, lorsque l'on dispose également de données publiques, ce que l'on appelle l'apprentissage public-privé. Dans ce scénario, l'apprenant utilise à la fois des données publiques et des données privées provenant d'une distribution inconnue pour estimer cette distribution. L'élément clé est que l'apprenant doit protéger la confidentialité des données privées conformément à des règles de confidentialité strictes, connues sous le nom de confidentialité différentielle pure. Les résultats suggèrent que la capacité d'apprendre à partir de sources de données publiques et privées de cette manière est liée à deux concepts. Le premier consiste à savoir si les données peuvent être représentées par un ensemble plus petit et plus simple, souvent appelé schéma de compression d'échantillons. Le second est une nouvelle idée appelée apprentissage par liste. En exploitant ces relations, l'étude a permis de confirmer des résultats antérieurs sur les distributions gaussiennes et de fournir de nouvelles informations. Il s'agit notamment d'estimations de la quantité de données nécessaires pour l'apprentissage avec des mélanges de distributions gaussiennes, de résultats pour les apprenants qui peuvent gérer les imprécisions et les changements dans la distribution des données, et de la manière dont la capacité d'apprentissage est maintenue lors du mélange et de l'appariement de différentes distributions. Une autre découverte est que lors de l'apprentissage de distributions gaussiennes dans un espace multidimensionnel, il faut au moins le nombre de dimensions d'échantillons publics pour garantir la capacité d'apprentissage privée. Ce nombre est presque aussi élevé que la limite connue actuellement, qui n'est qu'une dimension de plus que le nombre de dimensions.

Apprentissage probabiliste invariant avec des classificateurs linéaires aléatoires

Apprentissage probabiliste invariant avec des classificateurs linéaires aléatoires
Leonardo Cotta, Gal Yehuda, Assaf Schuster, Chris Maddison

Construire des modèles complexes tout en respectant les cohérences propres à chaque tâche est un défi et demande souvent des ressources informatiques importantes. Notre innovation réside dans l'application du hasard pour créer des modèles qui sont à la fois complexes et cohérents, mais qui utilisent moins de ressources. Cette approche repose sur l'adoption d'une version probabiliste de l'universalité et de l'invariance, ce qui permet d'obtenir des modèles plus efficaces en termes de ressources. Nous présentons les classificateurs linéaires aléatoires (RLC), un nouveau type de modèle de classification binaire qui peut approximer de manière probabiliste des fonctions lisses et conserver l'invariance avec une grande probabilité sous certaines contraintes de paramètres et de taille de données. Ces RLC sont spécialement conçus pour les tâches de classification avec invariance sur les ensembles, les graphes et les sphères, et ils y parviennent en utilisant moins de ressources que les réseaux neuronaux conventionnels. Nos expériences confirment que les RLC sont efficaces dans des tâches où les modèles déterministes avec invariance sont souvent moins performants, ce qui démontre l'intérêt et l'efficacité de notre approche probabiliste.

Résolution des interférences lors de la fusion de modèles

Résolution des interférences lors de la fusion de modèles
Prateek Yadav, Derek Tam, Leshem Choshen, Colin Raffel, Mohit Bansal

L'apprentissage par transfert consiste à affiner un modèle déjà formé en se concentrant sur une nouvelle tâche spécifique. Il offre des avantages tels que de meilleures performances, un apprentissage plus rapide et la nécessité de moins d'exemples pour apprendre efficacement. Cependant, ces modèles améliorés sont généralement limités à une seule tâche et ne partagent pas ce qu'ils ont appris avec des modèles similaires. Pour remédier à ce problème, des méthodes ont été mises au point pour combiner ces modèles à tâche unique en un seul modèle capable de traiter plusieurs tâches simultanément, sans nécessiter de formation supplémentaire. Mais ces techniques de fusion ont souvent échoué parce qu'elles ne tenaient pas compte de la manière dont les différentes parties des modèles pouvaient interférer les unes avec les autres, ce qui entraînait une baisse des performances globales. L'article présente une nouvelle méthode appelée TIES-Merging, qui permet de mieux fusionner les modèles : (1) réinitialisant les aspects qui ont très peu changé au cours de la formation, (2) résolvant les conflits lorsque les modèles ne sont pas d'accord sur l'importance plus ou moins grande d'une caractéristique, et (3) ne combinant les caractéristiques que lorsqu'il y a accord sur leur importance. Cette méthode s'est avérée plus efficace dans divers scénarios de test, y compris différents types de tâches, de complexités de modèles et d'architectures. L'étude examine également comment les différents types d'interférences affectent le modèle fusionné, en soulignant la nécessité de traiter les conflits d'importance des caractéristiques.

Évaluation robuste des données avec des valeurs de Banzhaf pondérées

Évaluation robuste des données à l'aide de valeurs de Banzhaf pondérées
Weida Li, Yaoliang Yu

Une étude récente de Wang et Jia s'est attaquée au défi que représente la détermination de l'importance des données individuelles utilisées pour former l'intelligence artificielle. Les méthodes courantes, comme la valeur de Shapley, se heurtent à des facteurs imprévisibles dans les calculs qui conduisent à des classements incohérents de l'importance des données. Wang et Jia suggèrent plutôt d'utiliser la valeur de Banzhaf, qui, selon eux, est moins affectée par cette imprévisibilité. Toutefois, en examinant un ensemble plus large de valeurs de Banzhaf qui ont été ajustées avec des pondérations, l'étude révèle que la valeur de Banzhaf ordinaire n'est pas toujours la plus stable. Les chercheurs utilisent une nouvelle approche appelée bruit de Kronecker, qui les aide à mesurer l'imprévisibilité et à trouver un moyen d'ajuster les valeurs de Banzhaf pour les rendre plus cohérentes. Ils développent une nouvelle méthode qui estime ces valeurs de Banzhaf ajustées de manière plus efficace et plus rapide, et qui donne de bons résultats lorsqu'elle est testée avec du bruit théorique et des données imprévisibles du monde réel. Cela pourrait en faire un outil précieux pour déterminer l'importance de chaque donnée lors de l'apprentissage des systèmes d'IA. Leurs résultats suggèrent que ces valeurs de Banzhaf pondérées offrent un potentiel pour traiter les incertitudes liées à l'attribution d'une valeur aux données d'apprentissage.

Poster oral | Mise à l'échelle des modèles linguistiques contraints par les données

Mise à l'échelle des modèles linguistiques soumis à des contraintes de données
Niklas Muennighoff, Alexander Rush, Boaz Barak, Teven Le Scao, Nouamane Tazi, Aleksandra Piktus, Thomas Wolf, Colin Raffel, Sampo Pyysalo

La mise à l'échelle actuelle des modèles de langage implique souvent d'augmenter le nombre de paramètres et la quantité de données d'entraînement (qui proviennent généralement de l'internet). Cette stratégie pourrait bientôt atteindre un plafond de données en raison du nombre limité de textes disponibles en ligne. Pour répondre à ce défi, notre recherche explore la mise à l'échelle des modèles avec des données limitées. Nous avons expérimenté différents niveaux de réutilisation des données et de limites de calcul, en observant les effets sur des modèles comportant jusqu'à 9 milliards de paramètres. Nous avons appris que la réutilisation des données plusieurs fois, jusqu'à quatre époques, ne nuit pas au modèle si les ressources de calcul restent fixes. Au-delà de ce point, cependant, le bénéfice d'une puissance de calcul supplémentaire plafonne, n'apportant pas de gains supplémentaires dans la performance du modèle. Nous proposons une nouvelle formule pour déterminer quand investir dans les ressources informatiques, en tenant compte des rendements décroissants de la réitération des données et des paramètres excédentaires. Notre recherche teste également d'autres moyens d'améliorer des ensembles de données limités pour la formation, afin de maintenir l'amélioration du modèle sans dépendre de textes vastes et uniques.

Mécanisme d'attention façonnée dans la limite d'une profondeur et d'une largeur infinies lors de l'initialisation

Mécanisme d'attention façonnée dans la limite d'une profondeur et d'une largeur infinies lors de l'initialisation
Lorenzo Noci, Chuning Li, Mufan Bill Li, Bobby He, Thomas Hofmann, Chris Maddison, Daniel M. Roy

Dans le domaine de l'apprentissage profond, les transformateurs sont un type d'architecture de réseau qui est devenu populaire en raison de son efficacité dans la gestion des séquences, comme le langage. Cet article explore un moyen de prédire la facilité avec laquelle de tels réseaux peuvent être formés en analysant la matrice de covariance des sorties - un instantané de la dynamique d'apprentissage du réseau - en particulier lorsque ces réseaux sont mis à l'échelle de manière significative. Pour ce faire, nous avons modifié le mécanisme d'attention, un élément fondamental de la façon dont les Transformers évaluent l'importance des différentes parties des données. Nous avons introduit des ajustements pour les réseaux dans la limite proportionnelle, où la profondeur et la largeur sont infiniment grandes. L'étude a montré qu'au début de la formation, le comportement d'apprentissage attendu de ces réseaux massifs est capturé par une équation différentielle stochastique (EDS) définie par la façon dont la profondeur s'échelonne avec la largeur. Pour garantir la stabilité dans ce scénario à grande échelle, il est essentiel d'ajuster la fonction "softmax" dans le mécanisme d'attention du Transformer. Cela implique un équilibre délicat introduit par des ajustements de centrage et de mise à l'échelle par rapport à la taille du réseau. Le réseau qui en résulte, appelé "transformateur façonné", fait preuve de stabilité et de prévisibilité dans l'apprentissage, même lorsque le réseau est vaste. Les simulations confirment que le modèle SDE reflète avec une précision surprenante le comportement réel de réseaux importants, ce qui ouvre la voie à de futurs modèles d'apprentissage profond à grande échelle pouvant être entraînés.

Processus gaussiens calibrés nets

Processus gaussiens calibrés nets
Alexandre Capone, Sandra Hirche, Geoff Pleiss

Les processus gaussiens sont largement utilisés en ingénierie et en science pour prédire les résultats et estimer les incertitudes. Cependant, ces estimations ne correspondent pas toujours à ce qui est observé dans le monde réel, un problème connu sous le nom d'erreur d'étalonnage. Les méthodes actuelles pour résoudre ce problème consistent généralement à élargir la plage d'incertitude, mais cela peut conduire à des intervalles de confiance trop larges et peu pratiques. Pour résoudre ce problème, l'article décrit une nouvelle méthode qui génère des intervalles de confiance fréquentistes pour les processus gaussiens à l'aide d'un mécanisme mathématique similaire au calcul de la variance prédictive a posteriori. Ces intervalles de confiance sont libres d'utiliser des hyperparamètres de noyau différents de ceux de la prédiction moyenne a posteriori, ce qui permet d'obtenir des intervalles de confiance avec des garanties de couverture frequentistes étroites. Les résultats montrent que cette nouvelle méthode d'étalonnage est plus performante que les méthodes existantes, ce qui promet une meilleure fiabilité dans les applications pratiques.

Équilibre coopératif basé sur la similarité

Équilibre coopératif basé sur la similarité
Caspar Oesterheld, Johannes Treutlein, Roger Grosse, Vincent Conitzer, Jakob Foerster

Dans le domaine de l'apprentissage automatique, qui évolue rapidement, les systèmes deviennent de plus en plus indépendants et doivent souvent prendre des décisions tout en interagissant avec d'autres systèmes similaires. Un problème classique où la coopération est essentielle est le dilemme du prisonnier, une situation dans laquelle deux parties doivent décider de coopérer ou de se trahir mutuellement sans connaître la décision de l'autre. Selon la théorie des jeux traditionnelle, les agents d'apprentissage automatique devraient choisir la trahison parce qu'elle semble plus sûre. Des recherches antérieures ont suggéré que si ces agents pouvaient avoir une vision complète de la "pensée" de l'autre - comme voir le code source de l'autre ou, pour les agents d'apprentissage automatique, leurs poids - ils pourraient choisir de coopérer. Mais une ouverture totale n'est pas toujours pratique, alors qu'un aperçu partiel des mécanismes de l'autre est plus courant. L'article présente un scénario dans lequel les agents ne connaissent qu'un seul élément d'information les uns sur les autres : un chiffre indiquant le degré de similitude d'un agent par rapport à l'autre. Les auteurs prouvent que même cette mince information est suffisante pour parvenir à des décisions coopératives, tout comme s'ils disposaient d'une transparence totale. En outre, ils montrent que les agents de ML peuvent effectivement apprendre à coopérer dans ce contexte grâce à des techniques d'apprentissage simples. Ces résultats pourraient s'avérer essentiels pour la conception de systèmes de ML qui doivent interagir et prendre des décisions dans des contextes sociaux.

Prédiction de l'expression génétique résolue spatialement à partir d'images histologiques via l'apprentissage bimodal contrastif

Prédiction de l'expression génétique résolue spatialement à partir d'images histologiques via l'apprentissage bimodal contrastif
Ronald Xie, Kuan Pang, Sai W. Chung, Catia T. Perciani, Sonya A. MacParland, Bo Wang, Gary D. Bader

Cet article présente une nouvelle méthode appelée BLEEP qui aide les médecins et les chercheurs à examiner les tissus de plus près et à comprendre rapidement les gènes en jeu. En examinant des lames de tissus teintées avec des colorants spéciaux, BLEEP utilise une technique sophistiquée pour cartographier les gènes associés à différentes maladies. Il apprend à partir d'un grand nombre d'exemples à prédire l'activité des gènes dans n'importe quelle partie d'une lame de tissu. Cette méthode est plus rapide et moins coûteuse que les méthodes traditionnelles d'étude de l'expression des gènes. Testé sur des échantillons de foie humain, BLEEP a surpassé les méthodes actuelles, promettant d'accélérer la recherche et le diagnostic des maladies tout en réduisant les coûts. Cette percée laisse entrevoir un avenir où l'analyse des tissus au niveau génétique pourrait devenir une routine pour les professionnels de la santé, améliorant ainsi notre compréhension et le traitement de diverses maladies.

Réseaux neuronaux structurés pour l'estimation de la densité et l'inférence causale

Réseaux neuronaux structurés pour l'estimation de la densité et l'inférence causale
Asic Q. Chen, Ruian Shi, Xiang Gao, Ricardo Baptista, Rahul G. Krishnan

L'ajout de modèles ou de structures spécifiques aux réseaux neuronaux peut les aider à effectuer certaines tâches plus efficacement. Par exemple, lors de la création de modèles qui génèrent des données, il est utile que le modèle puisse comprendre et respecter les relations et les indépendances entre différents éléments de données, à l'instar d'un réseau bayésien, un modèle statistique qui représente un ensemble de variables et leurs dépendances conditionnelles. L'étude propose une nouvelle approche appelée réseau neuronal structuré (StrNN), qui intègre ces modèles en bloquant sélectivement certaines connexions dans le réseau. La clé de la conception du StrNN est un regard neuf sur la façon dont les réseaux neuronaux peuvent être liés au concept de factorisation de la matrice binaire, une méthode mathématique permettant de décomposer des problèmes complexes en parties plus simples. Alors que le problème de la conception de ces structures est généralement très complexe (NP-hard) - ce qui signifie qu'il est très exigeant en termes de calcul - la recherche propose de nouveaux algorithmes qui gèrent cette complexité en adaptant l'architecture du réseau, garantissant ainsi que le modèle se comporte de la manière souhaitée. Le potentiel de StrNN est mis en évidence dans trois scénarios : l'estimation des probabilités pour les données binaires et continues, et l'analyse des relations de cause à effet - ce qui est crucial pour comprendre l'influence d'une variable sur une autre. Ces travaux ouvrent la voie à des réseaux neuronaux plus efficaces en termes de données, servant de tremplin à l'utilisation de modèles génératifs pour estimer les effets de causalité.

Génération d'images à partir de textes en fonction du sujet par l'intermédiaire de l'apprentissage

Génération de texte-image pilotée par le sujet via l'apprentissage
Wenhu Chen, Hexiang Hu, Yandong Li, Nataniel Ruiz, Xuhui Jia, Ming-Wei Chang, William Cohen

La création d'images à partir de descriptions textuelles a beaucoup progressé grâce à des modèles tels que DreamBooth, qui peut produire des images hautement personnalisées d'un sujet spécifique à partir d'une poignée d'exemples. Bien qu'efficace, cette approche est coûteuse car elle nécessite l'apprentissage d'un modèle distinct pour chaque sujet. Cet article présente SuTI, un nouveau modèle qui crée des images d'un nouveau sujet dans différentes scènes immédiatement après avoir vu quelques exemples, évitant ainsi la nécessité d'une formation coûteuse pour chaque modèle. SuTI utilise l'apprentissage par apprentissage, où un modèle "apprenti" apprend à partir des résultats de nombreux modèles "experts", chacun formé sur un sujet différent à l'aide d'un grand nombre de grappes d'images collectées sur l'internet. SuTI imite ainsi les capacités des experts à générer très rapidement des images personnalisées. Par rapport aux méthodes existantes qui reposent sur un réglage fin pour chaque sujet, SuTI fonctionne beaucoup plus rapidement - 20 fois plus vite que les méthodes de pointe actuelles. Lorsqu'elle a été testée par rapport à d'autres modèles sur DreamBench et sa version actualisée, DreamBench-v2, SuTI a excellé, en particulier dans sa capacité à capturer l'essence du sujet et à s'aligner sur les descriptions textuelles, d'après les évaluations effectuées par des humains.

Oral Poster | L'efficacité surprenante des modèles de diffusion pour l'estimation du flux optique et de la profondeur monoculaire

L'efficacité surprenante des modèles de diffusion pour l'estimation du flux optique et de la profondeur monoculaire
Saurabh Saxena, Charles Herrmann, Junhwa Hur, Abhishek Kar, Mohammad Norouzi, Deqing Sun, David J. Fleet

Récemment, un type de modèle d'IA connu sous le nom de modèle probabiliste de diffusion de débruitage a fait des vagues dans le domaine de la création d'images, réputé pour la qualité et la variété de ses résultats. Cette recherche révèle qu'ils sont aussi remarquablement bons pour estimer le flux optique (le modèle de mouvement apparent des objets dans une scène visuelle) et la profondeur monoculaire (la distance des objets par rapport au point de vue, à l'aide d'une seule caméra). Ce qui est surprenant, c'est qu'ils y parviennent sans avoir recours à des structures spécialisées ou à des mesures d'erreur sur mesure, généralement essentielles pour ces tâches. Contrairement aux méthodes traditionnelles qui ne donnent qu'une seule réponse, ces modèles de diffusion peuvent utiliser des méthodes de Monte Carlo, une technique statistique, pour représenter les incertitudes et les multiples réponses possibles à des questions telles que le mouvement des objets et la profondeur. En combinant astucieusement l'apprentissage auto-supervisé (où le système s'auto-apprend à l'aide des données disponibles), une combinaison de données simulées et réelles et de nouvelles méthodes techniques qui traitent les données d'apprentissage imparfaites, les chercheurs ont formé des modèles de premier ordre pour l'estimation de la profondeur et du débit. Grâce à des tests et à des ajustements approfondis, ainsi qu'à des améliorations spéciales, ces modèles - appelés DDVM (Denoising Diffusion Vision Models) - ont établi de nouveaux records de précision dans la prédiction de la distance des objets sur des images de scènes d'intérieur et du mouvement des objets dans des scénarios de conduite, dépassant d'environ 25 % les méthodes antérieures.

Tartarus : une plate-forme d'analyse comparative pour la conception moléculaire inverse réaliste et pratique

Tartarus : une plate-forme d'analyse comparative pour la conception moléculaire inverse réaliste et pratique
AkshatKumar Nigam, Robert Pollice, Gary Tom, Kjell Jorner, John Willes, Luca A. Thiede, Anshul Kundaje, Alan Aspuru-Guzik

L'un des grands défis de la chimie consiste à concevoir rapidement des molécules dotées des propriétés souhaitées, ce qui est essentiel pour faire progresser la découverte de médicaments, la science des matériaux et la catalyse. Malgré les progrès réalisés en matière de puissance informatique et d'intelligence artificielle, il y a eu moins de progrès en ce qui concerne les tests de référence - des tests réalistes pour voir si ces méthodes peuvent gérer la conception de molécules dans le monde réel. Cette étude présente une série de points de référence pratiques, utilisant des simulations physiques pour reproduire la nature complexe de la conception de molécules utilisées dans les matériaux, les produits pharmaceutiques et les réactions chimiques. Les chercheurs ont utilisé ces références pour tester plusieurs algorithmes établis et ont constaté que le succès d'un algorithme dépend fortement du type spécifique de défi de conception de molécules auquel il est confronté. Ces nouvelles références visent à orienter le développement des techniques de conception de molécules vers des scénarios plus réalistes, en comblant le fossé entre les promesses théoriques et les applications pratiques dans l'industrie et le monde universitaire.

Spotlight Poster | Clonage de la pensée : Apprendre à penser tout en agissant en imitant la pensée humaine

Le clonage de la pensée : Apprendre à penser tout en agissant en imitant la pensée humaine
Shengran Hu, Jeff Clune

Le langage est souvent considéré comme un aspect essentiel de la pensée humaine, car il nous confère des capacités exceptionnelles de généralisation, d'exploration, de planification, de replanification et d'adaptation à de nouvelles situations. Cependant, les agents d'intelligence artificielle pensent rarement en langage naturel. Nous présentons une nouvelle méthode, le clonage de la pensée, qui permet aux agents d'intelligence artificielle d'imiter les humains qui pensent à voix haute tout en agissant, leur apprenant ainsi à penser et à agir comme des humains. Les enfants humains reçoivent des enseignants un retour d'information non seulement sur les actions qu'ils entreprennent, mais aussi sur le raisonnement qui sous-tend leurs actions. Nous comparons le clonage par la pensée à la pratique standard qui consiste à faire imiter par les agents d'IA les actions (uniquement) que les humains entreprennent lorsqu'ils résolvent des tâches, ce que l'on appelle le clonage comportemental. Les expériences révèlent que le clonage par la pensée non seulement apprend plus vite et est plus performant que le clonage comportemental, mais qu'il est également plus efficace et apprend plus vite dans des situations nouvelles. Le clonage par la pensée présente également des avantages importants pour la sécurité et l'interprétabilité de l'IA. Parce que nous pouvons observer les pensées de l'IA, nous pouvons mieux comprendre pourquoi l'agent fait certaines choses, ce qui permet également de corriger plus facilement la formation de l'agent si elle ne fonctionne pas pour une tâche donnée. Si un agent prévoit de faire quelque chose de dangereux, nous pouvons également l'en empêcher. Dans l'ensemble, en formant les agents à penser et à se comporter, le clonage de la pensée crée des agents plus sûrs et plus puissants.

Outils de vérification des preuves des données de formation

Outils de vérification des preuves de données d'entraînement
Dami Choi, Yonadav Shavit, David Duvenaud

Que pourrait vérifier un "inspecteur nucléaire" pour les grands modèles neuronaux s'il avait accès aux points de contrôle de l'entraînement ? Nous proposons un protocole simple pour vérifier les affirmations concernant les très grands cycles d'entraînement SGD. Nous montrons comment, sur la base des points de contrôle de poids, il est possible de détecter les affirmations frauduleuses concernant :

  1. La taille du modèle et la durée de l'entraînement.
  2. Quelles données ont été utilisées.
  3. Si le modèle a été initialisé de manière aléatoire.
  4. S'il a été secrètement orienté vers un modèle pré-entraîné.

Notre système est simple : Les formateurs de modèles fixent leur graine aléatoire à un hachage des données et du code, et enregistrent des points de contrôle réguliers. Le vérificateur recherche les anomalies dans les statistiques d'entraînement et réexécute les segments suspects. La recherche d'anomalies est peu coûteuse, par exemple 1,3 % de plus sur GPT2.

Former des modèles privés qui savent ce qu'ils ne savent pas

Former des modèles privés qui savent ce qu'ils ne savent pas
Stephan Rabanser, Anvith Thudi, Abhradeep Thakurta, Krishnamurthy Dvijotham, Nicolas Papernot

Il est difficile de créer des modèles d'apprentissage profond qui font des erreurs prudentes plutôt que des erreurs trop confiantes, et c'est encore plus difficile lorsque les modèles doivent protéger la confidentialité des données. La protection de la vie privée, connue sous le nom de confidentialité différentielle (DP), peut introduire un caractère aléatoire supplémentaire qui complique l'apprentissage. Cette étude examine les classificateurs sélectifs, qui ont la possibilité de ne pas faire de prédiction en cas d'incertitude, dans le contexte de la protection différentielle de la vie privée. Les chercheurs constatent que les méthodes courantes de prédiction sélective pourraient échouer dans le cadre de la DP, car elles risqueraient de divulguer des informations privées. Ils notent toutefois qu'une méthode récente, qui utilise des points de contrôle issus d'algorithmes d'apprentissage privés standard, fonctionne bien avec le DP. L'étude révèle également que si le DP protège la vie privée, il affecte négativement les performances des classificateurs sélectifs. Pour évaluer l'impact du DP sur les classificateurs sélectifs à différents niveaux de confidentialité, les auteurs introduisent une nouvelle approche d'évaluation. Leurs expériences montrent que s'il est possible d'atteindre les performances des modèles non privés, il faut pour cela sacrifier la couverture du modèle, ou la gamme de données qu'il peut prédire en toute confiance, au fur et à mesure que les mesures de protection de la vie privée deviennent plus strictes.

Comprendre la binarisation par réseau neuronal avec des quantificateurs proximaux avant et arrière

Compréhension de la binarisation par réseau neuronal à l'aide de quantificateurs proximaux vers l'avant et vers l'arrière
Yiwei Lu, Yaoliang Yu, Xinlin Li, Vahid Partovi Nia

BinaryConnect (BC) et ses variantes sont des méthodes courantes de binarisation des réseaux neuronaux, qui simplifient les réseaux en valeurs binaires pour plus d'efficacité. Mais la binarisation se heurte à un problème lors de la formation, car le gradient de la fonction de signe est nul, ce qui interrompt la progression car les poids ne peuvent pas être mis à jour. Pour contourner ce problème, des "astuces d'apprentissage" telles que les gradients approximatifs sont utilisées pour poursuivre l'apprentissage, malgré l'absence de fondements théoriques solides. Cet article cherche à rationaliser ces pratiques dans une optique d'optimisation. Pour ce faire, il fait évoluer ProxConnect (PC) vers ProxConnect++ (PC++), qui englobe diverses méthodes de binarisation. Les auteurs présentent une approche systématique de l'élaboration des quantificateurs, outils qui convertissent les signaux continus en signaux binaires, en assurant des garanties théoriques de performance. Ils démontrent cette avancée avec le nouvel algorithme BNN++. Grâce à des tests de classification d'images sur des réseaux complexes, BNN++ a montré des résultats prometteurs, suggérant qu'il pourrait améliorer la formation des réseaux binaires tout en renforçant le cadre théorique qui sous-tend ces techniques d'optimisation.

VisAlign : ensemble de données permettant de mesurer le degré d'alignement entre l'IA et l'homme en matière de perception visuelle

VisAlign : ensemble de données pour mesurer le degré d'alignement entre l'IA et l'homme dans la perception visuelle
Jiyoung Lee, Seungho Kim, Seunghyun Won, Joonseok Lee, Marzyeh Ghassemi, James Thorne, Jaeseok Choi, O-Kil Kwon, Edward Choi

L'alignement de l'IA garantit que les modèles d'apprentissage automatique poursuivent des résultats qui s'alignent sur les intentions, les préférences ou l'éthique humaines. Cependant, en raison de la nature opaque des modèles d'apprentissage profond à grande échelle, il est difficile de diriger manuellement leurs actions. Pour garantir la sécurité de l'IA, il peut être crucial de mesurer à quel point la perception visuelle de l'IA correspond à la perception humaine. Cet article présente un nouvel ensemble de données spécialement conçu pour évaluer l'alignement visuel entre l'IA et l'homme sur la base de la classification d'images, un aspect clé de la compréhension visuelle. Pour être efficace, un tel ensemble de données doit couvrir un large éventail de scénarios du monde réel et inclure le jugement humain définitif comme norme. L'ensemble de données proposé comprend trois types d'échantillons d'images, classés comme suit : images à action obligatoire (ou à classification obligatoire), images à abstention obligatoire et images incertaines. Ces catégories reflètent la quantité et la clarté des informations visuelles présentes. Par exemple, les images incertaines sont très floues, et l'étiquetage de ces images a été fourni par la foule afin de refléter fidèlement la perception humaine. La structure de l'ensemble de données est conforme à la théorie de l'échantillonnage, aux principes statistiques de la conception d'enquêtes et à l'avis des experts. À l'aide de cet ensemble de données, l'article évalue dans quelle mesure cinq grands modèles de perception visuelle et sept méthodes permettant de décider quand s'abstenir de faire une prédiction s'alignent sur le jugement visuel humain, contribuant ainsi au domaine de la sécurité de l'IA.

Spotlight Poster | Wasserstein Quantum Monte Carlo : une nouvelle approche pour résoudre l'équation de Schrödinger à plusieurs corps quantiques

Wasserstein Quantum Monte Carlo : une nouvelle approche pour résoudre l'équation de Schrödinger à plusieurs corps quantiques
Kirill Neklyudov Jannes Nys, Luca Thiede, Juan Carrasquilla, Qiang Liu, Max Welling, Alireza Makhzani

Nous proposons "Wasserstein Quantum Monte Carlo", une nouvelle approche pour résoudre l'équation de Schrödinger quantique à plusieurs corps, qui est un problème fondamental et difficile dans les domaines de la physique quantique, de la chimie quantique et des sciences des matériaux. Nous abordons la minimisation de la fonction énergétique dans la MQ d'un point de vue purement probabiliste, plutôt que de la formulation conventionnelle de la fonction d'onde. Ce nouveau cadre nous permet de transformer le problème de minimisation de l'énergie en un problème d'inférence probabiliste, où la densité cible est la densité de l'état fondamental. Nous empruntons ensuite des idées à la littérature sur l'inférence probabiliste et proposons d'utiliser les flux de gradient de Wasserstein (projetés) pour minimiser la fonctionnelle d'énergie directement dans l'espace des distributions. Nous montrons que notre méthode, appelée Wasserstein Quantum Monte Carlo, converge plus rapidement que la méthode conventionnelle Quantum Variational Monte Carlo (que nous interprétons comme un flux de gradient de Fisher-Rao projeté) pour différents systèmes moléculaires.

Atelier : L'imagerie médicale rencontre NeurIPS

L'imagerie médicale rencontre NeurIPS
DOU QI, Konstantinos Kamnitsas, Yuankai Huo, Xiaoxiao Li, Daniel Moyer, Danielle Pace, Jonas Teuwen, Islem Rekik

'Medical Imaging meets NeurIPS' est un atelier satellite créé en 2017. L'atelier vise à rassembler les chercheurs des communautés de l'informatique de l'image médicale et de l'apprentissage automatique. L'objectif est de discuter des principaux défis dans le domaine et des possibilités d'unir les forces. Cette année, l'atelier proposera des sessions orales et de posters en ligne en mettant l'accent sur les interactions avec le public. En outre, une série de conférenciers invités de haut niveau issus de l'industrie, du monde universitaire, de l'ingénierie et des sciences médicales donneront un aperçu des avancées récentes, des défis, des dernières technologies et des efforts en matière de partage des données cliniques.

En rapport :

Trois personnes regardent fixement un ordinateur portable portant un logo Vector.
IA générative
Recherche

Évaluation comparative de Grok-1 de xAI

Un homme regarde un tableau blanc sur lequel sont inscrites des formules en rouge.
Perspectives
Une IA digne de confiance

Comment mettre en œuvre des systèmes d'IA en toute sécurité

Frank Rudzicz, membre de la faculté Vector, accueillant les participants à l'atelier.
Traitement du langage naturel
Recherche

Une première étape : Le traitement du langage naturel à la une du dernier atelier de l'Institut Vecteur