Chercheurs en vecteurs présentant plus de 65 articles à NeurIPS 2023

4 décembre 2023

Recherche Insights2023 2023

Des chercheurs en vecteurs présentent 65 communications lors de la conférence de cette année sur les systèmes de traitement de l’information neuronale (NeurIPS). Se déroulant du 10 au 16 décembre en ligne à La Nouvelle-Orléans et en ligne, les professeurs de Vector, les affiliés du corps professoral et les boursiers postdoctoraux présentent de nouveaux travaux qui repoussent les limites dans différents domaines de recherche en IA, avec le potentiel d’influencer de nombreux aspects de la vie quotidienne, notamment la santé, la découverte de matériaux chimiques, la confidentialité des données, la musique et notre compréhension du monde naturel.

Voici des résumés simplifiés de certains des articles et ateliers acceptés par les chercheurs de Vector

Descriptions d’articles rédigées par des coauteurs et/ou de l’IA générative.

Un pas vers l’évaluation mondiale de la biodiversité : le jeu de données d’insectes BIOSCAN-1M

Un pas vers l’évaluation mondiale de la biodiversité : le jeu de données d’insectes BIOSCAN-1M
Zahra Gharaee, ZeMing Gong, Nicholas Pellegrino, Iuliia Zarubiieva, Joakim Bruslund Haurum, Scott C. Lowe, Jaclyn T.A. McKeown, Chris C.Y. Ho, Joschka McLeod, Yi-Yun C Wei, Jireh Agda, Sujeevan Ratnasingham, Dirk Steinke, Angel X. Chang, Graham W. Taylor, Paul Fieguth

Cette étude crée un catalogue de la biodiversité des insectes : le BIOSCAN-Insect Dataset. L’ensemble de données contient des images marquées de divers insectes, classées taxonomiquement par des experts du domaine, et recueillent des données génomiques associées sous forme de séquences nucléotidiques brutes « code-barres ADN ». L’ensemble de données comprend plus d’un million d’images pour entraîner des modèles de vision par ordinateur pour l’évaluation taxonomique. Il pourrait aussi intéresser la communauté plus large de l’apprentissage automatique en raison des défis intrinsèques qu’il présente, tels que la répartition biaisée des images selon les types d’insectes et la complexité détaillée de l’étiquetage taxonomique. Au-delà de l’identification des insectes à partir d’images, ce travail contribue également aux efforts visant à utiliser l’imagerie et les données génomiques de manière complémentaire pour étudier la biodiversité. L’article présente le jeu de données et explore la tâche de classification à l’aide de méthodes modernes basées sur des convolutions et des transformateurs.

Vieillir avec GRACE : Montage de modèles à vie avec des adaptateurs clé-valeur discrets

Vieillir avec GRACE : Montage de modèles à vie avec des adaptateurs clé-valeur discrets
Thomas Hartvigsen, Swami Sankaranarayanan, Hamid Palangi, Yoon Kim, Marzyeh Ghassemi

Comme tout outil, les modèles d’IA peuvent devenir obsolètes ou commencer à se comporter de façon inattendue. Dans cet article, nous discutons d’un nouvel outil appelé GRACE, une méthode d’édition de modèles à vie qui peut affiner ces modèles d’IA chaque fois qu’ils se comportent mal, sans perturber leur fonctionnement global. C’est comme peaufiner un instrument de musique sans en changer le caractère. GRACE fait cela en créant une liste interne de modifications, plutôt qu’en modifiant la structure du modèle. Il peut le faire des milliers de fois en n’utilisant que des exemples d’erreurs, ce qui est une nouvelle réussite. Nous avons testé GRACE sur divers modèles d’IA populaires et constaté qu’il corrigeait non seulement efficacement les erreurs, mais s’adaptait aussi bien à de nouvelles situations inédites.

Affiche en vedette | AlpacaFarm : un cadre de simulation pour les méthodes qui apprennent à partir des retours humains

AlpacaFarm : un cadre de simulation pour les méthodes qui apprennent à partir des retours humains
Yann Dubois, Xuechen Li, Rohan Taori, Tianyi Zhang, Ishaan Gulrajani, Jimmy Ba, Carlos Guestrin, Percy Liang, Tatsunori Hashimoto

AlpacaFarm est un simulateur novateur conçu pour relever trois obstacles principaux au développement de grands modèles de langage comme ChatGPT : la collecte de données coûteuse, les évaluations peu fiables et l’absence de méthodes standard. Il crée des invites LLM pour des retours humains simulés, réduisant ainsi les coûts de 45 fois comparé à l’utilisation de véritables travailleurs de foule tout en maintenant une grande cohérence avec les réponses humaines. AlpacaFarm introduit un mécanisme d’évaluation automatique, confirmé par des interactions réelles, et fournit des implémentations standard pour des méthodes telles que PPO et l’itération experte, utilisant l’apprentissage par rétroaction par paires. Nous constatons que les méthodes utilisant un modèle de récompense peuvent s’améliorer substantiellement par rapport à l’ajustement fin supervisé et que notre implémentation PPO de référence conduit à une amélioration de 10% du taux de victoire par rapport à Davinci003.

Une alternative à la variance : déviation de Gini pour un gradient de politique averse au risque

Une alternative à la variance : déviation de Gini pour un gradient de politique averse au risque
Yudong Luo, Guiliang Liu, Pascal Poupart, Yangchen Pan

Dans l’étude de l’intelligence artificielle, plus précisément de l’apprentissage par renforcement (RL), il est courant d’enseigner aux machines à prendre des décisions prudentes. Traditionnellement, cela se fait en contrôlant l’imprévisibilité des résultats de performance de la machine. Cependant, il peut s’agir d’un processus sensible qui peut nuire à l’apprentissage. L’article propose une approche alternative avec une nouvelle mesure de risque appelée déviation de Gini. Les auteurs proposent une nouvelle stratégie pour que les machines apprennent tout en gérant ce risque. Les tests ont montré que leur méthode surpasse les anciennes stratégies en maintenant des performances efficaces avec moins de risques, réussissant dans les domaines où les méthodes précédentes étaient inadéquates pour guider efficacement le comportement des machines.

Batchnorm permet des attaques radiales non supervisées

Batchnorm permet des attaques radiales non supervisées
Amur Ghose, Apurv Gupta, Yaoliang Yu, Pascal Poupart

Les chercheurs en vision par ordinateur doivent souvent tester la robustesse des systèmes de reconnaissance d’images en essayant de les tromper avec des images altérées, appelées exemples adversariaux. Typiquement, pour créer ces images trompeuses, il faut accéder aux résultats du modèle, tels que les étiquettes de classification et les niveaux de confiance associés. Cependant, cette étude a révélé que, lorsqu’il s’agit de modèles d’apprentissage profond pour la reconnaissance d’images utilisant une certaine technique appelée normalisation par lots, des exemples adversariaux peuvent être élaborés simplement en examinant les calculs en cours de processus du modèle. Ils peuvent le faire en se concentrant sur l’écart de ces calculs par rapport à un type standard de distribution géométrique, sans connaître les labels réels ou le résultat final. Ces calculs en cours de processus forment naturellement des motifs, ressemblant à des formes et distributions mathématiques bien comprises. Ils ont aussi découvert que cette tactique peut révéler une faille de sécurité dans ces modèles, y compris lorsqu’ils sont adaptés à d’autres tâches. Plus précisément, la vulnérabilité est liée à l’utilisation de la normalisation par lots, et sa suppression peut réduire le risque. De plus, cette découverte est importante non seulement pour les modèles de reconnaissance d’image, mais aussi pour les modèles les plus récents basés sur les transformateurs, en particulier ceux conçus pour traiter l’information visuelle.

Inférence distribuée et ajustement fin des grands modèles de langage sur Internet

Inférence distribuée et ajustement fin des grands modèles de langage sur Internet
Alexander Borzunov, Dmitry Baranchuk, Tim Dettmers, Max Ryabinin, Younes Belkada, Artem Chumachenko, Pavel Samygin, Colin Raffel

Cette étude introduit Petals, un nouveau système qui permet aux chercheurs d’unir leurs forces et de combiner leur puissance de calcul pour utiliser plus efficacement de grands modèles. Les grands modèles récents nécessitent des ordinateurs puissants pour fonctionner, ce que beaucoup de chercheurs individuels n’ont pas. Il existe quelques solutions de contournement comme stocker des parties du modèle ailleurs (déchargement de la RAM) ou utiliser des services en ligne (API hébergées), mais ces inconvénients ont des inconvénients : le déchargement rend les modèles trop lents pour une utilisation en temps réel, et les API ne permettent pas aux chercheurs de modifier les modèles au besoin pour des études approfondies. Avec les pétales, vous pouvez utiliser même les plus gros modèles sur des systèmes informatiques classiques sans les problèmes d’autres méthodes. De plus, Pétales offre un aperçu transparent du fonctionnement interne des modèles, ce qui est essentiel pour les chercheurs qui souhaitent leur apporter des personnalisations et améliorations spécifiques.

Distribution : Apprentissage et robustesse

Distribution : Apprentissage et robustesse
Shai Ben-David, Alex Bie, Gautam Kamath, Tosca Lechner

Cette étude examine dans quelle mesure l’IA peut apprendre des données et rester robuste lorsque les données sont entachées. En général, on espère que si une IA peut apprendre à partir de données propres, elle pourrait aussi gérer des données corrompues dans une certaine mesure par une source malveillante. Les chercheurs se sont concentrés sur l’estimation d’une distribution de probabilité inconnue et ont découvert que cela est vrai lorsque la perturbation ne consiste qu’à ajouter des données trompeuses. Par exemple, sous un modèle de contamination appelé Huber, si un adversaire ajoute de fausses informations à l’ensemble de données, l’IA peut quand même apprendre efficacement. Mais la situation change si l’adversaire commence à retirer des points de données de l’ensemble de données – un processus appelé contamination soustractive. Dans ce cas, si l’IA a appris à partir de données parfaites, cela ne signifie pas nécessairement qu’elle s’en sortira bien avec le jeu de données compromis. Cela remet en question l’hypothèse selon laquelle la capacité d’apprendre dans des situations idéales suppose souvent que l’apprentissage dans des conditions moins qu’idéales est aussi possible. La recherche discute également des conséquences de leurs découvertes pour les méthodes de compression des données et l’apprentissage avec des garanties de confidentialité, comme la confidentialité différentielle.

Équivalence des modèles distributionnels pour l’apprentissage par renforcement sensible au risque

Équivalence des modèles distributionnels pour l’apprentissage par renforcement sensible au risque
Tyler Kastner, Murat A. Erdogdu, Amir-massoud Farahmand

Le monde dans lequel nous vivons est intrinsèquement stochastique, et chaque décision que nous prenons nous oblige à considérer les risques qui y sont associés. L’apprentissage par renforcement sensible au risque se concentre sur la conception d’agents capables de prendre des décisions en tenant compte du risque, qu’un agent apprend en interagissant avec l’environnement. Il est souvent bénéfique d’apprendre un modèle de l’environnement que l’agent peut ensuite utiliser pour interagir plutôt que d’utiliser l’environnement lui-même. Cette approche permet à un agent d’effectuer moins d’interactions avec l’environnement réel; C’est particulièrement important lorsque les interactions avec l’environnement réel sont coûteuses, ou dans des applications critiques pour la sécurité, où il faut éviter les erreurs dans l’environnement réel. Dans ce travail, nous étudions le problème de la meilleure façon d’apprendre de tels modèles pour un apprentissage sensible au risque. Cette question a été étudiée à de nombreuses reprises dans le contexte d’un apprentissage neutre au risque, cependant nous montrons que ces approches sont loin d’être optimales pour un contexte sensible au risque. Nous introduisons un cadre général pour apprendre ces modèles, et démontrons qu’on peut choisir quel type de risque le modèle devrait être le plus conscient. Nous montrons que notre cadre peut être combiné avec une large gamme d’algorithmes existants sans modèles, et montrons empiriquement les avantages de notre approche.

Article en vedette | Contrôle de la dispersion statistique sans distribution pour des applications sociétales

Contrôle de la dispersion statistique sans distribution pour des applications sociétales
Zhun Deng, Thomas P. Zollo, Jake C. Snell, Toniann Pitassi, Richard Zemel

Pour les systèmes d’IA qui prennent en charge des tâches avec de graves conséquences, il est essentiel de comprendre la fiabilité du système. Traditionnellement, l’objectif est de prédire la précision globale du système ou ses marges d’erreur. Pourtant, dans les domaines où les décisions ont des impacts sociétaux importants, il est nécessaire de s’assurer que leurs erreurs n’affectent pas injustement différents groupes. Pour y remédier, cet article présente un cadre novateur qui va au-delà de la performance moyenne, évaluant à quel point les décisions d’un système sont équitables à travers une population. C’est une approche plus large qui tient compte d’une variété de résultats possibles et de leurs effets sur la société, et qui peut gérer des analyses statistiques plus complexes que les techniques précédentes. L’efficacité de ce cadre a été prouvée dans diverses applications, telles que la détection de langage nuisible, l’aide aux diagnostics médicaux à partir d’images et la formulation de recommandations de films. Leur travail est un pas vers une IA responsable, juste et fiable pour des situations à enjeux élevés. Cette recherche souligne l’importance non seulement de la performance de l’IA, mais aussi de l’égalité de son impact sur la société.

Protocole d’apprentissage pair-à-pair doublement robuste

Protocole d’apprentissage pair-à-pair doublement robuste
Nicholas Franzese, Adam Dziedzic, Christopher A. Choquette-Choo, Mark R. Thomas, Muhammad Ahmad Kaleem, Stephan Rabanser, Congyu Fang, Somesh Jha, Nicolas Papernot, Xiao Wang

Cette étude se concentre sur l’apprentissage automatique collaboratif, où différentes organisations travaillent ensemble et combinent leurs données pour construire de meilleurs modèles. Même si travailler ensemble ainsi peut sembler protéger la vie privée des données de chacun, il y a toujours un risque. Soit le serveur central qui collecte les mises à jour de tous les clients, soit les clients eux-mêmes (les différentes organisations), pourraient ne pas suivre les règles convenues. Un serveur malhonnête pourrait essayer de fouiller dans les données des clients, ou les clients pourraient envoyer des données nuisibles pour perturber le processus d’apprentissage. Idéalement, chaque partie, qu’elle soit cliente ou serveuse, veut s’assurer que l’autre partie jouera franc-jeu. La recherche propose une nouvelle façon de travailler ensemble, où les apprenants sont des pairs égaux et il n’y a pas de serveur central. Cette méthode vise à empêcher un serveur d’en profiter et aussi à empêcher les clients d’envoyer de mauvaises données. Cet article présente un cadre flexible capable de prendre n’importe quel bon algorithme pour combiner les mises à jour des modèles et de le faire fonctionner de manière sécuritaire dans un monde où serveurs et clients pourraient mal se comporter. Les chercheurs démontrent aussi que leur approche peut gérer de grands modèles avec de nombreux paramètres et de nombreux pairs, prouvant qu’elle est pratique pour un usage réel.

DynGFN : Vers l’inférence bayésienne des réseaux de régulation génique avec GFlowNets

DynGFN : Vers l’inférence bayésienne des réseaux de régulation génique avec GFlowNets
Lazar Atanackovic, Alexander Tong, Bo Wang, Leo J. Lee, Yoshua Bengio, Jason Hartford

Cette étude explore comment les cellules contrôlent l’activité et la fonction des gènes. Les chercheurs se concentrent sur la compréhension du réseau complexe d’interactions entre gènes, en abordant deux enjeux clés. Premièrement, les réseaux génétiques sont circulaires, et non des voies unidirectionnelles. Deuxièmement, les observations sont souvent bruyantes, ce qui rend difficile la localisation des motifs exacts. Les approches traditionnelles s’attaquent soit à la nature circulaire, soit au problème du bruit, mais pas aux deux. Ici, l’équipe utilise la vitesse de l’ARN — la rapidité avec laquelle les gènes créent des produits — pour créer une méthode qui répond aux deux défis. Ils introduisent une nouvelle technique utilisant les réseaux de flux génératif, qui aide à cartographier les interactions géniques potentielles en tenant compte de leur nature dynamique et circulaire. Cette méthode offre une compréhension plus claire des réseaux géniques que les tentatives précédentes.

Groupes de perroquets stochastiques : apprentissage différentiel privé par prompts pour de grands modèles de langage

Groupes de perroquets stochastiques : apprentissage différentiel privé par prompts pour de grands modèles de langage
Haonan Duan, Adam Dziedzic, Nicolas Papernot, Franziska Boenisch

Cette recherche s’attaque aux risques liés à la vie privée dans les grands modèles de langage (LLM), qui apprennent à partir des incitations de données. Ces demandes peuvent involontairement divulguer des informations sensibles. Les chercheurs valident que les menaces à la vie privée sont réelles en démontrant une attaque simple mais efficace qui révèle si des données spécifiques ont été utilisées pour former un LLM. L’alternative conventionnelle, l’ajustement fin des modèles avec des algorithmes privés pour la descente du gradient, sacrifie la simplicité et la rapidité offertes par les invites. Pour y remédier, les chercheurs introduisent une méthode innovante appelée « apprentissage privé pour inciter ». Ils trouvent un moyen de créer des « soft suggestions » — des entrées modifiables pour les LLM — de façon privée. Cependant, cela n’est pas possible pour les « invites discrètes », qui sont fixes et spécifiques. Comme solution, ils suggèrent de collecter et fusionner la sortie de plusieurs LLM en utilisant une technique qu’ils comparent à un « groupe de perroquets stochastiques ». Ce résultat collectif devient un seul prompt favorable à la vie privée. Les résultats révèlent que la performance des LLM utilisant cette méthode axée sur la confidentialité s’approche de celle des méthodes standards non privées, ce qui indique sa viabilité pour une utilisation pratique avec les services d’IA en ligne existants.

Confidentialité différentielle fonctionnelle de Renyi pour la modélisation générative

Confidentialité différentielle fonctionnelle de Renyi pour la modélisation générative
Dihong Jiang, Sun Sun, Yaoliang Yu

L’étude explore la confidentialité différentielle R’enyi (RDP), un concept qui gagne en popularité comme alternative à la confidentialité différentielle traditionnelle (DP) grâce à sa meilleure composabilité et flexibilité. Les méthodes existantes de confidentialité utilisant RDP se limitent à randomiser les sorties qui sont des vecteurs de longueur fixe. Dans ce travail, les chercheurs s’appuient sur des études antérieures pour adapter la RDP à des scénarios où le résultat pourrait être une fonction — potentiellement avec des dimensions infinies. Ils développent un ensemble d’outils, incluant une version du mécanisme gaussien adaptée aux données échantillonnées, ainsi que des règles pour la composition et le post-traitement. Ces outils sont conçus pour faciliter l’intégration de la RDP dans des applications pratiques. Pour démontrer son utilité, ils appliquent cette version étendue de RDP, appelée RDP fonctionnelle (f-RDP), à des fonctions dans l’espace mathématique connu sous le nom d’espace de Hilbert noyau reproducteur (RKHS). Dans ce contexte, ils créent un modèle génératif différentiellement privé (DPGM), où le processus d’entraînement du modèle d’apprentissage automatique consiste à libérer en toute sécurité des fonctions de perte avec protection RDP. Les résultats empiriques suggèrent que cette nouvelle approche d’entraînement offre un meilleur équilibre entre confidentialité et performance comparativement aux méthodes actuelles.

GAUCHE : Une bibliothèque pour les procédés gaussiens en chimie

GAUCHE : Une bibliothèque pour les procédés gaussiens en chimie
Ryan-Rhys Griffiths, Leo Klarner, Henry B. Moss, Aditya Ravuri, Sang Truong, Samuel Stanton, Gary Tom, Bojana Rankovic, Yuanqi Du, Arian Jamasb, Aryan Deshwal, Julius Schwartz, Austin Tripp, Gregory Kell, Simon Frieder, Anthony Bourached, Alex Chan, Jacob Moss, Chengzhi Guo, Johannes Durholt, Saudamini Chaurasia, Felix Strieth-Kalthoff, Alpha A. Lee, Bingqing Cheng, Alán Aspuru-Guzik, Philippe Schwaller, Jian Tang

GAUCHE est une bibliothèque d’outils mathématiques conçue pour apprendre à partir de données chimiques. Il est conçu pour gérer des processus gaussiens, une technique d’apprentissage automatique reconnue pour être excellente pour mesurer l’incertitude et améliorer la prise de décision basée sur des prédictions. Les processus gaussiens sont vraiment bons pour deviner l’inconnu à partir de ce qui est connu, surtout dans des situations complexes où l’incertitude est importante. Cependant, les utiliser pour la chimie, c’est un peu comme essayer de faire entrer un carré dans un trou rond. Les données chimiques peuvent être très complexes, ressemblant à des graphiques complexes, des chaînes d’information, ou même une série de signaux marche-arrêt (vecteurs de bits). GAUCHE est conçu pour fonctionner avec ces formats complexes, transformant les procédés gaussiens en un outil puissant pour les chimistes. Les créateurs de GAUCHE visent à faciliter l’adoption de mesures avancées d’incertitude et d’optimisation bayésienne pour les acteurs du domaine de la chimie — une méthode qui équilibre l’exploration de nouvelles possibilités avec le développement de celles existantes. Ils démontrent le potentiel de GAUCHE dans deux domaines importants : découvrir de nouvelles molécules et déterminer les meilleures conditions pour les réactions chimiques. Essentiellement, GAUCHE est censé être un pont qui relie des techniques avancées d’apprentissage automatique aux casse-têtes réels de la chimie.

Apprentissage des caractéristiques basé sur le gradient sous données structurées

Apprentissage des caractéristiques basé sur le gradient sous données structurées
Alireza Mousavi-Hosseini, Denny Wu, Taiji Suzuki, Murat Erdogdu

Des découvertes récentes suggèrent que pour l’apprentissage basé sur le gradient des modèles à index unique (qui dépendent d’une projection unidimensionnelle de l’entrée), le nombre d’échantillons d’apprentissage nécessaires, ou la « complexité de l’échantillon », est influencé par ce qu’on appelle l’exposant d’information. Les recherches antérieures se sont concentrées sur les données isotropes, où les entrées sont uniformément réparties sans orientation distincte. Cependant, les données du monde réel présentent souvent une « structure de covariance en pics », où les données sont réparties de manière inégale, ce qui influence le processus d’apprentissage. Cet article examine l’impact des données avec une telle structure sur l’entraînement des modèles. Les chercheurs découvrent que les méthodes standard à gradient sphérique pourraient ne pas détecter la bonne orientation des données, même si elle correspond au résultat souhaité. Ils suggèrent que des techniques similaires à la normalisation par lots dans les réseaux neuronaux peuvent atténuer ce problème. De plus, en exploitant la distribution particulière des données et son alignement avec les résultats ciblés, ils démontrent une complexité d’échantillon accrue par rapport aux scénarios isotropes. Notamment, avec un pic suffisamment important dans la structure des données, l’étude montre que l’apprentissage basé sur le gradient peut nécessiter moins d’échantillons et surpasser certaines méthodes établies, malgré la complexité suggérée par l’exposant d’information.

Comme vous voulez : assignation individualisée de confidentialité pour DP-SGD

Comme vous voulez : assignation individualisée de confidentialité pour DP-SGD
Franziska Boenisch, Christopher Mühl, Adam Dziedzic, Roy Rinberg, Nicolas Papernot

Cet article modifie une méthode populaire axée sur la confidentialité utilisée dans l’entraînement des machines, connue sous le nom de Descente Différentiellement Privée du Gradient Stochastique (DP-SGD). Pour protéger la vie privée des informations des gens dans l’apprentissage automatique, les chercheurs utilisent souvent un « budget de confidentialité ». C’est comme une limite à l’ampleur de la vie privée qui peut être mise en danger lorsque les données de quelqu’un sont utilisées pour aider à entraîner un ordinateur à prendre des décisions. Cependant, chacun valorise sa vie privée différemment. Certains ne verront pas d’inconvénient à en partager davantage, tandis que d’autres préfèrent garder leurs données aussi privées que possible. Pour y remédier, l’étude propose une nouvelle idée : pourquoi ne pas laisser chaque personne fixer sa propre limite de vie privée? Cet article présente une nouvelle méthode appelée DP-SGD INDIVIDUALISÉ (IDP-SGD). En modifiant la façon dont la machine choisit et utilise les données et en ajustant le « bruit » ajouté pour garder les données anonymes, IDP-SGD permet une confidentialité qui correspond aux préférences de chaque personne. Le résultat est un système plus équilibré où la vie privée et l’utilité des données sont mieux alignées pour répondre aux besoins individuels.

Poison caché : Le désapprentissage automatique permet des attaques d’empoisonnement camouflées

Poison caché : Le désapprentissage automatique permet des attaques d’empoisonnement camouflées
Jimmy Z. Di, Jack Douglas, Jayadev Acharya, Gautam Kamath, Ayush Sekhari

La recherche introduit une menace subtile mais puissante en matière de cybersécurité : les attaques d’empoisonnement des données camouflées. Ces attaques sont particulièrement pertinentes dans des situations où les modèles d’apprentissage automatique sont fréquemment mis à jour ou « désapprennent » des données spécifiques — un processus qui peut se produire lorsqu’on demande d’oublier ou de supprimer certaines informations. Voici comment l’attaque fonctionne : l’attaquant glisse furtivement quelques points de données modifiés dans l’ensemble d’entraînement. Ces points sont conçus pour rester en dormance, ayant initialement peu ou pas d’effet sur le comportement du modèle. Plus tard, l’attaquant déclenche la suppression de certains de ces points de données. C’est à ce moment — la rééducation du modèle — que l’attaque prend effet, et que les prédictions du modèle commencent à se tromper. Plus précisément, l’attaque vise à faire en sorte que le modèle étiquete incorrectement une donnée particulière — cela peut être une mauvaise identification d’une image ou une mauvaise classification d’un texte. Pour démontrer ce concept, des expériences ont été menées sur des ensembles de données d’images tels que CIFAR-10, Imagenette et Imagewoof. La partie rusée réside dans la façon dont ces pointes empoisonnées sont créées; Elles sont camouflées pour se fondre dans les données normales, ce qui rend l’effet néfaste seulement visible après qu’une des pilules empoisonnantes ait été retirée lors du réentraînement du modèle. Cette méthode d’attaque soulève de nouvelles préoccupations quant à la robustesse des modèles dans des environnements dynamiques où les données sont fréquemment ajoutées ou supprimées.

Amélioration de la généralisation de quelques tirs en explorant et exploitant les données auxiliaires

Amélioration de la généralisation de quelques tirs en explorant et exploitant les données auxiliaires
Alon Albalak, Colin Raffel, William Yang Wang

Enseigner à un modèle à apprendre à partir d’un petit ensemble d’exemples, connu sous le nom d’apprentissage par peu de coups, conduit souvent à des modèles qui ne peuvent pas bien généraliser — ils deviennent trop adaptés à leurs données limitées (un problème appelé sur-ajustement). Cette étude présente une technique améliorée pour l’apprentissage en peu de tirs qui intègre des données supplémentaires pour améliorer la performance sur la tâche cible. Les méthodes précédentes mélangeaient des données supplémentaires, mais devenaient lourdes à gérer avec de grandes quantités d’informations. 

L’innovation ici utilise des stratégies issues du problème des bandits multi-bras — équilibrer entre essayer de nouvelles options et utiliser ce qui est connu — pour gérer efficacement des ensembles de données beaucoup plus vastes. Deux nouveaux algorithmes, EXP3-FLAD et UCB1-FLAD, sont introduits, qui ne sont pas dépassés par la quantité de données auxiliaires et combinent efficacement exploration et exploitation. Les résultats montrent une augmentation de 4% de la performance par rapport aux méthodes précédentes. Ils ont aussi permis d’entraîner des modèles de langage avec moins de paramètres pour dépasser les capacités du modèle GPT-3 plus large, indiquant une voie prometteuse pour créer des modèles d’IA qui généralisent mieux à partir d’exemples limités.

Affiche en vedette | STEVE-1 : Un modèle génératif pour le texte en comportement dans Minecraft

STEVE-1 : Un modèle génératif pour le texte en comportement dans Minecraft
Shalev Lifshitz, Keiran Paster, Harris Chan, Jimmy Ba, Sheila McIlraith

L’IA dépasse les chatbots pour entrer dans le vaste monde ouvert de Minecraft. Cet article présente un modèle génératif puissant, entraîné sur des années de gameplay Minecraft à partir de vidéos YouTube, qui permet de jouer au jeu et de suivre à la fois des instructions textuelles en langage naturel et visuelles. Le modèle, appelé STEVE-1 (Steve est le personnage principal dans Minecraft), se joue en regardant les pixels à l’écran et en choisissant comment déplacer le clavier et la souris. L’article présente une méthodologie novatrice, inspirée par des modèles texte-image précédents comme DALL•E 2, qui nous permet de nous appuyer sur des modèles de fondation existants avec relativement peu de coûts supplémentaires pour créer cet agent puissant et instructif capable de trouver des ressources, fabriquer des objets, explorer et plus encore. STEVE-1 fait le lien entre texte et entrée visuelle et un contrôle comportemental de bas niveau sous forme de frappes de clavier et de clics de souris. Il est important de noter que, grâce à une variante novatrice du re-étiquetage rétrospective, STEVE-1 apprend à suivre des instructions sans formation sur un ensemble précis de tâches. Des documents de recherche, incluant des poids de modèles et des scripts d’entraînement, ont été partagés pour une exploration approfondie sur le terrain.

Apprendre en présence d’une structure de faible dimension : une perspective matricielle aléatoire à pics

Apprendre en présence d’une structure de faible dimension : une perspective matricielle aléatoire à pics
Jimmy Ba, Murat A Erdogdu, Taiji Suzuki, Zhichao Wang, Denny Wu

Dans cette recherche, nous étudions comment les modèles d’apprentissage automatique apprennent une fonction cible à indice unique sous des données de covariance à pics. Nous posons la question suivante : quelle devrait être la magnitude du pic, afin que les méthodes à noyau et les réseaux de neurones entraînés avec la descente du gradient puissent apprendre la fonction cible sous-jacente? Notre résultat démontre que les méthodes à noyau et les réseaux de neurones bénéficient tous deux de structures à faible dimension dans les données; De plus, dans notre contexte, les réseaux de neurones peuvent s’adapter plus efficacement à de telles structures.

MagicBrush : un ensemble de données annoté manuellement pour l’édition d’images guidée par instructions

MagicBrush : un ensemble de données annoté manuellement pour l’édition d’images guidée par instructions
Kai Zhang, Lingbo Mo, Wenhu Chen, Huan Sun, Yu Su

L’édition d’images guidée par texte, utile tant à des fins personnelles que professionnelles comme Photoshop, dépend souvent fortement des ajustements manuels en raison des limites des méthodes actuelles sans prise de vue ou de celles entraînées sur des ensembles de données synthétisés et bruyants. Pour améliorer cela, nous avons développé MagicBrush – un jeu de données soigneusement soigneusement sélectionné, inédit en son genre, destiné aux tâches d’édition d’images basées sur des instructions. Il propose plus de 10 000 ensembles d’images jumelées à des instructions textuelles et leurs résultats édités, adaptés à une variété de contextes de montage, incluant des séquences de montage individuelles ou multiples, avec ou sans masques fournis. Nous avons affiné un modèle appelé InstructPix2Pix en utilisant MagicBrush et obtenu des résultats nettement meilleurs grâce à des évaluations humaines. Au-delà de cela, nous avons rigoureusement testé les modèles actuels d’édition d’images avec MagicBrush à travers diverses évaluations, révélant les défis posés par notre jeu de données et mettant en lumière le décalage entre les technologies existantes et les exigences de l’édition d’images réelles.

MARBRE : Référence de représentation audio musicale pour l’évaluation universelle

MARBRE : Référence de représentation audio musicale pour l’évaluation universelle
Ruibin Yuan, Yinghao Ma, Yizhi Li, Ge Zhang, Xingran Chen, Hanzhi Yin, Le Zhuo, Yiqi Liu, Jiawen Huang, Zeyue Tian, Binyue Deng, Ningzhi Wang, Chenghua Lin, Emmanouil Benetos, Anton Ragni, Norbert Gyenge, Roger Dannenberg, Wenhu Chen, Gus Xia, Wei Xue, Si Liu, Shi Wang, Ruibo Liu, Yike Guo, Jie Fu

Le rôle de l’intelligence artificielle dans la musique, particulièrement dans sa compréhension, est en retard par rapport à d’autres projets d’IA artistique comme la création d’art visuel et l’aide à l’écriture. Pour relever les défis des ressources d’apprentissage approfondies et des benchmarks standardisés en IA musicale, nous introduisons MARBLE. Cette plateforme de benchmarking répond aux tâches de recherche d’information musicale (MIR), offrant une taxonomie détaillée allant des caractéristiques acoustiques aux descriptions abstraites. MARBLE met en œuvre un protocole d’évaluation standard utilisant 14 tâches réparties sur 8 ensembles de données publics afin d’évaluer de manière cohérente les capacités de divers modèles d’IA musicale. Conçu pour être accessible, évolutif et aligné sur les normes du droit d’auteur, MARBLE prépare le terrain pour des recherches reproductibles tout en encourageant l’amélioration et l’innovation dans l’IA musicale. Les résultats préliminaires mettent en lumière le potentiel des modèles musicaux récents à grande échelle, avec des possibilités d’affinement. L’accès au classement et aux ressources de MARBLE est accessible au public pour inspirer les développements futurs de l’IA musicale.

MeGraph : Capturer les interactions à longue portée en alternant agrégation locale et hiérarchique sur une hiérarchie de graphes à plusieurs échelles

MeGraph : Capturer les interactions à longue portée en alternant agrégation locale et hiérarchique sur une hiérarchie de graphes à plusieurs échelles
Honghua Dong, Jiawei Xu, Yu Yang, Rui Zhao, Shiwen Wu, Chun Yuan, Xiu Li, Chris J. Maddison, Lei Han

Les réseaux de neurones à graphes (GNN) excellent généralement dans le traitement local des données, mais échouent lorsqu’il s’agit de reconnaître les interactions à longue portée (LRI) au sein des graphes. Notre modèle MeGraph fusionne de manière innovante les structures de graphes locaux avec une hiérarchie globale des graphes en un cadre unifié pour y répondre. Cette approche en couches alterne entre le passage local de messages à différentes échelles et l’intégration des insights à travers toute la hiérarchie des graphes. En combinant continuellement l’information locale et globale de cette façon, MeGraph atteint un meilleur équilibre dans l’analyse des données. Validé par un nouveau benchmark conçu spécifiquement pour tester la détection LRI, MeGraph démontre des performances supérieures. Il tient bon face ou surpasse les modèles leaders dans des benchmarks établis et démontre sa capacité à travers divers ensembles de données réels, soulignant sa polyvalence et son efficacité dans l’analyse de données graphiques.

Apprentissage par renforcement inverse contraint multimodal à partir d’un mélange de démonstrations

Apprentissage par renforcement inverse contraint multimodal à partir d’un mélange de démonstrations
Guanren Qiao, Guiliang Liu, Pascal Poupart, Zhiqiang Xu

L’apprentissage par renforcement par contraintes inverses (ICRL) apprend les règles cachées que les experts démontrent sans qu’on leur leur dise explicitement. Les méthodes traditionnelles partent du principe que tous les comportements des experts proviennent d’un seul type d’expert, ce qui simplifie à l’excès les situations réelles avec des experts diversifiés. Notre nouvelle technique, l’apprentissage par renforcement multimodal inverse contraint (MMICRL), peut distinguer et apprendre à partir des règles de plusieurs experts en même temps. Il identifie divers experts dans les données et s’adapte aux contraintes spécifiques de chacun. Le MMICRL affine son processus d’apprentissage grâce à un objectif qui lui permet de reproduire les comportements nuancés de différents experts tout en préservant la diversité comportementale. Intégré à l’apprentissage contrastif pour améliorer sa robustesse, le MMICRL a prouvé lors des tests qu’il excelle dans l’identification des contraintes et l’exécution des tâches, surpassant d’autres méthodes.

Simulation d’éclairage neuronal pour les scènes urbaines

Simulation d’éclairage neuronal pour les scènes urbaines
Ava Pun, Gary Sun, Jingkang Wang, Yun Chen, Ze Yang, Sivabalan Manivasagam, Wei-Chiu Ma, Raquel Urtasun

Les changements d’éclairage extérieur peuvent nuire à l’efficacité des robots qui s’appuient sur des données visuelles, surtout s’ils n’ont pas été entraînés dans des conditions de lumière variables. LightSim est notre solution — un outil de simulation de caméra conçu pour créer un ensemble diversifié et réaliste d’images sous différents scénarios d’éclairage. Ce système utilise des données de capteurs pour générer des modèles 3D détaillés des environnements urbains, dont les éléments peuvent être modifiés, retirés ou observés sous de nouvelles perspectives, tout en maintenant un éclairage précis. LightSim utilise une combinaison de techniques de rendu réalistes et d’ajustements basés sur l’apprentissage pour modifier les conditions de lumière, comme la position et l’intensité de la lumière solaire. Le résultat est un ensemble cohérent de vidéos virtuelles qui imitent les variations de lumière réelle. Les tests démontrent la capacité supérieure de LightSim à reproduire un éclairage réaliste comparé aux systèmes précédents. Plus important encore, lorsque les robots sont entraînés avec des vidéos de LightSim, leur capacité à percevoir et comprendre les données visuelles sous différents éclairages s’améliore considérablement.

Limites optimales du risque excédentaire pour la minimisation empirique du risque sur la régression linéaire $p$-norme

Limites optimales du risque excédentaire pour la minimisation empirique du risque sur la régression linéaire $p$-norme
Ayoub El Hanchi, Murat Erdogdu

Dans cette étude, nous examinons une méthode statistique connue sous le nom de minimisation empirique du risque, utilisée pour prédire les relations entre variables en régression linéaire, en mettant l’accent sur la « norme p » pour les valeurs « p » allant de juste au-dessus de 1 à l’infini. Nous découvrons que, lorsque notre modèle prédit parfaitement le résultat sans hypothèses préalables, un seul nombre d’échantillons égal au nombre de variables prédictives est nécessaire pour déterminer la relation exacte. Lorsque « p » est 2 ou plus, avec des hypothèses minimales, nous confirmons une estimation fiable de la mesure dans laquelle le risque de notre prédiction peut dépasser le risque réel. Cela s’applique aussi aux valeurs de « p » entre 1 et 2, en supposant que l’applicabilité de la méthode soit confirmée par certaines conditions mathématiques.

Affiche en vedette | Apprentissage en distribution privée avec des données publiques : la vue à partir de la compression d’échantillons

Apprentissage en distribution privée avec des données publiques : la vue à partir de la compression d’échantillons
Shai Ben-David, Alex Bie, Clément L. Canonne, Gautam Kamath, Vikrant Singhal

Cette recherche examine comment apprendre sur une distribution de données de manière à garder certaines données privées, lorsqu’elles sont également données publiques en même temps, ce qu’on appelle l’apprentissage public-privé. Dans ce scénario, l’apprenant utilise à la fois des données publiques et des données privées provenant d’une distribution inconnue pour estimer cette distribution. L’essentiel est que l’apprenant doit protéger la vie privée des données privées selon des règles strictes de confidentialité, connues sous le nom de confidentialité différentielle pure. Les résultats suggèrent que la capacité d’apprendre à la fois de sources de données publiques et privées de cette manière est liée à deux concepts. La première est de savoir si les données peuvent être représentées par un ensemble plus petit et plus simple, souvent appelé schéma de compression d’échantillon. La deuxième est une nouvelle idée appelée apprentissage par listes. En exploitant ces relations, l’étude a pu confirmer les résultats antérieurs sur les distributions gaussiennes et aussi fournir de nouvelles perspectives. Cela inclut des estimations de la quantité de données nécessaires à l’apprentissage avec des mélanges de distributions gaussiennes, les résultats pour les apprenants capables de gérer les inexactitudes et les variations dans la distribution des données, ainsi que la manière dont l’apprentissage est maintenu lors du mélange et de la combinaison de différentes distributions. Une découverte supplémentaire est que, lorsqu’on apprend des distributions gaussiennes dans un espace multidimensionnel, au moins le nombre d’échantillons publics est nécessaire pour assurer l’apprentissage privé. Ce nombre est presque aussi élevé que la limite actuelle connue, qui est juste un de plus que le nombre de dimensions.

Apprentissage probabiliste des invariants avec des classificateurs linéaires aléatoires

Apprentissage probabiliste des invariants avec des classificateurs linéaires aléatoires
Leonardo Cotta, Gal Yehuda, Assaf Schuster, Chris Maddison

Construire des modèles complexes tout en respectant la cohérence spécifique à la tâche est un défi et demande souvent des ressources computationnelles importantes. Notre innovation réside dans l’application du hasard pour créer des modèles à la fois complexes et cohérents, mais qui utilisent moins de ressources. Cette approche repose sur l’adoption d’une version probabiliste de l’universalité et de l’invariance, menant à des modèles plus efficaces en ressources. Nous présentons les classificateurs linéaires aléatoires (RLC), un nouveau type de modèle de classification binaire qui peut approximer probabilisticement des fonctions lisses et conserver une invariance avec une forte probabilité sous certaines contraintes de paramètres et de taille des données. Ces RLC sont spécialement conçus pour des tâches de classification avec invariance sur les ensembles, graphes et sphères, ce qui permet d’utiliser moins de ressources comparativement aux réseaux de neurones conventionnels. Nos expériences confirment que les RLC fonctionnent efficacement dans des tâches où les modèles déterministes avec invariance sous-performent souvent, démontrant le mérite et l’efficacité des ressources de notre approche probabiliste.

Résolution des interférences lors de la fusion de modèles

Résolution des interférences lors de la fusion de modèles
Prateek Yadav, Derek Tam, Leshem Choshen, Colin Raffel, Mohit Bansal

L’apprentissage par transfert consiste à affiner un modèle déjà entraîné en se concentrant sur une tâche nouvelle et spécifique. Il offre des avantages comme une meilleure performance, un apprentissage plus rapide et la nécessité de moins d’exemples pour apprendre efficacement. Cependant, ces modèles améliorés sont généralement limités à une seule tâche et ne partagent pas ce qu’ils ont appris avec des modèles similaires. Pour y remédier, le domaine a vu le développement de méthodes visant à combiner ces modèles à tâche unique en un seul modèle capable de gérer plusieurs tâches simultanément, sans nécessiter de formation supplémentaire. Mais ces techniques de fusion échouaient souvent parce qu’elles ne considéraient pas comment différentes parties des modèles pouvaient interférer entre elles, ce qui menait à une performance globale moins bonne. L’article présente une nouvelle méthode appelée TIES-Merging, qui fusionne mieux les modèles en : (1) réinitialisant des aspects qui ont très peu changé lors de l’entraînement, (2) corrigeant les conflits où les modèles ne s’entendent pas sur l’importance d’une caractéristique, et (3) combinant les caractéristiques seulement lorsqu’il y a un accord sur leur importance. Cette méthode s’est avérée plus efficace dans divers scénarios de test, incluant différents types de tâches, complexités de modèles et architectures. L’étude examine également comment différents types d’interférences influencent le modèle fusionné, en soulignant la nécessité de traiter les conflits liés à l’importance des caractéristiques.

Évaluation robuste des données avec des valeurs de Banzhaf pondérées

Évaluation robuste des données avec des valeurs de Banzhaf pondérées
Weida Li, Yaoliang Yu

Une étude récente menée par Wang et Jia a abordé le défi de déterminer l’importance des données individuelles utilisées pour entraîner l’intelligence artificielle. Les méthodes courantes, comme la valeur de Shapley, rencontrent des difficultés en raison de facteurs imprévisibles dans les calculs qui conduisent à des classements incohérents de l’importance des données. Au lieu de cela, Wang et Jia suggèrent d’utiliser la valeur de Banzhaf, qu’ils estiment moins affectée par cette imprévisibilité. Cependant, en examinant un ensemble plus large de valeurs de Banzhaf ajustées avec des poids, l’étude constate que la valeur régulière de Banzhaf n’est pas toujours la plus stable. Les chercheurs utilisent une nouvelle approche appelée bruit de Kronecker, qui les aide à mesurer l’imprévisibilité et à trouver un moyen d’ajuster les valeurs de Banzhaf pour les rendre plus cohérentes. Ils développent une nouvelle méthode qui estime ces valeurs de Banzhaf ajustées de manière plus efficace et rapide, performant bien lorsqu’elle est testée à la fois avec du bruit théorique et des données réelles imprévisibles. Cela pourrait en faire un outil précieux pour déterminer l’importance de chaque donnée lors de l’enseignement des systèmes d’IA. Leurs résultats suggèrent que ces valeurs pondérées de Banzhaf offrent un potentiel pour gérer les incertitudes liées à l’attribution de la valeur aux données d’entraînement.

Affiche orale | Mise à l’échelle des modèles de langage contraints par les données

Mise à l’échelle des modèles de langage contraints par les données
Niklas Muennighoff, Alexander Rush, Boaz Barak, Teven Le Scao, Nouamane Tazi, Aleksandra Piktus, Thomas Wolf, Colin Raffel, Sampo Pyysalo

La mise à l’échelle actuelle des modèles de langage implique souvent d’augmenter le nombre de paramètres et la quantité de données d’entraînement (qui proviennent généralement d’Internet). Cette stratégie pourrait bientôt atteindre un plafond de données en raison du texte limité disponible en ligne. Pour répondre à ce défi, nos recherches explorent la mise à l’échelle des modèles avec des données limitées. Nous avons expérimenté différents niveaux de réutilisation des données et de limites computationnelles, observant les effets sur des modèles allant jusqu’à 9 milliards de paramètres. Nous avons appris que réutiliser les données plusieurs fois, jusqu’à quatre époques, ne nuit pas au modèle si les ressources de calcul restent fixes. Au-delà de ce point, cependant, l’avantage de plateaux de puissance de calcul supplémentaires ne permet pas de gains supplémentaires en performance du modèle. Nous proposons une nouvelle formule pour guider le moment d’investir dans des ressources computationnelles, en tenant compte des rendements décroissants liés à la réaffirmation des données et aux paramètres excédentaires. Nos recherches testent également des moyens alternatifs d’améliorer des ensembles de données limités pour l’entraînement, afin de maintenir l’amélioration des modèles sans dépendre de textes vastes et uniques.

mécanisme d’attention façonné dans la limite infinie de profondeur et largeur à l’initialisation

mécanisme d’attention façonné dans la limite infinie de profondeur et largeur à l’initialisation
Lorenzo Noci, Chuning Li, Mufan Bill Li, Bobby He, Thomas Hofmann, Chris Maddison, Daniel M. Roy

Dans le domaine de l’apprentissage profond, les Transformers sont un type d’architecture réseau devenu populaire grâce à son efficacité dans la gestion des séquences, comme le langage. Cet article explore une façon de prédire la facilité avec laquelle ces réseaux peuvent être entraînés en analysant la matrice de covariance des sorties — un instantané de la dynamique d’apprentissage du réseau — surtout lorsque ces réseaux sont considérablement agrandis. Pour ce faire, nous avons modifié le mécanisme d’attention, un élément fondamental de la façon dont les Transformers évaluent l’importance des différentes parties des données. Nous avons introduit des ajustements pour les réseaux dans la limite proportionnelle, où la profondeur et la largeur sont infiniment grandes. L’étude a révélé qu’au début de l’entraînement, le comportement d’apprentissage attendu de ces réseaux massifs est capturé par une équation différentielle stochastique (EDS) définie par la façon dont la profondeur évolue avec la largeur. Pour assurer la stabilité dans ce scénario à grande échelle, il est essentiel d’ajuster la fonction softmax dans le mécanisme d’attention du Transformer. Cela implique un équilibre délicat introduit par des ajustements de centrage et d’échelle par rapport à la taille du réseau. Le réseau résultant, appelé un « transformateur façonné », démontre stabilité et prévisibilité dans l’apprentissage, même lorsque le réseau est vaste. Les simulations confirment que le modèle SDE est étonnamment précis pour refléter le comportement réel des réseaux importants, ouvrant la voie à de futurs modèles d’apprentissage profond à grande échelle et entraînables.

Processus gaussiens calibrés nets

Processus gaussiens calibrés nets
Alexandre Capone, Sandra Hirche, Geoff Pleiss

Les processus gaussiens sont largement utilisés en ingénierie et en science pour prédire les résultats et estimer les incertitudes. Cependant, ces estimations ne correspondent pas toujours à ce qui est observé dans le monde réel — un problème connu sous le nom de mauvaise calibration. Les méthodes actuelles pour résoudre ce problème consistent généralement à élargir la plage d’incertitude, mais cela peut entraîner des intervalles de confiance trop larges et peu pratiques. Pour y remédier, l’article décrit une nouvelle méthode qui génère des intervalles de confiance fréquentistes pour les processus gaussiens en utilisant un mécanisme mathématique similaire au calcul de variance prédictive postérieure. Ces intervalles de confiance sont libres d’utiliser des hyperparamètres du noyau différents de la prédiction de la moyenne postérieure, permettant des intervalles de confiance qui obtiennent des garanties de couverture fréquentiste serrées. Les résultats montrent que cette nouvelle méthode d’étalonnage surpasse les méthodes existantes, promettant une meilleure fiabilité dans les applications pratiques.

Équilibre coopératif basé sur la similarité

Équilibre coopératif basé sur la similarité
Caspar Oesterheld, Johannes Treutlein, Roger Grosse, Vincent Conitzer, Jakob Foerster

Dans le domaine de l’apprentissage automatique en rapide évolution, les systèmes deviennent plus indépendants, devant souvent prendre des décisions tout en interagissant avec d’autres systèmes similaires. Un problème classique où la coopération est essentielle est le dilemme du prisonnier — une situation où deux parties doivent décider de coopérer ou de se trahir sans connaître la décision de l’autre. Selon la théorie des jeux traditionnelle, on s’attend à ce que les agents d’apprentissage automatique (ML) choisissent la trahison parce que cela semble plus sécuritaire. Des recherches antérieures ont suggéré que si ces agents pouvaient pleinement comprendre la « pensée » de l’autre — comme voir le code source de l’autre ou, pour les agents ML, leur poids — ils pourraient choisir de coopérer. Mais une ouverture totale n’est pas toujours pratique, alors qu’un aperçu partiel des mécanismes de l’autre est plus courant. Pour répondre à ce juste milieu, l’article présente un scénario où les agents ne connaissent qu’une seule information les uns sur les autres : un chiffre montrant à quel point un agent est similaire à l’autre. Les auteurs prouvent que même cette maigre intuition suffit à prendre des décisions coopératives, comme s’ils avaient une transparence totale. De plus, ils démontrent que les agents de ML peuvent réellement apprendre à coopérer dans ce contexte grâce à des techniques d’apprentissage simples. Ces résultats pourraient être essentiels pour concevoir des systèmes d’apprentissage automatique qui doivent interagir et prendre des décisions dans des contextes sociaux.

Prédiction de l’expression génique résolue spatialement à partir d’images histologiques via l’apprentissage contrastif bimodal

Prédiction de l’expression génique résolue spatialement à partir d’images histologiques via l’apprentissage contrastif bimodal
Ronald Xie, Kuan Pang, Sai W. Chung, Catia T. Perciani, Sonya A. MacParland, Bo Wang, Gary D. Bader

Cet article présente une nouvelle méthode appelée BLEEP qui aide les médecins et chercheurs à examiner les tissus de plus près et à comprendre rapidement les gènes à l’œuvre. En observant des lames tissulaires colorées avec des colorants spéciaux, BLEEP utilise une technique sophistiquée pour cartographier les gènes associés à différentes maladies. Il apprend à partir d’un grand nombre d’exemples pour prédire l’activité génique dans n’importe quelle partie d’une lame de tissu. C’est plus rapide et moins coûteux que les méthodes traditionnelles d’étude de l’expression génique. Testé sur des échantillons de foie humain, le BIP a surpassé les méthodes actuelles, promettant d’accélérer la recherche et le diagnostic des maladies tout en réduisant les coûts. Cette avancée suggère un avenir où l’analyse des tissus au niveau génétique pourrait devenir une routine pour les professionnels de la santé, améliorant ainsi notre compréhension et notre traitement de diverses maladies.

Réseaux neuronaux structurés pour l’estimation de la densité et l’inférence causale

Réseaux neuronaux structurés pour l’estimation de la densité et l’inférence causale
Asic Q. Chen, Ruian Shi, Xiang Gao, Ricardo Baptista, Rahul G. Krishnan

Ajouter des motifs ou des structures spécifiques aux réseaux de neurones peut les aider à accomplir certaines tâches plus efficacement. Par exemple, dans la création de modèles qui génèrent des données, il est utile que le modèle comprenne et respecte les relations et les indépendances entre différents éléments de données, un peu comme un réseau bayésien — un modèle statistique qui représente un ensemble de variables et leurs dépendances conditionnelles. L’étude propose une approche novatrice appelée Réseau de Neurones Structurés (StrNN), qui intègre de tels motifs en bloquant sélectivement certaines connexions dans le réseau. La clé de la conception de StrNN est un regard neuf sur la façon dont les réseaux de neurones peuvent être liés au concept de factorisation matricielle binaire — une méthode mathématique permettant de décomposer des problèmes complexes en parties plus simples. Bien que le problème de conception de ces structures soit généralement très complexe (NP-difficile) — c’est-à-dire intensif sur le plan computationnel — la recherche propose de nouveaux algorithmes qui gèrent cette complexité en adaptant l’architecture réseau, assurant que le modèle se comporte comme souhaité. Le potentiel de StrNN se manifeste dans trois scénarios : l’estimation des probabilités pour des données binaires et continues, et l’analyse des relations de cause à effet — ce qui est crucial pour comprendre l’influence d’une variable sur une autre. Ce travail ouvre la voie à des réseaux de neurones plus efficaces sur le plan des données, servant de tremplin pour utiliser des modèles génératifs afin d’estimer les effets causals.

Génération texte en image par sujet via apprentissage par apprentissage

Génération texte en image par sujet via apprentissage par apprentissage
Wenhu Chen, Hexiang Hu, Yandong Li, Nataniel Ruiz, Xuhui Jia, Ming-Wei Chang, William Cohen

La création d’images à partir de descriptions textuelles a beaucoup progressé avec des modèles comme DreamBooth, qui peuvent produire des images hautement personnalisées d’un sujet spécifique à l’aide de quelques exemples. Bien que efficace, cette approche est coûteuse puisqu’elle nécessite d’entraîner un modèle distinct pour chaque matière. Cet article présente SuTI, un nouveau modèle qui crée des images d’un nouveau sujet dans diverses scènes immédiatement après avoir vu quelques exemples, évitant ainsi le coût d’entraînement individuel des modèles. SuTI utilise l’apprentissage par apprentissage, où un modèle « apprenti » apprend à partir des résultats de nombreux modèles « experts », chacun entraîné sur un sujet différent à l’aide d’un grand nombre de groupes d’images collectés sur Internet. En conséquence, SuTI imite la capacité des experts à générer des images personnalisées très rapidement. Comparé aux méthodes existantes qui reposent sur l’ajustement fin pour chaque sujet, SuTI fonctionne beaucoup plus rapidement — 20 fois plus vite que les méthodes de pointe actuelles. Testé contre d’autres modèles sur DreamBench et sa version mise à jour, DreamBench-v2, SuTI s’est distingué, notamment par sa capacité à capturer l’essence du sujet et à s’aligner avec les descriptions textuelles, selon des évaluations humaines.

Affiche orale | L’efficacité surprenante des modèles de diffusion pour l’estimation du flux optique et de la profondeur monoculaire

L’efficacité surprenante des modèles de diffusion pour l’estimation du flux optique et de la profondeur monoculaire
Saurabh Saxena, Charles Herrmann, Junhwa Hur, Abhishek Kar, Mohammad Norouzi, Deqing Sun, David J. Fleet

Récemment, un type de modèle d’IA connu sous le nom de modèles probabilistes de diffusion de débruit fait sensation dans la création d’images, reconnu pour sa grande qualité et ses résultats variés. Cette recherche révèle qu’ils sont aussi remarquablement bons pour estimer le flux optique (le motif de mouvement apparent des objets dans une scène visuelle) et la profondeur monoculaire (la distance des objets par rapport au point de vue, en utilisant une seule caméra). Ce qui est surprenant, c’est qu’ils y parviennent sans avoir besoin de structures spécialisées ou de mesures d’erreur sur mesure, généralement essentielles pour ces tâches. Contrairement aux méthodes traditionnelles qui donnent une seule réponse à la meilleure approximation, ces modèles de diffusion peuvent utiliser les méthodes de Monte Carlo — une technique statistique — pour représenter des incertitudes et plusieurs réponses possibles à des choses comme le mouvement et la profondeur des objets. En mélangeant habilement l’apprentissage auto-supervisé (où le système s’auto-forme à partir des données disponibles), une combinaison de données simulées et réelles, et de nouvelles méthodes techniques traitant des données d’entraînement imparfaites, les chercheurs ont formé des modèles de premier ordre pour l’estimation de la profondeur et du flux. Grâce à des tests et ajustements approfondis, et grâce à des améliorations spéciales, ces modèles — appelés DDVM (Denonoising Diffusion Vision Models) — ont établi de nouveaux records de précision dans la prédiction de la distance des objets dans les images de scènes intérieures et comment les éléments se déplacent dans les scénarios de conduite, dépassant les méthodes précédentes d’environ 25%.

Tartarus : une plateforme de benchmarking pour une conception moléculaire inverse réaliste et pratique

Tartarus : une plateforme de benchmarking pour une conception moléculaire inverse réaliste et pratique
AkshatKumar Nigam, Robert Pollice, Gary Tom, Kjell Jorner, John Willes, Luca A. Thiede, Anshul Kundaje, Alan Aspuru-Guzik

L’un des grands défis de la chimie est de concevoir rapidement des molécules aux propriétés souhaitées, ce qui est crucial pour faire avancer la découverte de médicaments, la science des matériaux et la catalyse. Malgré les progrès avancés en puissance informatique et en IA, il y a eu moins de progrès dans les benchmarks — des tests réalistes pour voir si ces méthodes peuvent gérer la conception réelle de molécules dans le monde réel. Cette étude introduit une série de repères pratiques, utilisant des simulations physiques pour reproduire la nature complexe de la conception de molécules destinées aux matériaux, aux produits pharmaceutiques et aux réactions chimiques. Les chercheurs ont utilisé ces références pour tester plusieurs algorithmes établis et ont constaté que le succès d’un algorithme dépend grandement du type spécifique de défi de conception moléculaire auquel il est confronté. Ces nouvelles références visent à orienter le développement des techniques de conception moléculaire vers des scénarios plus réalistes, comblant le fossé entre le potentiel théorique et l’application pratique dans l’industrie et le milieu universitaire.

Affiche en vedette | Clonage de la pensée : Apprendre à penser tout en agissant en imitant la pensée humaine

Clonage de la pensée : Apprendre à penser tout en agissant en imitant la pensée humaine
Shengran Hu, Jeff Clune

Le langage est souvent considéré comme un aspect clé de la pensée humaine, nous offrant des capacités exceptionnelles pour généraliser, explorer, planifier, replanifier et nous adapter à de nouvelles situations. Cependant, les agents IA pensent rarement en langage naturel. Nous introduisons une méthode novatrice, le clonage de la pensée, qui permet aux agents IA d’imiter des humains qui pensent à voix haute pendant qu’ils agissent, leur apprenant ainsi à penser et à agir comme des humains. Les enfants humains reçoivent des commentaires des enseignants non seulement sur leurs actions, mais aussi sur la raison de leurs actions. Le clonage de la pensée est similaire en ce sens que les agents IA apprennent à avoir une réflexion claire derrière leurs actions. Nous comparons le clonage de pensée à la pratique standard où les agents IA imitent (seulement) les actions que les humains accomplissent lors de la résolution de tâches, ce qu’on appelle le clonage comportemental. Les expériences révèlent que le clonage de pensée apprend non seulement plus vite et surpasse le clonage comportemental, mais qu’il fait aussi mieux et apprend plus vite dans des situations nouvelles. Le clonage de pensée offre également des avantages importants pour la sécurité et l’interprétabilité de l’IA. Parce que nous pouvons observer les pensées de l’IA, nous pouvons mieux comprendre pourquoi l’agent fait des choses, ce qui facilite aussi la correction de l’entraînement de l’agent si cela ne fonctionne pas pour une tâche. Si un agent prévoit de faire quelque chose de dangereux, nous pouvons aussi l’empêcher. Dans l’ensemble, en formant les agents à penser et à se comporter, le clonage de pensée crée des agents plus sûrs et plus puissants

Outils pour vérifier les preuves de données d’entraînement

Outils pour vérifier les preuves de données d’entraînement
Dami Choi, Yonadav Shavit, David Duvenaud

Qu’est-ce qu’un « inspecteur nucléaire » pour de grands modèles neuronaux pourrait vérifier s’il avait accès aux points de contrôle d’entraînement?  Nous proposons un protocole simple pour vérifier les affirmations concernant de très grandes séances d’entraînement SGD.  Nous montrons comment, en se basant sur des points de contrôle de poids, on peut détecter des affirmations usurpées à propos de :

  1. Quelle est la taille d’un modèle et combien de temps il a été entraîné.
  2. Quelles données ont été utilisées.
  3. Si le modèle a été initialisé de façon aléatoire.
  4. Si c’était secrètement orienté vers un modèle pré-entraîné.

Notre schéma est simple : les formateurs de modèles définissent leur graine aléatoire sur un hachage des données et du code, et sauvegardent les points de contrôle réguliers.  Le vérificateur cherche des anomalies dans les statistiques d’entraînement et refait les segments suspects.  La recherche d’anomalies est peu coûteuse, par exemple 1,3% de plus sur GPT2.

Former des modèles privés qui savent ce qu’ils ignorent

Former des modèles privés qui savent ce qu’ils ignorent
Stephan Rabanser, Anvith Thudi, Abhradeep Thakurta, Krishnamurthy Dvijotham, Nicolas Papernot

Créer des modèles d’apprentissage profond qui font des erreurs prudentes plutôt que trop confiantes est difficile, et c’est encore plus difficile lorsque les modèles doivent protéger la vie privée des données. La protection de la vie privée, connue sous le nom de confidentialité différentielle (DP), peut introduire un élément supplémentaire d’aléatoire qui complique l’entraînement. Cette étude examine les classificateurs sélectifs, qui offrent la possibilité de ne pas faire de prédiction lorsqu’on n’est pas certain, dans le contexte de la DP. Les chercheurs constatent que les méthodes de prédiction sélective courantes pourraient échouer sous DP, car elles pourraient divulguer des informations privées. Cependant, ils notent qu’une méthode récente, qui utilise des points de contrôle issus d’algorithmes d’apprentissage privé standards, fonctionne bien avec DP. L’étude révèle également que, bien que la DP protège la vie privée, elle affecte négativement la performance des classificateurs sélectifs. Pour évaluer l’impact de la DP sur les classificateurs sélectifs à différents niveaux de confidentialité, les auteurs introduisent une nouvelle approche d’évaluation. Leurs expériences montrent que, bien qu’il soit possible d’atteindre la performance des modèles non privés, cela nécessite de sacrifier la couverture du modèle, ou la gamme de données qu’il peut prédire avec confiance, à mesure que les protections de la vie privée deviennent plus strictes.

Comprendre la binarisation des réseaux neuronaux avec des quantificateurs proximaux avant et arrière

Comprendre la binarisation des réseaux neuronaux avec des quantificateurs proximaux avant et arrière
Yiwei Lu, Yaoliang Yu, Xinlin Li, Vahid Partovi Nia

BinaryConnect (BC) et ses variantes sont des méthodes courantes pour la binarisation des réseaux neuronaux, ce qui simplifie les réseaux en valeurs binaires pour plus d’efficacité. Mais la binarisation rencontre un obstacle avec l’entraînement à cause du gradient de la fonction signe qui est nul, ce qui bloque la progression puisque les poids ne peuvent pas se mettre à jour. Pour contourner cela, des « astuces d’entraînement » comme des gradients approximatifs sont utilisées pour poursuivre l’entraînement, malgré l’absence de fondements théoriques solides. Cet article cherche à rationaliser ces pratiques sous un angle d’optimisation. Il le fait en faisant passer ProxConnect (PC) à ProxConnect++ (PC++), qui encapsule diverses méthodes de binarisation. Les auteurs introduisent une approche systématique pour concevoir des quantificateurs, des outils qui convertissent des signaux continus en binaires, assurant ainsi des garanties théoriques de performance. Ils mettent en valeur cette avancée avec le nouvel algorithme BNN++. Grâce à des tests de classification d’images sur des réseaux complexes, BNN++ a montré des résultats prometteurs, suggérant qu’il pourrait améliorer l’entraînement des réseaux binaires tout en renforçant le cadre théorique derrière ces techniques d’optimisation.

VisAlign : Ensemble de données pour mesurer le degré d’alignement entre l’IA et les humains dans la perception visuelle

VisAlign : Ensemble de données pour mesurer le degré d’alignement entre l’IA et les humains dans la perception visuelle
Jiyoung Lee, Seungho Kim, Seunghyun Won, Joonseok Lee, Marzyeh Ghassemi, James Thorne, Jaeseok Choi, O-Kil Kwon, Edward Choi

L’alignement de l’IA garantit que les modèles d’apprentissage automatique poursuivent des résultats qui correspondent aux intentions, préférences ou éthiques humaines. Cependant, en raison de la nature opaque des modèles d’apprentissage profond à grande échelle, il est difficile de diriger manuellement leurs actions. Pour assurer la sécurité de l’IA, mesurer à quel point la perception visuelle de l’IA correspond à celle des humains peut être crucial. Cet article présente un ensemble de données novateur spécifiquement conçu pour évaluer l’alignement visuel IA-humain basé sur la classification des images, un aspect clé de la compréhension visuelle. Pour être efficace, un tel ensemble de données doit couvrir un large éventail de scénarios réels et inclure le jugement humain définitif comme norme. L’ensemble de données proposé comprend trois types d’échantillons d’images, classés comme Must-Act (ou Must-Classify), Must-Abstain et Incertains. Ces catégories reflètent la quantité et la clarté des informations visuelles présentes. Par exemple, les images incertaines sont très floues, et l’étiquetage de celles-ci a été réalisé participativement pour capturer la perception humaine avec précision. La structure de l’ensemble de données suit la théorie d’échantillonnage établie, les principes statistiques pour la conception des enquêtes et les contributions des experts. En utilisant cet ensemble de données, l’article évalue à quel point cinq modèles de perception visuelle de premier plan et sept méthodes pour décider quand s’abstenir de faire une prédiction s’alignent avec le jugement visuel humain, contribuant ainsi au domaine de la sécurité de l’IA.

Affiche en vedette | Wasserstein Monte Carlo quantique : une approche novatrice pour résoudre l’équation de Schrödinger quantique à plusieurs corps

Wasserstein Monte Carlo quantique : une approche novatrice pour résoudre l’équation de Schrödinger quantique à plusieurs corps
Kirill Neklyudov Jannes Nys, Luca Thiede, Juan Carrasquilla, Qiang Liu, Max Welling, Alireza Makhzani

Nous proposons « Wasserstein Quantum Monte Carlo », une approche novatrice pour résoudre l’équation quantique de Schrödinger à plusieurs corps, qui est un problème fondamental et complexe dans les domaines de la physique quantique, de la chimie quantique et des sciences des matériaux. Nous abordons la minimisation fonctionnelle d’énergie en mécanique quantique d’un point de vue purement probabiliste, plutôt que de la formulation conventionnelle de la fonction d’onde. Ce nouveau cadre nous permet de transformer le problème de minimisation d’énergie en un problème d’inférence probabiliste, où la densité cible est la densité de l’état fondamental. Nous empruntons ensuite des idées à la littérature sur l’inférence probabiliste et proposons d’utiliser des flux de gradient de Wasserstein (projetés) pour minimiser la fonctionnelle d’énergie directement dans l’espace des distributions. Nous montrons que notre méthode, appelée Monte Carlo Quantique de Wasserstein, converge plus rapidement que le Monte Carlo variationnel quantique conventionnel (que nous interprétons comme un écoulement projeté du gradient de Fisher–Rao) pour différents systèmes moléculaires.

Atelier | L’imagerie médicale rencontre NeurIPS

L’imagerie médicale rencontre NeurIPS
DOU QI, Konstantinos Kamnitsas, Yuankai Huo, Xiaoxiao Li, Daniel Moyer, Danielle Pace, Jonas Teuwen, Islem Rekik

« L’imagerie médicale rencontre NeurIPS » est un atelier satellite créé en 2017. L’atelier vise à rassembler des chercheurs issus des communautés d’informatique d’images médicales et d’apprentissage automatique. L’objectif est de discuter des principaux défis sur le terrain et des occasions de s’unir. Cette année, l’atelier comprendra des sessions orales et d’affiches en ligne, mettant l’accent sur les interactions avec le public. De plus, une série de conférenciers invités de haut niveau issus de l’industrie, du milieu universitaire, de l’ingénierie et des sciences médicales offriront un aperçu des avancées récentes, des défis, des technologies les plus récentes et des efforts pour le partage des données cliniques.

À lire aussi :

2026
Réflexions
Recherche
Recherche 2026

La nouvelle cartographie de l’invisible

Les femmes écrivent sur un tableau blanc. Il y a un homme à sa gauche qui regarde le tableau.
2025
Recherche
Recherche 2025

Les chercheurs en vecteurs font avancer les frontières de l’IA avec 80 articles au NeurIPS 2025

Logo vectoriel
2025
Réflexions

Une nouvelle étude révèle l’impact économique de 100 milliards de dollars de l’IA à travers le Canada, avec l’Ontario en tête