Chercheurs en vecteurs présentant plus de 98 articles à NeurIPS 2024

5 décembre 2024

Recherche 2024Recherche 2024

Des chercheurs de premier plan de Vector présentent des recherches novatrices lors de la conférence de cette année sur les systèmes de traitement de l’information neuronale (NeurIPS). La conférence, qui aura lieu du 10 au 15 décembre à Vancouver et en ligne, met en lumière le travail novateur du corps professoral, des membres affiliés du corps professoral, des boursiers postdoctoraux et chercheurs affiliés de Vector. Leurs recherches font avancer de multiples frontières de l’IA, avec des applications prometteuses qui pourraient transformer la vie quotidienne – des soins de santé au droit d’auteur.

Voici des résumés simplifiés de certains des articles acceptés par les chercheurs en vecteurs lors de la conférence principale.

Descriptions d’articles rédigées par des coauteurs et/ou de l’IA générative.

Optimisation bayésienne consciente de l’approximation

Natalie Maus, Kyurae Kim, David Eriksson, Geoff Pleiss, John Cunningham, Jacob Gardner

Résumé de l’article

Cet article présente une nouvelle approche pour l’inférence approximative des modèles de substitut utilisés dans les pipelines d’optimisation bayésienne. Les chercheurs notent que les techniques d’inférence approximative produisent des modèles substituts globalement fidèles, mais au prix de rendre les modèles moins utiles pour l’optimisation en boîte noire. Pour aligner le modèle de substitution approximatif avec l’objectif d’optimisation, les auteurs proposent d’inférer une distribution qui minimise l’EULBO (Expected Utility Lower-Bound) plutôt que l’ELBO variationnel standard (Evidence Lower Bound). Au lieu de traiter séparément les parties d’inférence et de prise de décision du processus, l’EULBO les regroupe en une approche unifiée. Les chercheurs ont testé leur méthode sur diverses tâches, notamment la conception de molécules et le contrôle de systèmes robotiques. Les résultats montrent que l’optimisation bayésienne basée sur EULBO a constamment mieux performé que les méthodes existantes, nécessitant souvent moins d’expériences pour obtenir les mêmes résultats ou de meilleurs résultats.

BIOSCAN-5M : Un ensemble de données multimodal sur la biodiversité des insectes

Zahra Gharaee, Scott Lowe, ZeMing Gong, Pablo Millan Arias, Nicholas Pellegrino, Austin T. Wang, Joakim Bruslund Haurum, Iuliia Zarubiieva, Lila Kari, Dirk Steinke, Graham Taylor, Paul Fieguth, Angel Chang

Résumé de l’article

BIOSCAN-5M introduit un ensemble de données multimodal contenant plus de 5 millions de spécimens d’arthropodes (98% d’insectes) afin d’aider à surveiller et comprendre la biodiversité. L’ensemble de données combine de manière unique des images de microscope à haute résolution, des codes-barres ADN, des étiquettes taxonomiques, des données géographiques et des informations sur la taille de chaque spécimen.

Les contributions clés sont :

  1. Échelle et exhaustivité – avec plus de 5 millions de spécimens, c’est nettement plus grand que les ensembles de données précédents et il inclut plusieurs types de données pour chaque spécimen
  2. Qualité – l’ensemble de données a subi des processus rigoureux de nettoyage et de validation, particulièrement pour les étiquettes taxonomiques
  3. Expériences de référence – les auteurs démontrent trois applications clés :
    • Classification taxonomique basée sur l’ADN
    • Apprentissage par transfert zéro coup pour le regroupement d’échantillons
    • Apprentissage multimodal combinant images, ADN et données taxonomiques

L’ensemble de données est conçu pour aider les chercheurs à développer de meilleurs outils d’IA pour la surveillance de la biodiversité, notamment pour identifier à la fois des espèces connues et nouvelles. Les auteurs montrent que combiner différents types de données (images, ADN, etc.) mène à une meilleure précision de classification que d’utiliser un seul type. Ce travail représente une avancée importante dans l’application de l’apprentissage automatique à la recherche sur la biodiversité, fournissant des ressources qui pourraient accélérer la découverte et le suivi des espèces à l’échelle mondiale.

ClavaDDPM : Synthèse multirelationnelle des données avec modèles de diffusion guidés par cluster

Wei Pang, Masoumeh Shafieinejad, Lucy Liu, Stephanie Hazlewood, Xi He

Résumé de l’article

Cet article présente ClavaDDPM, une nouvelle approche pour générer des données synthétiques pour des bases de données avec plusieurs tables interconnectées. Alors que les travaux précédents se sont principalement concentrés sur la création de données synthétiques pour des tables uniques, les bases de données réelles contiennent souvent de nombreuses tables liées, rendant la génération de données synthétiques plus complexe.

Les principales innovations sont :

  • Une façon novatrice de modéliser les relations entre tables en utilisant des « têtes de grappes » comme intermédiaires, aidant à saisir comment les données dans différentes tables sont connectées
  • Intégration avec des modèles de diffusion (un type de modèle d’IA efficace pour générer des données) afin de créer réellement les données synthétiques
  • Une technique spéciale d’appariement pour gérer les cas où une table est connectée à plusieurs tables mères

Les chercheurs ont testé ClavaDDPM sur cinq ensembles de données réels et ont constaté qu’il surpassait nettement les méthodes existantes, notamment pour préserver les relations entre les données dans différentes tables. Par exemple, lors de la génération de données financières synthétiques, ClavaDDPM a mieux préservé les relations à long terme entre les tableaux; comme le lien indirect entre la démographie des clients et le statut du prêt, qui sont liés par des tableaux intermédiaires.

Processus gaussiens conscients du calcul : sélection du modèle et inférence en temps linéaire

Jonathan Wenger, Kaiwen Wu, Philipp Hennig, Jacob Gardner, Geoff Pleiss, John Cunningham

Résumé de l’article

Les approximations de modèles « conscients du calcul » satisfont un désir où un calcul accru (moins d’approximation) donne des estimations d’incertitude plus faibles. Les auteurs présentent le premier algorithme pratique pour obtenir des approximations de processus gaussiens conscientes du calcul, introduisant deux avancées cruciales qui corrigent les limites des travaux antérieurs. Dans la première avancée clé, les auteurs introduisent une méthode qui induit de manière démontrable la propriété de conscience du calcul dans les processus gaussiens en temps linéaire, une réduction par rapport aux algorithmes en temps quadratique proposés dans des travaux antérieurs. Deuxièmement, les auteurs introduisent une approche variationnelle pour effectuer la sélection du modèle de manière consciente du calcul – sélectionnant les hyperparamètres du processus gaussienne et l’ordre du calcul – sans aboutir à un surajustement. Les chercheurs ont validé leur méthode sur plusieurs ensembles de données réels. Leurs expériences ont montré que le système peut gérer des ensembles de données contenant jusqu’à 1,8 million de points de données, s’entraînant en seulement quelques heures sur un seul GPU. Il fournit des estimations d’incertitude plus fiables et correspond ou surpasse les méthodes de pointe actuelles sur la plupart des indicateurs.

Relier les points : Les LLM peuvent déduire et verbaliser une structure latente à partir de données d’entraînement disparates

Johannes Treutlein, Dami Choi, Jan Betley, Cem Anil, Samuel Marks, Roger Grosse, Owain Evans

Résumé de l’article

Cet article examine si les modèles de langage IA (LLM) peuvent reconstituer des informations cachées à partir d’indices indirects dans leurs données d’entraînement – une capacité que les auteurs appellent « raisonnement inductif hors contexte » (OOCR). À travers cinq expériences différentes, ils démontrent que des LLM modernes comme GPT-3.5 et GPT-4 peuvent effectivement relier ces points indirects. Par exemple, lorsqu’on ne s’entraînait que sur les distances entre une ville non nommée et d’autres villes connues, l’IA pouvait deviner que la ville mystérieuse était Paris et répondre à des questions sur la culture française. De même, lorsqu’on ne voit que les résultats du pile ou face de la pièce, il peut déduire si la pièce est biaisée. Cette capacité a des implications importantes pour la sécurité de l’IA. Si les données d’entraînement d’un système d’IA sont censurées pour éliminer des informations dangereuses, l’IA pourrait tout de même être capable de reconstituer ces informations à partir de motifs subtils et d’indices laissés dans les données restantes. Bien que les expériences montrent que cette capacité existe, elle n’est pas parfaitement fiable. Les modèles plus petits avaient du mal avec des motifs complexes, et même les modèles avancés faisaient parfois des erreurs. Les chercheurs soulignent que cela suggère que les systèmes d’IA actuels ne peuvent probablement pas reconstituer de manière fiable des informations complexes et dangereuses, mais que la capacité pourrait devenir plus préoccupante à mesure que les modèles s’améliorent. Le travail met en lumière un défi potentiel dans le contrôle de ce que les systèmes d’IA de connaissances peuvent acquérir pendant la formation.

DistillNeRF : Percevoir des scènes 3D à partir d’images en un seul regard en distillant les champs neuronaux et les caractéristiques des modèles de fondation

Letian Wang, Seung Wook Kim, Jiawei Yang, Cunjun Yu, Boris Ivanovic, Steven Waslander, Yue Wang, Sanja Fidler, Marco Pavone, Peter Karkus

Résumé de l’article

Cet article présente DistillNeRF, une nouvelle méthode pour comprendre des scènes 3D à partir d’images limitées de caméras 2D dans des scénarios de conduite autonome. L’innovation clé consiste à combiner deux idées puissantes : premièrement, il apprend à partir de modèles 3D de haute qualité (appelés Champs de Radiance Neuronale ou NeRFs) qui sont optimisés pour chaque scène de conduite. Bien que ces modèles soient trop lents pour être utilisés directement dans des véhicules autonomes, ils peuvent apprendre à un modèle plus rapide à comprendre les scènes 3D avec précision.

Deuxièmement, il intègre des fonctionnalités issues de modèles de vision avancés par IA (comme CLIP et DINOv2) pour comprendre la signification sémantique des scènes – comme l’identification des voitures, des bâtiments et des routes. Le système prend plusieurs images de caméra d’un même instant et les convertit en une représentation 3D qui peut générer de nouvelles vues de la scène et comprendre quels objets sont présents. Contrairement aux approches précédentes qui nécessitaient un temps de traitement étendu par scène, cette méthode fonctionne en temps réel. Les tests sur des ensembles de données de conduite autonome montrent que DistillNeRF égale la qualité des méthodes plus lentes tout en étant beaucoup plus rapide, et peut effectuer des tâches comme l’estimation de la profondeur et l’identification d’objets dans l’espace 3D sans avoir besoin de données d’entraînement supplémentaires. Cela représente une étape importante pour aider les véhicules autonomes à mieux comprendre leur environnement de manière efficace et précise.

Lagrangien de Doob : une approche variationnelle efficace en échantillonnage pour l’échantillonnage des chemins de transition

Yuanqi Du, Michael Plainer, Rob Brekelmans, Chenru Duan, Frank Noe, Carla Gomes, Alan Aspuru-Guzik, Kirill Neklyudov

Résumé de l’article

Cet article présente une nouvelle méthode, plus efficace, d’étudier comment les molécules changent de forme, particulièrement lors de processus importants comme le repliement des protéines ou les réactions chimiques. Le problème clé qu’ils essaient de résoudre est que les méthodes traditionnelles nécessitent de simuler d’innombrables mouvements moléculaires pour capter des transitions rares mais importantes, ce qui est coûteux en calcul. Les chercheurs ont développé une approche variationnelle basée sur les idées de la mécanique lagrangienne qui permet une manière plus efficace de trouver les chemins de transition. Au lieu d’exécuter de nombreuses simulations dans l’espoir de capter des transitions importantes par hasard, leur approche utilise l’optimisation mathématique pour trouver directement les chemins les plus probables qu’une molécule prendra en passant d’une forme à une autre. L’équipe a testé sa méthode à la fois sur des systèmes de test simples et sur des molécules réelles comme le dipeptide d’alanine et la chignoline (une petite protéine). Leurs résultats ont montré que leur approche peut trouver les mêmes trajectoires de transition moléculaire que les méthodes traditionnelles, mais nécessite beaucoup moins de calculs – dans certains cas, seulement 1 million de calculs au lieu d’un milliard. Cette amélioration de l’efficacité pourrait aider les scientifiques à mieux comprendre et prédire les processus moléculaires importants dans des domaines comme le développement de médicaments, la science des matériaux et l’ingénierie des protéines. L’article combine des concepts de la physique statistique et de l’apprentissage automatique pour résoudre un défi computationnel de longue date en simulation moléculaire.

Estimation de l’effet causal de bout en bout à partir de données non structurées en langue non existante

Nikita Dhawan, Leonardo Cotta, Karen Ullrich, Rahul Krishnan, Chris Maddison

Résumé de l’article

Les chercheurs ont développé un moyen d’utiliser l’IA pour analyser des données en langage naturel (comme des publications de forums en ligne) afin de comprendre à quel point différents traitements fonctionnent. Les études traditionnelles nécessitent généralement des essais cliniques coûteux, mais cette méthode peut estimer les effets du traitement en analysant des données textuelles librement accessibles.

L’équipe a testé son approche sur six ensembles de données (deux cas synthétiques et quatre cas cliniques réels) impliquant des traitements pour le diabète et les migraines. Fait remarquable, leurs estimations se situaient à moins de 3 points de pourcentage des résultats issus d’essais cliniques réels, qui coûtent généralement des millions de dollars et prennent des années à compléter.

Bien que les auteurs mettent en garde que leur méthode ne devrait pas remplacer les essais cliniques pour des décisions à enjeux élevés, elle pourrait être un outil précieux pour :

  • Estimation rapide des effets du traitement à une fraction du coût
  • Aider les chercheurs à prioriser les traitements qui méritent des essais cliniques complets
  • Recueillir des perspectives à partir d’expériences concrètes partagées en ligne
  • Soutien à la collecte de preuves dans les cas où les procès traditionnels sont impraticables

Extension des encodeurs automatiques masqués vidéo à 128 images

Nitesh Bharadwaj Gundavarapu*, Luke Friedman, Raghav Goyal*, Chaitra Hegde*, Eirikur Agustsson, Sagar Waghmare, Mikhail Sirotenko, Ming-Hsuan Yang, Tobias Weyand, Boqing Gong, Leonid Sigal

* Contribution égale

Résumé de l’article

Les chercheurs ont abordé une limitation clé de l’IA vidéo : la plupart des systèmes ne peuvent traiter que de courts extraits vidéo (16 à 32 images) en raison de contraintes de mémoire, ce qui rend difficile la compréhension d’actions plus longues comme des mouvements sportifs complexes. Ils ont développé une solution appelée LVMAE (Long Video Masked AutoEncoder) qui :

  • Utilise une stratégie de « masquage adaptatif » pour traiter sélectivement uniquement les parties les plus importantes des vidéos (environ 15% du contenu)
  • Atteint une efficacité mémoire impressionnante, permettant le traitement de vidéos beaucoup plus longues (128 images)
  • Apprend automatiquement quelles parties des vidéos sont les plus importantes, plutôt que d’utiliser des règles prédéfinies
  • Surpasse les méthodes existantes sur des tâches complexes comme la classification des routines de plongée (+3,9%) et les activités en cuisine (+2,5%)

Les chercheurs ont réussi cela sans avoir besoin de paires vidéo-texte étiquetées ou d’architectures spécialisées, rendant leur approche plus simple et plus pratique que les méthodes précédentes. Un point clé était que se concentrer sur moins de parties mais plus importantes des vidéos mène à une meilleure compréhension que d’essayer de tout assimiler.

FairMedFM : Étalonnage de l’équité pour les modèles de fondation de l’imagerie médicale

Ruinan Jin, Zikang Xu, Yuan Zhong, Qingsong Yao, DOU QI, S. Kevin Zhou, Xiaoxiao Li

Résumé de l’article

Les chercheurs ont créé la première approche systématique pour tester et évaluer l’équité dans les modèles d’IA d’imagerie médicale en :

  • Évaluer 20 modèles de fondation différents à travers 17 ensembles de données d’imagerie médicale couvrant différents types d’examens (radiographies, IRM, etc.)
  • Tester les biais liés aux attributs des patients comme le sexe, l’âge et la race
  • Comparer la performance entre différentes tâches (classification et segmentation)
  • Voici plusieurs découvertes importantes :
    1. Des biais importants existent dans ces modèles, la performance variant selon le groupe démographique
    2. Différents modèles et méthodes d’utilisation présentent des compromis variables entre précision et équité
    3. Certains ensembles de données présentent de façon constante des schémas de biais selon les modèles
    4. Les méthodes actuelles pour réduire le biais ne sont pas très efficaces avec ces modèles de fondation

Ce travail offre une manière standardisée d’évaluer l’équité en IA médicale et ouvre la base de code à la communauté de recherche pour promouvoir le développement de systèmes d’IA en santé plus équitables.

Modèle fédéré : apprentissage hétérogène de la représentation matryoshka

Liping Yi, Han Yu, Chao Ren, Gang Wang, Xiaoguang Liu, Xiaoxiao Li

Résumé de l’article

Les chercheurs ont développé une solution novatrice pour relever trois grands défis de l’apprentissage fédéré : l’hétérogénéité des modèles, lorsque différentes organisations utilisent différentes architectures de modèles, l’hétérogénéité des systèmes, lorsque les organisations disposent de ressources informatiques variables, et l’hétérogénéité des données lorsque les organisations ont des types et des distributions de données différents. Cette approche introduit plusieurs innovations clés. Elle ajoute un petit modèle partagé parallèlement à celui de chaque organisation et utilise la « fusion de représentation adaptative » pour combiner les connaissances des deux modèles. Il met également en œuvre « l’apprentissage de la représentation multi-granularité » pour améliorer la performance du modèle. Théoriquement, la méthode atteint un taux de convergence de O(1/T). Les résultats démontrent des améliorations significatives, la précision augmentant jusqu’à 8,48% par rapport aux méthodes de pointe tout en réduisant les coûts de communication et de calcul. La méthode préserve la vie privée en ne partageant que le petit modèle commun entre les organisations, et non leurs architectures ou données propriétaires. Les tests sur différents types de tâches de classification d’images ont démontré une efficacité constante. Cette approche permet avec succès aux organisations de collaborer à l’entraînement de modèles d’IA tout en maintenant la confidentialité de leurs architectures de modèles propriétaires et de leurs données, obtenant ainsi de meilleures performances que les méthodes existantes.

Les ensembles de données FineWeb : Décanter le Web pour obtenir les meilleures données textuelles à grande échelle

Guilherme Penedo, Hynek Kydlíček, Loubna Ben allal, Anton Lozhkov, Margaret Mitchell, Colin Raffel, Leandro Von Werra, Thomas Wolf

Résumé de l’article

Les chercheurs ont relevé un défi majeur en IA : le manque de données d’entraînement de haute qualité accessibles publiquement pour les grands modèles de langage. Bien que de nombreux modèles d’IA « ouverts » partagent leur code, ils gardent souvent leurs données d’entraînement privées, créant un fossé de connaissances entre les systèmes publics et propriétaires. L’équipe a développé FineWeb à travers des expérimentations rigoureuses, testant différentes approches pour :

  • Extraction de texte à partir de pages web
  • Stratégies de filtrage des données pour éliminer du contenu de faible qualité
  • Méthodes de déduplication pour éliminer l’information redondante
  • Filtrage de contenu éducatif pour FineWeb-Edu

Les résultats montrent des améliorations significatives par rapport aux ensembles de données publics existants :

  • Les modèles entraînés sur FineWeb performent mieux que ceux entraînés sur d’autres ensembles de données publics
  • FineWeb-Edu montre des performances particulièrement solides sur des tâches à forte intensité en connaissances
  • Les auteurs publient les deux ensembles de données ainsi que leur pipeline complet de traitement des données

Il est important de noter que l’article offre une transparence totale sur les limites et les biais potentiels des ensembles de données, y compris les tendances à certaines représentations démographiques et les biais thématiques dans les données.

D’abord explorer, puis exploiter : méta-apprentissage pour résoudre les compromis difficiles entre exploration et exploitation

Ben Norman, Jeff Clune

Résumé de l’article

Dans la vie et l’IA, le succès exige souvent d’équilibrer l’exploration (prendre des risques pour apprendre) et l’exploitation (utiliser ce que l’on connaît pour gagner). Par exemple, dans un tournoi, expérimenter des stratégies dans les premiers matchs pourrait vous aider à gagner plus tard. Cependant, cet article identifie une limitation majeure des méthodes actuelles basées sur l’apprentissage par renforcement (RL) : elles échouent lorsque l’exploration efficace nécessite de sacrifier des récompenses immédiates. Étonnamment, même des problèmes très simples font trébucher avec des approches de pointe.

La racine du problème réside dans le fait que ces méthodes reposent sur une seule politique pour explorer et exploiter, ce qui les enferme dans un comportement à courte vue. Pour répondre à ce problème, les chercheurs proposent First-Explore, une solution simple mais puissante. Elle forme deux politiques distinctes :

  • Une politique d’exploration qui se concentre entièrement sur la collecte d’informations.
  • Une politique d’exploitation qui vise à maximiser les récompenses en fonction de cette information.

Ces politiques sont combinées en explorant d’abord un certain nombre d’épisodes, puis en passant à l’exploitation pour les épisodes restants. Cette séparation permet au système d’explorer efficacement sans être pénalisé pour des pertes à court terme. Malgré sa simplicité, First-Explore offre des résultats remarquables — obtenant des performances 2 à 10 fois meilleures que les méthodes existantes dans trois environnements de test diversifiés où l’exploration nécessitait des sacrifices à court terme. En rellevant ce défi, First-Explore franchit une étape importante vers la création d’algorithmes RL capables d’explorer, d’adapter et de performer à la manière de l’humain, tant dans des contextes simples que complexes.

Attention des fentes par grilles pour la modélisation efficace des séquences en temps linéaire

Yu Zhang, Songlin Yang, Rui-Jie Zhu, Yue Zhang, Leyang Cui, Yiqiao Wang, Bolun Wang, Freda Shi, Bailin Wang, Wei Bi, Peng Zhou, Guohong Fu

Résumé de l’article

Bien que les Transformers soient des modèles d’IA puissants, ils deviennent inefficaces lors du traitement de longues séquences en raison de leurs besoins croissants en mémoire. Les modèles d’attention linéaires offrent une solution, mais ont du mal avec des tâches nécessitant la mémoire d’information et sont coûteux à entraîner à partir de zéro.

La méthode proposée d’attention à fentes fermées (GSA) répond à ces défis en améliorant une méthode existante (ABC) avec un mécanisme de verrouillage qui aide le modèle à retenir ou oublier sélectivement l’information. Cela le rend plus efficace tant pour l’entraînement que pour l’utilisation réelle. Les auteurs montrent que la GSA performe mieux que d’autres modèles similaires sur des tâches nécessitant le rappel d’informations, tout en utilisant moins de mémoire de calcul. Notamment, la GSA fonctionne aussi bien pour convertir des modèles Transformer pré-entraînés en versions plus efficaces, nécessitant seulement environ 1 à 3% des coûts d’entraînement originaux. Lors des tests, la GSA a surpassé d’autres méthodes lors de l’ajustement précis du modèle de langage Mistral-7B, démontrant sa valeur pratique pour rendre les grands modèles de langage plus efficaces.

GenAI Arena : une plateforme d’évaluation ouverte pour les modèles génératifs

Dongfu Jiang, Max KU, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen

Résumé de l’article

GenAI Arena est une nouvelle plateforme qui comble une lacune critique dans l’évaluation des modèles d’IA générant des images et des vidéos. Bien qu’il existe de nombreux modèles d’IA capables de créer des images et des vidéos à partir de descriptions textuelles, il a été difficile de déterminer lesquels fonctionnent le mieux. Les métriques automatisées traditionnelles ne parviennent souvent pas à saisir ce que les humains trouvent réellement attrayant ou de haute qualité.

La plateforme permet aux utilisateurs de comparer les résultats de différents modèles d’IA côte à côte et de voter pour savoir lequel est meilleur. Après sept mois d’activité, il a recueilli plus de 9 000 votes répartis sur trois tâches : la génération de texte en image, le montage d’images et la génération de texte en vidéo. Les résultats ont identifié les meilleurs modèles actuels dans chaque catégorie et ont révélé que même les modèles d’IA avancés comme GPT-4 ne sont pas très efficaces pour juger la qualité d’image comparée à celle des humains, n’atteignant qu’environ 49% de précision lorsqu’on tente de prédire les préférences humaines.

GV-Rep : Un ensemble de données à grande échelle pour l’apprentissage de la représentation de variantes génétiques

Zehui Li, Vallijah Subasri, Guy-Bart Stan, Yiren Zhao, Bo Wang

Résumé de l’article

À mesure que le séquençage de l’ADN devient moins coûteux, les médecins font face à un défi croissant pour analyser la grande quantité de données génétiques afin d’identifier des variants importants pouvant affecter la santé des patients. Bien que les modèles d’IA puissent aider, ils manquent actuellement de moyens standardisés pour évaluer leurs performances.

GV-Rep répond à cela en fournissant un vaste ensemble de données de 7 millions d’enregistrements de variantes génétiques, incluant :

  • Données provenant de sept grandes bases de données génétiques
  • 17 548 tests de knockout génique sur 1 107 types cellulaires
  • 1 808 combinaisons de variantes
  • 156 variants cliniquement vérifiés chez de vrais patients

Les auteurs ont testé plusieurs modèles d’IA sur cet ensemble de données et ont constaté que, bien qu’ils fonctionnent adéquatement sur des tâches de base (65% de précision dans la classification des variants responsables de la maladie), ils rencontrent des défis plus complexes comme la prédiction de la façon dont les variants affectent l’expression génique dans des types cellulaires spécifiques.

Ce jeu de données vise à aider à développer de meilleurs outils d’IA pour comprendre les variations génétiques et leurs effets sur la santé humaine.

Amélioration de la reconstruction cryo-EM ab initio avec inférence de pose semi-amortie

Shayan Shekarforoush, David Lindell, Marcus Brubaker, David Fleet

Résumé de l’article

CryoSPIN est une nouvelle méthode computationnelle qui améliore la façon dont nous déterminons la structure 3D des protéines et autres molécules biologiques à partir d’images au microscope électronique. L’innovation clé est une approche en deux étapes qui combine les « meilleures estimations » initiales avec un raffinement précis. Pensez à cela comme d’abord faire un croquis approximatif d’un bâtiment sous plusieurs angles, puis ajuster soigneusement chaque perspective pour obtenir l’image finale la plus nette possible. La méthode surpasse les approches existantes tant en vitesse qu’en précision. Il est particulièrement efficace pour gérer des situations où les images initiales peuvent être interprétées de plusieurs façons – comme regarder une forme complexe sous un angle où il est difficile de savoir exactement comment elle est orientée.

Infusion de données synthétiques avec des motifs réels pour la segmentation de l’état des matériaux zéro tir

Sagi Eppel, Jolina Li, Manuel Drehwald, Alan Aspuru-Guzik

Résumé de l’article

Cette recherche relève le défi d’enseigner à l’IA la reconnaissance des différents états des matériaux dans des images, comme l’identification des taches humides sur les surfaces, la rouille sur le métal ou les zones infectées sur les plantes, sans se limiter aux matériaux spécifiques sur lesquels le système a été entraîné. Les systèmes d’IA actuels ont du mal à accomplir cette tâche parce qu’il est difficile d’obtenir suffisamment de données d’entraînement correctement étiquetées. Les chercheurs ont développé une solution ingénieuse qui combine le meilleur des deux mondes : ils extraient automatiquement des motifs d’images réelles et les utilisent pour créer des données d’entraînement synthétiques. Pensez-y comme enseigner à une IA en lui montrant à la fois des exemples réels et des exemples artificiels soigneusement conçus qui reflètent la complexité du monde réel. Ils ont aussi créé le premier benchmark complet (appelé MatSeg) pour tester la capacité des systèmes d’IA à identifier les états matériels dans de nombreuses situations différentes – de la cuisson à la construction. Lorsqu’ils ont été testés contre des modèles d’IA de premier plan comme le Segment Anything Model (SAM) de Meta, leur approche a beaucoup mieux performé l’identification des états complexes des matériaux. L’équipe de recherche a rendu publics son ensemble de données, son code et plus de 300 000 textures extraites, ce qui devrait aider d’autres chercheurs à approfondir ce travail pour améliorer la compréhension par l’IA de la façon dont les matériaux apparaissent et changent dans le monde réel.

Inférence de jeux de données LLM : Détection des ensembles de données, pas des chaînes de caractères

Pratyush Maini, Hengrui Jia, Nicolas Papernot, Adam Dziedzic

Résumé de l’article

Des poursuites récentes contre des entreprises d’IA ont soulevé des questions concernant l’utilisation de contenus protégés par le droit d’auteur pour former des LLM. Alors que des recherches antérieures tentaient d’identifier si des exemples textuels spécifiques se trouvaient dans les données d’entraînement d’un modèle (appelées attaques d’inférence d’appartenance), cet article montre que ces méthodes sont peu fiables et souvent pas meilleures que la devinette aléatoire. Au lieu de cela, les chercheurs adaptent « l’inférence des ensembles de données » au grand modèle de langage – une méthode permettant de déterminer si un ensemble complet de données (comme un livre ou une collection d’articles) a été utilisé lors de la formation. Leur approche combine plusieurs techniques de test et atteint une signification statistique pour identifier les ensembles de données d’entraînement sans faux positifs. Cela est plus pertinent pour les cas réels de droits d’auteur, où les auteurs affirment généralement que leurs œuvres entières ont été utilisées pour la formation, plutôt que pour des phrases individuelles.

Processus LLM : distributions prédictives numériques conditionnées par le langage naturel

James Requeima, John Bronskill, Dami Choi, Richard Turner, David Duvenaud

Résumé de l’article

Cet article présente les « processus LLM » (LLMP), une approche novatrice qui permet aux grands modèles de langage de faire des prédictions numériques à l’aide de distributions de probabilité. L’innovation clé est que ces prédictions peuvent être guidées par des descriptions en langage naturel du contexte du problème. Par exemple, vous pouvez dire au modèle « ceci est une mesure de température de Montréal en janvier » ou « c’est un cours d’action qui finira par tomber à zéro », et il ajustera ses prévisions en conséquence. Les chercheurs ont démontré que les LLMP peuvent aussi bien performer que des outils statistiques spécialisés comme les processus gaussiens sur diverses tâches, notamment la régression, la prévision et la reconstruction d’images. Il est important de noter que les LLMP peuvent intégrer des conseils en langage naturel pour améliorer les prédictions – ce que les méthodes statistiques traditionnelles ne peuvent pas faire. Le modèle peut gérer les données manquantes, travailler avec plusieurs dimensions et produire des estimations d’incertitude concernant ses prédictions.

Soupes supérieures locales : un catalyseur pour la fusion de modèles dans l’apprentissage fédéré inter-silos

Minghui Chen, Meirui Jiang, Xin Zhang, DOU QI, Zehua Wang, Xiaoxiao Li

Résumé de l’article

L’apprentissage fédéré permet à plusieurs appareils d’entraîner de manière collaborative des modèles d’IA tout en gardant les données privées. Cependant, ce processus nécessite généralement de nombreuses communications aller-retour entre les appareils, ce qui peut être lent et gourmande en ressources. Les chercheurs ont développé une nouvelle méthode appelée « Local Superior Soups » (LSS) qui réduit considérablement le nombre de balles de communication nécessaires. LSS fonctionne en combinant habilement plusieurs versions de modèles sur chaque appareil avant de les partager avec d’autres. Il utilise deux stratégies clés : un terme « diversité » qui garantit que différentes versions du modèle explorent différents aspects du problème, et un terme « d’affinité » qui empêche les modèles de s’éloigner trop de leur point de départ initial. Dans des expériences menées sur quatre ensembles de données différents, le LSS a obtenu de meilleures performances avec beaucoup moins de rondes de communication comparativement aux méthodes existantes.

MAmmoTH2 : Instructions de mise à l’échelle du Web

Xiang Yue, Tianyu Zheng, Ge Zhang, Wenhu Chen

Résumé de l’article

Les chercheurs ont développé un processus en trois étapes pour récolter 10 millions d’exemples d’instructions naturellement présents sur Internet. D’abord, ils trouvent des documents pertinents; deuxièmement, ils extraient des paires questions-réponses; et troisièmement, ils affinent ces paires à l’aide de modèles d’IA open source. Cette approche évite l’annotation humaine coûteuse ou la génération de GPT-4 que d’autres méthodes exigent.

Lorsqu’ils ont entraîné des modèles de langage sur ces données, les résultats ont montré des améliorations significatives. Par exemple, la performance de leur modèle MAmmoTH2-7B est passée de 11% à 36,7% sur les problèmes de mathématiques et de 36% à 68,4% en mathématiques à l’école primaire, sans utiliser aucune donnée d’entraînement provenant de ces tests spécifiques. Le modèle a bien performé dans plusieurs types de tâches de raisonnement.

Ce qui rend cette approche unique, c’est qu’au lieu de créer de nouvelles données d’instructions, elle trouve et nettoie des exemples naturels du web, ce qui la rend plus rentable et évolutive que les méthodes existantes.

Jailbreaking à plusieurs tirs

Cem Anil, Esin Durmus, Nina Panickssery, Mrinank Sharma, Joe Benton, Sandipan Kundu, Joshua Batson, Meg Tong, Jesse Mu, Daniel Ford, Francesco Mosconi, Rajashree Agrawal, Rylan Schaeffer, Naomi Bashkansky, Samuel Svenningsen, Mike Lambert, Ansh Radhakrishnan, Carson Denison, Evan Hubinger, Yuntao Bai, Trenton Bricken, Timothy Maxwell, Nicholas Schiefer, James Sully, Alex Tamkin, Tamera Lanham, Karina Nguyen, Tomasz Korbak, Jared Kaplan, Deep Ganguli, Samuel Bowman, Ethan Perez, Roger Grosse, David Duvenaud

Résumé de l’article

Nous étudions une famille d’attaques simples à long contexte sur de grands modèles de langage : des incitations avec des centaines de démonstrations de comportements indésirables. Cela devient de nouveau possible grâce aux fenêtres contextuelles plus larges récemment déployées par Anthropic, OpenAI et Google DeepMind. Nous constatons que dans des circonstances diverses et réalistes, l’efficacité de cette attaque suit une loi de puissance, jusqu’à des centaines de tirs. Nous démontrons le succès de cette attaque sur les modèles à poids fermé les plus largement utilisés, à la fine pointe de la technologie, et à travers diverses tâches. Nos résultats suggèrent que des contextes très longs présentent une nouvelle surface d’attaque riche pour les LLM.

MassSpecGym : Un repère pour la découverte et l’identification de molécules

Roman Bushuiev, Anton Bushuiev, Niek de Jonge, Adamo Young, Fleming Kretschmer, Raman Samusevich, Janne Heirman, Fei Wang, Luke Zhang, Kai Dührkop, Marcus Ludwig, Nils Haupt, Apurva Kalia, Corinna Brungs, Robin Schmid, Russell Greiner, Bo Wang, David Wishart, Liping Liu, Juho Rousu, Wout Bittremieux, Hannes Rost, Tytus Mak, Soha Hassoun, Florian Huber, Justin J.J. van der Hooft, Michael Stravs, Sebastian Böcker, Josef Sivic, Tomáš Pluskal

Résumé de l’article

Les chercheurs ont créé MassSpecGym, la plus grande collection publique de 231 000 spectres de spectrométrie de masse étiquetés de haute qualité, représentant 29 000 molécules uniques. La référence définit trois défis majeurs pour les modèles d’IA :

  1. Générer des structures moléculaires à partir de zéro (génération de novo)
  2. Trouver des molécules correspondantes à partir d’une base de données (récupération de molécules)
  3. Prédire à quoi ressemblerait le spectre d’une molécule (simulation de spectre)

Ce qui rend cette référence précieuse, c’est qu’elle standardise ces tâches et les rend accessibles à la communauté plus large de l’apprentissage automatique, plutôt que de nécessiter une expertise approfondie en spectrométrie de masse. Les auteurs ont aussi développé une nouvelle façon de diviser les données pour l’entraînement et les tests, afin de s’assurer que les modèles apprennent vraiment à généraliser plutôt qu’à mémoriser des molécules similaires. Leur évaluation des modèles de référence montre que, bien que les méthodes actuelles fonctionnent raisonnablement bien, il reste encore une marge d’amélioration significative, ce qui suggère que cette référence pourrait aider à stimuler les progrès dans la découverte moléculaire.

Le regret minimax de l’attribution séquentielle des probabilités, des sommes de Shtarkov contextuelles et de la vraisemblance maximale normalisée en contexte

Ziyi Liu, Idan Attias, Dan Roy

Résumé de l’article

Imaginez que vous devez prédire à plusieurs reprises les probabilités d’événements futurs, comme la prévision météorologique, où vous obtenez des informations pertinentes (contexte) avant de faire chaque prédiction. Aïe bien, pouvez-vous comparer avec le meilleur expert d’une même catégorie d’experts avec le recul? Cet article étudie ce problème fondamental. Les chercheurs introduisent une nouvelle méthode pour mesurer la difficulté de ces tâches de prédiction, appelée la « somme contextuelle de Shtarkov ». Ils démontrent que cette mesure capture parfaitement les limites fondamentales de la performance d’un algorithme. En s’appuyant sur cette idée, ils développent un algorithme optimal appelé vraisemblance maximale normalisée contextuelle (cNML). Leur cadre théorique étend les travaux antérieurs de deux façons importantes : il peut traiter des cas avec plus de deux résultats possibles (pas seulement des prédictions binaires oui/non), et il travaille avec des experts capables d’utiliser l’historique de toutes les prédictions précédentes (pas seulement le contexte actuel). Les chercheurs utilisent également leur nouvelle mesure pour améliorer les limites de performance existantes, offrant une analyse plus simple et plus précise que les travaux précédents. Bien que l’algorithme optimal qu’ils développent puisse être très exigeant en calcul, il constitue une référence théorique importante et pourrait guider le développement d’approches plus pratiques.

MMLU-Pro : un benchmark plus robuste et exigeant pour la compréhension des langages multitâches

Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max KU, Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen

Résumé de l’article

À mesure que les modèles de langage d’intelligence artificielle continuent de s’améliorer, de nombreux tests standards utilisés pour les évaluer deviennent moins utiles, les meilleurs modèles obtenant tous des résultats similaires. Cet article présente MMLU-Pro, un benchmark plus exigeant et fiable conçu pour mieux distinguer les capacités des modèles. MMLU-Pro améliore le benchmark original du MMLU de plusieurs façons : il augmente les choix de réponses de 4 à 10 options, ajoute des questions de raisonnement plus complexes, élimine les questions triviales et fait l’objet d’un examen d’experts. La référence couvre 14 matières, dont les mathématiques, la physique, le droit et la psychologie. Les tests montrent que MMLU-Pro est nettement plus difficile – même les meilleurs modèles obtiennent un score de 16 à 33% plus bas que sur MMLU. Il est important de noter que le benchmark est plus stable (moins affecté par les variations du prompt) et révèle mieux les différences réelles entre les modèles. Par exemple, bien que GPT-4 et GPT-4-Turbo aient des scores presque identiques sur MMLU, il y a un écart de 9% entre eux sur MMLU-Pro. Les chercheurs ont également constaté que l’utilisation du raisonnement en chaîne de pensée améliore significativement la performance sur MMLU-Pro, ce qui suggère qu’elle teste réellement la capacité de raisonnement plutôt que la simple mémoire des connaissances. Même les meilleurs modèles actuels ont une marge d’amélioration substantielle par rapport à ce benchmark.

Lois d’échelle observationnelle et prévisibilité de la performance des modèles de langage

Yangjun Ruan, Chris Maddison, Tatsunori Hashimoto

Résumé de l’article

Cet article présente une façon moins coûteuse et plus efficace de prédire la performance des modèles de langage à mesure qu’ils grandissent. Au lieu de devoir entraîner de nombreux nouveaux modèles à différentes tailles (ce qui est très coûteux), les chercheurs ont découvert qu’ils pouvaient faire des prédictions précises en analysant les données d’environ 100 modèles publics existants. L’idée clé est que la performance des modèles de langage peut s’expliquer par seulement quelques « dimensions de capacité » fondamentales. Ces capacités croissent de façon prévisible avec la puissance de calcul au sein de chaque famille de modèles, ce qui permet aux chercheurs de faire des prévisions sur les performances futures. Les chercheurs ont validé leur approche en prédisant avec précision plusieurs comportements complexes : quand les modèles développeraient de nouvelles capacités, leur performance sur des tâches d’agent (comme GPT-4), et les bénéfices qu’ils retireraient des techniques avancées d’incitation. Cette nouvelle méthode est importante car elle rend l’analyse de mise à l’échelle beaucoup plus accessible aux chercheurs qui n’ont pas de budgets de calcul énormes. Il offre aussi des insights à plus haute résolution puisqu’il peut utiliser des données provenant de beaucoup plus de modèles que les approches traditionnelles qui nécessitent d’entraîner de nouveaux modèles à partir de zéro.

Sur l’efficacité de la REM dans l’apprentissage des fonctionnalités

Ayoub El Hanchi, Chris Maddison, Murat Erdogdu

Résumé de l’article

Cet article explore la performance des algorithmes d’apprentissage automatique lorsqu’ils doivent déterminer à la fois quelles caractéristiques comptent et comment les utiliser pour faire des prédictions. Par exemple, pour essayer de prédire les prix des maisons, vous pouvez utiliser plusieurs caractéristiques différentes, notamment la superficie, le nombre de chambres et l’emplacement. Mais lequel est le meilleur?  Les chercheurs ont découvert quelque chose de surprenant : lorsque vous avez suffisamment de données, les algorithmes peuvent apprendre quelles fonctionnalités utiliser presque aussi bien que s’ils avaient reçu les bonnes caractéristiques dès le départ. C’est comme si l’algorithme finissait par comprendre que la superficie compte plus que, disons, la couleur de la porte d’entrée. C’est particulièrement important car cela aide à expliquer pourquoi les modèles modernes complexes d’apprentissage automatique fonctionnent mieux que prévu. Les chercheurs ont démontré mathématiquement que lorsque seul un petit nombre de caractéristiques sont réellement utiles pour les prédictions, l’algorithme peut les identifier plus facilement, même lorsqu’on lui donne de nombreuses caractéristiques possibles parmi lesquelles choisir. Ces résultats pourraient nous aider à mieux comprendre quand et pourquoi l’apprentissage automatique fonctionne, ce qui pourrait mener à des systèmes d’IA plus efficaces et fiables.

Un seul échantillon convient à tous : approximer toutes les valeurs probabilistes simultanément et efficacement

Weida Li, Yaoliang Yu

Résumé de l’article

« Un seul échantillon convient à tous » (OFA) est une nouvelle méthode qui calcule efficacement plusieurs types de valeurs probabilistes – des outils mathématiques utilisés en IA pour évaluer l’importance des données ou des caractéristiques. Auparavant, le calcul de ces valeurs nécessitait des calculs séparés pour chaque type, ce qui était coûteux et inefficace en calcul. Leur cadre utilise un seul processus d’échantillonnage pour approximer simultanément tous les types de valeurs probabilistes, réduisant considérablement les coûts de calcul. Ils ont créé deux variantes : une optimisée pour un usage général dans tous les types (OFA-A), et une autre pouvant être ajustée pour des types spécifiques (OFA-S). La méthode atteint la meilleure performance actuelle pour certains types importants de valeurs probabilistes, en particulier les valeurs de Beta Shapley, tout en maintenant une forte performance sur d’autres types. Ils ont également montré comment leur méthode se relie aux techniques statistiques existantes, en particulier aux problèmes de régression des moindres carrés. Grâce à une analyse théorique approfondie et des tests empiriques, ils ont démontré que leur approche non seulement égale ou dépasse la performance des méthodes existantes, mais le fait tout en étant plus efficace sur le plan computationnel. Cette avancée rend plus pratique l’utilisation de ces outils mathématiques importants dans des applications d’IA réelles.

OSWorld : Benchmarking des agents multimodaux pour des tâches ouvertes dans des environnements informatiques réels

Tianbao Xie, Danyang Zhang, Jixuan Chen, Xiaochuan Li, Siheng Zhao, Ruisheng Cao, Jing Hua Toh, Zhoujun Cheng, Dongchan Shin, Fangyu Lei, Yitao Liu, Yiheng Xu, Shuyan Zhou, Silvio Savarese, Caiming Xiong, Victor Zhong, Tao Yu

Résumé de l’article

Les chercheurs ont développé OSWorld, un nouvel environnement de test qui permet aux agents IA d’interagir avec de vrais systèmes d’exploitation et applications informatiques, plutôt qu’avec de simples environnements simulés. Cela comble une lacune majeure dans les tests actuels de l’IA, où la plupart des environnements sont soit non interactifs, soit limités à des applications spécifiques comme les navigateurs web. OSWorld comprend 369 tâches réelles qui testent la capacité des agents d’IA à utiliser diverses applications comme les tableaux Tableur, les courriels et les navigateurs web, un peu comme les humains utilisent les ordinateurs. Chaque tâche est accompagnée d’instructions de configuration détaillées et de scripts d’évaluation pour mesurer le succès avec précision. Lors des tests des modèles d’IA de pointe actuels (y compris GPT-4V, Gemini et Claude-3), les résultats ont montré des limites importantes. Alors que les humains pouvaient accomplir avec succès environ 72% des tâches, le meilleur modèle d’IA n’a obtenu que 12,24% de succès. Les modèles d’IA avaient particulièrement du mal à contrôler précisément la souris, à comprendre des interfaces complexes et à travailler entre plusieurs applications. Cette recherche met en lumière l’écart considérable entre les capacités actuelles de l’IA et le fonctionnement informatique au niveau humain, tout en offrant une plateforme complète pour développer et tester des systèmes d’IA plus performants à l’avenir.

Amélioration des politiques à l’aide de modèles de rétroaction linguistique

Victor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre Côté

Résumé de l’article

Les chercheurs ont développé une nouvelle méthode pour aider les systèmes d’IA à mieux suivre les instructions en créant des « modèles de rétroaction linguistique » (LFM). Au lieu d’utiliser directement de grands modèles de langage coûteux, ils ont créé un système qui apprend d’abord des retours de ces modèles sur les actions utiles, puis utilise ces connaissances pour entraîner des systèmes d’IA plus petits et plus efficaces. Pensez-y comme si un enseignant expert fournissait d’abord une rétroaction sur les actions des élèves, puis utilisait ce retour pour créer un assistant d’enseignement plus accessible qui peut aider plusieurs élèves à s’améliorer. Le système s’est avéré efficace dans trois types de tâches différentes : naviguer dans les rues de la ville, effectuer des tâches en cuisine et mener des expériences scientifiques. Il est important de noter que cette approche était non seulement plus efficace que l’utilisation directe de grands modèles de langage, mais aussi plus rentable. Le système pouvait s’adapter à de nouvelles situations sans formation supplémentaire et fournissait des rétroactions que les humains pouvaient comprendre et vérifier. Cette recherche représente une avancée majeure pour améliorer les systèmes d’IA à suivre les instructions tout en maintenant les coûts gérables et en maintenant la transparence dans la manière dont l’IA prend ses décisions.

Modèles d’équilibre profond quantique

Philipp Schleich, Marta Skreta, Lasse Kristensen, Rodrigo Vargas-Hernandez, Alan Aspuru-Guzik

Résumé de l’article

L’apprentissage automatique quantique actuel fait face, entre autres, aux deux défis clés suivants : les circuits profonds accumulent des erreurs, et l’évaluation des gradients nécessite de nombreuses mesures, dont davantage sont nécessaires pour un nombre plus élevé de paramètres. Les chercheurs proposent QDEQ comme solution – adapter les modèles classiques d’équilibre profond à l’informatique quantique. Plutôt que d’utiliser de nombreuses couches de circuits explicites, QDEQ trouve des points fixes qui simulent efficacement un réseau à profondeur infinie en utilisant des circuits beaucoup moins profonds. Ils testent cette approche sur des tâches de classification d’images utilisant 4 à 10 qubits et constatent que QDEQ peut égaler ou dépasser la performance de modèles avec 5 fois plus de couches tout en utilisant beaucoup moins de paramètres. Cela est particulièrement important pour les ordinateurs quantiques à court terme où la profondeur du circuit doit être minimisée.

Le bruit de représentation empêche efficacement l’ajustement fin nuisible sur les LLM

Domenic Rosati, Jan Wehner, Kai Williams, Lukasz Bartoszcze, Robie Gonzales, Carsten Maple, Subhabrata Majumdar, Hassan Sajjad, Frank Rudzicz

Résumé de l’article

Les mesures de sécurité actuelles pour les LLM peuvent être facilement contournées grâce à des ajustements fins, créant un risque important lors de la sortie de modèles open source. Les chercheurs proposent RepNoise comme solution – un mécanisme de défense qui fonctionne en « bruitant » (dégradant) délibérément les représentations internes du contenu nuisible du modèle à toutes les couches du réseau. Cela rend beaucoup plus difficile pour les attaquants de récupérer des capacités nuisibles grâce à des ajustements fins, même lorsqu’ils ont un accès complet aux poids des modèles. RepNoise fonctionne en utilisant une fonction de perte en trois parties qui : 1) réduit l’information prédictive sur les sorties nuisibles, 2) conserve la capacité sur des tâches inoffensives, et 3) pousse les représentations nuisibles vers le bruit aléatoire. La méthode s’est avérée efficace pour se défendre contre l’ajustement fin nuisible tout en maintenant la performance du modèle sur des tâches bénignes.

Récompenser les machines pour le RL profond dans des environnements bruyants et incertains

Andrew Li, Zizhao Chen, Toryn Klassen, Pashootan Vaezipoor, Rodrigo Toro Icarte, Sheila McIlraith

Résumé de l’article

Les machines de récompense offrent un cadre pour représenter formellement des comportements complexes et dignes de récompense, tout en exposant la structure de la fonction de récompense pour accélérer l’apprentissage par renforcement (RL). Les algorithmes Prior Reward Machine ont traditionnellement ignoré l’incertitude inhérente à la survenue d’événements clés (comme atteindre un endroit désiré ou ramasser un objet particulier), qui peuvent survenir dans des contextes réels à cause de capteurs bruyants ou d’observabilité partielle. Les chercheurs introduisent un nouveau cadre de machine de récompense pour entraîner des agents RL conscients de l’incertitude entourant la survenue de ces événements clés, et qui apprennent à agir en conséquence. Par la théorie et les expériences, ils révèlent les pièges d’ignorer ou d’incorporer naïvement cette incertitude dans la prise de décision d’un agent, ce qui peut entraîner des comportements non intentionnels ou dangereux. Ils démontrent également comment l’impact de cette incertitude peut être atténué pour former des agents RL plus sûrs et plus fiables.

SCube : Reconstruction instantanée de scènes à grande échelle avec VoxSplats

Xuanchi Ren, Yifan Lu, Hanxue Liang, Jay Zhangjie Wu, Huan Ling, Mike Chen, Sanja Fidler, Francis Williams, Jiahui Huang

Résumé de l’article

Cette recherche relève le défi de créer des modèles 3D détaillés à partir de seulement quelques photographies d’une scène. Bien que les méthodes existantes nécessitent soit de nombreuses photos qui se chevauchent, soit produisent des résultats flous, cette nouvelle approche appelée SCube peut créer des reconstructions 3D de haute qualité à partir de seulement trois images non superposées en seulement 20 secondes. La clé du succès de SCube réside dans sa combinaison novatrice de techniques : il utilise une représentation hybride appelée VoxSplat qui combine l’efficacité des voxels (pixels 3D) avec la qualité visuelle des points gaussiens 3D. Le système fonctionne en deux étapes : d’abord déterminer la structure de base et la géométrie de la scène, puis remplir les détails d’apparence. Les chercheurs ont testé SCube sur le jeu de données de voitures autonomes Waymo, montrant qu’il surpasse les méthodes existantes tant en qualité qu’en vitesse. Le système peut reconstituer des scènes à grande échelle s’étendant sur des centaines de mètres et a des applications pratiques en conduite autonome, en réalité augmentée, et même dans la conversion de descriptions textuelles en scènes 3D. Cela représente un progrès important dans la technologie de reconstruction 3D, rendant beaucoup plus pratique la création de modèles 3D détaillés à partir d’une entrée photo limitée.

Une séparation dans l’échantillonnage à queue lourde : oracles gaussiens vs. stables pour les échantillonneurs proximaux

Ye He, Alireza Mousavi-Hosseini, Krishnakumar Balasubramanian, Murat Erdogdu

Résumé de l’article

Cet article examine les méthodes d’échantillonnage à partir de distributions de probabilité « à queue lourde » – des distributions où les valeurs extrêmes sont plus fréquentes que dans les distributions normales standard. Celles-ci apparaissent dans de nombreuses applications concrètes, de la modélisation financière aux statistiques robustes.

Les chercheurs démontrent une différence fondamentale entre deux approches à ce problème : les méthodes basées sur des distributions gaussiennes (normales) et celles basées sur des distributions stables. Ils montrent que les méthodes basées sur des gaussiennes doivent intrinsèquement prendre beaucoup plus d’étapes pour atteindre une grande précision, tandis que les méthodes basées sur la stabilité peuvent converger beaucoup plus rapidement. Plus précisément, pour une précision ε désirée, les méthodes gaussiennes nécessitent un temps polynomial en 1/ε (ce qui signifie qu’elles deviennent beaucoup plus lentes à mesure qu’une précision plus élevée est requise), tandis que les méthodes stables n’ont besoin que d’un temps logarithmique en 1/ε (ce qui signifie qu’elles restent efficaces même pour des exigences de précision élevées). Les chercheurs prouvent qu’il ne s’agit pas seulement d’une limitation des techniques actuelles, mais d’une barrière mathématique fondamentale. L’article fournit également des implémentations pratiques pour certains cas et prouve que les bornes inférieures montrent que leurs résultats sont essentiellement optimaux. Ce travail théorique aide à expliquer pourquoi certaines méthodes d’échantillonnage fonctionnent mieux en pratique et fournit des conseils pour la sélection d’algorithmes dans des applications réelles.

Prise de décision séquentielle avec démonstrations d’experts sous hétérogénéité non observée

Vahid Balazadeh, Keertana Chidambaram, Viet Nguyen, Rahul G. Krishnan, Vasilis Syrgkanis

Résumé de l’article

Les chercheurs présentent ExPerior, une nouvelle approche empirique bayesienne pour la prise de décision séquentielle qui exploite des démonstrations d’experts tout en tenant compte d’informations contextuelles non observées. L’algorithme traite les démonstrations d’experts comme des solutions à des problèmes connexes mais légèrement différents, les utilisant pour établir une distribution a priori informative sur l’espace décisionnel de l’apprenant. Cette approche est particulièrement précieuse dans des applications comme les voitures autonomes, la santé et la finance, où les experts prennent des décisions à partir d’informations contextuelles inaccessibles à l’agent d’apprentissage. ExPerior emploie deux méthodes pour apprendre le prior : une approche paramétrique utilisant les connaissances existantes sur la forme du prior, et une approche non paramétrique de l’entropie maximale pour les cas dépourvus de telles connaissances. Le cadre surpasse les références existantes entre les bandits multi-armés, les processus décisionnels de Markov (MDP) et les MDP partiellement observables. Pour les bandits à plusieurs bras, les auteurs démontrent que le regret bayésien d’ExPerior est corrélé à l’entropie de l’action optimale sous la distribution a priori, fournissant une validation théorique de l’efficacité de l’algorithme.

Spider2-V : À quelle distance les agents multimodaux sont-ils éloignés de l’automatisation des flux de travail en science et ingénierie des données?

Ruisheng Cao, Fangyu Lei, Haoyuan Wu, Jixuan Chen, Yeqiao Fu, Hongcheng Gao, Xinzhuang Xiong, Hanchong Zhang, Wenjing Hu, Yuchen Mao, Tianbao Xie, Hongshen Xu, Danyang Zhang, Sida Wang, Ruoxi Sun, Pengcheng Yin, Caiming Xiong, Ansong Ni, Qian Liu, Victor Zhong, Lu Chen, Kai Yu, Tao Yu

Résumé de l’article

Spider2-V introduit une référence complète pour évaluer les capacités des agents multimodaux à automatiser les flux de travail en science des données et en ingénierie. La référence propose 494 tâches réelles réparties dans 20 applications de niveau entreprise, intégrant à la fois la génération de code et les opérations d’interface graphique dans un environnement informatique exécutable. Les tâches couvrent l’entreposage de données, l’ingestion, la transformation, la visualisation et l’orchestration à l’aide d’outils comme BigQuery, dbt et Airbyte. Pour assurer une évaluation fiable, les auteurs ont développé 170 configurations automatiques de tâches et 151 métriques d’évaluation personnalisées. Les résultats empiriques révèlent des limites importantes dans les modèles actuels à la fine pointe de la technologie – même GPT-4V n’atteint que 14,0% de réussite, la performance chutant à 1,2% sur des tâches complexes nécessitant plus de 15 étapes. L’étude identifie les principaux défis dans la gestion des comptes utilisateurs authentiques (succès de 10,6%) et des opérations GUI détaillées. Les résultats suggèrent que, bien que les agents multimodaux montrent du potentiel, ils restent loin d’automatiser de manière fiable des flux de données complets, mettant en lumière des domaines cruciaux d’amélioration de l’ancrage d’action et de l’exécution complexe des tâches.

Génération de texte en image pilotée par sujet via apprentissage par renforcement basé sur les préférences

Yanting Miao, William Loh, Suraj Kothawade, Pascal Poupart, Abdullah Rashwan, Yeqing Li

Résumé de l’article

Cette recherche propose une nouvelle approche de la génération texte-image axée sur le sujet, qui aborde les limites des méthodes actuelles comme DreamBooth et SuTI. Les auteurs introduisent la fonction de récompense λ-harmonique, qui permet un arrêt précoce et fournit des signaux de récompense fiables pour l’entraînement, en plus de la RPO, une méthode d’apprentissage par renforcement basée sur les préférences. Le système ne nécessite que 3% des échantillons négatifs utilisés par DreamBooth tout en obtenant des résultats supérieurs. Contrairement aux méthodes existantes, le RPO ajuste finement uniquement le composant U-Net sans nécessiter d’entraînement par encodeur de texte ni d’optimisation d’intégration. Cette approche permet d’obtenir des performances de pointe sur DreamBench avec un score CLIP-I de 0,833 et un score CLIP-T de 0,314. Le système démontre de solides performances dans la préservation de l’identité du sujet tout en s’adaptant à divers contextes, nécessitant seulement 5 à 20 minutes d’entraînement sur Cloud TPU V4. La fonction λ-harmonique s’avère particulièrement efficace pour prévenir le surajustement et équilibrer la similarité avec les images de référence avec la fidélité aux prompts textuels.

T2V-Turbo : Briser le goulot d’étranglement qualité du modèle de cohérence vidéo avec des retours de récompense mitigés

Jiachen Li, Weixi Feng, Tsu-Jui Fu, Xinyi Wang, S Basu, Wenhu Chen, William Yang Wang

Résumé de l’article

T2V-Turbo relève le principal défi de la génération de texte en vidéo : atteindre à la fois vitesse et qualité. Le système intègre la rétroaction de plusieurs modèles de récompense – image-texte et vidéo-texte – dans le processus de distillation de cohérence des modèles texte-vidéo pré-entraînés. Contrairement aux approches précédentes, T2V-Turbo optimise les récompenses pour les générations en une seule étape, évitant les contraintes mémoire associées à la rétropropagation par échantillonnage itératif. Le modèle obtient des résultats remarquables, ses générations en 4 étapes surpassant les modèles de pointe sur VBench, y compris des systèmes propriétaires comme Gen-2 et Pika. Les évaluations humaines confirment que les générations en 4 étapes de T2V-Turbo sont préférées aux échantillons DDIM de 50 étapes issus de modèles enseignants, ce qui représente une accélération supérieure à 12 fois tout en améliorant la qualité. Le système ne nécessite que 3% des échantillons négatifs utilisés par DreamBooth et s’entraîne en seulement 5 à 20 minutes sur Cloud TPU V4.

Apprentissage par différence temporelle à l’aide de signaux d’erreur distribués

Jonas Guan, Shon Verch, Claas Voelcker, Ethan Jackson, Nicolas Papernot, William Cunningham

Résumé de l’article

Les chercheurs abordent une question fondamentale de l’apprentissage biologique basé sur la récompense : comment le noyau accumbens (NAc) du cerveau coordonne l’apprentissage en utilisant uniquement des signaux de dopamine distribués localement. Ils développent la Dopamine artificielle, un algorithme d’apprentissage profond de Q qui reflète cette contrainte biologique en utilisant des erreurs de différence temporelle distribuées de façon synchrone par couche. Contrairement aux approches traditionnelles utilisant la rétropropagation, les cellules AD calculent leurs propres erreurs locales et se mettent à jour indépendamment. Le système utilise des connexions avant dans le temps pour transmettre l’information entre les couches par activation plutôt que par signaux d’erreur. L’algorithme a été évalué sur les jeux MinAtar, les tâches de la suite de contrôle DeepMind et les problèmes classiques de contrôle. Les résultats montrent que l’AD atteint souvent des performances comparables aux algorithmes RL profonds standards qui utilisent la rétropropagation, malgré l’absence de propagation des signaux d’erreur entre les couches. L’étude fournit des preuves computationnelles que les signaux d’erreur distribués seuls peuvent être suffisants pour un apprentissage coordonné basé sur la récompense, offrant des perspectives à la fois sur les mécanismes d’apprentissage biologique et sur de nouvelles approches des réseaux de neurones artificiels.

Attribution des données d’entraînement par déroulement approximatif

Juhan Bae, Wu Lin, Jonathan Lorraine, Roger Grosse

Résumé de l’article

L’article présente SOURCE, une nouvelle technique pour comprendre comment des données d’entraînement individuelles influencent le comportement d’un modèle d’apprentissage automatique. C’est important parce que comprendre quels exemples d’entraînement sont les plus influents aide les chercheurs à interpréter, déboguer et améliorer les modèles d’IA. Les méthodes précédentes ne pouvaient soit pas gérer des scénarios complexes du monde réel, soit nécessitaient trop de puissance de calcul pour être pratiques. SOURCE résout ce problème en divisant le processus d’entraînement en segments et en analysant l’influence des données à l’intérieur de chaque segment, en utilisant des approximations mathématiques pour garder les calculs efficaces. Les chercheurs ont testé SOURCE dans diverses tâches, notamment la classification d’images, l’analyse de texte et la modélisation du langage. Ils ont constaté qu’il fonctionnait mieux que les méthodes existantes pour prédire comment la suppression de données d’entraînement spécifiques affecterait le modèle, surtout dans des scénarios complexes comme les modèles partiellement entraînés ou les processus d’entraînement en plusieurs étapes. Cette approche est particulièrement précieuse pour les systèmes d’apprentissage automatique modernes qui utilisent souvent des procédures d’entraînement complexes.

WildVision : Évaluer les modèles de vision-langage dans la nature avec les préférences humaines

Yujie Lu, Dongfu Jiang, Wenhu Chen, William Yang Wang, Yejin Choi, Bill Yuchen Lin

Résumé de l’article

WildVision présente deux contributions majeures à l’évaluation des modèles d’IA vision-langage : une plateforme interactive appelée WildVision-Arena où les utilisateurs peuvent comparer différents modèles dans des scénarios réels, et WildVision-Bench, un benchmark créé à partir de ces interactions réelles. Les chercheurs ont recueilli plus de 20 000 conversations et 8 000 votes d’utilisateurs, créant l’un des plus grands ensembles de données de préférences humaines pour les modèles de vision-langage. Leur analyse a révélé que, bien que des modèles de haut niveau comme GPT-4 performent bien sur des tâches simples, ils peinent encore à affronter des défis comme les détails visuels subtils, le raisonnement spatial et la connaissance experte du domaine. Le benchmark qu’ils ont développé montre une forte corrélation (0,94) avec les préférences humaines, ce qui suggère qu’il capture efficacement la performance réelle des modèles. La plateforme continue de suivre la performance de plus de 20 modèles de vision-langage différents, fournissant des informations précieuses sur leurs forces et faiblesses. En se concentrant sur les interactions réelles plutôt que sur les benchmarks traditionnels, ce travail offre une compréhension plus pratique de la performance de ces modèles dans des cas d’usage réels et met en lumière les domaines nécessitant des améliorations.

Travaux de recherche connexes supplémentaires

La réparation de code avec les LLM offre un compromis entre exploration et exploitation

Hao Tang, Keya Hu, Jin Zhou, Si Cheng Zhong, Wei-Long Zheng, Xujie Si, Kevin Ellis

Une analyse complète de la courbe d’apprentissage dans la régression de la crête du noyau

Tin Sum Cheng, Aurélien Lucchi, Anastasis Kratsios, David Belius

Optimisation inverse conforme

Bo Lin, Erick Delage, Timothy Chan

Apprentissage continu des modèles de fondation avec des données marquées limitées

Shuvendu Roy, Elham Dolatabadi, Arash Afkanpour, Ali Etemad

Convolutions et plus encore sous Einsum : une perspective de réseau tensoriel avec des avancées pour les méthodes du second ordre

Felix Dangel

DHA : Apprentissage de l’attention découplée des têtes à partir des points de contrôle des transformateurs via des têtes adaptatives

Fusion Yilong Chen, Linhao Zhang, Junyuan Shang, Zhenyu Zhang, Tingwen Liu, Shuohuan Wang, Yu Sun

DiffAug : Une augmentation diffuse et de réduction du bruit pour entraîner des classificateurs robustes

Chandramouli Shama Sastry, Sri Harsha Dumpala, Sageev Oore

EHRCon : Ensemble de données pour vérifier la cohérence entre les notes non structurées et les tableaux structurés dans les dossiers médicaux électroniques

Yeonsu Kwon, Jiho Kim, Gyubok Lee, Seongsu Bae, Daeun Kyung, Wonchul Cha, Tom Pollard, Alistair Johnson, Edward Choi

EHRMamba : Vers des modèles de fondation généralisables et évolutifs pour les dossiers médicaux électroniques

Adibvafa Fallahpour, Mahshid Alinoori, Wenqian Ye, Xu Cao, Arash Afkanpour, Amrit Krishnan

Estimation continue du barycentre entropique guidé par énergie pour les coûts généraux

Alexander Kolesov, Petr Mokrov, Igor Udovichenko, Milena Gazdieva, Gudmund Pammer, Anastasis Kratsios, Evgeny Burnaev, Aleksandr Korotin

Intégrité épistémique dans les grands modèles de langage

Bijean Ghafouri, Shahrad Mohammadzadeh, James Zhou, Pratheeksha Nair, Jacob-Junqi Tian, Mayank Goel, Reihaneh Rabbany, Jean-François Godbout, Kellin Pelrine

Évaluation de la performance du système RAG : l’impact de la coupure des connaissances et de l’ajustement fin

Omkar Dige, John Willes, D. B. Emerson

Échantillonnage localement différentiel privé exactement minimax optimal

Hyun-Young Park, Shahab Asoodeh, Si-Hyeon Lee

Explorer l’ajustement des prompts visuels pour l’adaptation démographique dans les modèles de fondation pour l’imagerie médicale

Artur Parkhimchyk, Amirreza Naziri, Laleh Seyyed-Kalantari

Fait ou fiction? Les LLM peuvent-ils être des annotateurs fiables des vérités politiques?

Veronica Chatrath, Marcelo Lotif, Shaina Raza

Équité des modèles d’IA dans les représentations de radiographies thoraciques intégrées en vecteur

Gebreyowhans Hailekiros Bahre, Hassan Hamidi, Francesco Calimeri, Andrew Sellergren, Leo Anthony Celi, Laleh Seyyed-Kalantari

FLAME : Alignement conscient des faits pour les grands modèles de langage

Sheng-Chieh Lin, Luyu Gao, Barlas Oguz, Wenhan Xiong, Jimmy Lin, Scott Yih, Xilun Chen

Modèles génératifs sensibles à la fréquence pour l’imputation multivariée en séries temporelles

XINYU YANG, Yu Sun, Yuan xiaojie, Xinyang Chen

GaussianCut : Segmentation interactive via découpe graphique pour le splatting gaussien 3D

Umangi Jain, Ashkan Mirzaei, Igor Gilitschenski

Alignement humain-IA aux échecs avec une attention consciente des compétences

Zhenwei Tang, Difan Jiao, Reid McIlroy-Young, Jon Kleinberg, Siddhartha Sen, Ashton Anderson

Représentation floue montée basée sur l’hypergraphe pour la récupération d’objets 3D à ensembles ouverts

Yang Xu, Yifan Feng, Jun Zhang, Jun-Hai Yong, Yue Gao

Le biais implicite de l’hétérogénéité en faveur de l’invariance : étude de la détection matricielle multi-environnementale

Yang Xu, Yihong Gu, Cong Fang

Courbure approximative faite par Kronecker pour les réseaux neuronaux informés par la physique

Felix Dangel, Johannes Müller, Marius Zeinhofer

L4GM : Grand modèle de reconstruction gaussienne 4D

Jiawei Ren, Cheng Xie, Ashkan Mirzaei, hanxue liang, xiaohui zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling

Apprendre des étiquettes bruyantes via une optimisation conditionnelle robuste à la distribution

Hui GUO, Grace Yi, Boyu Wang

L’apprentissage en bibliothèque ne le fait pas : Le cas curieux de la « bibliothèque » à usage unique

Ian Berlot-Attwell, Frank Rudzicz, Xujie Si

Effondrement linguistique : effondrement neuronal dans les modèles de langage (grands)

Robert Wu, Vardan Papyan

LogiCity : Faire progresser l’IA neuro-symbolique avec une simulation urbaine abstraite

Bowen Li, Zhaoyu Li, Qiwei Du, Jinqi Luo, Wenshan Wang, Yaqi Xie, Simon Stepputtis, Chen Wang, Katia Sycara, Pradeep Ravikumar, Alexander Gray, Xujie Si, Sebastian Scherer

Couplage à entropie minimale avec goulot d’étranglement

Reza Ebrahimi, Jun Chen, Ashish Khisti

MixEval : Approximation rapide et dynamique des préférences humaines avec mélanges de benchmarks LLM

Jinjie Ni, Fuzhao Xue, Xiang Yue, Yuntian Deng, Mahir Shah, Kabir Jain, Graham Neubig, Yang You

NAVSIM : simulation et benchmarking de véhicules autonomes non réactifs pilotés par les données

Daniel Dauner, Marcel Hallgarten, Tianyu Li, Xinshuo Weng, Zhiyu Huang, Zetong Yang, Hongyang Li, Igor Gilitschenski, Boris Ivanovic, Marco Pavone, Andreas Geiger, Kashyap Chitta

Décodage spéculatif des plus proches voisins pour la génération et l’attribution des LLM

Minghan Li, Xilun Chen, Ari Holtzman, Beidi Chen, Jimmy Lin, Scott Yih, Victoria Lin

Neuronal Assets : Synthèse de scènes multi-objets 3D avec modèles de diffusion d’images

Ziyi Wu, Yulia Rubanova, Rishabh Kabra, Drew Hudson, Igor Gilitschenski, Yusuf Aytar, Sjoerd van Steenkiste, Kelsey Allen, Thomas Kipf

Imagerie probabiliste fondée en utilisant des modèles de diffusion comme priors plug-and-play

Zihui Wu, Yu Sun, Yifan Chen, Bingliang Zhang, Yisong Yue, Katherine Bouman

Alignement du score de propension des données multimodales non appariées

Johnny Xi, Jana Osea, Zuheng Xu, Jason Hartford

Équité proportionnelle dans le regroupement non-centroïde

Ioannis Caragiannis, Evi Micha, Nisarg Shah

QueST : Abstractions de compétences auto-supervisées pour apprendre le contrôle continu

Atharva Anil Mete, Haotian Xue, Albert Wilcox, Yongxin Chen, Animesh Garg

Codage en cycle aléatoire : compression sans perte des affectations de grappes via le codage par bits-back

Daniel Severo, Ashish Khisti, Alireza Makhzani

Apprentissage par renforcement guidé par renforcement semi-supervisé

Marzi Heidari, Hanping Zhang, Yuhong Guo

Safe and Sound - Évaluation des modèles de langage pour la réduction et la compréhension des biais

Shaina Raza, Shardul Ghuge, Oluwanifemi Bamgbose, Deval Pandya

Amplification agnostique efficace en échantillonnage

Udaya Ghai, Karan Singh

Apprentissage privé efficace par exemple des mélanges de gaussiennes

Hassan Ashtiani, Mahbod Majid, Shyam Narayanan

Récupération d’objets 3D semi-ouverte via une représentation hiérarchique à l’équilibre basée sur l’hypergraphe

Yang Xu, Yifan Feng, Jun Zhang, Jun-Hai Yong, Yue Gao

L’état de la curation des données chez NeurIPS : une évaluation des pratiques de développement des ensembles de données dans la piste Ensembles de données et benchmarks

Eshta Bhardwaj, Harshit Gujral, Siyi Wu, Ciara Zogheib, Tegan Maharaj, Christoph Becker

Jeu de données SUGARCREPE++ : Sensibilité du modèle vision-langage aux altérations sémantiques et lexicales

Sri Harsha Dumpala, Aman Jaiswal, Chandramouli Shama Sastry, Evangelos Milios, Sageev Oore, Hassan Sajjad

Conception d’expériences indirectes séquentielles ciblées

Elisabeth Ailer, Niclas Dern, Jason Hartford, Niki Kilbertus

Enseigner aux LLM comment apprendre avec l’ajustement fin du contexte

Younwoo Choi*, Muhammad Adil Asif*, Ziwen Han, John Willes, Rahul Krishnan

Vers la dynamique des interactions symboliques d’apprentissage d’un DNN

Qihan Ren, Yang Xu, Junpeng Zhang, Yue Xin, Dongrui Liu, Quanshi Zhang

Vers la compréhension des tendances évolutives dans les données séquentielles

QIUHAO Zeng, Long-Kai Huang, Qi CHEN, Charles Ling, Boyu Wang

Dernières couches variationnelles pour l’optimisation bayésienne

Paul Brunzema*, Mikkel Jordahn*, John Willes, Sebastian Trimpe, Jasper Snoek, James Harrison

À lire aussi :

2026
Réflexions
Recherche
Recherche 2026

La nouvelle cartographie de l’invisible

Les femmes écrivent sur un tableau blanc. Il y a un homme à sa gauche qui regarde le tableau.
2025
Recherche
Recherche 2025

Les chercheurs en vecteurs font avancer les frontières de l’IA avec 80 articles au NeurIPS 2025

2025
Apprentissage automatique
Recherche
Recherche 2025

Quand l’IA intelligente devient trop intelligente : Principaux enseignements de l’atelier 2025 sur la sécurité et la vie privée en apprentissage automatique de Vector