Les chercheurs de Vector présentent plus de 98 articles à NeurIPS 2024

5 décembre 2024

2024 Recherche Recherche 2024

D'éminents chercheurs de Vector présentent des travaux de recherche novateurs à la conférence de cette année sur les systèmes de traitement de l'information neuronale (NeurIPS). La conférence, qui se tiendra du 10 au 15 décembre à Vancouver et en ligne, mettra en valeur les travaux novateurs des professeurs, des membres affiliés du corps professoral, des boursiers postdoctoraux et des chercheurs affiliés de Vector. Leurs recherches font progresser les multiples frontières de l'IA, avec des applications prometteuses qui pourraient transformer la vie quotidienne - des soins de santé aux droits d'auteur.

Vous trouverez ci-dessous des résumés simplifiés de certaines des communications acceptées par les chercheurs du secteur vectoriel lors de la conférence principale.

Des descriptions d'articles rédigées par les coauteurs et/ou l'IA générative.

Optimisation bayésienne fondée sur l'approximation

Natalie Maus, Kyurae Kim, David Eriksson, Geoff Pleiss, John Cunningham, Jacob Gardner

Résumé du document

Cet article présente une nouvelle approche pour l'inférence approximative des modèles de substitution utilisés dans les pipelines d'optimisation bayésienne. Les chercheurs notent que les techniques d'inférence approximative produisent des modèles de substitution qui sont globalement fidèles, mais au prix d'une perte d'utilité des modèles pour l'optimisation boîte noire. Pour aligner le modèle de substitution approximatif sur l'objectif d'optimisation, les auteurs proposent d'inférer une distribution qui minimise l'EULBO (Expected Utility Lower-Bound) plutôt que l'ELBO (Evidence Lower Bound) variationnel standard. Au lieu de traiter séparément les parties inférence et décision du processus, l'EULBO les combine en une seule approche unifiée. Les chercheurs ont testé leur méthode sur diverses tâches, notamment la conception de molécules et le contrôle de systèmes robotiques. Les résultats montrent que l'optimisation bayésienne basée sur l'EULBO est toujours plus performante que les méthodes existantes, et qu'elle nécessite souvent moins d'expériences pour obtenir des résultats identiques ou meilleurs.

BIOSCAN-5M : un ensemble de données multimodales sur la biodiversité des insectes

Zahra Gharaee, Scott Lowe, ZeMing Gong, Pablo Millan Arias, Nicholas Pellegrino, Austin T. Wang, Joakim Bruslund Haurum, Iuliia Zarubiieva, Lila Kari, Dirk Steinke, Graham Taylor, Paul Fieguth, Angel Chang

Résumé du document

BIOSCAN-5M présente un ensemble de données multimodales contenant plus de 5 millions de spécimens d'arthropodes (98 % d'insectes) pour aider à surveiller et à comprendre la biodiversité. Ce jeu de données combine de manière unique des images microscopiques à haute résolution, des codes-barres ADN, des étiquettes taxonomiques, des données géographiques et des informations sur la taille de chaque spécimen.

Les principales contributions sont les suivantes :

  1. Échelle et exhaustivité - avec plus de 5 millions de spécimens, il est nettement plus important que les ensembles de données précédents et comprend plusieurs types de données pour chaque spécimen.
  2. Qualité - le jeu de données a fait l'objet de processus rigoureux de nettoyage et de validation, en particulier pour les étiquettes taxonomiques.
  3. Expériences de référence - les auteurs présentent trois applications clés :
    • Classification taxonomique basée sur l'ADN
    • Apprentissage par transfert de zéro pour les spécimens de regroupement
    • Apprentissage multimodal combinant images, ADN et données taxonomiques

L'ensemble de données est conçu pour aider les chercheurs à développer de meilleurs outils d'intelligence artificielle pour la surveillance de la biodiversité, en particulier pour l'identification des espèces connues et nouvelles. Les auteurs montrent que la combinaison de différents types de données (images, ADN, etc.) permet d'obtenir une meilleure précision de classification que l'utilisation d'un seul type de données. Ce travail représente une avancée significative dans l'application de l'apprentissage automatique à la recherche sur la biodiversité, fournissant des ressources qui pourraient accélérer la découverte et la surveillance des espèces dans le monde entier.

ClavaDDPM : Synthèse de données multi-relationnelles avec des modèles de diffusion guidés par les clusters

Wei Pang, Masoumeh Shafieinejad, Lucy Liu, Stephanie Hazlewood, Xi He

Résumé du document

Cet article présente ClavaDDPM, une nouvelle approche de la génération de données synthétiques pour les bases de données comportant plusieurs tables interconnectées. Alors que les travaux antérieurs se sont principalement concentrés sur la création de données synthétiques pour des tables uniques, les bases de données réelles contiennent souvent de nombreuses tables interconnectées, ce qui rend la génération de données synthétiques plus complexe.

Les principales innovations sont les suivantes :

  • Une nouvelle façon de modéliser les relations entre les tables en utilisant des "étiquettes de grappes" comme intermédiaires, ce qui permet de saisir la façon dont les données de différentes tables sont connectées.
  • Intégration avec des modèles de diffusion (un type de modèle d'intelligence artificielle capable de générer des données) pour créer les données synthétiques.
  • Une technique de correspondance spéciale pour traiter les cas où une table est connectée à plusieurs tables parentes.

Les chercheurs ont testé ClavaDDPM sur cinq ensembles de données réelles et ont constaté qu'il était nettement plus performant que les méthodes existantes, en particulier en ce qui concerne la préservation des relations entre les données de différents tableaux. Par exemple, lors de la génération de données financières synthétiques, ClavaDDPM a mieux préservé les relations à long terme entre les tables, telles que la connexion indirecte entre les données démographiques des clients et l'état des prêts, qui sont liés par des tables intermédiaires.

Processus gaussiens compatibles avec le calcul : Sélection de modèles et inférence en temps linéaire

Jonathan Wenger, Kaiwen Wu, Philipp Hennig, Jacob Gardner, Geoff Pleiss, John Cunningham

Résumé du document

Les approximations de modèles "sensibles au calcul" répondent à un desideratum selon lequel l'augmentation du calcul (moins d'approximation) permet d'obtenir des estimations d'incertitude plus faibles. Les auteurs présentent le premier algorithme pratique permettant d'obtenir des approximations de processus gaussiens tenant compte du calcul, en introduisant deux avancées cruciales qui répondent aux limites des travaux antérieurs. Dans la première avancée clé, les auteurs introduisent une méthode qui induit de manière prouvée la propriété de prise en compte du calcul dans les processus gaussiens en temps linéaire, une réduction par rapport aux algorithmes en temps quadratique proposés dans les travaux antérieurs. Deuxièmement, les auteurs introduisent une approche variationnelle pour effectuer la sélection de modèles en tenant compte du temps de calcul - en sélectionnant les hyperparamètres du processus gaussien et l'ordre du calcul - d'une manière qui n'entraîne pas de surajustement. Les chercheurs ont validé leur méthode sur plusieurs ensembles de données réelles. Leurs expériences ont montré que le système peut traiter des ensembles de données comportant jusqu'à 1,8 million de points de données et s'entraîner en quelques heures seulement sur un seul GPU. Il fournit des estimations d'incertitude plus fiables et égale ou dépasse les méthodes actuelles de pointe sur la plupart des paramètres.

Relier les points : les LLM peuvent déduire et verbaliser la structure latente à partir de données d'apprentissage disparates

Johannes Treutlein, Dami Choi, Jan Betley, Cem Anil, Samuel Marks, Roger Grosse, Owain Evans

Résumé du document

Cet article examine si les modèles de langage d'IA (LLM) peuvent reconstituer des informations cachées à partir d'indices indirects dans leurs données de formation - une capacité que les auteurs appellent "raisonnement inductif hors contexte" (OOCR). À travers cinq expériences différentes, ils montrent que les LLM modernes tels que GPT-3.5 et GPT-4 peuvent effectivement relier ces points indirects. Par exemple, lorsqu'elle a été entraînée uniquement sur les distances entre une ville non nommée et d'autres villes connues, l'IA a pu déterminer que la ville mystère était Paris et répondre ensuite à des questions sur la culture française. De même, lorsqu'on ne lui montre que les résultats d'un jeu de pile ou face, elle peut déduire si la pièce est faussée. Cette capacité a des implications importantes pour la sécurité de l'IA. Si les données d'apprentissage d'un système d'IA sont censurées pour supprimer les informations dangereuses, l'IA peut toujours être capable de reconstruire ces informations à partir de modèles et d'indices subtils laissés dans les données restantes. Si les expériences montrent que cette capacité existe, elle n'est pas parfaitement fiable. Les petits modèles ont eu du mal à traiter les schémas complexes, et même les modèles avancés ont parfois commis des erreurs. Les chercheurs notent que cela suggère que les systèmes d'IA actuels ne peuvent probablement pas reconstituer de manière fiable des informations dangereuses complexes, mais que cette capacité pourrait devenir plus préoccupante au fur et à mesure que les modèles s'améliorent. Ces travaux mettent en évidence le défi potentiel que représente le contrôle des connaissances que les systèmes d'IA peuvent acquérir au cours de la formation.

DistillNeRF : Percevoir des scènes en 3D à partir d'images d'une seule lueur en distillant les champs neuronaux et les caractéristiques du modèle de fondation

Letian Wang, Seung Wook Kim, Jiawei Yang, Cunjun Yu, Boris Ivanovic, Steven Waslander, Yue Wang, Sanja Fidler, Marco Pavone, Peter Karkus

Résumé du document

Cet article présente DistillNeRF, une nouvelle méthode pour comprendre les scènes 3D à partir d'images limitées de caméras 2D dans des scénarios de conduite autonome. La principale innovation consiste à combiner deux idées puissantes : Premièrement, elle apprend à partir de modèles 3D de haute qualité (appelés Neural Radiance Fields ou NeRF) qui sont optimisés pour chaque scène de conduite. Bien que ces modèles soient trop lents pour être utilisés directement dans les véhicules autonomes, ils peuvent apprendre à un modèle plus rapide à comprendre les scènes 3D avec précision.

Deuxièmement, il incorpore des caractéristiques de modèles de vision IA avancés (comme CLIP et DINOv2) pour comprendre la signification sémantique des scènes, comme l'identification des voitures, des bâtiments et des routes. Le système prend plusieurs images de caméra à un moment donné et les convertit en une représentation 3D qui peut générer de nouvelles vues de la scène et comprendre quels objets sont présents. Contrairement aux approches précédentes qui nécessitaient un temps de traitement important pour chaque scène, cette méthode fonctionne en temps réel. Les tests effectués sur des ensembles de données de conduite autonome montrent que DistillNeRF égale la qualité des méthodes plus lentes tout en étant beaucoup plus rapide, et qu'elle peut effectuer des tâches telles que l'estimation de la profondeur et l'identification d'objets dans l'espace 3D sans nécessiter de données d'apprentissage supplémentaires. Il s'agit d'une étape importante pour aider les véhicules autonomes à mieux comprendre leur environnement de manière efficace et précise.

Lagrangien de Doob : Une approche variationnelle efficace pour l'échantillonnage des chemins de transition

Yuanqi Du, Michael Plainer, Rob Brekelmans, Chenru Duan, Frank Noe, Carla Gomes, Alan Aspuru-Guzik, Kirill Neklyudov

Résumé du document

Cet article présente une nouvelle méthode plus efficace pour étudier la façon dont les molécules changent de forme, en particulier au cours de processus importants tels que le repliement des protéines ou les réactions chimiques. Le principal problème qu'ils tentent de résoudre est que les méthodes traditionnelles exigent de simuler d'innombrables mouvements moléculaires pour saisir les transitions rares mais importantes, ce qui est très coûteux en termes de calcul. Les chercheurs ont mis au point une approche variationnelle basée sur les idées de la mécanique lagrangienne qui permet de trouver plus efficacement les chemins de transition. Au lieu d'effectuer de nombreuses simulations dans l'espoir de découvrir par hasard des transitions importantes, leur approche utilise l'optimisation mathématique pour trouver directement les chemins les plus probables qu'empruntera une molécule lorsqu'elle passera d'une forme à l'autre. L'équipe a testé sa méthode sur des systèmes d'essai simples et des molécules réelles telles que le dipeptide d'alanine et la chignoline (une petite protéine). Leurs résultats ont montré que leur approche permet de trouver les mêmes chemins de transition moléculaire que les méthodes traditionnelles, mais qu'elle nécessite beaucoup moins de calculs - dans certains cas, il suffit d'un million de calculs au lieu d'un milliard. Cette amélioration de l'efficacité pourrait aider les scientifiques à mieux comprendre et prédire les processus moléculaires qui sont importants dans des domaines tels que le développement de médicaments, la science des matériaux et l'ingénierie des protéines. L'article combine des concepts de physique statistique et d'apprentissage automatique pour résoudre un défi informatique de longue date dans le domaine de la simulation moléculaire.

Estimation de bout en bout de l'effet causal à partir de données non structurées en langage naturel

Nikita Dhawan, Leonardo Cotta, Karen Ullrich, Rahul Krishnan, Chris Maddison

Résumé du document

Les chercheurs ont mis au point un moyen d'utiliser l'IA pour analyser des données en langage naturel (comme des messages provenant de forums en ligne) afin de comprendre l'efficacité de différents traitements. Les études traditionnelles nécessitent généralement des essais cliniques coûteux, mais cette méthode permet d'estimer les effets des traitements en analysant des données textuelles librement accessibles.

L'équipe a testé son approche sur six ensembles de données (deux synthétiques et quatre cas cliniques réels) concernant des traitements pour le diabète et les migraines. Fait remarquable, leurs estimations se situaient à moins de 3 points de pourcentage des résultats des essais cliniques réels, qui coûtent généralement des millions de dollars et prennent des années à réaliser.

Les auteurs précisent que leur méthode ne doit pas remplacer les essais cliniques pour les décisions à fort enjeu, mais qu'elle pourrait être un outil précieux pour.. :

  • Estimation rapide des effets du traitement pour une fraction du coût
  • Aider les chercheurs à déterminer les traitements qui méritent de faire l'objet d'essais cliniques complets.
  • Recueillir des informations à partir d'expériences réelles partagées en ligne
  • Soutenir la collecte de preuves dans les cas où les procès traditionnels ne sont pas pratiques

Extension des autoencodeurs vidéo masqués à 128 images

Nitesh Bharadwaj Gundavarapu*, Luke Friedman, Raghav Goyal*, Chaitra Hegde*, Eirikur Agustsson, Sagar Waghmare, Mikhail Sirotenko, Ming-Hsuan Yang, Tobias Weyand, Boqing Gong, Leonid Sigal

* Contribution égale

Résumé du document

Les chercheurs se sont attaqués à une limitation essentielle de l'IA vidéo : la plupart des systèmes ne peuvent traiter que des clips vidéo courts (16-32 images) en raison de contraintes de mémoire, ce qui rend difficile la compréhension d'actions plus longues telles que des mouvements sportifs complexes. Ils ont mis au point une solution appelée LVMAE (Long Video Masked AutoEncoder) qui :

  • Utilise une stratégie de "masquage adaptatif" pour traiter sélectivement les parties les plus importantes des vidéos (environ 15 % du contenu).
  • L'efficacité de la mémoire est impressionnante, ce qui permet de traiter des vidéos beaucoup plus longues (128 images).
  • Apprend automatiquement quelles parties des vidéos sont les plus importantes, plutôt que d'utiliser des règles prédéfinies.
  • Surpasse les méthodes existantes dans des tâches difficiles telles que la classification des routines de plongée (+3,9 %) et des activités de cuisine (+2,5 %).

Les chercheurs y sont parvenus sans avoir besoin de paires vidéo-texte étiquetées ou d'architectures spécialisées, ce qui rend leur approche plus simple et plus pratique que les méthodes précédentes. L'une des principales conclusions est que le fait de se concentrer sur des parties moins nombreuses mais plus importantes des vidéos permet de mieux les comprendre que si l'on essaie de tout traiter.

FairMedFM : évaluation comparative de l'équité des modèles de fondation pour l'imagerie médicale

Ruinan Jin, Zikang Xu, Yuan Zhong, Qingsong Yao, DOU QI, S. Kevin Zhou, Xiaoxiao Li

Résumé du document

Les chercheurs ont créé la première approche systématique pour tester et évaluer l'équité des modèles d'IA pour l'imagerie médicale :

  • Évaluation de 20 modèles de fondation différents sur 17 ensembles de données d'imagerie médicale couvrant différents types de scans (rayons X, IRM, etc.)
  • Tester les biais liés aux attributs du patient tels que le sexe, l'âge et la race
  • Comparaison des performances entre différentes tâches (classification et segmentation)
  • La découverte de plusieurs résultats importants :
    1. Ces modèles présentent des biais importants, les performances variant selon les groupes démographiques
    2. Les différents modèles et méthodes d'utilisation présentent des compromis variables entre la précision et l'équité.
    3. Certains ensembles de données présentent des biais constants entre les différents modèles.
    4. Les méthodes actuelles de réduction des préjugés ne sont pas très efficaces avec ces modèles de fondation

Ce travail fournit un moyen normalisé d'évaluer l'équité dans l'IA médicale et ouvre la base de code à la communauté des chercheurs afin de promouvoir le développement de systèmes d'IA plus équitables dans le domaine de la santé.

Modèle fédéré Représentation hétérogène Matryoshka Apprentissage

Liping Yi, Han Yu, Chao Ren, Gang Wang, Xiaoguang Liu, Xiaoxiao Li

Résumé du document

Les chercheurs ont développé une nouvelle solution pour relever trois défis majeurs dans l'apprentissage fédéré : l'hétérogénéité des modèles où différentes organisations utilisent différentes architectures de modèles, l'hétérogénéité des systèmes où les organisations ont des ressources informatiques variables, et l'hétérogénéité des données où les organisations ont différents types et distributions de données. L'approche introduit plusieurs innovations clés. Elle ajoute un petit modèle partagé au modèle de chaque organisation et utilise la "fusion de représentation adaptative" pour combiner les connaissances des deux modèles. Elle met également en œuvre un "apprentissage de représentation multi-granularité" pour améliorer les performances des modèles. Théoriquement, la méthode atteint un taux de convergence de O(1/T). Les résultats démontrent des améliorations significatives, la précision augmentant jusqu'à 8,48 % par rapport aux méthodes de pointe, tout en réduisant les coûts de communication et de calcul. La méthode préserve la vie privée en ne partageant que le petit modèle commun entre les organisations, et non leurs architectures ou données propriétaires. Les tests effectués sur différents types de tâches de classification d'images ont montré une efficacité constante. Cette approche permet aux organisations de collaborer à la formation de modèles d'IA tout en préservant la confidentialité de leurs architectures de modèles et de leurs données propriétaires, ce qui permet d'obtenir de meilleures performances que les méthodes existantes.

Les ensembles de données FineWeb : Décanter le Web pour obtenir les données textuelles les plus fines à grande échelle

Guilherme Penedo, Hynek Kydlíček, Loubna Ben allal, Anton Lozhkov, Margaret Mitchell, Colin Raffel, Leandro Von Werra, Thomas Wolf

Résumé du document

Les chercheurs se sont attaqués à un problème de taille dans le domaine de l'IA : le manque de données d'entraînement de haute qualité accessibles au public pour les grands modèles de langage. Alors que de nombreux modèles d'IA "ouverts" partagent leur code, ils gardent souvent leurs données d'entraînement privées, ce qui crée un fossé de connaissances entre les systèmes publics et les systèmes propriétaires. L'équipe a développé FineWeb par le biais d'expérimentations rigoureuses, en testant différentes approches pour :

  • Extraction de texte à partir de pages web
  • Stratégies de filtrage des données pour supprimer le contenu de faible qualité
  • Méthodes de déduplication pour éliminer les informations redondantes
  • Filtrage des contenus éducatifs pour FineWeb-Edu

Les résultats montrent des améliorations significatives par rapport aux ensembles de données publiques existants :

  • Les modèles formés sur FineWeb sont plus performants que ceux formés sur d'autres ensembles de données publiques.
  • FineWeb-Edu est particulièrement performant pour les tâches à forte intensité de connaissances.
  • Les auteurs publient les deux ensembles de données ainsi que leur pipeline complet de traitement des données

Il est important de noter que le document fournit une transparence totale sur les limites et les biais potentiels des ensembles de données, y compris les tendances à certaines représentations démographiques et les biais thématiques dans les données.

Explorer d'abord, exploiter ensuite : Le méta-apprentissage pour résoudre les compromis difficiles entre l'exploration et l'exploitation

Ben Norman, Jeff Clune

Résumé du document

Dans la vie comme dans l'IA, le succès exige souvent un équilibre entre l'exploration (prendre des risques pour apprendre) et l'exploitation (utiliser ce que l'on sait pour gagner). Par exemple, dans un tournoi, expérimenter des stratégies dans les premiers matchs peut vous aider à gagner plus tard. Cependant, cet article identifie une limitation majeure des méthodes actuelles basées sur l'apprentissage par renforcement (RL) : elles échouent lorsqu'une exploration efficace nécessite de sacrifier des récompenses immédiates. Il est surprenant de constater que même des problèmes très simples font échouer les approches les plus récentes.

La racine du problème réside dans le fait que ces méthodes s'appuient sur une politique unique pour explorer et exploiter, ce qui les enferme dans un comportement à courte vue. Pour résoudre ce problème, les chercheurs proposent First-Explore, une solution simple mais puissante. Elle entraîne deux politiques distinctes :

  • Une politique d'exploration qui se concentre entièrement sur la collecte d'informations.
  • Une politique d'exploitation qui vise à maximiser les récompenses sur la base de ces informations.

Ces politiques sont combinées en explorant d'abord un certain nombre d'épisodes, puis en passant à l'exploitation pour les épisodes restants. Cette séparation permet au système d'explorer efficacement sans être pénalisé par les pertes à court terme. Malgré sa simplicité, First-Explore donne des résultats remarquables, avec des performances de 2 à 10 fois supérieures à celles des méthodes existantes dans trois environnements de test différents où l'exploration exige des sacrifices à court terme. En relevant ce défi, First-Explore fait un pas important vers la création d'algorithmes RL capables d'une exploration, d'une adaptabilité et d'une performance semblables à celles de l'homme dans des environnements simples et complexes.

Gated Slot Attention for Efficient Linear-Time Sequence Modeling (Attention aux créneaux pour une modélisation efficace des séquences temporelles linéaires)

Yu Zhang, Songlin Yang, Rui-Jie Zhu, Yue Zhang, Leyang Cui, Yiqiao Wang, Bolun Wang, Freda Shi, Bailin Wang, Wei Bi, Peng Zhou, Guohong Fu

Résumé du document

Bien que les transformateurs soient des modèles d'IA puissants, ils deviennent inefficaces lorsqu'ils traitent de longues séquences en raison de leurs besoins croissants en mémoire. Les modèles d'attention linéaire offrent une solution, mais ils se heurtent à des difficultés dans les tâches nécessitant le rappel d'informations et sont coûteux à former à partir de zéro.

La méthode Gated Slot Attention (GSA) proposée relève ces défis en améliorant une méthode existante (ABC) avec un mécanisme de contrôle qui aide le modèle à se souvenir ou à oublier des informations de manière sélective. Cela la rend plus efficace à la fois dans la formation et dans l'utilisation réelle. Les auteurs montrent que le GSA est plus performant que d'autres modèles similaires dans les tâches nécessitant le rappel d'informations, tout en utilisant moins de mémoire informatique. Notamment, GSA fonctionne également bien lorsqu'il s'agit de convertir des modèles Transformer pré-entraînés en versions plus efficaces, ne nécessitant qu'environ 1 à 3 % des coûts d'entraînement initiaux. Lors des tests, la GSA a surpassé les autres méthodes lors de l'ajustement du modèle de langage Mistral-7B, démontrant ainsi sa valeur pratique pour rendre plus efficaces les modèles de langage de grande taille.

GenAI Arena : Une plateforme d'évaluation ouverte pour les modèles génératifs

Dongfu Jiang, Max KU, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen

Résumé du document

GenAI Arena est une nouvelle plateforme qui comble une lacune importante dans l'évaluation des modèles d'IA qui génèrent des images et des vidéos. Bien qu'il existe de nombreux modèles d'IA capables de créer des images et des vidéos à partir de descriptions textuelles, il est difficile de déterminer lesquels sont les plus performants. Les mesures automatisées traditionnelles ne parviennent souvent pas à capturer ce que les humains trouvent réellement attrayant ou de haute qualité.

La plateforme permet aux utilisateurs de comparer les résultats de différents modèles d'IA côte à côte et de voter pour celui qui est le meilleur. Après sept mois de fonctionnement, elle a recueilli plus de 9 000 votes pour trois tâches : la génération de texte à partir d'images, l'édition d'images et la génération de texte à partir de vidéos. Les résultats ont permis d'identifier les meilleurs modèles actuels dans chaque catégorie et ont révélé que même les modèles d'IA avancés comme GPT-4 ne sont pas très bons pour juger de la qualité des images par rapport aux humains, n'atteignant qu'une précision d'environ 49 % lorsqu'ils tentent de prédire les préférences humaines.

GV-Rep : un ensemble de données à grande échelle pour l'apprentissage de la représentation des variantes génétiques

Zehui Li, Vallijah Subasri, Guy-Bart Stan, Yiren Zhao, Bo Wang

Résumé du document

Alors que le séquençage de l'ADN devient moins cher, les médecins sont confrontés à un défi croissant dans l'analyse de l'énorme quantité de données génétiques pour identifier les variantes importantes qui pourraient affecter la santé des patients. Les modèles d'IA pourraient aider, mais il n'existe pas encore de méthodes normalisées pour évaluer leurs performances.

GV-Rep répond à ce besoin en fournissant un vaste ensemble de données de 7 millions d'enregistrements de variantes génétiques, y compris :

  • Données provenant de sept grandes bases de données génétiques
  • 17 548 tests d'élimination de gènes sur 1 107 types de cellules
  • 1 808 combinaisons de variantes
  • 156 variantes cliniquement vérifiées provenant de patients réels

Les auteurs ont testé plusieurs modèles d'intelligence artificielle sur cet ensemble de données et ont constaté que, bien qu'ils donnent des résultats satisfaisants pour les tâches de base (65 % d'exactitude dans la classification des variantes causant des maladies), ils ont du mal à relever des défis plus complexes tels que la prédiction de la manière dont les variantes affectent l'expression génétique dans des types de cellules spécifiques.

Cet ensemble de données vise à contribuer au développement de meilleurs outils d'intelligence artificielle pour comprendre les variations génétiques et leurs effets sur la santé humaine.

Amélioration de la reconstruction Ab-Initio Cryo-EM avec l'inférence de pose semi-amortie

Shayan Shekarforoush, David Lindell, Marcus Brubaker, David Fleet

Résumé du document

CryoSPIN est une nouvelle méthode de calcul qui améliore la façon dont nous déterminons la structure 3D des protéines et d'autres molécules biologiques à partir d'images de microscope électronique. La principale innovation est une approche en deux étapes qui combine les "meilleures suppositions" initiales avec un affinement précis. C'est un peu comme si l'on obtenait d'abord une esquisse d'un bâtiment sous plusieurs angles, puis que l'on affinait soigneusement chaque perspective pour obtenir l'image finale la plus claire possible. La méthode surpasse les approches existantes en termes de rapidité et de précision. Elle est particulièrement efficace dans les situations où les images initiales peuvent être interprétées de plusieurs façons, comme lorsqu'on regarde une forme complexe sous un angle où il est difficile de savoir exactement comment elle est orientée.

Infusion de données synthétiques avec des modèles du monde réel pour la segmentation de l'état des matériaux à partir d'une prise de vue zéro

Sagi Eppel, Jolina Li, Manuel Drehwald, Alan Aspuru-Guzik

Résumé du document

Cette recherche relève le défi d'enseigner à l'IA à reconnaître différents états de matériaux dans des images, par exemple en identifiant des taches humides sur des surfaces, de la rouille sur du métal ou des zones infectées sur des plantes, sans être limité aux matériaux spécifiques sur lesquels le système a été formé. Les systèmes d'IA actuels ont du mal à accomplir cette tâche car il est difficile d'obtenir suffisamment de données d'entraînement correctement étiquetées. Les chercheurs ont mis au point une solution intelligente qui combine le meilleur des deux mondes : ils extraient automatiquement des modèles d'images du monde réel et les utilisent pour créer des données d'entraînement synthétiques. C'est un peu comme si l'on enseignait à une IA en lui montrant à la fois des exemples réels et des exemples artificiels soigneusement conçus pour refléter la complexité du monde réel. Les chercheurs ont également créé le premier benchmark complet (appelé MatSeg) pour tester la capacité des systèmes d'IA à identifier les états des matériaux dans de nombreuses situations différentes, de la cuisine à la construction. Lorsqu'elle a été testée par rapport à des modèles d'IA de premier plan tels que le Segment Anything Model (SAM) de Meta, leur approche s'est avérée nettement plus performante dans l'identification des états complexes des matériaux. L'équipe de recherche a rendu public son ensemble de données, son code et plus de 300 000 textures extraites, ce qui devrait aider d'autres chercheurs à s'appuyer sur ces travaux pour améliorer la compréhension par l'IA de la manière dont les matériaux apparaissent et changent dans le monde réel.

LLM Dataset Inference : Détecter les ensembles de données, pas les chaînes de caractères

Pratyush Maini, Hengrui Jia, Nicolas Papernot, Adam Dziedzic

Résumé du document

De récents procès contre des entreprises d'IA ont soulevé des questions sur l'utilisation de contenus protégés par le droit d'auteur pour former des LLM. Alors que des recherches antérieures ont tenté d'identifier si des exemples de textes spécifiques se trouvaient dans les données de formation d'un modèle (appelées attaques par inférence d'appartenance), cet article montre que ces méthodes ne sont pas fiables et ne valent souvent pas mieux qu'une supposition aléatoire. Au lieu de cela, les chercheurs adaptent l'"inférence d'ensemble de données" à l'environnement des grands modèles de langage - une méthode permettant de déterminer si un ensemble de données complet (comme un livre ou une collection d'articles) a été utilisé lors de la formation. Leur approche combine plusieurs techniques de test et atteint une signification statistique dans l'identification des ensembles de données de formation sans faux positifs. Cette approche est plus pertinente pour les cas réels de droits d'auteur, où les auteurs affirment généralement que leurs œuvres entières ont été utilisées pour la formation, plutôt que des phrases individuelles.

Processus LLM : Distributions prédictives numériques conditionnées par le langage naturel

James Requeima, John Bronskill, Dami Choi, Richard Turner, David Duvenaud

Résumé du document

Cet article présente les "processus LLM" (LLMP), une nouvelle approche qui permet aux grands modèles de langage de faire des prédictions numériques avec des distributions de probabilité. La principale innovation réside dans le fait que ces prédictions peuvent être guidées par des descriptions en langage naturel du contexte du problème. Par exemple, vous pouvez dire au modèle "voici une mesure de la température à Montréal en janvier" ou "voici le cours d'une action qui finira par tomber à zéro", et il ajustera ses prédictions en conséquence. Les chercheurs ont démontré que les PLMT peuvent être aussi performants que des outils statistiques spécialisés tels que les processus gaussiens pour diverses tâches, notamment la régression, la prévision et la reconstruction d'images. Il est important de noter que les LLMP peuvent intégrer des conseils en langage naturel pour améliorer les prédictions, ce que les méthodes statistiques traditionnelles ne peuvent pas faire. Le modèle peut gérer des données manquantes, travailler avec des dimensions multiples et produire des estimations d'incertitude sur ses prédictions.

Soupe locale supérieure : Un catalyseur pour la fusion de modèles dans l'apprentissage fédéré intersilo

Minghui Chen, Meirui Jiang, Xin Zhang, DOU QI, Zehua Wang, Xiaoxiao Li

Résumé du document

L'apprentissage fédéré permet à plusieurs appareils d'entraîner en collaboration des modèles d'intelligence artificielle tout en préservant la confidentialité des données. Toutefois, ce processus nécessite généralement de nombreuses communications aller-retour entre les appareils, ce qui peut s'avérer lent et gourmand en ressources. Les chercheurs ont mis au point une nouvelle méthode appelée "Local Superior Soups" (LSS) qui réduit considérablement le nombre de cycles de communication nécessaires. La méthode LSS consiste à combiner astucieusement plusieurs versions de modèles sur chaque appareil avant de les partager avec d'autres. Il utilise deux stratégies clés : un terme de "diversité" qui garantit que les différentes versions du modèle explorent différents aspects du problème, et un terme d'"affinité" qui empêche les modèles de trop s'éloigner de leur point de départ initial. Lors d'expériences menées sur quatre ensembles de données différents, LSS a obtenu de meilleures performances avec beaucoup moins de cycles de communication que les méthodes existantes.

MAmmoTH2 : Instructions de mise à l'échelle à partir du Web

Xiang Yue, Tianyu Zheng, Ge Zhang, Wenhu Chen

Résumé du document

Les chercheurs ont mis au point un processus en trois étapes pour récolter 10 millions d'exemples d'instructions naturelles sur l'internet. Premièrement, ils trouvent les documents pertinents ; deuxièmement, ils extraient les paires question-réponse ; et troisièmement, ils affinent ces paires à l'aide de modèles d'intelligence artificielle libres. Cette approche permet d'éviter l'annotation humaine coûteuse ou la génération de GPT-4 que nécessitent d'autres méthodes.

Lorsqu'ils ont entraîné des modèles de langage sur ces données, les résultats ont montré des améliorations significatives. Par exemple, les performances de leur modèle MAmmoTH2-7B sont passées de 11 % à 36,7 % pour les problèmes de mathématiques et de 36 % à 68,4 % pour les mathématiques de l'école primaire, sans utiliser de données d'entraînement provenant de ces tests spécifiques. Le modèle a obtenu de bons résultats dans plusieurs types de tâches de raisonnement.

Ce qui rend cette approche unique, c'est qu'au lieu de créer de nouvelles données d'instruction, elle trouve et nettoie des exemples naturels sur le web, ce qui la rend plus rentable et plus évolutive que les méthodes existantes.

Jailbreaking à plusieurs niveaux

Cem Anil, Esin Durmus, Nina Panickssery, Mrinank Sharma, Joe Benton, Sandipan Kundu, Joshua Batson, Meg Tong, Jesse Mu, Daniel Ford, Francesco Mosconi, Rajashree Agrawal, Rylan Schaeffer, Naomi Bashkansky, Samuel Svenningsen, Mike Lambert, Ansh Radhakrishnan, Carson Denison, Evan Hubinger, Yuntao Bai, Trenton Bricken, Timothy Maxwell, Nicholas Schiefer, James Sully, Alex Tamkin, Tamera Lanham, Karina Nguyen, Tomasz Korbak, Jared Kaplan, Deep Ganguli, Samuel Bowman, Ethan Perez, Roger Grosse, David Duvenaud

Résumé du document

Nous étudions une famille d'attaques simples à contexte long sur de grands modèles de langage : l'incitation avec des centaines de démonstrations de comportement indésirable. Ceci est nouvellement possible avec les fenêtres de contexte plus larges récemment déployées par Anthropic, OpenAI et Google DeepMind. Nous constatons que dans diverses circonstances réalistes, l'efficacité de cette attaque suit une loi de puissance, jusqu'à des centaines de tirs. Nous démontrons le succès de cette attaque sur les modèles de poids fermés les plus largement utilisés dans l'état de l'art, et à travers diverses tâches. Nos résultats suggèrent que les contextes très longs présentent une nouvelle surface d'attaque riche pour les LLM.

MassSpecGym : Une référence pour la découverte et l'identification de molécules

Roman Bushuiev, Anton Bushuiev, Niek de Jonge, Adamo Young, Fleming Kretschmer, Raman Samusevich, Janne Heirman, Fei Wang, Luke Zhang, Kai Dührkop, Marcus Ludwig, Nils Haupt, Apurva Kalia, Corinna Brungs, Robin Schmid, Russell Greiner, Bo Wang, David Wishart, Liping Liu, Juho Rousu, Wout Bittremieux, Hannes Rost, Tytus Mak, Soha Hassoun, Florian Huber, Justin J.J. van der Hooft, Michael Stravs, Sebastian Böcker, Josef Sivic, Tomáš Pluskal

Résumé du document

Les chercheurs ont créé MassSpecGym, la plus grande collection accessible au public de 231 000 spectres de spectrométrie de masse étiquetés de haute qualité représentant 29 000 molécules uniques. Le benchmark définit trois défis clés pour les modèles d'intelligence artificielle :

  1. Générer des structures moléculaires à partir de zéro (génération de novo)
  2. Recherche de molécules correspondantes dans une base de données (extraction de molécules)
  3. Prévision du spectre d'une molécule (simulation de spectre)

La valeur de ce benchmark réside dans le fait qu'il normalise ces tâches et les rend accessibles à l'ensemble de la communauté de l'apprentissage automatique, plutôt que de nécessiter une expertise approfondie en spectrométrie de masse. Les auteurs ont également mis au point une nouvelle façon de diviser les données pour la formation et les tests, ce qui garantit que les modèles apprennent vraiment à se généraliser plutôt qu'à mémoriser des molécules similaires. Leur évaluation des modèles de référence montre que si les méthodes actuelles fonctionnent raisonnablement bien, il y a encore une marge d'amélioration significative, ce qui laisse penser que cette référence pourrait contribuer à faire progresser la découverte moléculaire.

Regret minimax de l'affectation séquentielle des probabilités, des sommes de Shtarkov contextuelles et du maximum de vraisemblance normalisé contextuel

Ziyi Liu, Idan Attias, Dan Roy

Résumé du document

Imaginez que vous deviez prédire de manière répétée les probabilités d'événements futurs, comme dans le cas des prévisions météorologiques, et que vous obteniez des informations pertinentes (contexte) avant de faire chaque prédiction. Quelle est votre performance par rapport au meilleur expert rétrospectif d'une classe donnée d'experts ? Cet article étudie ce problème fondamental. Les chercheurs introduisent une nouvelle façon de mesurer la difficulté de ces tâches de prédiction, appelée "somme de Shtarkov contextuelle". Ils prouvent que cette mesure capture parfaitement les limites fondamentales de la performance de tout algorithme. En s'appuyant sur cette idée, ils développent un algorithme optimal appelé maximum de vraisemblance normalisé contextuel (cNML). Leur cadre théorique étend les travaux antérieurs de deux manières importantes : il peut traiter des cas avec plus de deux résultats possibles (pas seulement des prédictions binaires oui/non), et il fonctionne avec des experts qui peuvent utiliser l'historique de toutes les prédictions précédentes (pas seulement le contexte actuel). Les chercheurs utilisent également leur nouvelle mesure pour améliorer les limites de performance existantes, en fournissant une analyse plus simple et plus rigoureuse que les travaux antérieurs. Bien que l'algorithme optimal qu'ils développent puisse être très gourmand en ressources informatiques, il constitue une référence théorique importante et pourrait guider le développement d'approches plus pratiques.

MMLU-Pro : Un banc d'essai de compréhension linguistique multi-tâches plus robuste et plus stimulant

Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max KU, Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen

Résumé du document

Alors que les modèles linguistiques d'intelligence artificielle continuent de s'améliorer, de nombreux tests standard utilisés pour les évaluer perdent de leur utilité, les modèles les plus performants obtenant tous des résultats similaires. Cet article présente MMLU-Pro, un test de référence plus difficile et plus fiable, conçu pour mieux distinguer les capacités des modèles. MMLU-Pro améliore le test MMLU original de plusieurs façons : il augmente le nombre de choix de réponses de 4 à 10 options, ajoute des questions de raisonnement plus complexes, supprime les questions insignifiantes et fait l'objet d'un examen par des experts. Le test couvre 14 sujets, dont les mathématiques, la physique, le droit et la psychologie. Les tests montrent que MMLU-Pro est nettement plus difficile - même les meilleurs modèles obtiennent des résultats inférieurs de 16 à 33 % à ceux de MMLU. Il est important de noter que le test de référence est plus stable (moins affecté par les variations de la demande) et qu'il révèle mieux les différences réelles entre les modèles. Par exemple, alors que GPT-4 et GPT-4-Turbo obtiennent des résultats presque identiques sur MMLU, il existe un écart de 9 % entre eux sur MMLU-Pro. Les chercheurs ont également constaté que l'utilisation du raisonnement par chaîne de pensée améliorait considérablement les performances au MMLU-Pro, ce qui suggère que ce dernier teste réellement la capacité de raisonnement plutôt que la simple mémorisation des connaissances. Même les meilleurs modèles actuels ont une marge de progression importante sur ce benchmark.

Lois d'échelle observationnelles et prévisibilité des performances des modèles de langage

Yangjun Ruan, Chris Maddison, Tatsunori Hashimoto

Résumé du document

Cet article présente un moyen moins coûteux et plus efficace de prédire les performances des modèles linguistiques au fur et à mesure qu'ils s'étoffent. Au lieu de devoir former de nombreux nouveaux modèles de tailles différentes (ce qui est très coûteux), les chercheurs ont découvert qu'ils pouvaient faire des prédictions précises en analysant les données d'une centaine de modèles existants accessibles au public. L'idée maîtresse est que les performances des modèles linguistiques peuvent être expliquées par quelques "dimensions de capacité" fondamentales. Ces capacités augmentent de manière prévisible avec la puissance de calcul au sein de chaque famille de modèles, ce qui permet aux chercheurs de faire des prévisions sur les performances futures. Les chercheurs ont validé leur approche en prédisant avec précision plusieurs comportements complexes : le moment où les modèles développeraient de nouvelles capacités, leurs performances dans des tâches d'agent (comme le GPT-4) et les avantages qu'ils tireraient de techniques d'incitation avancées. Cette nouvelle méthode est importante car elle rend l'analyse d'échelle beaucoup plus accessible aux chercheurs qui ne disposent pas de budgets informatiques considérables. Elle permet également d'obtenir des informations de meilleure résolution puisqu'elle peut utiliser des données provenant d'un plus grand nombre de modèles que les approches traditionnelles qui nécessitent l'apprentissage de nouveaux modèles à partir de zéro.

Efficacité de l'ERM dans l'apprentissage des caractéristiques

Ayoub El Hanchi, Chris Maddison, Murat Erdogdu

Résumé du document

Cet article étudie les performances des algorithmes d'apprentissage automatique lorsqu'ils doivent déterminer quelles sont les caractéristiques importantes et comment les utiliser pour faire des prédictions. Par exemple, pour tenter de prédire le prix d'un logement, vous pouvez utiliser de nombreuses caractéristiques différentes, notamment la superficie, le nombre de chambres et l'emplacement. Mais laquelle est la meilleure ? Les chercheurs ont fait une découverte surprenante : lorsqu'ils disposent de suffisamment de données, les algorithmes peuvent apprendre quelles caractéristiques utiliser presque aussi bien que si on leur avait indiqué les bonnes caractéristiques dès le départ. C'est comme si l'algorithme finissait par comprendre que la superficie est plus importante que, par exemple, la couleur de la porte d'entrée. Ce résultat est particulièrement important, car il permet d'expliquer pourquoi les modèles modernes complexes d'apprentissage automatique fonctionnent mieux que prévu. Les chercheurs ont prouvé mathématiquement que lorsque seul un petit nombre de caractéristiques est réellement utile pour les prédictions, l'algorithme peut les identifier plus facilement, même lorsqu'il a le choix entre de nombreuses caractéristiques possibles. Ces résultats pourraient nous aider à mieux comprendre quand et pourquoi l'apprentissage automatique fonctionne, ce qui pourrait déboucher sur des systèmes d'IA plus efficaces et plus fiables.

Un seul échantillon convient à tous : Approximation simultanée et efficace de toutes les valeurs probabilistes

Weida Li, Yaoliang Yu

Résumé du document

"One Sample Fits All" (OFA) est une nouvelle méthode qui permet de calculer efficacement plusieurs types de valeurs probabilistes - des outils mathématiques utilisés en intelligence artificielle pour évaluer l'importance des données ou des caractéristiques. Auparavant, le calcul de ces valeurs nécessitait des calculs distincts pour chaque type, ce qui était coûteux et inefficace. Leur cadre utilise un processus d'échantillonnage unique pour approximer tous les types de valeurs probabilistes simultanément, ce qui réduit considérablement les coûts de calcul. Ils ont créé deux variantes : l'une optimisée pour une utilisation générale pour tous les types (OFA-A), et l'autre qui peut être réglée pour des types spécifiques (OFA-S). La méthode atteint les meilleures performances actuelles pour certains types importants de valeurs probabilistes, en particulier les valeurs de Beta Shapley, tout en conservant de bonnes performances pour d'autres types. Les auteurs ont également montré comment leur méthode s'articule avec les techniques statistiques existantes, en particulier les problèmes de régression par les moindres carrés. Grâce à une analyse théorique approfondie et à des tests empiriques, ils ont démontré que leur approche ne se contente pas d'égaler ou de dépasser les performances des méthodes existantes, mais qu'elle le fait en étant plus efficace sur le plan du calcul. Cette avancée rend plus pratique l'utilisation de ces outils mathématiques importants dans les applications réelles de l'intelligence artificielle.

OSWorld : Analyse comparative d'agents multimodaux pour des tâches ouvertes dans des environnements informatiques réels

Tianbao Xie, Danyang Zhang, Jixuan Chen, Xiaochuan Li, Siheng Zhao, Ruisheng Cao, Jing Hua Toh, Zhoujun Cheng, Dongchan Shin, Fangyu Lei, Yitao Liu, Yiheng Xu, Shuyan Zhou, Silvio Savarese, Caiming Xiong, Victor Zhong, Tao Yu

Résumé du document

Des chercheurs ont développé OSWorld, un nouvel environnement de test qui permet aux agents d'intelligence artificielle d'interagir avec des systèmes d'exploitation et des applications informatiques réels, plutôt que de se contenter d'environnements simulés. Cela permet de combler une lacune importante dans les tests d'IA actuels, où la plupart des environnements sont soit non interactifs, soit limités à des applications spécifiques telles que les navigateurs web. OSWorld comprend 369 tâches réelles qui testent la capacité des agents d'IA à utiliser diverses applications telles que les feuilles de calcul, le courrier électronique et les navigateurs web, de la même manière que les humains utilisent les ordinateurs. Chaque tâche est accompagnée d'instructions de configuration détaillées et de scripts d'évaluation permettant de mesurer le succès avec précision. Les tests effectués sur les modèles d'IA les plus récents (notamment GPT-4V, Gemini et Claude-3) ont révélé des limites importantes. Alors que les humains pouvaient accomplir avec succès environ 72 % des tâches, le meilleur modèle d'IA n'a obtenu que 12,24 % de réussite. Les modèles d'IA ont notamment eu du mal à contrôler avec précision la souris, à comprendre les interfaces complexes et à travailler sur plusieurs applications. Cette recherche met en évidence l'écart considérable entre les capacités actuelles de l'IA et le fonctionnement d'un ordinateur au niveau humain, tout en fournissant une plateforme complète pour développer et tester des systèmes d'IA plus performants à l'avenir.

Amélioration des politiques à l'aide de modèles de rétroaction linguistique

Victor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre Côté

Résumé du document

Des chercheurs ont mis au point un nouveau moyen d'aider les systèmes d'intelligence artificielle à mieux suivre les instructions en créant des "modèles de rétroaction linguistique" (LFM). Au lieu d'utiliser directement de grands modèles de langage coûteux, ils ont créé un système qui apprend d'abord à partir des commentaires de ces modèles sur les actions utiles, puis utilise ces connaissances pour former des systèmes d'IA plus petits et plus efficaces. C'est un peu comme si un enseignant expert fournissait d'abord un retour d'information sur les actions des étudiants, puis utilisait ce retour d'information pour créer un assistant d'enseignement plus accessible, capable d'aider de nombreux étudiants à s'améliorer. Le système s'est avéré efficace pour trois types de tâches différentes : naviguer dans les rues d'une ville, effectuer des tâches culinaires et réaliser des expériences scientifiques. Il est important de noter que cette approche n'est pas seulement plus efficace que l'utilisation directe de grands modèles de langage, mais aussi plus rentable. Le système pouvait s'adapter à de nouvelles situations sans formation supplémentaire et fournissait un retour d'information que les humains pouvaient comprendre et vérifier. Cette recherche représente une avancée significative dans l'amélioration de la capacité des systèmes d'IA à suivre des instructions, tout en maintenant des coûts gérables et en assurant la transparence des décisions prises par l'IA.

Modèles quantiques d'équilibre profond

Philipp Schleich, Marta Skreta, Lasse Kristensen, Rodrigo Vargas-Hernandez, Alan Aspuru-Guzik

Résumé du document

L'apprentissage automatique quantique actuel est confronté, entre autres, aux deux principaux défis suivants : les circuits profonds accumulent les erreurs et l'évaluation des gradients nécessite de nombreuses mesures, dont un plus grand nombre est nécessaire pour un plus grand nombre de paramètres. Les chercheurs proposent la solution QDEQ, qui consiste à adapter les modèles classiques d'équilibre profond à l'informatique quantique. Plutôt que d'utiliser de nombreuses couches de circuits explicites, QDEQ trouve des points fixes qui simulent efficacement un réseau de profondeur infinie en utilisant des circuits beaucoup moins profonds. Ils testent cette approche sur des tâches de classification d'images utilisant 4 à 10 qubits et constatent que QDEQ peut égaler ou dépasser les performances de modèles comportant 5 fois plus de couches tout en utilisant beaucoup moins de paramètres. Ceci est particulièrement important pour les ordinateurs quantiques à court terme où la profondeur des circuits doit être minimisée.

Le bruit de représentation empêche efficacement les ajustements fins nuisibles sur les LLMs

Domenic Rosati, Jan Wehner, Kai Williams, Lukasz Bartoszcze, Robie Gonzales, Carsten Maple, Subhabrata Majumdar, Hassan Sajjad, Frank Rudzicz

Résumé du document

Les mesures de sécurité actuelles pour les LLM peuvent être facilement contournées par un réglage fin, ce qui crée un risque important lors de la diffusion de modèles à code source ouvert. Les chercheurs proposent la solution RepNoise, un mécanisme de défense qui consiste à "bruiter" (dégrader) délibérément les représentations internes du modèle du contenu nuisible à travers toutes les couches du réseau. Il est ainsi beaucoup plus difficile pour les attaquants de récupérer des capacités nuisibles par le biais d'un réglage fin, même lorsqu'ils ont un accès total aux poids du modèle. RepNoise utilise une fonction de perte en trois parties qui : 1) réduit les informations prédictives sur les résultats nuisibles, 2) conserve les capacités pour les tâches inoffensives et 3) pousse les représentations nuisibles vers le bruit aléatoire. La méthode s'avère efficace pour se défendre contre les réglages fins nuisibles tout en maintenant les performances du modèle pour les tâches bénignes.

Machines à récompenses pour la logique profonde dans des environnements bruyants et incertains

Andrew Li, Zizhao Chen, Toryn Klassen, Pashootan Vaezipoor, Rodrigo Toro Icarte, Sheila McIlraith

Résumé du document

Les machines à récompenser offrent un cadre pour la représentation formelle de comportements complexes, méritant une récompense, tout en exposant la structure de la fonction de récompense pour accélérer l'apprentissage par renforcement (RL). Les algorithmes antérieurs de machines à récompenser ont traditionnellement ignoré l'incertitude inhérente à l'occurrence d'événements clés (comme atteindre un endroit désiré ou ramasser un objet particulier), qui peut se présenter dans le monde réel en raison de capteurs bruyants ou d'une observabilité partielle. Les chercheurs présentent un nouveau cadre de machine à récompenser pour la formation d'agents RL qui sont conscients de l'incertitude concernant l'occurrence de ces événements clés et qui apprennent à agir en conséquence. À l'aide de la théorie et des expériences, ils exposent les pièges de l'ignorance ou de l'incorporation naïve de cette incertitude dans la prise de décision d'un agent, ce qui peut entraîner des comportements involontaires ou dangereux. Ils démontrent en outre comment l'impact de cette incertitude peut être atténué pour former des agents RL plus sûrs et plus fiables.

SCube : Reconstruction instantanée de scènes à grande échelle à l'aide de VoxSplats

Xuanchi Ren, Yifan Lu, Hanxue Liang, Jay Zhangjie Wu, Huan Ling, Mike Chen, Sanja Fidler, Francis Williams, Jiahui Huang

Résumé du document

Cette recherche s'attaque au défi que représente la création de modèles 3D détaillés à partir de quelques photographies d'une scène. Alors que les méthodes existantes nécessitent de nombreuses photos qui se chevauchent ou produisent des résultats flous, cette nouvelle approche appelée SCube peut créer des reconstructions 3D de haute qualité à partir de seulement trois images qui ne se chevauchent pas, et ce en seulement 20 secondes. La clé du succès de SCube réside dans sa nouvelle combinaison de techniques : elle utilise une représentation hybride appelée VoxSplat qui combine l'efficacité des voxels (pixels 3D) avec la qualité visuelle des points gaussiens 3D. Le système fonctionne en deux étapes : il détermine d'abord la structure et la géométrie de base de la scène, puis complète les détails de l'apparence. Les chercheurs ont testé SCube sur l'ensemble de données de la voiture autonome Waymo et ont montré qu'il surpassait les méthodes existantes en termes de qualité et de rapidité. Le système peut reconstruire des scènes à grande échelle couvrant des centaines de mètres et a des applications pratiques dans la conduite autonome, la réalité augmentée et même la conversion de descriptions textuelles en scènes 3D. Il s'agit d'une avancée significative dans la technologie de reconstruction 3D, qui rend beaucoup plus pratique la création de modèles 3D détaillés à partir d'un nombre limité de photos.

Une séparation dans l'échantillonnage à queue lourde : Oracles gaussiens vs. stables pour les échantillonneurs proximaux

Ye He, Alireza Mousavi-Hosseini, Krishnakumar Balasubramanian, Murat Erdogdu

Résumé du document

Cet article examine les méthodes d'échantillonnage des distributions de probabilité à "queue lourde", c'est-à-dire des distributions dans lesquelles les valeurs extrêmes sont plus fréquentes que dans les distributions normales standard. Ces distributions sont utilisées dans de nombreuses applications du monde réel, de la modélisation financière aux statistiques robustes.

Les chercheurs mettent en évidence une différence fondamentale entre deux approches de ce problème : les méthodes basées sur les distributions gaussiennes (normales) et celles basées sur les distributions stables. Ils montrent que les méthodes basées sur les gaussiennes doivent intrinsèquement prendre beaucoup plus d'étapes pour atteindre une grande précision, alors que les méthodes basées sur les stables peuvent converger beaucoup plus rapidement. Plus précisément, pour une précision souhaitée ε, les méthodes gaussiennes nécessitent un temps polynomial en 1/ε (ce qui signifie qu'elles deviennent beaucoup plus lentes au fur et à mesure que la précision requise augmente), tandis que les méthodes stables ne nécessitent qu'un temps logarithmique en 1/ε (ce qui signifie qu'elles restent efficaces même pour des exigences de précision élevées). Les chercheurs prouvent qu'il ne s'agit pas seulement d'une limitation des techniques actuelles, mais d'un obstacle mathématique fondamental. L'article fournit également des implémentations pratiques pour certains cas et démontre des limites inférieures montrant que leurs résultats sont essentiellement optimaux. Ce travail théorique permet d'expliquer pourquoi certaines méthodes d'échantillonnage fonctionnent mieux dans la pratique et fournit des conseils pour la sélection d'algorithmes dans des applications réelles.

Prise de décision séquentielle avec démonstrations d'experts en cas d'hétérogénéité non observée

Vahid Balazadeh, Keertana Chidambaram, Viet Nguyen, Rahul G. Krishnan, Vasilis Syrgkanis

Résumé du document

Les chercheurs présentent ExPerior, une nouvelle approche empirique de Bayes pour la prise de décision séquentielle qui exploite les démonstrations d'experts tout en tenant compte des informations contextuelles non observées. L'algorithme traite les démonstrations d'experts comme des solutions à des problèmes connexes mais légèrement différents, en les utilisant pour établir une distribution préalable informative sur l'espace de décision de l'apprenant. Cette approche est particulièrement utile dans des applications telles que les voitures autonomes, les soins de santé et la finance, où les experts prennent des décisions en utilisant des informations contextuelles non disponibles pour l'agent d'apprentissage. ExPerior utilise deux méthodes pour apprendre l'a priori : une approche paramétrique utilisant les connaissances existantes sur la forme de l'a priori, et une approche non paramétrique d'entropie maximale pour les cas ne disposant pas de ces connaissances. Le cadre est plus performant que les lignes de base existantes pour les bandits à plusieurs bras, les processus de décision de Markov (PDM) et les PDM partiellement observables. Pour les bandits à plusieurs bras, les auteurs prouvent que le regret bayésien d'ExPerior est en corrélation avec l'entropie de l'action optimale sous la distribution préalable, ce qui fournit une validation théorique de l'efficacité de l'algorithme.

Spider2-V : Les agents multimodaux sont-ils encore loin d'automatiser les flux de travail de la science des données et de l'ingénierie ?

Ruisheng Cao, Fangyu Lei, Haoyuan Wu, Jixuan Chen, Yeqiao Fu, Hongcheng Gao, Xinzhuang Xiong, Hanchong Zhang, Wenjing Hu, Yuchen Mao, Tianbao Xie, Hongshen Xu, Danyang Zhang, Sida Wang, Ruoxi Sun, Pengcheng Yin, Caiming Xiong, Ansong Ni, Qian Liu, Victor Zhong, Lu Chen, Kai Yu, Tao Yu

Résumé du document

Spider2-V introduit un benchmark complet pour évaluer les capacités des agents multimodaux à automatiser la science des données et les flux de travail d'ingénierie. Le benchmark comprend 494 tâches réelles dans 20 applications d'entreprise, intégrant à la fois la génération de code et les opérations d'interface graphique dans un environnement informatique exécutable. Les tâches couvrent l'entreposage de données, l'ingestion, la transformation, la visualisation et l'orchestration à l'aide d'outils tels que BigQuery, dbt et Airbyte. Pour garantir une évaluation fiable, les auteurs ont développé 170 configurations de tâches automatiques et 151 mesures d'évaluation personnalisées. Les résultats empiriques révèlent des limites importantes dans les modèles actuels de pointe - même GPT-4V atteint seulement 14,0% de taux de réussite, avec des performances chutant à 1,2% sur les tâches complexes nécessitant plus de 15 étapes. L'étude identifie des défis majeurs dans le traitement des comptes d'utilisateurs authentiques (10,6 % de réussite) et des opérations d'interface graphique à grain fin. Les résultats suggèrent que si les agents multimodaux sont prometteurs, ils sont loin d'automatiser de manière fiable des flux de données complets, mettant en évidence des domaines cruciaux à améliorer dans l'ancrage de l'action et l'exécution de tâches complexes.

Génération d'images à partir de textes en fonction du sujet par apprentissage par renforcement basé sur les préférences

Yanting Miao, William Loh, Suraj Kothawade, Pascal Poupart, Abdullah Rashwan, Yeqing Li

Résumé du document

Cette recherche présente une nouvelle approche de la génération texte-image pilotée par le sujet qui répond aux limites des méthodes actuelles telles que DreamBooth et SuTI. Les auteurs introduisent la fonction de récompense λ-Harmonic, qui permet un arrêt précoce et fournit des signaux de récompense fiables pour la formation, ainsi que RPO, une méthode d'apprentissage par renforcement basée sur les préférences. Le système ne nécessite que 3 % des échantillons négatifs utilisés par DreamBooth tout en obtenant des résultats supérieurs. Contrairement aux méthodes existantes, RPO n'affine que la composante U-Net sans nécessiter d'apprentissage du codeur de texte ni d'optimisation de l'intégration. L'approche atteint des performances de pointe sur DreamBench avec un score CLIP-I de 0,833 et un score CLIP-T de 0,314. Le système démontre une forte performance dans la préservation de l'identité du sujet tout en s'adaptant à différents contextes, nécessitant seulement 5-20 minutes de temps de formation sur Cloud TPU V4. La fonction λ-Harmonic s'avère particulièrement efficace pour empêcher le surajustement et équilibrer la similarité avec les images de référence avec la fidélité au texte.

T2V-Turbo : Briser le goulot d'étranglement de la qualité du modèle de cohérence vidéo avec un retour de récompense mixte

Jiachen Li, Weixi Feng, Tsu-Jui Fu, Xinyi Wang, S Basu, Wenhu Chen, William Yang Wang

Résumé du document

T2V-Turbo relève le principal défi de la génération de texte-vidéo : atteindre à la fois la vitesse et la qualité. Le système intègre le retour d'information de plusieurs modèles de récompense - à la fois image-texte et vidéo-texte - dans le processus de distillation de la cohérence des modèles texte-vidéo pré-entraînés. Contrairement aux approches précédentes, T2V-Turbo optimise les récompenses pour les générations en une seule étape, en évitant les contraintes de mémoire associées à la rétropropagation par échantillonnage itératif. Le modèle obtient des résultats remarquables, ses générations en 4 étapes surpassant les modèles de pointe sur VBench, y compris les systèmes propriétaires tels que Gen-2 et Pika. Les évaluations humaines confirment que les générations en 4 étapes de T2V-Turbo sont préférables aux échantillons DDIM en 50 étapes des modèles enseignants, ce qui représente une accélération de plus de 12 fois tout en améliorant la qualité. Le système ne nécessite que 3 % des échantillons négatifs utilisés par DreamBooth et s'entraîne en 5 à 20 minutes sur le Cloud TPU V4.

Apprentissage par différence temporelle à l'aide de signaux d'erreur distribués

Jonas Guan, Shon Verch, Claas Voelcker, Ethan Jackson, Nicolas Papernot, William Cunningham

Résumé du document

Les chercheurs abordent une question fondamentale de l'apprentissage biologique basé sur la récompense : comment le noyau accumbens du cerveau (NAc) coordonne l'apprentissage en utilisant uniquement des signaux de dopamine distribués localement. Ils développent la dopamine artificielle, un algorithme d'apprentissage Q profond qui reflète cette contrainte biologique en utilisant des erreurs de différence temporelle distribuées de manière synchrone par couche. Contrairement aux approches traditionnelles utilisant la rétropropagation, les cellules de la Dopamine Artificielle calculent leurs propres erreurs locales et les mettent à jour indépendamment. Le système utilise des connexions directes dans le temps pour relayer l'information entre les couches par le biais d'activations plutôt que de signaux d'erreur. L'algorithme a été évalué sur des jeux MinAtar, des tâches DeepMind Control Suite et des problèmes de contrôle classiques. Les résultats montrent que l'AD atteint souvent des performances comparables à celles des algorithmes RL profonds standard qui utilisent la rétropropagation, bien qu'il ne propage pas les signaux d'erreur entre les couches. L'étude fournit des preuves computationnelles que les signaux d'erreur distribués peuvent suffire à l'apprentissage coordonné basé sur la récompense, offrant un aperçu à la fois des mécanismes d'apprentissage biologiques et des nouvelles approches des réseaux neuronaux artificiels.

Attribution des données d'entraînement par déroulé approximatif

Juhan Bae, Wu Lin, Jonathan Lorraine, Roger Grosse

Résumé du document

Cet article présente SOURCE, une nouvelle technique permettant de comprendre comment les données d'apprentissage individuelles influencent le comportement d'un modèle d'apprentissage automatique. Il s'agit d'un point important, car la compréhension des exemples de formation les plus influents aide les chercheurs à interpréter, à déboguer et à améliorer les modèles d'intelligence artificielle. Les méthodes précédentes ne pouvaient pas gérer les scénarios complexes du monde réel ou nécessitaient une puissance de calcul trop importante pour être pratiques. SOURCE résout ce problème en divisant le processus de formation en segments et en analysant l'influence des données au sein de chaque segment, en utilisant des approximations mathématiques pour que les calculs restent efficaces. Les chercheurs ont testé SOURCE dans diverses tâches, notamment la classification d'images, l'analyse de texte et la modélisation linguistique. Ils ont constaté qu'elle était plus performante que les méthodes existantes pour prédire comment la suppression de données d'entraînement spécifiques affecterait le modèle, en particulier dans des scénarios difficiles tels que les modèles partiellement entraînés ou les processus d'entraînement en plusieurs étapes. Cette approche est particulièrement utile pour les systèmes modernes d'apprentissage automatique qui utilisent souvent des procédures de formation complexes.

WildVision : Évaluation des modèles vision-langage dans la nature avec les préférences humaines

Yujie Lu, Dongfu Jiang, Wenhu Chen, William Yang Wang, Yejin Choi, Bill Yuchen Lin

Résumé du document

WildVision apporte deux contributions majeures à l'évaluation des modèles d'IA basés sur le langage de la vision : une plateforme interactive appelée WildVision-Arena où les utilisateurs peuvent comparer différents modèles dans des scénarios réels, et WildVision-Bench, une référence créée à partir de ces interactions réelles. Les chercheurs ont recueilli plus de 20 000 conversations et 8 000 votes d'utilisateurs, créant ainsi l'un des plus grands ensembles de données sur les préférences humaines en matière de modèles de langage visuel. Leur analyse a révélé que si les meilleurs modèles, comme le GPT-4, sont performants pour les tâches simples, ils ont encore du mal à relever des défis tels que les détails visuels subtils, le raisonnement spatial et la connaissance d'un domaine d'expertise. Le benchmark qu'ils ont développé présente une forte corrélation (0,94) avec les préférences humaines, ce qui suggère qu'il capture efficacement les performances des modèles du monde réel. La plateforme continue de suivre les performances de plus de 20 modèles de langage visuel différents, fournissant des informations précieuses sur leurs forces et leurs faiblesses. En se concentrant sur les interactions réelles plutôt que sur les repères traditionnels, ce travail permet de mieux comprendre les performances de ces modèles dans des cas d'utilisation réels et de mettre en évidence les points à améliorer.

Autres documents de recherche affiliés

La réparation de code avec des LLMs donne un compromis exploration-exploitation

Hao Tang, Keya Hu, Jin Zhou, Si Cheng Zhong, Wei-Long Zheng, Xujie Si, Kevin Ellis

Une analyse complète de la courbe d'apprentissage dans la régression de Kernel Ridge

Tin Sum Cheng, Aurélien Lucchi, Anastasis Kratsios, David Belius

Optimisation inverse conforme

Bo Lin, Erick Delage, Timothy Chan

Apprentissage continu des modèles de fondation avec des données étiquetées limitées

Shuvendu Roy, Elham Dolatabadi, Arash Afkanpour, Ali Etemad

Convolutions et plus comme Einsum : Une perspective de réseau tensoriel avec des avancées pour les méthodes du second ordre

Felix Dangel

DHA : Apprentissage de l'attention découplée de la tête à partir des points de contrôle des transformateurs via les têtes adaptatives

Fusion Yilong Chen, Linhao Zhang, Junyuan Shang, Zhenyu Zhang, Tingwen Liu, Shuohuan Wang, Yu Sun

DiffAug : Une augmentation de la diffusion et du bruit pour la formation de classificateurs robustes

Chandramouli Shama Sastry, Sri Harsha Dumpala, Sageev Oore

EHRCon : Ensemble de données pour vérifier la cohérence entre les notes non structurées et les tableaux structurés dans les dossiers médicaux électroniques

Yeonsu Kwon, Jiho Kim, Gyubok Lee, Seongsu Bae, Daeun Kyung, Wonchul Cha, Tom Pollard, Alistair Johnson, Edward Choi

EHRMamba : Vers des modèles de fondation généralisables et évolutifs pour les dossiers médicaux électroniques

Adibvafa Fallahpour, Mahshid Alinoori, Wenqian Ye, Xu Cao, Arash Afkanpour, Amrit Krishnan

Estimation continue du barycentre entropique guidée par l'énergie pour les coûts généraux

Alexander Kolesov, Petr Mokrov, Igor Udovichenko, Milena Gazdieva, Gudmund Pammer, Anastasis Kratsios, Evgeny Burnaev, Aleksandr Korotin

Intégrité épistémique dans les grands modèles linguistiques

Bijean Ghafouri, Shahrad Mohammadzadeh, James Zhou, Pratheeksha Nair, Jacob-Junqi Tian, Mayank Goel, Reihaneh Rabbany, Jean-François Godbout, Kellin Pelrine

Évaluation des performances du système RAG : L'impact de la coupure des connaissances et du réglage fin

Omkar Dige, John Willes, D. B. Emerson

Échantillonnage optimal et minimal localement différentiellement privé

Hyun-Young Park, Shahab Asoodeh, Si-Hyeon Lee

Exploration du réglage des invites visuelles pour l'adaptation démographique dans les modèles de base pour l'imagerie médicale

Artur Parkhimchyk, Amirreza Naziri, Laleh Seyyed-Kalantari

Fait ou fiction ? Les LLM peuvent-ils être des annotateurs fiables de vérités politiques ?

Veronica Chatrath, Marcelo Lotif, Shaina Raza

Équité des modèles d'IA dans les représentations vectorielles des radiographies du thorax

Gebreyowhans Hailekiros Bahre, Hassan Hamidi, Francesco Calimeri, Andrew Sellergren, Leo Anthony Celi, Laleh Seyyed-Kalantari

FLAME : Alignement conscient de la factualité pour les grands modèles de langage

Sheng-Chieh Lin, Luyu Gao, Barlas Oguz, Wenhan Xiong, Jimmy Lin, Scott Yih, Xilun Chen

Modèles génératifs tenant compte de la fréquence pour l'imputation de séries temporelles multivariées

XINYU YANG, Yu Sun, Yuan xiaojie, Xinyang Chen

GaussianCut : Segmentation interactive par découpage graphique pour l'éclatement gaussien en 3D

Umangi Jain, Ashkan Mirzaei, Igor Gilitschenski

Alignement humain-IA aux échecs avec une attention consciente des compétences

Zhenwei Tang, Difan Jiao, Reid McIlroy-Young, Jon Kleinberg, Siddhartha Sen, Ashton Anderson

Représentation assemblée floue basée sur un hypergraphe pour l'extraction d'objets 3D à partir d'un ensemble ouvert

Yang Xu, Yifan Feng, Jun Zhang, Jun-Hai Yong, Yue Gao

Le biais implicite de l'hétérogénéité vers l'invariance : Une étude de la détection matricielle multi-environnementale

Yang Xu, Yihong Gu, Cong Fang

Courbure approximative pondérée par Kronecker pour les réseaux neuronaux fondés sur la physique

Felix Dangel, Johannes Müller, Marius Zeinhofer

L4GM : Large 4D Gaussian Reconstruction Model (modèle de reconstruction gaussienne à grande échelle)

Jiawei Ren, Cheng Xie, Ashkan Mirzaei, hanxue liang, xiaohui zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling

Apprentissage à partir d'étiquettes bruitées via une optimisation conditionnelle et robuste sur le plan de la distribution

Hui GUO, Grace Yi, Boyu Wang

L'apprentissage en bibliothèque ne l'est pas : Le cas curieux de la "bibliothèque" à usage unique

Ian Berlot-Attwell, Frank Rudzicz, Xujie Si

Effondrement linguistique : Effondrement neuronal dans les (grands) modèles linguistiques

Robert Wu, Vardan Papyan

LogiCity : Faire progresser l'IA neuro-symbolique avec la simulation urbaine abstraite

Bowen Li, Zhaoyu Li, Qiwei Du, Jinqi Luo, Wenshan Wang, Yaqi Xie, Simon Stepputtis, Chen Wang, Katia Sycara, Pradeep Ravikumar, Alexander Gray, Xujie Si, Sebastian Scherer

Couplage à entropie minimale avec goulot d'étranglement

Reza Ebrahimi, Jun Chen, Ashish Khisti

MixEval : Approximation rapide et dynamique des préférences humaines à l'aide de mélanges de référence LLM

Jinjie Ni, Fuzhao Xue, Xiang Yue, Yuntian Deng, Mahir Shah, Kabir Jain, Graham Neubig, Yang You

NAVSIM : Simulation et évaluation comparative de véhicules autonomes non réactifs guidés par les données

Daniel Dauner, Marcel Hallgarten, Tianyu Li, Xinshuo Weng, Zhiyu Huang, Zetong Yang, Hongyang Li, Igor Gilitschenski, Boris Ivanovic, Marco Pavone, Andreas Geiger, Kashyap Chitta

Décodage spéculatif du plus proche voisin pour la génération et l'attribution de LLM

Minghan Li, Xilun Chen, Ari Holtzman, Beidi Chen, Jimmy Lin, Scott Yih, Victoria Lin

Actifs neuronaux : Synthèse de scène multi-objets consciente de la 3D avec des modèles de diffusion d'image

Ziyi Wu, Yulia Rubanova, Rishabh Kabra, Drew Hudson, Igor Gilitschenski, Yusuf Aytar, Sjoerd van Steenkiste, Kelsey Allen, Thomas Kipf

Imagerie probabiliste fondée sur des principes et utilisant des modèles de diffusion en tant qu'amorces prêtes à l'emploi

Zihui Wu, Yu Sun, Yifan Chen, Bingliang Zhang, Yisong Yue, Katherine Bouman

Alignement par score de propension de données multimodales non appariées

Johnny Xi, Jana Osea, Zuheng Xu, Jason Hartford

Équité proportionnelle dans le regroupement non centroïde

Ioannis Caragiannis, Evi Micha, Nisarg Shah

QueST : Abstractions de compétences auto-supervisées pour l'apprentissage du contrôle continu

Atharva Anil Mete, Haotian Xue, Albert Wilcox, Yongxin Chen, Animesh Garg

Codage par cycle aléatoire : Compression sans perte des affectations de groupes via le codage Bits-Back

Daniel Severo, Ashish Khisti, Alireza Makhzani

Apprentissage par renforcement - Apprentissage semi-supervisé guidé

Marzi Heidari, Hanping Zhang, Yuhong Guo

Sain et sauf - Évaluation des modèles linguistiques pour l'atténuation des préjugés et la compréhension

Shaina Raza, Shardul Ghuge, Oluwanifemi Bamgbose, Deval Pandya

Boosting agnostique efficace sur le plan de l'échantillonnage

Udaya Ghai, Karan Singh

Apprentissage privé de mélanges de gaussiennes efficace sur le plan de l'échantillonnage

Hassan Ashtiani, Mahbod Majid, Shyam Narayanan

Recherche d'objets 3D semi-ouverts via une représentation hiérarchique de l'équilibre basée sur un hypergraphe

Yang Xu, Yifan Feng, Jun Zhang, Jun-Hai Yong, Yue Gao

L'état de la curation des données à NeurIPS : Une évaluation des pratiques de développement de jeux de données dans le cadre de la piste des jeux de données et des repères (Datasets and Benchmarks Track)

Eshta Bhardwaj, Harshit Gujral, Siyi Wu, Ciara Zogheib, Tegan Maharaj, Christoph Becker

Ensemble de données SUGARCREPE++ : Sensibilité du modèle vision-langage aux altérations sémantiques et lexicales

Sri Harsha Dumpala, Aman Jaiswal, Chandramouli Shama Sastry, Evangelos Milios, Sageev Oore, Hassan Sajjad

Plan d'expériences indirectes séquentielles ciblées

Elisabeth Ailer, Niclas Dern, Jason Hartford, Niki Kilbertus

Apprendre aux LLM à apprendre grâce à l'ajustement contextuel

Younwoo Choi*, Muhammad Adil Asif*, Ziwen Han, John Willes, Rahul Krishnan

Vers la dynamique d'un DNN apprenant des interactions symboliques

Qihan Ren, Yang Xu, Junpeng Zhang, Yue Xin, Dongrui Liu, Quanshi Zhang

Vers la compréhension des schémas évolutifs dans les données séquentielles

QIUHAO Zeng, Long-Kai Huang, Qi CHEN, Charles Ling, Boyu Wang

Dernières couches variationnelles pour l'optimisation bayésienne

Paul Brunzema*, Mikkel Jordahn*, John Willes, Sebastian Trimpe, Jasper Snoek, James Harrison

En rapport :

2025
Recherche
Recherche 2025

Clonage de la pensée : Apprendre à l'IA à penser comme les humains pour une meilleure prise de décision

Ordinateur portable vectoriel
2025
Ingénierie de l'IA
Recherche
Recherche 2025

FairSense : Intégrer l'IA responsable et le développement durable

2024
Recherche
Recherche 2024

Mon mandat de chercheur invité à l'Institut Vecteur