Chercheurs en vecteurs présentant plus de 98 articles à NeurIPS 2024
5 décembre 2024
5 décembre 2024
Des chercheurs de premier plan de Vector présentent des recherches novatrices lors de la conférence de cette année sur les systèmes de traitement de l’information neuronale (NeurIPS). La conférence, qui aura lieu du 10 au 15 décembre à Vancouver et en ligne, met en lumière le travail novateur du corps professoral, des membres affiliés du corps professoral, des boursiers postdoctoraux et chercheurs affiliés de Vector. Leurs recherches font avancer de multiples frontières de l’IA, avec des applications prometteuses qui pourraient transformer la vie quotidienne – des soins de santé au droit d’auteur.
Voici des résumés simplifiés de certains des articles acceptés par les chercheurs en vecteurs lors de la conférence principale.
Descriptions d’articles rédigées par des coauteurs et/ou de l’IA générative.
Natalie Maus, Kyurae Kim, David Eriksson, Geoff Pleiss, John Cunningham, Jacob Gardner
Cet article présente une nouvelle approche pour l’inférence approximative des modèles de substitut utilisés dans les pipelines d’optimisation bayésienne. Les chercheurs notent que les techniques d’inférence approximative produisent des modèles substituts globalement fidèles, mais au prix de rendre les modèles moins utiles pour l’optimisation en boîte noire. Pour aligner le modèle de substitution approximatif avec l’objectif d’optimisation, les auteurs proposent d’inférer une distribution qui minimise l’EULBO (Expected Utility Lower-Bound) plutôt que l’ELBO variationnel standard (Evidence Lower Bound). Au lieu de traiter séparément les parties d’inférence et de prise de décision du processus, l’EULBO les regroupe en une approche unifiée. Les chercheurs ont testé leur méthode sur diverses tâches, notamment la conception de molécules et le contrôle de systèmes robotiques. Les résultats montrent que l’optimisation bayésienne basée sur EULBO a constamment mieux performé que les méthodes existantes, nécessitant souvent moins d’expériences pour obtenir les mêmes résultats ou de meilleurs résultats.
Zahra Gharaee, Scott Lowe, ZeMing Gong, Pablo Millan Arias, Nicholas Pellegrino, Austin T. Wang, Joakim Bruslund Haurum, Iuliia Zarubiieva, Lila Kari, Dirk Steinke, Graham Taylor, Paul Fieguth, Angel Chang
BIOSCAN-5M introduit un ensemble de données multimodal contenant plus de 5 millions de spécimens d’arthropodes (98% d’insectes) afin d’aider à surveiller et comprendre la biodiversité. L’ensemble de données combine de manière unique des images de microscope à haute résolution, des codes-barres ADN, des étiquettes taxonomiques, des données géographiques et des informations sur la taille de chaque spécimen.
Les contributions clés sont :
L’ensemble de données est conçu pour aider les chercheurs à développer de meilleurs outils d’IA pour la surveillance de la biodiversité, notamment pour identifier à la fois des espèces connues et nouvelles. Les auteurs montrent que combiner différents types de données (images, ADN, etc.) mène à une meilleure précision de classification que d’utiliser un seul type. Ce travail représente une avancée importante dans l’application de l’apprentissage automatique à la recherche sur la biodiversité, fournissant des ressources qui pourraient accélérer la découverte et le suivi des espèces à l’échelle mondiale.
Wei Pang, Masoumeh Shafieinejad, Lucy Liu, Stephanie Hazlewood, Xi He
Cet article présente ClavaDDPM, une nouvelle approche pour générer des données synthétiques pour des bases de données avec plusieurs tables interconnectées. Alors que les travaux précédents se sont principalement concentrés sur la création de données synthétiques pour des tables uniques, les bases de données réelles contiennent souvent de nombreuses tables liées, rendant la génération de données synthétiques plus complexe.
Les principales innovations sont :
Les chercheurs ont testé ClavaDDPM sur cinq ensembles de données réels et ont constaté qu’il surpassait nettement les méthodes existantes, notamment pour préserver les relations entre les données dans différentes tables. Par exemple, lors de la génération de données financières synthétiques, ClavaDDPM a mieux préservé les relations à long terme entre les tableaux; comme le lien indirect entre la démographie des clients et le statut du prêt, qui sont liés par des tableaux intermédiaires.
Jonathan Wenger, Kaiwen Wu, Philipp Hennig, Jacob Gardner, Geoff Pleiss, John Cunningham
Les approximations de modèles « conscients du calcul » satisfont un désir où un calcul accru (moins d’approximation) donne des estimations d’incertitude plus faibles. Les auteurs présentent le premier algorithme pratique pour obtenir des approximations de processus gaussiens conscientes du calcul, introduisant deux avancées cruciales qui corrigent les limites des travaux antérieurs. Dans la première avancée clé, les auteurs introduisent une méthode qui induit de manière démontrable la propriété de conscience du calcul dans les processus gaussiens en temps linéaire, une réduction par rapport aux algorithmes en temps quadratique proposés dans des travaux antérieurs. Deuxièmement, les auteurs introduisent une approche variationnelle pour effectuer la sélection du modèle de manière consciente du calcul – sélectionnant les hyperparamètres du processus gaussienne et l’ordre du calcul – sans aboutir à un surajustement. Les chercheurs ont validé leur méthode sur plusieurs ensembles de données réels. Leurs expériences ont montré que le système peut gérer des ensembles de données contenant jusqu’à 1,8 million de points de données, s’entraînant en seulement quelques heures sur un seul GPU. Il fournit des estimations d’incertitude plus fiables et correspond ou surpasse les méthodes de pointe actuelles sur la plupart des indicateurs.
Johannes Treutlein, Dami Choi, Jan Betley, Cem Anil, Samuel Marks, Roger Grosse, Owain Evans
Cet article examine si les modèles de langage IA (LLM) peuvent reconstituer des informations cachées à partir d’indices indirects dans leurs données d’entraînement – une capacité que les auteurs appellent « raisonnement inductif hors contexte » (OOCR). À travers cinq expériences différentes, ils démontrent que des LLM modernes comme GPT-3.5 et GPT-4 peuvent effectivement relier ces points indirects. Par exemple, lorsqu’on ne s’entraînait que sur les distances entre une ville non nommée et d’autres villes connues, l’IA pouvait deviner que la ville mystérieuse était Paris et répondre à des questions sur la culture française. De même, lorsqu’on ne voit que les résultats du pile ou face de la pièce, il peut déduire si la pièce est biaisée. Cette capacité a des implications importantes pour la sécurité de l’IA. Si les données d’entraînement d’un système d’IA sont censurées pour éliminer des informations dangereuses, l’IA pourrait tout de même être capable de reconstituer ces informations à partir de motifs subtils et d’indices laissés dans les données restantes. Bien que les expériences montrent que cette capacité existe, elle n’est pas parfaitement fiable. Les modèles plus petits avaient du mal avec des motifs complexes, et même les modèles avancés faisaient parfois des erreurs. Les chercheurs soulignent que cela suggère que les systèmes d’IA actuels ne peuvent probablement pas reconstituer de manière fiable des informations complexes et dangereuses, mais que la capacité pourrait devenir plus préoccupante à mesure que les modèles s’améliorent. Le travail met en lumière un défi potentiel dans le contrôle de ce que les systèmes d’IA de connaissances peuvent acquérir pendant la formation.
Letian Wang, Seung Wook Kim, Jiawei Yang, Cunjun Yu, Boris Ivanovic, Steven Waslander, Yue Wang, Sanja Fidler, Marco Pavone, Peter Karkus
Cet article présente DistillNeRF, une nouvelle méthode pour comprendre des scènes 3D à partir d’images limitées de caméras 2D dans des scénarios de conduite autonome. L’innovation clé consiste à combiner deux idées puissantes : premièrement, il apprend à partir de modèles 3D de haute qualité (appelés Champs de Radiance Neuronale ou NeRFs) qui sont optimisés pour chaque scène de conduite. Bien que ces modèles soient trop lents pour être utilisés directement dans des véhicules autonomes, ils peuvent apprendre à un modèle plus rapide à comprendre les scènes 3D avec précision.
Deuxièmement, il intègre des fonctionnalités issues de modèles de vision avancés par IA (comme CLIP et DINOv2) pour comprendre la signification sémantique des scènes – comme l’identification des voitures, des bâtiments et des routes. Le système prend plusieurs images de caméra d’un même instant et les convertit en une représentation 3D qui peut générer de nouvelles vues de la scène et comprendre quels objets sont présents. Contrairement aux approches précédentes qui nécessitaient un temps de traitement étendu par scène, cette méthode fonctionne en temps réel. Les tests sur des ensembles de données de conduite autonome montrent que DistillNeRF égale la qualité des méthodes plus lentes tout en étant beaucoup plus rapide, et peut effectuer des tâches comme l’estimation de la profondeur et l’identification d’objets dans l’espace 3D sans avoir besoin de données d’entraînement supplémentaires. Cela représente une étape importante pour aider les véhicules autonomes à mieux comprendre leur environnement de manière efficace et précise.
Yuanqi Du, Michael Plainer, Rob Brekelmans, Chenru Duan, Frank Noe, Carla Gomes, Alan Aspuru-Guzik, Kirill Neklyudov
Cet article présente une nouvelle méthode, plus efficace, d’étudier comment les molécules changent de forme, particulièrement lors de processus importants comme le repliement des protéines ou les réactions chimiques. Le problème clé qu’ils essaient de résoudre est que les méthodes traditionnelles nécessitent de simuler d’innombrables mouvements moléculaires pour capter des transitions rares mais importantes, ce qui est coûteux en calcul. Les chercheurs ont développé une approche variationnelle basée sur les idées de la mécanique lagrangienne qui permet une manière plus efficace de trouver les chemins de transition. Au lieu d’exécuter de nombreuses simulations dans l’espoir de capter des transitions importantes par hasard, leur approche utilise l’optimisation mathématique pour trouver directement les chemins les plus probables qu’une molécule prendra en passant d’une forme à une autre. L’équipe a testé sa méthode à la fois sur des systèmes de test simples et sur des molécules réelles comme le dipeptide d’alanine et la chignoline (une petite protéine). Leurs résultats ont montré que leur approche peut trouver les mêmes trajectoires de transition moléculaire que les méthodes traditionnelles, mais nécessite beaucoup moins de calculs – dans certains cas, seulement 1 million de calculs au lieu d’un milliard. Cette amélioration de l’efficacité pourrait aider les scientifiques à mieux comprendre et prédire les processus moléculaires importants dans des domaines comme le développement de médicaments, la science des matériaux et l’ingénierie des protéines. L’article combine des concepts de la physique statistique et de l’apprentissage automatique pour résoudre un défi computationnel de longue date en simulation moléculaire.
Nikita Dhawan, Leonardo Cotta, Karen Ullrich, Rahul Krishnan, Chris Maddison
Les chercheurs ont développé un moyen d’utiliser l’IA pour analyser des données en langage naturel (comme des publications de forums en ligne) afin de comprendre à quel point différents traitements fonctionnent. Les études traditionnelles nécessitent généralement des essais cliniques coûteux, mais cette méthode peut estimer les effets du traitement en analysant des données textuelles librement accessibles.
L’équipe a testé son approche sur six ensembles de données (deux cas synthétiques et quatre cas cliniques réels) impliquant des traitements pour le diabète et les migraines. Fait remarquable, leurs estimations se situaient à moins de 3 points de pourcentage des résultats issus d’essais cliniques réels, qui coûtent généralement des millions de dollars et prennent des années à compléter.
Bien que les auteurs mettent en garde que leur méthode ne devrait pas remplacer les essais cliniques pour des décisions à enjeux élevés, elle pourrait être un outil précieux pour :
Nitesh Bharadwaj Gundavarapu*, Luke Friedman, Raghav Goyal*, Chaitra Hegde*, Eirikur Agustsson, Sagar Waghmare, Mikhail Sirotenko, Ming-Hsuan Yang, Tobias Weyand, Boqing Gong, Leonid Sigal
* Contribution égale
Les chercheurs ont abordé une limitation clé de l’IA vidéo : la plupart des systèmes ne peuvent traiter que de courts extraits vidéo (16 à 32 images) en raison de contraintes de mémoire, ce qui rend difficile la compréhension d’actions plus longues comme des mouvements sportifs complexes. Ils ont développé une solution appelée LVMAE (Long Video Masked AutoEncoder) qui :
Les chercheurs ont réussi cela sans avoir besoin de paires vidéo-texte étiquetées ou d’architectures spécialisées, rendant leur approche plus simple et plus pratique que les méthodes précédentes. Un point clé était que se concentrer sur moins de parties mais plus importantes des vidéos mène à une meilleure compréhension que d’essayer de tout assimiler.
Ruinan Jin, Zikang Xu, Yuan Zhong, Qingsong Yao, DOU QI, S. Kevin Zhou, Xiaoxiao Li
Les chercheurs ont créé la première approche systématique pour tester et évaluer l’équité dans les modèles d’IA d’imagerie médicale en :
Ce travail offre une manière standardisée d’évaluer l’équité en IA médicale et ouvre la base de code à la communauté de recherche pour promouvoir le développement de systèmes d’IA en santé plus équitables.
Liping Yi, Han Yu, Chao Ren, Gang Wang, Xiaoguang Liu, Xiaoxiao Li
Les chercheurs ont développé une solution novatrice pour relever trois grands défis de l’apprentissage fédéré : l’hétérogénéité des modèles, lorsque différentes organisations utilisent différentes architectures de modèles, l’hétérogénéité des systèmes, lorsque les organisations disposent de ressources informatiques variables, et l’hétérogénéité des données lorsque les organisations ont des types et des distributions de données différents. Cette approche introduit plusieurs innovations clés. Elle ajoute un petit modèle partagé parallèlement à celui de chaque organisation et utilise la « fusion de représentation adaptative » pour combiner les connaissances des deux modèles. Il met également en œuvre « l’apprentissage de la représentation multi-granularité » pour améliorer la performance du modèle. Théoriquement, la méthode atteint un taux de convergence de O(1/T). Les résultats démontrent des améliorations significatives, la précision augmentant jusqu’à 8,48% par rapport aux méthodes de pointe tout en réduisant les coûts de communication et de calcul. La méthode préserve la vie privée en ne partageant que le petit modèle commun entre les organisations, et non leurs architectures ou données propriétaires. Les tests sur différents types de tâches de classification d’images ont démontré une efficacité constante. Cette approche permet avec succès aux organisations de collaborer à l’entraînement de modèles d’IA tout en maintenant la confidentialité de leurs architectures de modèles propriétaires et de leurs données, obtenant ainsi de meilleures performances que les méthodes existantes.
Guilherme Penedo, Hynek Kydlíček, Loubna Ben allal, Anton Lozhkov, Margaret Mitchell, Colin Raffel, Leandro Von Werra, Thomas Wolf
Les chercheurs ont relevé un défi majeur en IA : le manque de données d’entraînement de haute qualité accessibles publiquement pour les grands modèles de langage. Bien que de nombreux modèles d’IA « ouverts » partagent leur code, ils gardent souvent leurs données d’entraînement privées, créant un fossé de connaissances entre les systèmes publics et propriétaires. L’équipe a développé FineWeb à travers des expérimentations rigoureuses, testant différentes approches pour :
Les résultats montrent des améliorations significatives par rapport aux ensembles de données publics existants :
Il est important de noter que l’article offre une transparence totale sur les limites et les biais potentiels des ensembles de données, y compris les tendances à certaines représentations démographiques et les biais thématiques dans les données.
Ben Norman, Jeff Clune
Dans la vie et l’IA, le succès exige souvent d’équilibrer l’exploration (prendre des risques pour apprendre) et l’exploitation (utiliser ce que l’on connaît pour gagner). Par exemple, dans un tournoi, expérimenter des stratégies dans les premiers matchs pourrait vous aider à gagner plus tard. Cependant, cet article identifie une limitation majeure des méthodes actuelles basées sur l’apprentissage par renforcement (RL) : elles échouent lorsque l’exploration efficace nécessite de sacrifier des récompenses immédiates. Étonnamment, même des problèmes très simples font trébucher avec des approches de pointe.
La racine du problème réside dans le fait que ces méthodes reposent sur une seule politique pour explorer et exploiter, ce qui les enferme dans un comportement à courte vue. Pour répondre à ce problème, les chercheurs proposent First-Explore, une solution simple mais puissante. Elle forme deux politiques distinctes :
Ces politiques sont combinées en explorant d’abord un certain nombre d’épisodes, puis en passant à l’exploitation pour les épisodes restants. Cette séparation permet au système d’explorer efficacement sans être pénalisé pour des pertes à court terme. Malgré sa simplicité, First-Explore offre des résultats remarquables — obtenant des performances 2 à 10 fois meilleures que les méthodes existantes dans trois environnements de test diversifiés où l’exploration nécessitait des sacrifices à court terme. En rellevant ce défi, First-Explore franchit une étape importante vers la création d’algorithmes RL capables d’explorer, d’adapter et de performer à la manière de l’humain, tant dans des contextes simples que complexes.
Yu Zhang, Songlin Yang, Rui-Jie Zhu, Yue Zhang, Leyang Cui, Yiqiao Wang, Bolun Wang, Freda Shi, Bailin Wang, Wei Bi, Peng Zhou, Guohong Fu
Bien que les Transformers soient des modèles d’IA puissants, ils deviennent inefficaces lors du traitement de longues séquences en raison de leurs besoins croissants en mémoire. Les modèles d’attention linéaires offrent une solution, mais ont du mal avec des tâches nécessitant la mémoire d’information et sont coûteux à entraîner à partir de zéro.
La méthode proposée d’attention à fentes fermées (GSA) répond à ces défis en améliorant une méthode existante (ABC) avec un mécanisme de verrouillage qui aide le modèle à retenir ou oublier sélectivement l’information. Cela le rend plus efficace tant pour l’entraînement que pour l’utilisation réelle. Les auteurs montrent que la GSA performe mieux que d’autres modèles similaires sur des tâches nécessitant le rappel d’informations, tout en utilisant moins de mémoire de calcul. Notamment, la GSA fonctionne aussi bien pour convertir des modèles Transformer pré-entraînés en versions plus efficaces, nécessitant seulement environ 1 à 3% des coûts d’entraînement originaux. Lors des tests, la GSA a surpassé d’autres méthodes lors de l’ajustement précis du modèle de langage Mistral-7B, démontrant sa valeur pratique pour rendre les grands modèles de langage plus efficaces.
Dongfu Jiang, Max KU, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen
GenAI Arena est une nouvelle plateforme qui comble une lacune critique dans l’évaluation des modèles d’IA générant des images et des vidéos. Bien qu’il existe de nombreux modèles d’IA capables de créer des images et des vidéos à partir de descriptions textuelles, il a été difficile de déterminer lesquels fonctionnent le mieux. Les métriques automatisées traditionnelles ne parviennent souvent pas à saisir ce que les humains trouvent réellement attrayant ou de haute qualité.
La plateforme permet aux utilisateurs de comparer les résultats de différents modèles d’IA côte à côte et de voter pour savoir lequel est meilleur. Après sept mois d’activité, il a recueilli plus de 9 000 votes répartis sur trois tâches : la génération de texte en image, le montage d’images et la génération de texte en vidéo. Les résultats ont identifié les meilleurs modèles actuels dans chaque catégorie et ont révélé que même les modèles d’IA avancés comme GPT-4 ne sont pas très efficaces pour juger la qualité d’image comparée à celle des humains, n’atteignant qu’environ 49% de précision lorsqu’on tente de prédire les préférences humaines.
Zehui Li, Vallijah Subasri, Guy-Bart Stan, Yiren Zhao, Bo Wang
À mesure que le séquençage de l’ADN devient moins coûteux, les médecins font face à un défi croissant pour analyser la grande quantité de données génétiques afin d’identifier des variants importants pouvant affecter la santé des patients. Bien que les modèles d’IA puissent aider, ils manquent actuellement de moyens standardisés pour évaluer leurs performances.
GV-Rep répond à cela en fournissant un vaste ensemble de données de 7 millions d’enregistrements de variantes génétiques, incluant :
Les auteurs ont testé plusieurs modèles d’IA sur cet ensemble de données et ont constaté que, bien qu’ils fonctionnent adéquatement sur des tâches de base (65% de précision dans la classification des variants responsables de la maladie), ils rencontrent des défis plus complexes comme la prédiction de la façon dont les variants affectent l’expression génique dans des types cellulaires spécifiques.
Ce jeu de données vise à aider à développer de meilleurs outils d’IA pour comprendre les variations génétiques et leurs effets sur la santé humaine.
Shayan Shekarforoush, David Lindell, Marcus Brubaker, David Fleet
CryoSPIN est une nouvelle méthode computationnelle qui améliore la façon dont nous déterminons la structure 3D des protéines et autres molécules biologiques à partir d’images au microscope électronique. L’innovation clé est une approche en deux étapes qui combine les « meilleures estimations » initiales avec un raffinement précis. Pensez à cela comme d’abord faire un croquis approximatif d’un bâtiment sous plusieurs angles, puis ajuster soigneusement chaque perspective pour obtenir l’image finale la plus nette possible. La méthode surpasse les approches existantes tant en vitesse qu’en précision. Il est particulièrement efficace pour gérer des situations où les images initiales peuvent être interprétées de plusieurs façons – comme regarder une forme complexe sous un angle où il est difficile de savoir exactement comment elle est orientée.
Sagi Eppel, Jolina Li, Manuel Drehwald, Alan Aspuru-Guzik
Cette recherche relève le défi d’enseigner à l’IA la reconnaissance des différents états des matériaux dans des images, comme l’identification des taches humides sur les surfaces, la rouille sur le métal ou les zones infectées sur les plantes, sans se limiter aux matériaux spécifiques sur lesquels le système a été entraîné. Les systèmes d’IA actuels ont du mal à accomplir cette tâche parce qu’il est difficile d’obtenir suffisamment de données d’entraînement correctement étiquetées. Les chercheurs ont développé une solution ingénieuse qui combine le meilleur des deux mondes : ils extraient automatiquement des motifs d’images réelles et les utilisent pour créer des données d’entraînement synthétiques. Pensez-y comme enseigner à une IA en lui montrant à la fois des exemples réels et des exemples artificiels soigneusement conçus qui reflètent la complexité du monde réel. Ils ont aussi créé le premier benchmark complet (appelé MatSeg) pour tester la capacité des systèmes d’IA à identifier les états matériels dans de nombreuses situations différentes – de la cuisson à la construction. Lorsqu’ils ont été testés contre des modèles d’IA de premier plan comme le Segment Anything Model (SAM) de Meta, leur approche a beaucoup mieux performé l’identification des états complexes des matériaux. L’équipe de recherche a rendu publics son ensemble de données, son code et plus de 300 000 textures extraites, ce qui devrait aider d’autres chercheurs à approfondir ce travail pour améliorer la compréhension par l’IA de la façon dont les matériaux apparaissent et changent dans le monde réel.
Pratyush Maini, Hengrui Jia, Nicolas Papernot, Adam Dziedzic
Des poursuites récentes contre des entreprises d’IA ont soulevé des questions concernant l’utilisation de contenus protégés par le droit d’auteur pour former des LLM. Alors que des recherches antérieures tentaient d’identifier si des exemples textuels spécifiques se trouvaient dans les données d’entraînement d’un modèle (appelées attaques d’inférence d’appartenance), cet article montre que ces méthodes sont peu fiables et souvent pas meilleures que la devinette aléatoire. Au lieu de cela, les chercheurs adaptent « l’inférence des ensembles de données » au grand modèle de langage – une méthode permettant de déterminer si un ensemble complet de données (comme un livre ou une collection d’articles) a été utilisé lors de la formation. Leur approche combine plusieurs techniques de test et atteint une signification statistique pour identifier les ensembles de données d’entraînement sans faux positifs. Cela est plus pertinent pour les cas réels de droits d’auteur, où les auteurs affirment généralement que leurs œuvres entières ont été utilisées pour la formation, plutôt que pour des phrases individuelles.
James Requeima, John Bronskill, Dami Choi, Richard Turner, David Duvenaud
Cet article présente les « processus LLM » (LLMP), une approche novatrice qui permet aux grands modèles de langage de faire des prédictions numériques à l’aide de distributions de probabilité. L’innovation clé est que ces prédictions peuvent être guidées par des descriptions en langage naturel du contexte du problème. Par exemple, vous pouvez dire au modèle « ceci est une mesure de température de Montréal en janvier » ou « c’est un cours d’action qui finira par tomber à zéro », et il ajustera ses prévisions en conséquence. Les chercheurs ont démontré que les LLMP peuvent aussi bien performer que des outils statistiques spécialisés comme les processus gaussiens sur diverses tâches, notamment la régression, la prévision et la reconstruction d’images. Il est important de noter que les LLMP peuvent intégrer des conseils en langage naturel pour améliorer les prédictions – ce que les méthodes statistiques traditionnelles ne peuvent pas faire. Le modèle peut gérer les données manquantes, travailler avec plusieurs dimensions et produire des estimations d’incertitude concernant ses prédictions.
Minghui Chen, Meirui Jiang, Xin Zhang, DOU QI, Zehua Wang, Xiaoxiao Li
L’apprentissage fédéré permet à plusieurs appareils d’entraîner de manière collaborative des modèles d’IA tout en gardant les données privées. Cependant, ce processus nécessite généralement de nombreuses communications aller-retour entre les appareils, ce qui peut être lent et gourmande en ressources. Les chercheurs ont développé une nouvelle méthode appelée « Local Superior Soups » (LSS) qui réduit considérablement le nombre de balles de communication nécessaires. LSS fonctionne en combinant habilement plusieurs versions de modèles sur chaque appareil avant de les partager avec d’autres. Il utilise deux stratégies clés : un terme « diversité » qui garantit que différentes versions du modèle explorent différents aspects du problème, et un terme « d’affinité » qui empêche les modèles de s’éloigner trop de leur point de départ initial. Dans des expériences menées sur quatre ensembles de données différents, le LSS a obtenu de meilleures performances avec beaucoup moins de rondes de communication comparativement aux méthodes existantes.
Xiang Yue, Tianyu Zheng, Ge Zhang, Wenhu Chen
Les chercheurs ont développé un processus en trois étapes pour récolter 10 millions d’exemples d’instructions naturellement présents sur Internet. D’abord, ils trouvent des documents pertinents; deuxièmement, ils extraient des paires questions-réponses; et troisièmement, ils affinent ces paires à l’aide de modèles d’IA open source. Cette approche évite l’annotation humaine coûteuse ou la génération de GPT-4 que d’autres méthodes exigent.
Lorsqu’ils ont entraîné des modèles de langage sur ces données, les résultats ont montré des améliorations significatives. Par exemple, la performance de leur modèle MAmmoTH2-7B est passée de 11% à 36,7% sur les problèmes de mathématiques et de 36% à 68,4% en mathématiques à l’école primaire, sans utiliser aucune donnée d’entraînement provenant de ces tests spécifiques. Le modèle a bien performé dans plusieurs types de tâches de raisonnement.
Ce qui rend cette approche unique, c’est qu’au lieu de créer de nouvelles données d’instructions, elle trouve et nettoie des exemples naturels du web, ce qui la rend plus rentable et évolutive que les méthodes existantes.
Cem Anil, Esin Durmus, Nina Panickssery, Mrinank Sharma, Joe Benton, Sandipan Kundu, Joshua Batson, Meg Tong, Jesse Mu, Daniel Ford, Francesco Mosconi, Rajashree Agrawal, Rylan Schaeffer, Naomi Bashkansky, Samuel Svenningsen, Mike Lambert, Ansh Radhakrishnan, Carson Denison, Evan Hubinger, Yuntao Bai, Trenton Bricken, Timothy Maxwell, Nicholas Schiefer, James Sully, Alex Tamkin, Tamera Lanham, Karina Nguyen, Tomasz Korbak, Jared Kaplan, Deep Ganguli, Samuel Bowman, Ethan Perez, Roger Grosse, David Duvenaud
Nous étudions une famille d’attaques simples à long contexte sur de grands modèles de langage : des incitations avec des centaines de démonstrations de comportements indésirables. Cela devient de nouveau possible grâce aux fenêtres contextuelles plus larges récemment déployées par Anthropic, OpenAI et Google DeepMind. Nous constatons que dans des circonstances diverses et réalistes, l’efficacité de cette attaque suit une loi de puissance, jusqu’à des centaines de tirs. Nous démontrons le succès de cette attaque sur les modèles à poids fermé les plus largement utilisés, à la fine pointe de la technologie, et à travers diverses tâches. Nos résultats suggèrent que des contextes très longs présentent une nouvelle surface d’attaque riche pour les LLM.
Roman Bushuiev, Anton Bushuiev, Niek de Jonge, Adamo Young, Fleming Kretschmer, Raman Samusevich, Janne Heirman, Fei Wang, Luke Zhang, Kai Dührkop, Marcus Ludwig, Nils Haupt, Apurva Kalia, Corinna Brungs, Robin Schmid, Russell Greiner, Bo Wang, David Wishart, Liping Liu, Juho Rousu, Wout Bittremieux, Hannes Rost, Tytus Mak, Soha Hassoun, Florian Huber, Justin J.J. van der Hooft, Michael Stravs, Sebastian Böcker, Josef Sivic, Tomáš Pluskal
Les chercheurs ont créé MassSpecGym, la plus grande collection publique de 231 000 spectres de spectrométrie de masse étiquetés de haute qualité, représentant 29 000 molécules uniques. La référence définit trois défis majeurs pour les modèles d’IA :
Ce qui rend cette référence précieuse, c’est qu’elle standardise ces tâches et les rend accessibles à la communauté plus large de l’apprentissage automatique, plutôt que de nécessiter une expertise approfondie en spectrométrie de masse. Les auteurs ont aussi développé une nouvelle façon de diviser les données pour l’entraînement et les tests, afin de s’assurer que les modèles apprennent vraiment à généraliser plutôt qu’à mémoriser des molécules similaires. Leur évaluation des modèles de référence montre que, bien que les méthodes actuelles fonctionnent raisonnablement bien, il reste encore une marge d’amélioration significative, ce qui suggère que cette référence pourrait aider à stimuler les progrès dans la découverte moléculaire.
Ziyi Liu, Idan Attias, Dan Roy
Imaginez que vous devez prédire à plusieurs reprises les probabilités d’événements futurs, comme la prévision météorologique, où vous obtenez des informations pertinentes (contexte) avant de faire chaque prédiction. Aïe bien, pouvez-vous comparer avec le meilleur expert d’une même catégorie d’experts avec le recul? Cet article étudie ce problème fondamental. Les chercheurs introduisent une nouvelle méthode pour mesurer la difficulté de ces tâches de prédiction, appelée la « somme contextuelle de Shtarkov ». Ils démontrent que cette mesure capture parfaitement les limites fondamentales de la performance d’un algorithme. En s’appuyant sur cette idée, ils développent un algorithme optimal appelé vraisemblance maximale normalisée contextuelle (cNML). Leur cadre théorique étend les travaux antérieurs de deux façons importantes : il peut traiter des cas avec plus de deux résultats possibles (pas seulement des prédictions binaires oui/non), et il travaille avec des experts capables d’utiliser l’historique de toutes les prédictions précédentes (pas seulement le contexte actuel). Les chercheurs utilisent également leur nouvelle mesure pour améliorer les limites de performance existantes, offrant une analyse plus simple et plus précise que les travaux précédents. Bien que l’algorithme optimal qu’ils développent puisse être très exigeant en calcul, il constitue une référence théorique importante et pourrait guider le développement d’approches plus pratiques.
Yubo Wang, Xueguang Ma, Ge Zhang, Yuansheng Ni, Abhranil Chandra, Shiguang Guo, Weiming Ren, Aaran Arulraj, Xuan He, Ziyan Jiang, Tianle Li, Max KU, Wang, Alex Zhuang, Rongqi Fan, Xiang Yue, Wenhu Chen
À mesure que les modèles de langage d’intelligence artificielle continuent de s’améliorer, de nombreux tests standards utilisés pour les évaluer deviennent moins utiles, les meilleurs modèles obtenant tous des résultats similaires. Cet article présente MMLU-Pro, un benchmark plus exigeant et fiable conçu pour mieux distinguer les capacités des modèles. MMLU-Pro améliore le benchmark original du MMLU de plusieurs façons : il augmente les choix de réponses de 4 à 10 options, ajoute des questions de raisonnement plus complexes, élimine les questions triviales et fait l’objet d’un examen d’experts. La référence couvre 14 matières, dont les mathématiques, la physique, le droit et la psychologie. Les tests montrent que MMLU-Pro est nettement plus difficile – même les meilleurs modèles obtiennent un score de 16 à 33% plus bas que sur MMLU. Il est important de noter que le benchmark est plus stable (moins affecté par les variations du prompt) et révèle mieux les différences réelles entre les modèles. Par exemple, bien que GPT-4 et GPT-4-Turbo aient des scores presque identiques sur MMLU, il y a un écart de 9% entre eux sur MMLU-Pro. Les chercheurs ont également constaté que l’utilisation du raisonnement en chaîne de pensée améliore significativement la performance sur MMLU-Pro, ce qui suggère qu’elle teste réellement la capacité de raisonnement plutôt que la simple mémoire des connaissances. Même les meilleurs modèles actuels ont une marge d’amélioration substantielle par rapport à ce benchmark.
Yangjun Ruan, Chris Maddison, Tatsunori Hashimoto
Cet article présente une façon moins coûteuse et plus efficace de prédire la performance des modèles de langage à mesure qu’ils grandissent. Au lieu de devoir entraîner de nombreux nouveaux modèles à différentes tailles (ce qui est très coûteux), les chercheurs ont découvert qu’ils pouvaient faire des prédictions précises en analysant les données d’environ 100 modèles publics existants. L’idée clé est que la performance des modèles de langage peut s’expliquer par seulement quelques « dimensions de capacité » fondamentales. Ces capacités croissent de façon prévisible avec la puissance de calcul au sein de chaque famille de modèles, ce qui permet aux chercheurs de faire des prévisions sur les performances futures. Les chercheurs ont validé leur approche en prédisant avec précision plusieurs comportements complexes : quand les modèles développeraient de nouvelles capacités, leur performance sur des tâches d’agent (comme GPT-4), et les bénéfices qu’ils retireraient des techniques avancées d’incitation. Cette nouvelle méthode est importante car elle rend l’analyse de mise à l’échelle beaucoup plus accessible aux chercheurs qui n’ont pas de budgets de calcul énormes. Il offre aussi des insights à plus haute résolution puisqu’il peut utiliser des données provenant de beaucoup plus de modèles que les approches traditionnelles qui nécessitent d’entraîner de nouveaux modèles à partir de zéro.
Ayoub El Hanchi, Chris Maddison, Murat Erdogdu
Cet article explore la performance des algorithmes d’apprentissage automatique lorsqu’ils doivent déterminer à la fois quelles caractéristiques comptent et comment les utiliser pour faire des prédictions. Par exemple, pour essayer de prédire les prix des maisons, vous pouvez utiliser plusieurs caractéristiques différentes, notamment la superficie, le nombre de chambres et l’emplacement. Mais lequel est le meilleur? Les chercheurs ont découvert quelque chose de surprenant : lorsque vous avez suffisamment de données, les algorithmes peuvent apprendre quelles fonctionnalités utiliser presque aussi bien que s’ils avaient reçu les bonnes caractéristiques dès le départ. C’est comme si l’algorithme finissait par comprendre que la superficie compte plus que, disons, la couleur de la porte d’entrée. C’est particulièrement important car cela aide à expliquer pourquoi les modèles modernes complexes d’apprentissage automatique fonctionnent mieux que prévu. Les chercheurs ont démontré mathématiquement que lorsque seul un petit nombre de caractéristiques sont réellement utiles pour les prédictions, l’algorithme peut les identifier plus facilement, même lorsqu’on lui donne de nombreuses caractéristiques possibles parmi lesquelles choisir. Ces résultats pourraient nous aider à mieux comprendre quand et pourquoi l’apprentissage automatique fonctionne, ce qui pourrait mener à des systèmes d’IA plus efficaces et fiables.
Weida Li, Yaoliang Yu
« Un seul échantillon convient à tous » (OFA) est une nouvelle méthode qui calcule efficacement plusieurs types de valeurs probabilistes – des outils mathématiques utilisés en IA pour évaluer l’importance des données ou des caractéristiques. Auparavant, le calcul de ces valeurs nécessitait des calculs séparés pour chaque type, ce qui était coûteux et inefficace en calcul. Leur cadre utilise un seul processus d’échantillonnage pour approximer simultanément tous les types de valeurs probabilistes, réduisant considérablement les coûts de calcul. Ils ont créé deux variantes : une optimisée pour un usage général dans tous les types (OFA-A), et une autre pouvant être ajustée pour des types spécifiques (OFA-S). La méthode atteint la meilleure performance actuelle pour certains types importants de valeurs probabilistes, en particulier les valeurs de Beta Shapley, tout en maintenant une forte performance sur d’autres types. Ils ont également montré comment leur méthode se relie aux techniques statistiques existantes, en particulier aux problèmes de régression des moindres carrés. Grâce à une analyse théorique approfondie et des tests empiriques, ils ont démontré que leur approche non seulement égale ou dépasse la performance des méthodes existantes, mais le fait tout en étant plus efficace sur le plan computationnel. Cette avancée rend plus pratique l’utilisation de ces outils mathématiques importants dans des applications d’IA réelles.
Tianbao Xie, Danyang Zhang, Jixuan Chen, Xiaochuan Li, Siheng Zhao, Ruisheng Cao, Jing Hua Toh, Zhoujun Cheng, Dongchan Shin, Fangyu Lei, Yitao Liu, Yiheng Xu, Shuyan Zhou, Silvio Savarese, Caiming Xiong, Victor Zhong, Tao Yu
Les chercheurs ont développé OSWorld, un nouvel environnement de test qui permet aux agents IA d’interagir avec de vrais systèmes d’exploitation et applications informatiques, plutôt qu’avec de simples environnements simulés. Cela comble une lacune majeure dans les tests actuels de l’IA, où la plupart des environnements sont soit non interactifs, soit limités à des applications spécifiques comme les navigateurs web. OSWorld comprend 369 tâches réelles qui testent la capacité des agents d’IA à utiliser diverses applications comme les tableaux Tableur, les courriels et les navigateurs web, un peu comme les humains utilisent les ordinateurs. Chaque tâche est accompagnée d’instructions de configuration détaillées et de scripts d’évaluation pour mesurer le succès avec précision. Lors des tests des modèles d’IA de pointe actuels (y compris GPT-4V, Gemini et Claude-3), les résultats ont montré des limites importantes. Alors que les humains pouvaient accomplir avec succès environ 72% des tâches, le meilleur modèle d’IA n’a obtenu que 12,24% de succès. Les modèles d’IA avaient particulièrement du mal à contrôler précisément la souris, à comprendre des interfaces complexes et à travailler entre plusieurs applications. Cette recherche met en lumière l’écart considérable entre les capacités actuelles de l’IA et le fonctionnement informatique au niveau humain, tout en offrant une plateforme complète pour développer et tester des systèmes d’IA plus performants à l’avenir.
Victor Zhong, Dipendra Misra, Xingdi Yuan, Marc-Alexandre Côté
Les chercheurs ont développé une nouvelle méthode pour aider les systèmes d’IA à mieux suivre les instructions en créant des « modèles de rétroaction linguistique » (LFM). Au lieu d’utiliser directement de grands modèles de langage coûteux, ils ont créé un système qui apprend d’abord des retours de ces modèles sur les actions utiles, puis utilise ces connaissances pour entraîner des systèmes d’IA plus petits et plus efficaces. Pensez-y comme si un enseignant expert fournissait d’abord une rétroaction sur les actions des élèves, puis utilisait ce retour pour créer un assistant d’enseignement plus accessible qui peut aider plusieurs élèves à s’améliorer. Le système s’est avéré efficace dans trois types de tâches différentes : naviguer dans les rues de la ville, effectuer des tâches en cuisine et mener des expériences scientifiques. Il est important de noter que cette approche était non seulement plus efficace que l’utilisation directe de grands modèles de langage, mais aussi plus rentable. Le système pouvait s’adapter à de nouvelles situations sans formation supplémentaire et fournissait des rétroactions que les humains pouvaient comprendre et vérifier. Cette recherche représente une avancée majeure pour améliorer les systèmes d’IA à suivre les instructions tout en maintenant les coûts gérables et en maintenant la transparence dans la manière dont l’IA prend ses décisions.
Philipp Schleich, Marta Skreta, Lasse Kristensen, Rodrigo Vargas-Hernandez, Alan Aspuru-Guzik
L’apprentissage automatique quantique actuel fait face, entre autres, aux deux défis clés suivants : les circuits profonds accumulent des erreurs, et l’évaluation des gradients nécessite de nombreuses mesures, dont davantage sont nécessaires pour un nombre plus élevé de paramètres. Les chercheurs proposent QDEQ comme solution – adapter les modèles classiques d’équilibre profond à l’informatique quantique. Plutôt que d’utiliser de nombreuses couches de circuits explicites, QDEQ trouve des points fixes qui simulent efficacement un réseau à profondeur infinie en utilisant des circuits beaucoup moins profonds. Ils testent cette approche sur des tâches de classification d’images utilisant 4 à 10 qubits et constatent que QDEQ peut égaler ou dépasser la performance de modèles avec 5 fois plus de couches tout en utilisant beaucoup moins de paramètres. Cela est particulièrement important pour les ordinateurs quantiques à court terme où la profondeur du circuit doit être minimisée.
Domenic Rosati, Jan Wehner, Kai Williams, Lukasz Bartoszcze, Robie Gonzales, Carsten Maple, Subhabrata Majumdar, Hassan Sajjad, Frank Rudzicz
Les mesures de sécurité actuelles pour les LLM peuvent être facilement contournées grâce à des ajustements fins, créant un risque important lors de la sortie de modèles open source. Les chercheurs proposent RepNoise comme solution – un mécanisme de défense qui fonctionne en « bruitant » (dégradant) délibérément les représentations internes du contenu nuisible du modèle à toutes les couches du réseau. Cela rend beaucoup plus difficile pour les attaquants de récupérer des capacités nuisibles grâce à des ajustements fins, même lorsqu’ils ont un accès complet aux poids des modèles. RepNoise fonctionne en utilisant une fonction de perte en trois parties qui : 1) réduit l’information prédictive sur les sorties nuisibles, 2) conserve la capacité sur des tâches inoffensives, et 3) pousse les représentations nuisibles vers le bruit aléatoire. La méthode s’est avérée efficace pour se défendre contre l’ajustement fin nuisible tout en maintenant la performance du modèle sur des tâches bénignes.
Andrew Li, Zizhao Chen, Toryn Klassen, Pashootan Vaezipoor, Rodrigo Toro Icarte, Sheila McIlraith
Les machines de récompense offrent un cadre pour représenter formellement des comportements complexes et dignes de récompense, tout en exposant la structure de la fonction de récompense pour accélérer l’apprentissage par renforcement (RL). Les algorithmes Prior Reward Machine ont traditionnellement ignoré l’incertitude inhérente à la survenue d’événements clés (comme atteindre un endroit désiré ou ramasser un objet particulier), qui peuvent survenir dans des contextes réels à cause de capteurs bruyants ou d’observabilité partielle. Les chercheurs introduisent un nouveau cadre de machine de récompense pour entraîner des agents RL conscients de l’incertitude entourant la survenue de ces événements clés, et qui apprennent à agir en conséquence. Par la théorie et les expériences, ils révèlent les pièges d’ignorer ou d’incorporer naïvement cette incertitude dans la prise de décision d’un agent, ce qui peut entraîner des comportements non intentionnels ou dangereux. Ils démontrent également comment l’impact de cette incertitude peut être atténué pour former des agents RL plus sûrs et plus fiables.
Xuanchi Ren, Yifan Lu, Hanxue Liang, Jay Zhangjie Wu, Huan Ling, Mike Chen, Sanja Fidler, Francis Williams, Jiahui Huang
Cette recherche relève le défi de créer des modèles 3D détaillés à partir de seulement quelques photographies d’une scène. Bien que les méthodes existantes nécessitent soit de nombreuses photos qui se chevauchent, soit produisent des résultats flous, cette nouvelle approche appelée SCube peut créer des reconstructions 3D de haute qualité à partir de seulement trois images non superposées en seulement 20 secondes. La clé du succès de SCube réside dans sa combinaison novatrice de techniques : il utilise une représentation hybride appelée VoxSplat qui combine l’efficacité des voxels (pixels 3D) avec la qualité visuelle des points gaussiens 3D. Le système fonctionne en deux étapes : d’abord déterminer la structure de base et la géométrie de la scène, puis remplir les détails d’apparence. Les chercheurs ont testé SCube sur le jeu de données de voitures autonomes Waymo, montrant qu’il surpasse les méthodes existantes tant en qualité qu’en vitesse. Le système peut reconstituer des scènes à grande échelle s’étendant sur des centaines de mètres et a des applications pratiques en conduite autonome, en réalité augmentée, et même dans la conversion de descriptions textuelles en scènes 3D. Cela représente un progrès important dans la technologie de reconstruction 3D, rendant beaucoup plus pratique la création de modèles 3D détaillés à partir d’une entrée photo limitée.
Ye He, Alireza Mousavi-Hosseini, Krishnakumar Balasubramanian, Murat Erdogdu
Cet article examine les méthodes d’échantillonnage à partir de distributions de probabilité « à queue lourde » – des distributions où les valeurs extrêmes sont plus fréquentes que dans les distributions normales standard. Celles-ci apparaissent dans de nombreuses applications concrètes, de la modélisation financière aux statistiques robustes.
Les chercheurs démontrent une différence fondamentale entre deux approches à ce problème : les méthodes basées sur des distributions gaussiennes (normales) et celles basées sur des distributions stables. Ils montrent que les méthodes basées sur des gaussiennes doivent intrinsèquement prendre beaucoup plus d’étapes pour atteindre une grande précision, tandis que les méthodes basées sur la stabilité peuvent converger beaucoup plus rapidement. Plus précisément, pour une précision ε désirée, les méthodes gaussiennes nécessitent un temps polynomial en 1/ε (ce qui signifie qu’elles deviennent beaucoup plus lentes à mesure qu’une précision plus élevée est requise), tandis que les méthodes stables n’ont besoin que d’un temps logarithmique en 1/ε (ce qui signifie qu’elles restent efficaces même pour des exigences de précision élevées). Les chercheurs prouvent qu’il ne s’agit pas seulement d’une limitation des techniques actuelles, mais d’une barrière mathématique fondamentale. L’article fournit également des implémentations pratiques pour certains cas et prouve que les bornes inférieures montrent que leurs résultats sont essentiellement optimaux. Ce travail théorique aide à expliquer pourquoi certaines méthodes d’échantillonnage fonctionnent mieux en pratique et fournit des conseils pour la sélection d’algorithmes dans des applications réelles.
Vahid Balazadeh, Keertana Chidambaram, Viet Nguyen, Rahul G. Krishnan, Vasilis Syrgkanis
Les chercheurs présentent ExPerior, une nouvelle approche empirique bayesienne pour la prise de décision séquentielle qui exploite des démonstrations d’experts tout en tenant compte d’informations contextuelles non observées. L’algorithme traite les démonstrations d’experts comme des solutions à des problèmes connexes mais légèrement différents, les utilisant pour établir une distribution a priori informative sur l’espace décisionnel de l’apprenant. Cette approche est particulièrement précieuse dans des applications comme les voitures autonomes, la santé et la finance, où les experts prennent des décisions à partir d’informations contextuelles inaccessibles à l’agent d’apprentissage. ExPerior emploie deux méthodes pour apprendre le prior : une approche paramétrique utilisant les connaissances existantes sur la forme du prior, et une approche non paramétrique de l’entropie maximale pour les cas dépourvus de telles connaissances. Le cadre surpasse les références existantes entre les bandits multi-armés, les processus décisionnels de Markov (MDP) et les MDP partiellement observables. Pour les bandits à plusieurs bras, les auteurs démontrent que le regret bayésien d’ExPerior est corrélé à l’entropie de l’action optimale sous la distribution a priori, fournissant une validation théorique de l’efficacité de l’algorithme.
Ruisheng Cao, Fangyu Lei, Haoyuan Wu, Jixuan Chen, Yeqiao Fu, Hongcheng Gao, Xinzhuang Xiong, Hanchong Zhang, Wenjing Hu, Yuchen Mao, Tianbao Xie, Hongshen Xu, Danyang Zhang, Sida Wang, Ruoxi Sun, Pengcheng Yin, Caiming Xiong, Ansong Ni, Qian Liu, Victor Zhong, Lu Chen, Kai Yu, Tao Yu
Spider2-V introduit une référence complète pour évaluer les capacités des agents multimodaux à automatiser les flux de travail en science des données et en ingénierie. La référence propose 494 tâches réelles réparties dans 20 applications de niveau entreprise, intégrant à la fois la génération de code et les opérations d’interface graphique dans un environnement informatique exécutable. Les tâches couvrent l’entreposage de données, l’ingestion, la transformation, la visualisation et l’orchestration à l’aide d’outils comme BigQuery, dbt et Airbyte. Pour assurer une évaluation fiable, les auteurs ont développé 170 configurations automatiques de tâches et 151 métriques d’évaluation personnalisées. Les résultats empiriques révèlent des limites importantes dans les modèles actuels à la fine pointe de la technologie – même GPT-4V n’atteint que 14,0% de réussite, la performance chutant à 1,2% sur des tâches complexes nécessitant plus de 15 étapes. L’étude identifie les principaux défis dans la gestion des comptes utilisateurs authentiques (succès de 10,6%) et des opérations GUI détaillées. Les résultats suggèrent que, bien que les agents multimodaux montrent du potentiel, ils restent loin d’automatiser de manière fiable des flux de données complets, mettant en lumière des domaines cruciaux d’amélioration de l’ancrage d’action et de l’exécution complexe des tâches.
Yanting Miao, William Loh, Suraj Kothawade, Pascal Poupart, Abdullah Rashwan, Yeqing Li
Cette recherche propose une nouvelle approche de la génération texte-image axée sur le sujet, qui aborde les limites des méthodes actuelles comme DreamBooth et SuTI. Les auteurs introduisent la fonction de récompense λ-harmonique, qui permet un arrêt précoce et fournit des signaux de récompense fiables pour l’entraînement, en plus de la RPO, une méthode d’apprentissage par renforcement basée sur les préférences. Le système ne nécessite que 3% des échantillons négatifs utilisés par DreamBooth tout en obtenant des résultats supérieurs. Contrairement aux méthodes existantes, le RPO ajuste finement uniquement le composant U-Net sans nécessiter d’entraînement par encodeur de texte ni d’optimisation d’intégration. Cette approche permet d’obtenir des performances de pointe sur DreamBench avec un score CLIP-I de 0,833 et un score CLIP-T de 0,314. Le système démontre de solides performances dans la préservation de l’identité du sujet tout en s’adaptant à divers contextes, nécessitant seulement 5 à 20 minutes d’entraînement sur Cloud TPU V4. La fonction λ-harmonique s’avère particulièrement efficace pour prévenir le surajustement et équilibrer la similarité avec les images de référence avec la fidélité aux prompts textuels.
Jiachen Li, Weixi Feng, Tsu-Jui Fu, Xinyi Wang, S Basu, Wenhu Chen, William Yang Wang
T2V-Turbo relève le principal défi de la génération de texte en vidéo : atteindre à la fois vitesse et qualité. Le système intègre la rétroaction de plusieurs modèles de récompense – image-texte et vidéo-texte – dans le processus de distillation de cohérence des modèles texte-vidéo pré-entraînés. Contrairement aux approches précédentes, T2V-Turbo optimise les récompenses pour les générations en une seule étape, évitant les contraintes mémoire associées à la rétropropagation par échantillonnage itératif. Le modèle obtient des résultats remarquables, ses générations en 4 étapes surpassant les modèles de pointe sur VBench, y compris des systèmes propriétaires comme Gen-2 et Pika. Les évaluations humaines confirment que les générations en 4 étapes de T2V-Turbo sont préférées aux échantillons DDIM de 50 étapes issus de modèles enseignants, ce qui représente une accélération supérieure à 12 fois tout en améliorant la qualité. Le système ne nécessite que 3% des échantillons négatifs utilisés par DreamBooth et s’entraîne en seulement 5 à 20 minutes sur Cloud TPU V4.
Jonas Guan, Shon Verch, Claas Voelcker, Ethan Jackson, Nicolas Papernot, William Cunningham
Les chercheurs abordent une question fondamentale de l’apprentissage biologique basé sur la récompense : comment le noyau accumbens (NAc) du cerveau coordonne l’apprentissage en utilisant uniquement des signaux de dopamine distribués localement. Ils développent la Dopamine artificielle, un algorithme d’apprentissage profond de Q qui reflète cette contrainte biologique en utilisant des erreurs de différence temporelle distribuées de façon synchrone par couche. Contrairement aux approches traditionnelles utilisant la rétropropagation, les cellules AD calculent leurs propres erreurs locales et se mettent à jour indépendamment. Le système utilise des connexions avant dans le temps pour transmettre l’information entre les couches par activation plutôt que par signaux d’erreur. L’algorithme a été évalué sur les jeux MinAtar, les tâches de la suite de contrôle DeepMind et les problèmes classiques de contrôle. Les résultats montrent que l’AD atteint souvent des performances comparables aux algorithmes RL profonds standards qui utilisent la rétropropagation, malgré l’absence de propagation des signaux d’erreur entre les couches. L’étude fournit des preuves computationnelles que les signaux d’erreur distribués seuls peuvent être suffisants pour un apprentissage coordonné basé sur la récompense, offrant des perspectives à la fois sur les mécanismes d’apprentissage biologique et sur de nouvelles approches des réseaux de neurones artificiels.
Juhan Bae, Wu Lin, Jonathan Lorraine, Roger Grosse
L’article présente SOURCE, une nouvelle technique pour comprendre comment des données d’entraînement individuelles influencent le comportement d’un modèle d’apprentissage automatique. C’est important parce que comprendre quels exemples d’entraînement sont les plus influents aide les chercheurs à interpréter, déboguer et améliorer les modèles d’IA. Les méthodes précédentes ne pouvaient soit pas gérer des scénarios complexes du monde réel, soit nécessitaient trop de puissance de calcul pour être pratiques. SOURCE résout ce problème en divisant le processus d’entraînement en segments et en analysant l’influence des données à l’intérieur de chaque segment, en utilisant des approximations mathématiques pour garder les calculs efficaces. Les chercheurs ont testé SOURCE dans diverses tâches, notamment la classification d’images, l’analyse de texte et la modélisation du langage. Ils ont constaté qu’il fonctionnait mieux que les méthodes existantes pour prédire comment la suppression de données d’entraînement spécifiques affecterait le modèle, surtout dans des scénarios complexes comme les modèles partiellement entraînés ou les processus d’entraînement en plusieurs étapes. Cette approche est particulièrement précieuse pour les systèmes d’apprentissage automatique modernes qui utilisent souvent des procédures d’entraînement complexes.
Yujie Lu, Dongfu Jiang, Wenhu Chen, William Yang Wang, Yejin Choi, Bill Yuchen Lin
WildVision présente deux contributions majeures à l’évaluation des modèles d’IA vision-langage : une plateforme interactive appelée WildVision-Arena où les utilisateurs peuvent comparer différents modèles dans des scénarios réels, et WildVision-Bench, un benchmark créé à partir de ces interactions réelles. Les chercheurs ont recueilli plus de 20 000 conversations et 8 000 votes d’utilisateurs, créant l’un des plus grands ensembles de données de préférences humaines pour les modèles de vision-langage. Leur analyse a révélé que, bien que des modèles de haut niveau comme GPT-4 performent bien sur des tâches simples, ils peinent encore à affronter des défis comme les détails visuels subtils, le raisonnement spatial et la connaissance experte du domaine. Le benchmark qu’ils ont développé montre une forte corrélation (0,94) avec les préférences humaines, ce qui suggère qu’il capture efficacement la performance réelle des modèles. La plateforme continue de suivre la performance de plus de 20 modèles de vision-langage différents, fournissant des informations précieuses sur leurs forces et faiblesses. En se concentrant sur les interactions réelles plutôt que sur les benchmarks traditionnels, ce travail offre une compréhension plus pratique de la performance de ces modèles dans des cas d’usage réels et met en lumière les domaines nécessitant des améliorations.
La réparation de code avec les LLM offre un compromis entre exploration et exploitation
Hao Tang, Keya Hu, Jin Zhou, Si Cheng Zhong, Wei-Long Zheng, Xujie Si, Kevin Ellis
Une analyse complète de la courbe d’apprentissage dans la régression de la crête du noyau
Tin Sum Cheng, Aurélien Lucchi, Anastasis Kratsios, David Belius
Bo Lin, Erick Delage, Timothy Chan
Apprentissage continu des modèles de fondation avec des données marquées limitées
Shuvendu Roy, Elham Dolatabadi, Arash Afkanpour, Ali Etemad
Felix Dangel
Fusion Yilong Chen, Linhao Zhang, Junyuan Shang, Zhenyu Zhang, Tingwen Liu, Shuohuan Wang, Yu Sun
Chandramouli Shama Sastry, Sri Harsha Dumpala, Sageev Oore
Yeonsu Kwon, Jiho Kim, Gyubok Lee, Seongsu Bae, Daeun Kyung, Wonchul Cha, Tom Pollard, Alistair Johnson, Edward Choi
Adibvafa Fallahpour, Mahshid Alinoori, Wenqian Ye, Xu Cao, Arash Afkanpour, Amrit Krishnan
Estimation continue du barycentre entropique guidé par énergie pour les coûts généraux
Alexander Kolesov, Petr Mokrov, Igor Udovichenko, Milena Gazdieva, Gudmund Pammer, Anastasis Kratsios, Evgeny Burnaev, Aleksandr Korotin
Intégrité épistémique dans les grands modèles de langage
Bijean Ghafouri, Shahrad Mohammadzadeh, James Zhou, Pratheeksha Nair, Jacob-Junqi Tian, Mayank Goel, Reihaneh Rabbany, Jean-François Godbout, Kellin Pelrine
Omkar Dige, John Willes, D. B. Emerson
Échantillonnage localement différentiel privé exactement minimax optimal
Hyun-Young Park, Shahab Asoodeh, Si-Hyeon Lee
Artur Parkhimchyk, Amirreza Naziri, Laleh Seyyed-Kalantari
Fait ou fiction? Les LLM peuvent-ils être des annotateurs fiables des vérités politiques?
Veronica Chatrath, Marcelo Lotif, Shaina Raza
Équité des modèles d’IA dans les représentations de radiographies thoraciques intégrées en vecteur
Gebreyowhans Hailekiros Bahre, Hassan Hamidi, Francesco Calimeri, Andrew Sellergren, Leo Anthony Celi, Laleh Seyyed-Kalantari
FLAME : Alignement conscient des faits pour les grands modèles de langage
Sheng-Chieh Lin, Luyu Gao, Barlas Oguz, Wenhan Xiong, Jimmy Lin, Scott Yih, Xilun Chen
Modèles génératifs sensibles à la fréquence pour l’imputation multivariée en séries temporelles
XINYU YANG, Yu Sun, Yuan xiaojie, Xinyang Chen
GaussianCut : Segmentation interactive via découpe graphique pour le splatting gaussien 3D
Umangi Jain, Ashkan Mirzaei, Igor Gilitschenski
Alignement humain-IA aux échecs avec une attention consciente des compétences
Zhenwei Tang, Difan Jiao, Reid McIlroy-Young, Jon Kleinberg, Siddhartha Sen, Ashton Anderson
Yang Xu, Yifan Feng, Jun Zhang, Jun-Hai Yong, Yue Gao
Yang Xu, Yihong Gu, Cong Fang
Courbure approximative faite par Kronecker pour les réseaux neuronaux informés par la physique
Felix Dangel, Johannes Müller, Marius Zeinhofer
L4GM : Grand modèle de reconstruction gaussienne 4D
Jiawei Ren, Cheng Xie, Ashkan Mirzaei, hanxue liang, xiaohui zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling
Apprendre des étiquettes bruyantes via une optimisation conditionnelle robuste à la distribution
Hui GUO, Grace Yi, Boyu Wang
Ian Berlot-Attwell, Frank Rudzicz, Xujie Si
Effondrement linguistique : effondrement neuronal dans les modèles de langage (grands)
Robert Wu, Vardan Papyan
LogiCity : Faire progresser l’IA neuro-symbolique avec une simulation urbaine abstraite
Bowen Li, Zhaoyu Li, Qiwei Du, Jinqi Luo, Wenshan Wang, Yaqi Xie, Simon Stepputtis, Chen Wang, Katia Sycara, Pradeep Ravikumar, Alexander Gray, Xujie Si, Sebastian Scherer
Couplage à entropie minimale avec goulot d’étranglement
Reza Ebrahimi, Jun Chen, Ashish Khisti
MixEval : Approximation rapide et dynamique des préférences humaines avec mélanges de benchmarks LLM
Jinjie Ni, Fuzhao Xue, Xiang Yue, Yuntian Deng, Mahir Shah, Kabir Jain, Graham Neubig, Yang You
NAVSIM : simulation et benchmarking de véhicules autonomes non réactifs pilotés par les données
Daniel Dauner, Marcel Hallgarten, Tianyu Li, Xinshuo Weng, Zhiyu Huang, Zetong Yang, Hongyang Li, Igor Gilitschenski, Boris Ivanovic, Marco Pavone, Andreas Geiger, Kashyap Chitta
Décodage spéculatif des plus proches voisins pour la génération et l’attribution des LLM
Minghan Li, Xilun Chen, Ari Holtzman, Beidi Chen, Jimmy Lin, Scott Yih, Victoria Lin
Neuronal Assets : Synthèse de scènes multi-objets 3D avec modèles de diffusion d’images
Ziyi Wu, Yulia Rubanova, Rishabh Kabra, Drew Hudson, Igor Gilitschenski, Yusuf Aytar, Sjoerd van Steenkiste, Kelsey Allen, Thomas Kipf
Imagerie probabiliste fondée en utilisant des modèles de diffusion comme priors plug-and-play
Zihui Wu, Yu Sun, Yifan Chen, Bingliang Zhang, Yisong Yue, Katherine Bouman
Alignement du score de propension des données multimodales non appariées
Johnny Xi, Jana Osea, Zuheng Xu, Jason Hartford
Équité proportionnelle dans le regroupement non-centroïde
Ioannis Caragiannis, Evi Micha, Nisarg Shah
QueST : Abstractions de compétences auto-supervisées pour apprendre le contrôle continu
Atharva Anil Mete, Haotian Xue, Albert Wilcox, Yongxin Chen, Animesh Garg
Daniel Severo, Ashish Khisti, Alireza Makhzani
Apprentissage par renforcement guidé par renforcement semi-supervisé
Marzi Heidari, Hanping Zhang, Yuhong Guo
Safe and Sound - Évaluation des modèles de langage pour la réduction et la compréhension des biais
Shaina Raza, Shardul Ghuge, Oluwanifemi Bamgbose, Deval Pandya
Amplification agnostique efficace en échantillonnage
Udaya Ghai, Karan Singh
Apprentissage privé efficace par exemple des mélanges de gaussiennes
Hassan Ashtiani, Mahbod Majid, Shyam Narayanan
Yang Xu, Yifan Feng, Jun Zhang, Jun-Hai Yong, Yue Gao
Eshta Bhardwaj, Harshit Gujral, Siyi Wu, Ciara Zogheib, Tegan Maharaj, Christoph Becker
Sri Harsha Dumpala, Aman Jaiswal, Chandramouli Shama Sastry, Evangelos Milios, Sageev Oore, Hassan Sajjad
Conception d’expériences indirectes séquentielles ciblées
Elisabeth Ailer, Niclas Dern, Jason Hartford, Niki Kilbertus
Enseigner aux LLM comment apprendre avec l’ajustement fin du contexte
Younwoo Choi*, Muhammad Adil Asif*, Ziwen Han, John Willes, Rahul Krishnan
Vers la dynamique des interactions symboliques d’apprentissage d’un DNN
Qihan Ren, Yang Xu, Junpeng Zhang, Yue Xin, Dongrui Liu, Quanshi Zhang
Vers la compréhension des tendances évolutives dans les données séquentielles
QIUHAO Zeng, Long-Kai Huang, Qi CHEN, Charles Ling, Boyu Wang
Dernières couches variationnelles pour l’optimisation bayésienne
Paul Brunzema*, Mikkel Jordahn*, John Willes, Sebastian Trimpe, Jasper Snoek, James Harrison