Les chercheurs de Vector repoussent les limites de l'IA avec 80 articles présentés à NeurIPS 2025
2 décembre 2025
2 décembre 2025
Les chercheurs de la communauté dynamique de Vector présentent des travaux révolutionnaires dans tous les domaines de l'intelligence artificielle lors de la conférence NeurIPS (Conference on Neural Information Processing Systems) de cette année, qui se tient du 2 au 7 décembre à San Diego et du 30 novembre au 5 décembre à Mexico. Cette conférence est le rendez-vous mondial incontournable pour la recherche sur le traitement de l'information neuronale. Elle rassemble la communauté internationale qui travaille sur les fondements théoriques et les applications pratiques qui façonnent l'avenir de l'IA.
Les contributions à la recherche des membres du corps professoral, des professeurs affiliés et des postdoctorants émérites de Vector à NeurIPS 2025 démontrent la profondeur et l'étendue de l'innovation qui émerge de notre remarquable écosystème de recherche. Leurs travaux acceptés couvrent des domaines critiques, allant des modèles fondamentaux de nouvelle génération et des systèmes génératifs basés sur la diffusion aux percées en matière d'apprentissage par renforcement et aux approches fédérées préservant la confidentialité, reflétant un engagement commun à faire progresser à la fois la science fondamentale de l'apprentissage automatique et le développement de systèmes d'IA fiables qui répondent aux défis du monde réel.
Vous trouverez ci-dessous 80 articles acceptés, y compris des collaborations, provenant de membres du corps professoral de Vector, d'affiliés du corps professoral de Vector et de boursiers postdoctoraux distingués de Vector.
Xiatoian Liu, Ali Pesaranghader, Jaehong Kim, Tanmana Sadhu, Hyejeong Jeon, Scott Sanner (membre affilié de la faculté Vector)
La capacité à acquérir activement des informations est essentielle pour la planification en monde ouvert dans des conditions d'observabilité partielle et de connaissances incomplètes. Les systèmes d'IA incarnés existants s'appuient généralement sur des stratégies passives qui collectent de manière exhaustive des informations sur les objets et les relations. Cependant, cette acquisition passive de connaissances devient impraticable dans des domaines visuellement complexes. Par exemple, un foyer type peut contenir des centaines d'objets configurés de manière unique. Par conséquent, les agents en monde ouvert doivent être capables d'identifier activement les objets pertinents pour la tâche à accomplir. Dans cet article, nous présentons ActiveVOI, un nouveau cadre zéro-shot pour la planification incarnée en monde ouvert qui met l'accent sur l'acquisition active de connaissances centrée sur les objets. ActiveVOI exploite la régression liftée pour générer des descriptions compactes de sous-objectifs qui identifient les objets pertinents pour la tâche. Il fournit également une approche fondée sur des principes pour quantifier l'utilité de la détection d'objets à l'aide de la théorie de la valeur de l'information (VOI), guidée par les connaissances de bon sens issues de grands modèles linguistiques et linguistiques-visuels (LLM/VLM). ActiveVOI est évalué sur le benchmark visuel ALFWorld, montrant des améliorations substantielles par rapport aux méthodes de planification existantes basées sur les LLM et les VLM, et surpassant même les VLM qui sont affinés sur les données ALFWorld. Ce travail établit une base raisonnée pour la construction d'agents incarnés qui acquièrent activement et efficacement des connaissances pour planifier dans des environnements ouverts.
TLDR :Nous présentons le cadre ActiveVOO pour l'acquisition active de connaissances afin d'identifier, de quantifier et de hiérarchiser les informations pertinentes pour la planification incarnée en monde ouvert.
Wenchang Duan, Yaoliang Yu (membre du corps professoral de Vector), Jiwan He, Yi Shi
Récemment, l'apprentissage profond par renforcement multi-agents (MARL) a démontré des performances prometteuses pour résoudre des tâches difficiles, telles que les dépendances à long terme et les environnements non markoviens. Son succès est en partie attribué au conditionnement des politiques sur une longueur de contexte fixe importante. Cependant, ces longueurs de contexte fixes importantes peuvent entraîner une efficacité d'exploration limitée et des informations redondantes. Dans cet article, nous proposons un nouveau cadre MARL pour obtenir des informations contextuelles adaptatives et efficaces. Plus précisément, nous concevons un agent central qui optimise dynamiquement la longueur du contexte via une analyse du gradient temporel, améliorant ainsi l'exploration afin de faciliter la convergence vers l'optimum global dans le MARL. De plus, afin d'améliorer la capacité d'optimisation adaptative de la longueur du contexte, nous présentons une représentation efficace des entrées pour l'agent central, qui filtre efficacement les informations redondantes. En tirant parti d'une méthode de troncature à basse fréquence basée sur Fourier, nous extrayons les tendances temporelles globales parmi les agents décentralisés, fournissant ainsi une représentation efficace et efficiente de l'environnement MARL. Des expériences approfondies démontrent que la méthode proposée atteint des performances de pointe (SOTA) sur des tâches de dépendance à long terme, notamment PettingZoo, MiniGrid, Google Research Football (GRF) et StarCraft Multi-Agent Challenge v2 (SMACv2).
TLDR :Une longueur de contexte fixe importante limite l'exploration et introduit une redondance dans MARL. Nous proposons une méthode d'optimisation adaptative de la longueur du contexte avec troncature basse fréquence basée sur Fourier afin d'améliorer la prise de décision à long terme.
Amirmojtaba Sabour, Sanja Fidler (membre du corps professoral de Vector), Karsten Kreis
Les modèles basés sur la diffusion et les flux sont apparus comme des approches de modélisation générative de pointe, mais ils nécessitent de nombreuses étapes d'échantillonnage. Les modèles de cohérence peuvent distiller ces modèles en générateurs efficaces en une seule étape ; cependant, contrairement aux méthodes basées sur les flux et la diffusion, leurs performances se dégradent inévitablement lorsque le nombre d'étapes augmente, ce que nous démontrons à la fois de manière analytique et empirique. Les cartes de flux généralisent ces approches en reliant deux niveaux de bruit quelconques en une seule étape et restent efficaces quel que soit le nombre d'étapes. Dans cet article, nous présentons deux nouveaux objectifs en temps continu pour l'entraînement des cartes de flux, ainsi que de nouvelles techniques d'entraînement supplémentaires, généralisant les objectifs existants de cohérence et de correspondance des flux. Nous démontrons en outre que l'autoguidage peut améliorer les performances, en utilisant un modèle de faible qualité pour le guidage pendant la distillation, et qu'un coup de pouce supplémentaire peut être obtenu par un réglage fin antagoniste, avec une perte minimale en termes de diversité des échantillons.Nous validons de manière approfondie nos modèles de cartes de flux, appelés *Align Your Flow*, sur des benchmarks de génération d'images difficiles et obtenons des performances de pointe en matière de génération en quelques étapes sur ImageNet 64×64 et 512×512, à l'aide de réseaux neuronaux petits et efficaces. Enfin, nous présentons des modèles de cartes de flux texte-image qui surpassent tous les échantillonneurs en quelques étapes existants non entraînés de manière antagoniste dans la synthèse conditionnée par le texte.
TLDR : Nous développons des méthodes de cartographie des flux pour la génération en quelques étapes à la pointe de la technologie, en généralisant les modèles de flux, de diffusion et de cohérence.
Spotlight paper
Tim G. Zhou, Evan Shelhamer (membre du corps professoral de Vector), Geoff Pleiss (membre du corps professoral de Vector)
The go-to strategy to apply deep networks in settings where uncertainty informs decisions—ensembling multiple training runs with random initializations—is ill-suited for the extremely large-scale models and practical fine-tuning workflows of today. We introduce a new cost-effective strategy for improving the uncertainty quantification and downstream decisions of a large model (e.g. a fine-tuned ViT-B): coupling it with a less accurate but much smaller “sidekick” (e.g. a fine-tuned ResNet-34) with a fraction of the computational cost. We propose aggregating the predictions of this \emph{Asymmetric Duo} by simple learned weighted averaging. Surprisingly, despite their inherent asymmetry, the sidekick model almost never harms the performance of the larger model. In fact, across five image classification benchmarks, and a variety of model architectures and training schemes (including soups), Asymmetric Duos significantly improve accuracy, uncertainty quantification, and selective classification metrics with only ${\approx}10-20$% more computation.
Stephen Zhang, Mustafa Khan, Vardan Papyan (membre du corps professoral de Vector)
Les grands modèles linguistiques (LLM) concentrent souvent leur attention sur quelques tokens spécifiques appelés « puits d'attention ». Parmi les exemples courants, on peut citer le premier token, un puits indépendant de la commande, et les tokens de ponctuation, qui dépendent de la commande. Bien que les tokens à l'origine des puits n'aient souvent pas de signification sémantique directe, la présence des puits est essentielle pour les performances du modèle, en particulier dans le cadre de la compression du modèle et de la mise en cache KV. Malgré leur omniprésence, la fonction, le rôle sémantique et l'origine des puits d'attention, en particulier ceux qui se trouvent au-delà du premier token, restent mal compris. Dans ce travail, nous menons une enquête approfondie démontrant que les puits d'attention : *capturent* une séquence de tokens, les *marquent* en utilisant une direction commune dans l'espace d'intégration, et les *libèrent* dans le flux résiduel, où les tokens sont ensuite récupérés en fonction des balises qu'ils ont acquises. Des expériences approfondies révèlent que ces balises contiennent des informations sémantiquement significatives, telles que la véracité d'une affirmation. Ces résultats s'étendent aux modèles de raisonnement, où le mécanisme s'étend à plusieurs têtes et explique une plus grande variance dans les intégrations, ou aux modèles récents avec normalisation des clés de requête, où les puits restent tout aussi répandus. Afin d'encourager les analyses théoriques futures, nous introduisons un problème minimal qui peut être résolu grâce au mécanisme « capturer, baliser, relâcher », et où il émerge grâce à l'entraînement.
Andrew Wang, Elisa Nguyen, Runshi Yang, Juhan Bae, Sheila McIlraith (membre du corps professoral de Vector), Roger Grosse (membre du corps professoral de Vector)
L'attribution des données d'apprentissage (TDA) fournit des informations sur les données d'apprentissage responsables du comportement d'un modèle appris. Les méthodes TDA basées sur les gradients, telles que les fonctions d'influence et la différenciation déroulée, impliquent toutes deux un calcul qui ressemble à un produit vectoriel hessien inverse (iHVP), difficile à approximer efficacement. Nous présentons un algorithme (ASTRA) qui utilise le préconditionneur EKFAC sur des itérations de séries de Neumann pour obtenir une approximation iHVP précise pour la TDA. ASTRA est facile à régler, nécessite moins d'itérations que les itérations de séries de Neumann et est plus précis que les approximations basées sur EKFAC. À l'aide d'ASTRA, nous montrons que l'amélioration de la précision de l'approximation iHVP peut considérablement améliorer les performances de la TDA.
TLDR :Nous appliquons le préconditionneur EKFAC aux itérations de la série de Neumann afin d'obtenir une approximation iHVP non biaisée pour le TDA qui améliore la fonction d'influence et les performances de différenciation déroulée.
Chen-Hao (Lance) Chao, Wei-Fang Sun, Hanwen Liang, Chun-Yi Lee, Rahul Krishnan (membre du corps professoral de Vector)
Les modèles de diffusion masqués (MDM) sont des modèles génératifs puissants pour les données discrètes qui génèrent des échantillons en démasquant progressivement les jetons dans une séquence. Chaque jeton peut prendre l'un des deux états suivants : masqué ou non masqué. Nous observons que les séquences de jetons restent souvent inchangées entre les étapes d'échantillonnage consécutives ; par conséquent, le modèle traite de manière répétée des entrées identiques, ce qui entraîne des calculs redondants. Pour remédier à cette inefficacité, nous proposons le schéma de masquage partiel (Prime), qui complète le MDM en permettant aux tokens de prendre des états intermédiaires interpolés entre les états masqués et non masqués. Cette conception permet au modèle de faire des prédictions basées sur des informations partiellement observées sur les tokens et facilite un processus de débruitage fin. Nous dérivons un objectif d'entraînement variationnel et introduisons une conception architecturale simple pour prendre en compte les entrées d'état intermédiaire. Notre méthode démontre des performances supérieures dans un ensemble diversifié de tâches de modélisation générative. Sur les données textuelles, elle atteint une perplexité de 15,36 sur OpenWebText, surpassant le MDM précédent (21,52), les modèles autorégressifs (17,54) et leurs variantes hybrides (17,58), sans s'appuyer sur une formulation autorégressive. Sur les données d'images, elle atteint des scores FID compétitifs de 3,26 sur CIFAR-10 et 6,98 sur ImageNet-32, comparables à ceux des principaux modèles génératifs continus.
Adibvafa Fallahpour, Andrew Magnuson, Purav Gupta, Shihao Ma, Jack Naimer, Arnav Shah, Haonan Duan, Omar Ibrahim, Hani Goodarzi, Chris Maddison (membre du corps professoral de Vector), Bo Wang (membre du corps professoral de Vector)
Dévoiler le raisonnement biologique profond et interprétable à partir de données génomiques complexes est un défi majeur pour l'intelligence artificielle, qui entrave les découvertes scientifiques cruciales. Les modèles fondamentaux d'ADN existants, malgré leurs puissantes capacités de représentation des séquences, ont souvent du mal à raisonner en plusieurs étapes et ne disposent pas de mécanismes inhérents permettant d'obtenir des explications transparentes et intuitives sur le plan biologique. Nous présentons BioReason, une architecture pionnière qui, pour la première fois, intègre profondément un modèle fondamental d'ADN à un modèle linguistique à grande échelle (LLM). Cette connexion novatrice permet au LLM de traiter et de raisonner directement à partir des informations génomiques comme modalité d'entrée fondamentale, ouvrant la voie à une nouvelle forme de compréhension biologique multimodale. La capacité de BioReason à effectuer un raisonnement sophistiqué en plusieurs étapes est cultivée grâce à un programme de réglage fin supervisé et d'apprentissage par renforcement ciblé, qui guide le système intégré vers la génération de déductions logiques et biologiquement cohérentes. Sur des benchmarks difficiles, notamment la prédiction des voies pathologiques basée sur KEGG, où BioReason améliore la précision d'environ 10 points (de 88 % à 97 %), et l'analyse des effets des variants, BioReason affiche un gain de performance moyen de 15 % par rapport aux références monomodales solides. Une avancée majeure réside dans la capacité de BioReason à raisonner sur des entités biologiques inédites et à articuler son processus décisionnel à travers des traces biologiques interprétables, étape par étape, qui soutiennent mécaniquement ses prédictions. BioReason offre une approche transformatrice de l'IA en biologie, ouvrant la voie à des connaissances mécanistiques plus approfondies et à la génération accélérée d'hypothèses testables à partir de données génomiques.
TLDR :BioReason présente une nouvelle architecture ADN-LLM dans laquelle le LLM traite directement les informations génomiques, permettant ainsi un raisonnement biologique en plusieurs étapes supérieur et interprétable, et accélérant la découverte mécanistique.
Spotlight paper
Raghuveer Thirukovalluru, Rui Meng, Ye Liu, Karthikeyan K, Mingyi Su, Ping Nie, Semih Yavuz, Yingbo Zhou, Wenhu Chen (membre du corps professoral de Vector), Bhuwan Dhingra
L'apprentissage contrastif (CL) est une technique couramment utilisée pour entraîner des modèles d'intégration, qui rapproche les exemples sémantiquement similaires (positifs) dans l'espace de représentation tout en éloignant les exemples dissemblables (négatifs). Les exemples « dans le lot », c'est-à-dire les exemples positifs provenant d'autres exemples du lot, constituent une source importante d'exemples négatifs. L'efficacité de ces modèles est donc fortement influencée par la taille et la qualité des lots d'entraînement. Dans ce travail, nous proposons « Breaking the Batch Barrier » (B3), une nouvelle stratégie de construction de lots conçue pour sélectionner des lots de haute qualité pour le CL. Notre approche commence par utiliser un modèle d'intégration pré-entraîné pour classer tous les exemples du jeu de données, à partir duquel un graphe de similarité clairsemé est construit. Un algorithme de détection de communautés est ensuite appliqué à ce graphe afin d'identifier des groupes d'exemples qui servent de négatifs forts les uns pour les autres. Les groupes sont ensuite utilisés pour construire des lots riches en négatifs intra-lots. Les résultats empiriques sur le benchmark d'intégration multimodale MMEB (36 tâches) démontrent que notre méthode établit un nouveau standard, surpassant les meilleures méthodes précédentes de +1,3 et +2,9 points à l'échelle des modèles 7B et 2B, respectivement. Il est à noter que les modèles entraînés avec \bthm\ surpassent les résultats de pointe existants, même avec une taille de lot aussi petite que 64, soit 4 à 16 fois moins que ce qui est requis par d'autres méthodes.
Yihan Wang, Yiwei Lu (membre affilié à la faculté Vector), Xiao-Shan Gao, Gautam Kamath (membre de la faculté Vector), Yaoliang Yu (membre de la faculté Vector)
Les attaques par disponibilité, ou exemples non apprenables, sont des techniques défensives qui permettent aux propriétaires de données de modifier leurs ensembles de données de manière à empêcher les modèles d'apprentissage automatique non autorisés d'apprendre efficacement tout en conservant la fonctionnalité prévue des données. Cela a conduit à la mise sur le marché d'outils black-box populaires (par exemple, des API) permettant aux utilisateurs de télécharger des données personnelles et de recevoir des équivalents protégés. Dans cet article, nous montrons que ces protections de type « boîte noire » peuvent être considérablement compromises si un petit ensemble de données non protégées est disponible. Plus précisément, nous proposons un nouveau modèle de menace de fuite de protection, dans lequel un adversaire peut (1) acquérir facilement des paires (non protégées, protégées) en interrogeant les protections de type « boîte noire » avec un petit ensemble de données non protégées ; et (2) former un modèle de pont de diffusion pour établir une correspondance entre les données non protégées et les données protégées. Ce mappage, appelé BridgePure, peut supprimer efficacement la protection de toutes les données précédemment invisibles au sein de la même distribution. BridgePure démontre des performances de purification supérieures dans les tâches de classification et d'imitation de style, exposant ainsi les vulnérabilités critiques de la protection des données de type « boîte noire ». Nous suggérons aux praticiens de mettre en œuvre des contre-mesures à plusieurs niveaux afin d'atténuer ces risques.
Apratim Bhattacharyya, Bicheng Xu, Sanjay Haresh, Reza Pourreza, Litian Liu, Sunny Panchal, Leonid Sigal (membre du corps professoral de Vector), Roland Memisevic
Les modèles linguistiques multimodaux à grande échelle (LLM) ont des capacités conversationnelles avancées, mais ont du mal à fournir des conseils interactifs en direct, étape par étape, une capacité essentielle pour les futurs assistants IA. Pour être efficaces, ces conseils doivent non seulement fournir des instructions, mais aussi détecter leur bonne exécution, identifier les erreurs et alerter les utilisateurs, le tout en temps réel. Cela nécessite des modèles qui ne sont pas basés sur des tours, mais qui peuvent réagir de manière asynchrone à un flux vidéo, ainsi que des données vidéo montrant les utilisateurs effectuant des tâches, y compris leurs erreurs et leurs corrections. À cette fin, nous présentons LiveCook, un nouveau benchmark et un nouvel ensemble de données basé sur CaptainCook4D, qui contient les erreurs des utilisateurs lors de l'exécution des tâches. LiveCook propose des instructions et des messages de retour d'information densément annotés et chronométrés, comprenant notamment des alertes d'erreurs précisément horodatées en fonction de leur occurrence visuelle dans la vidéo. Nous évaluons les LLM multimodaux de pointe sur LiveCook et présentons LiveMamba, un LLM multimodal en streaming conçu pour le guidage pédagogique interactif. Ce travail fournit le premier benchmark dédié et une base solide pour le développement et l'évaluation du coaching en direct et en situation.
TLDR :Les modèles linguistiques multimodaux actuels ont du mal à fournir des instructions étape par étape en temps réel. Nous avons créé Qualcomm Interactive Cooking (un nouvel ensemble de données comprenant des vidéos d'erreurs et des commentaires chronométrés) et LiveMamba (un modèle de streaming) afin d'améliorer les instructions interactives en temps réel.
Vida Adeli, Ivan Klabučar, Javad Rajabi, Benjamin Filtjens, Soroush Mehraban, Diwei Wang, Trung Hieu Hoang, Minh Do, Hyewon Seo, Candice Muller, Daniel Coelho, Claudia de Oliveira, Pieter Ginis, Moran Gilat, Alice Nieuwboer, Joke Spildooren, J. Mckay, Hyeokhyen Kwon, Gari Clifford, Christine Esper, Stewart Factor, Imari Genias, Amirhossein Dadashzadeh, Leia Shum, Alan Whone, Majid Mirmehdi, Andrea Iaboni, Babak Taati (membre affilié à la faculté Vector)
L'évaluation objective de la démarche dans la maladie de Parkinson (MP) est limitée par l'absence de jeux de données de mouvement volumineux, diversifiés et annotés cliniquement. Nous présentons Care-PD, la plus grande archive publique de données de démarche en maillage 3D pour la MP, et la première collection multisite couvrant 9 cohortes provenant de 8 centres cliniques. Tous les enregistrements (vidéo RVB ou capture de mouvement) sont convertis en maillages SMPL anonymisés via un pipeline de prétraitement harmonisé. Care-PD prend en charge deux critères de référence clés : la prédiction supervisée des scores cliniques (estimation des scores de marche selon l'échelle unifiée d'évaluation de la maladie de Parkinson, UPDRS) et les tâches de prétexte de mouvement non supervisées (relevé des points clés 2D-3D et reconstruction 3D du corps entier). La prédiction clinique est évaluée selon quatre protocoles de généralisation : adaptation intra-ensemble de données, inter-ensembles de données, leave-one-dataset-out et multi-ensembles de données dans le domaine. Pour évaluer la pertinence clinique, nous comparons les encodeurs de mouvement de pointe avec une base de référence traditionnelle des caractéristiques de la démarche, et constatons que les encodeurs surpassent systématiquement les caractéristiques artisanales. Le pré-entraînement sur Care-PD réduit le MPJPE (de 60,8 mm à 7,5 mm) et augmente la macro-F1 de gravité de la MPD de 17 %, soulignant la valeur des données d'entraînement diversifiées et sélectionnées cliniquement. Care-PD et tous les codes de référence sont publiés à des fins de recherche non commerciale (code, données).
TL;DR :Nous présentons Care-PD, un ensemble de données multisites et un benchmark pour l'analyse de la démarche des personnes atteintes de la maladie de Parkinson, qui permet une prédiction fiable de la gravité clinique et améliore l'apprentissage de la représentation du mouvement grâce à des données pathologiques diverses et anonymisées sur la démarche.
Spotlight paper
Vahid Balazadeh, Hamidreza Kamkari, Valentin Thomas, Junwei Ma, Bingru Li, Jesse Cresswell, Rahul Krishnan (membre du corps professoral de Vector)
L'estimation des effets causaux à partir de données d'observation est fondamentale dans diverses applications. Cependant, choisir un estimateur approprié parmi des dizaines de méthodes spécialisées demande un effort manuel considérable et une expertise dans le domaine. Nous présentons CausalPFN, un transformateur unique qui amortit ce flux de travail : formé une seule fois sur une vaste bibliothèque de processus de génération de données simulées qui satisfont à l'ignorabilité, il déduit les effets causaux pour de nouveaux ensembles de données d'observation prêts à l'emploi. CausalPFN combine les idées de l'inférence causale bayésienne avec le protocole d'entraînement à grande échelle des réseaux ajustés a priori (PFN), apprenant à mapper directement les observations brutes aux effets causaux sans aucun ajustement spécifique à la tâche. Notre approche atteint des performances moyennes supérieures sur des benchmarks hétérogènes et d'estimation des effets moyens du traitement (IHDP, Lalonde, ACIC). De plus, elle affiche des performances compétitives pour l'élaboration de politiques concrètes dans le cadre de tâches de modélisation de l'amélioration. CausalPFN fournit des estimations calibrées de l'incertitude afin de soutenir une prise de décision fiable basée sur les principes bayésiens. Ce modèle prêt à l'emploi ne nécessite aucun apprentissage ou réglage supplémentaire et constitue un pas vers l'inférence causale automatisée (https://github.com/vdblm/CausalPFN/).
TLDR :CausalPFN est un transformateur pré-entraîné qui amortit l'estimation des effets causaux : entraîné une seule fois sur des processus de génération de données simulés, il produit des effets calibrés pour de nouveaux ensembles de données d'observation sans aucun réglage.
Truong Buu Phan, Ashish Khisti (membre affilié de la faculté Vector)
Nous étudions la simulation de canal et l'appariement distribué, deux problèmes fondamentaux ayant plusieurs applications dans l'apprentissage automatique, à l'aide d'une généralisation récemment introduite de l'algorithme standard d'échantillonnage par rejet (RS), connue sous le nom d'échantillonnage par rejet d'ensemble (ERS). Pour la simulation de canal, nous proposons un nouveau schéma de codage basé sur l'ERS qui permet d'atteindre un taux de codage quasi optimal. Dans ce processus, nous démontrons que le RS standard peut également atteindre un taux de codage quasi optimal et généralisons le résultat de Braverman et Garg (2014) au cadre de l'alphabet continu. Ensuite, comme contribution principale, nous présentons un lemme d'appariement distribué pour l'ERS, qui sert de contrepartie de l'échantillonnage par rejet au lemme d'appariement de Poisson (PML) introduit par Li et Anantharam (2021). Notre résultat généralise également un travail récent sur le lemme d'appariement d'importance (Phan et al, 2024) et, à notre connaissance, est le premier résultat sur l'appariement distribué dans la famille des schémas d'échantillonnage par rejet où la probabilité d'appariement est proche du PML. Nous démontrons l'importance pratique de notre approche par rapport aux travaux antérieurs en l'appliquant à la compression distribuée. L'efficacité de notre schéma proposé est validée par des expériences impliquant des sources gaussiennes synthétiques et la compression d'images distribuées à l'aide de l'ensemble de données MNIST.
TLDR :Nous proposons une nouvelle approche de simulation de canal pour la compression distribuée à l'aide de l'échantillonnage par rejet d'ensemble.
Ella Miray Rajaonson, Mahyar Rajabi Kochi, Luis Martin Mejia Mendoza, Mohamad Moosavi (membre du corps professoral de Vector), Benjamin Sanchez-Lengeling (affilié au corps professoral de Vector)
Il est essentiel de développer des modèles prédictifs améliorés pour les systèmes multimoléculaires, car presque tous les produits chimiques utilisés sont issus d'un mélange de substances chimiques. Bien qu'il s'agisse d'un élément essentiel de la chaîne industrielle, le domaine des mélanges chimiques reste relativement inexploré par la communauté du machine learning. Dans cet article, nous présentons CheMixHub, un benchmark holistique pour les mélanges moléculaires, couvrant un corpus de 11 tâches de prédiction des propriétés des mélanges chimiques, allant des formulations de médicaments aux électrolytes de batterie, pour un total d'environ 500 000 points de données recueillis et sélectionnés à partir de 7 ensembles de données accessibles au public. CheMixHub introduit diverses techniques de fractionnement des données afin d'évaluer la généralisation spécifique au contexte et la robustesse des modèles, fournissant ainsi une base pour le développement de modèles prédictifs des propriétés des mélanges chimiques. En outre, nous cartographions l'espace de modélisation des modèles d'apprentissage profond pour les mélanges chimiques, établissant ainsi des benchmarks initiaux pour la communauté. Cet ensemble de données a le potentiel d'accélérer le développement des mélanges chimiques, englobant la reformulation, l'optimisation et la découverte. L'ensemble de données et le code des benchmarks sont disponibles à l'adresse suivante : https://github.com/chemcognition-lab/chemixhub
Zhuang Qi, Ying-Peng Tang, Lei Meng, Han Yu, Xiaoxiao Li (membre du corps enseignant de Vector), Xiangxu Meng
L'apprentissage incrémental fédéré par classe (FCIL) vise à traiter de manière collaborative les tâches entrantes en augmentation constante sur plusieurs clients. Parmi les différentes approches, la relecture des données est devenue une solution prometteuse, qui peut atténuer l'oubli en réintroduisant des échantillons représentatifs des tâches précédentes. Cependant, leurs performances sont généralement limitées par le déséquilibre des classes, tant au sein du tampon de relecture en raison d'une conscience globale limitée qu'entre les classes relues et les classes nouvellement arrivées. Pour remédier à ce problème, nous proposons une méthode de relecture des données équilibrée par classe pour le FCIL (FedCBDR), qui utilise un mécanisme de coordination globale pour la construction de la mémoire au niveau des classes et qui rééquilibre l'objectif d'apprentissage afin d'atténuer les déséquilibres susmentionnés. Plus précisément, FedCBDR comporte deux éléments clés : 1) le module de relecture des données dans une perspective globale reconstruit les représentations globales des connaissances acquises lors de tâches précédentes tout en préservant la confidentialité, ce qui guide ensuite une stratégie d'échantillonnage sensible à la classe et à l'importance afin d'obtenir une relecture équilibrée ; 2) Ensuite, pour gérer le déséquilibre des classes entre les tâches, le module de mise à l'échelle de la température sensible aux tâches ajuste de manière adaptative la température des logits au niveau des classes et des instances en fonction de la dynamique des tâches, ce qui réduit la confiance excessive du modèle dans les classes majoritaires tout en améliorant sa sensibilité aux classes minoritaires. Les résultats expérimentaux ont vérifié que FedCBDR permet un échantillonnage équilibré par classe dans le cadre de distributions de données hétérogènes et améliore la généralisation en cas de déséquilibre entre les tâches antérieures et récentes, ce qui se traduit par une amélioration de 2 % à 15 % de la précision Top-1 par rapport à six méthodes de pointe.
Felix Dangel (chercheur postdoctoral émérite Vector), Tim Siebert, Marius Zeinhofer, Andrea Walther
Le calcul des opérateurs d'équations différentielles partielles (EDP) via la rétropropagation imbriquée est coûteux, mais populaire, et limite considérablement leur utilité pour l'apprentissage automatique scientifique. Des avancées récentes, telles que le Laplacien direct et la différenciation automatique (AD) aléatoire en mode Taylor, proposent des schémas directs pour remédier à ce problème. Nous introduisons une technique d'optimisation pour le mode Taylor qui « effondre » les dérivées en réécrivant le graphe de calcul, et nous démontrons comment l'appliquer aux opérateurs PDE linéaires généraux et au mode Taylor aléatoire. Les modifications nécessitent simplement de propager une somme dans le graphe de calcul, ce qui pourrait — ou devrait — être fait par un compilateur d'apprentissage automatique, sans exposer la complexité aux utilisateurs. Nous mettons en œuvre notre procédure de réduction et l'évaluons sur des opérateurs EDP courants, confirmant qu'elle accélère le mode Taylor et surpasse la rétropropagation imbriquée.
TLDR :Nous accélérons le mode Taylor pour les opérateurs différentiels pertinents sur le plan pratique en réduisant les coefficients de Taylor ; cela peut être fait automatiquement grâce à des simplifications du graphe de calcul.
Nikhil Kandpal, Brian Lester, Colin Raffel (membre du corps enseignant de Vector), Sebastian Majstorovic, Stella Biderman, Baber Abbasi, Luca Soldaini, Enrico Shippole, A. Feder Cooper, Aviya Skowron, Shayne Longpre, Lintang Sutawika, Alon Albalak, Zhenlin Xu, Guilherme Penedo, Loubna Ben Allal, Elie Bakouch, John Pressman, Honglu Fan, Dashiell Stander, Guangyu Song, Aaron Gokaslan, John Kirchenbauer, Tom Goldstein, Brian Bartoldson, Bhavya Kailkhura, Tyler Murray
Les grands modèles linguistiques (LLM) sont généralement entraînés à partir d'énormes quantités de textes non protégés par des droits d'auteur, une pratique qui a suscité des critiques en raison d'éventuelles violations de la propriété intellectuelle et de préoccupations éthiques. L'entraînement des LLM à partir de textes sous licence libre constitue une première étape pour remédier à ces problèmes, mais les efforts de collecte de données réalisés jusqu'à présent ont abouti à des ensembles de données trop petits ou de mauvaise qualité pour produire des LLM performants. Pour combler cette lacune, nous collectons, organisons et publions le Common Pile v0.1, une collection de huit téraoctets de textes sous licence libre conçue pour le pré-entraînement des LLM. Le Common Pile comprend des contenus provenant de 30 sources couvrant divers domaines, notamment des articles de recherche, du code, des livres, des encyclopédies, du matériel pédagogique, des transcriptions audio, etc. Nous validons nos efforts en formant Comma v0.1, un LLM de 7 milliards de paramètres formé sur 1 billion de tokens de texte provenant du Common Pile. Comma atteint des performances compétitives par rapport aux LLM formés sur des textes sans licence avec des budgets informatiques similaires, tels que LLaMA 7B. En plus de publier le Common Pile v0.1 lui-même, nous publions également le code utilisé pour sa création ainsi que les points de contrôle et le mélange de formation de Comma v0.1.
TL;DR :Nous collectons 8 To de textes du domaine public et sous licence libre, et les utilisons pour pré-entraîner un LLM performant à 7 milliards de paramètres.
Spotlight paper
Xingyu Chen, Shihao Ma, Runsheng Lin, Jiecong Lin, Bo Wang (membre du corps enseignant de Vector)
La conception de séquences d'ADN régulatrices permettant une expression génique précise et spécifique à un type de cellule est essentielle pour faire progresser la biologie synthétique, la thérapie génique et la médecine de précision. Bien que les modèles linguistiques (LM) basés sur des transformateurs puissent efficacement capturer les modèles dans l'ADN régulateur, leurs approches génératives ont souvent du mal à produire de nouvelles séquences avec une activité spécifique à une cellule fiable. Nous présentons ici regCon, un nouveau cadre d'apprentissage par renforcement (RL) contraint, spécialement conçu pour concevoir des séquences d'ADN régulatrices avec une spécificité contrôlable par type de cellule. En formulant la conception de séquences régulatrices comme un problème d'optimisation contraint fondé sur des données biologiques, nous appliquons le RL à des LM génomiques autorégressifs, ce qui permet aux modèles d'affiner de manière itérative les séquences qui maximisent l'activité régulatrice dans les types de cellules ciblés tout en limitant les effets hors cible. Notre évaluation sur des promoteurs et des amplificateurs humains démontre que regCon surpasse systématiquement les approches génératives et basées sur le RL existantes, en générant des séquences régulatrices hautement adaptées et en atteignant une spécificité cellulaire de pointe. De plus, les séquences générées par regCon capturent des sites de liaison des facteurs de transcription (TFBS) spécifiques à certains types de cellules, de courts motifs d'ADN reconnus par les protéines régulatrices qui contrôlent l'expression des gènes, démontrant ainsi la plausibilité biologique des séquences générées.
Spotlight paper
Ziyi Wu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Ashkan Mirzaei, Igor Gilitschenski (membre du corps enseignant de Vector), Sergey Tulyakov, Aliaksandr Siarohin
L'optimisation directe des préférences (DPO) a récemment été appliquée comme technique post-entraînement pour les modèles de diffusion texte-vidéo. Pour obtenir des données d'entraînement, les annotateurs sont invités à indiquer leurs préférences entre deux vidéos générées à partir de bruit indépendant. Cependant, cette approche empêche les comparaisons fines, et nous soulignons qu'elle biaise les annotateurs vers les clips à faible mouvement, car ceux-ci contiennent souvent moins d'artefacts visuels.Dans ce travail, nous présentons DenseDPO, une méthode qui remédie à ces lacunes en apportant trois contributions. Tout d'abord, nous créons chaque paire de vidéos pour la DPO en débruitant des copies corrompues d'une vidéo de référence.Il en résulte des paires alignées avec des structures de mouvement similaires tout en différant dans les détails locaux, ce qui neutralise efficacement le biais de mouvement. Deuxièmement, nous tirons parti de l'alignement temporel qui en résulte pour étiqueter les préférences sur des segments courts plutôt que sur des clips entiers, ce qui donne un signal d'apprentissage plus dense et plus précis. Avec seulement un tiers des données étiquetées, DenseDPO améliore considérablement la génération de mouvement par rapport au DPO classique, tout en l'égalisant en termes d'alignement textuel, de qualité visuelle et de cohérence temporelle.Enfin, nous montrons que DenseDPO permet l'annotation automatique des préférences à l'aide de modèles linguistiques visuels (VLM) prêts à l'emploi : GPT prédit avec précision les préférences au niveau des segments, à l'instar des modèles de récompense vidéo spécialement adaptés à la tâche, et DenseDPO, formé sur ces étiquettes, atteint des performances proches de celles obtenues avec des étiquettes humaines.
TLDR :Nous proposons une méthode DPO améliorée adaptée aux modèles de diffusion vidéo.
André Kassis, Urs Hengartner, Yaoliang Yu (membre du corps professoral de Vector)
La purification basée sur la diffusion (DBP) est devenue une défense fondamentale contre les exemples adversaires (AE), considérée comme robuste en raison de son utilisation de modèles de diffusion (DM) qui projettent les AE sur la variété des données naturelles. Nous réfutons cette affirmation fondamentale, en prouvant théoriquement que les attaques basées sur les gradients ciblent efficacement le DM plutôt que le classificateur, ce qui fait que les résultats de la DBP s'alignent sur les distributions adversaires. Cela nous amène à réévaluer la robustesse de la DBP, en lui attribuant deux défauts critiques : des gradients incorrects et des protocoles d'évaluation inappropriés qui ne testent qu'une seule purification aléatoire de l'AE. Nous montrons qu'en tenant compte de manière appropriée de la stochasticité et du risque de resoumission, la DBP s'effondre. Pour étayer cette affirmation, nous présentons DiffBreak, la première boîte à outils fiable pour la différenciation par DBP, qui élimine les défauts de gradient qui, auparavant, gonflaient encore davantage les estimations de robustesse. Nous analysons également le système de défense actuellement utilisé pour le DBP, où la classification repose sur une seule purification, en soulignant son invalidité inhérente. Nous proposons une alternative statistiquement fondée, le vote majoritaire (MV), qui agrège les prédictions de plusieurs copies purifiées, montrant un gain de robustesse partiel mais significatif. Nous proposons ensuite une nouvelle adaptation d'une méthode d'optimisation contre le watermarking deepfake, en créant des perturbations systémiques qui battent le DBP même sous MV, remettant en question la viabilité du DBP.
TLDR :DiffBreak fournit le premier cadre fiable permettant de différencier grâce à une purification basée sur la diffusion, révélant ainsi les vulnérabilités clés dans le cadre d'attaques adaptatives.
Spotlight paper
Bruno Mlodozeniec, Isaac Reid, Sam Power, David Krueger, Murat Erdogdu (membre du corps professoral de Vector), Richard Turner, Roger Grosse (membre du corps professoral de Vector)
Le caractère aléatoire est une composante inévitable de l'entraînement des modèles d'apprentissage profond, mais les algorithmes traditionnels d'attribution des données d'entraînement ne parviennent pas à en tenir rigoureusement compte. Ils ignorent le fait qu'en raison du caractère stochastique de l'initialisation et du traitement par lots, l'entraînement sur le même ensemble de données peut produire des modèles différents. Dans cet article, nous remédions à cette lacune en introduisant l'attribution des données d'entraînement distributionnelle (d-TDA), dont l'objectif est de prédire comment la distribution des résultats du modèle (sur les cycles d'entraînement) dépend de l'ensemble de données. Nous démontrons l'importance pratique de la d-TDA dans des expériences, par exemple en identifiant des exemples d'entraînement qui modifient considérablement la distribution de certaines mesures cibles sans nécessairement modifier la moyenne. Il est intéressant de noter que nous constatons également que les fonctions d'influence (IF), un outil d'attribution des données populaire mais mal compris, émergent naturellement de notre cadre distributionnel comme la limite de la différenciation déroulée, sans nécessiter d'hypothèses restrictives de convexité. Cela fournit une nouvelle motivation mathématique pour leur efficacité dans l'apprentissage profond et aide à caractériser leurs limites.
TLDR :Cet article présente l'attribution des données d'entraînement distributionnelles, un cadre d'attribution des données qui tient compte de la stochasticité dans l'entraînement par apprentissage profond, permettant ainsi de justifier mathématiquement pourquoi les fonctions d'influence fonctionnent dans ce contexte.
Nolan Dey, Bin Zhang, Lorenzo Noci, Mufan Li (membre affilié à la faculté Vector), Blake Bordelon, Shane Bergsma, Cengiz Pehlevan, Boris Hanin, Joel Hestness
Nous étudions l'efficacité de calcul de la formation LLM lors de l'utilisation de différentes paramétrisations, c'est-à-dire les règles d'ajustement des hyperparamètres (HP) du modèle et de l'optimiseur à mesure que la taille du modèle change. Certaines paramétrisations ne parviennent pas à transférer les HP de base optimaux (tels que le taux d'apprentissage) lors des changements de profondeur du modèle, ce qui oblige les praticiens à réajuster ces HP à mesure qu'ils augmentent (coûteux) ou à accepter un entraînement sous-optimal lorsque le réajustement est prohibitif. Même lorsqu'ils parviennent à transférer les HP, nous développons une théorie pour montrer que les paramétrisations peuvent encore exister dans le régime d'apprentissage paresseux où les couches n'apprennent que les caractéristiques proches de leur linéarisation, empêchant ainsi une utilisation efficace de la profondeur et de la non-linéarité. Enfin, nous identifions et adoptons la paramétrisation que nous appelons CompleteP, qui permet à la fois le transfert de HP en profondeur et un apprentissage non paresseux dans toutes les couches. CompleteP permet à un plus large éventail de rapports largeur/profondeur de modèle de rester efficace en termes de calcul, ce qui permet d'obtenir des formes mieux adaptées à différents paramètres matériels et contextes opérationnels. De plus, CompleteP permet d'améliorer l'efficacité de calcul de 12 à 34 % par rapport à l'état de l'art précédent.
TLDR :Nous présentons CompleteP, qui offre un transfert HP en profondeur, des économies de FLOP lors de l'entraînement de modèles profonds et une plus grande gamme de rapports largeur/profondeur efficaces en termes de calcul.
Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang (membre du corps professoral de Vector)
La nature séquentielle des LLM modernes les rend coûteux et lents, et l'échantillonnage spéculatif s'est avéré être une solution efficace à ce problème. Des méthodes telles que EAGLE effectuent une autorégression au niveau des caractéristiques, en réutilisant les caractéristiques de la couche supérieure du modèle cible afin d'obtenir de meilleurs résultats que l'échantillonnage spéculatif classique. Une tendance croissante dans la communauté LLM consiste à augmenter les données d'entraînement afin d'améliorer l'intelligence du modèle sans augmenter les coûts d'inférence. Cependant, nous observons que l'augmentation des données n'apporte que des améliorations limitées pour EAGLE. Nous identifions que cette limitation provient des contraintes de prédiction des caractéristiques d'EAGLE. Dans cet article, nous présentons EAGLE-3, qui abandonne la prédiction des caractéristiques au profit de la prédiction directe des tokens et remplace la dépendance aux caractéristiques de la couche supérieure par une fusion des caractéristiques multicouches via une technique appelée « test en temps de formation ». Ces améliorations renforcent considérablement les performances et permettent au modèle préliminaire de tirer pleinement parti de l'augmentation des données d'entraînement. Nos expériences incluent à la fois des modèles de chat et des modèles de raisonnement, évalués sur cinq tâches. Les résultats montrent qu'EAGLE-3 atteint un ratio d'accélération allant jusqu'à 6,5x, avec une amélioration d'environ 1,4x par rapport à EAGLE-2. Dans le cadre SGLang, EAGLE-3 atteint une amélioration du débit de 1,38x pour une taille de lot de 64.
TLDR :Nous proposons EAGLE-3, en observant qu'il peut tirer profit de l'augmentation des données.
Spotlight paper
Jonas Elsborg, Luca Thiede, Alán Aspuru-Guzik (membre du corps professoral de Vector), Tejs Vegge, Arghya Bhowmik
Nous présentons l'algorithme de reconstruction tensorielle électronique (ELECTRA), un modèle équivariant permettant de prédire les densités de charge électronique à l'aide d'orbitales flottantes. Les orbitales flottantes sont un concept bien établi dans le domaine de la chimie quantique qui promet des représentations plus compactes et plus précises en plaçant les orbitales librement dans l'espace, plutôt que de les centrer toutes sur la position des atomes. Cependant, trouver l'emplacement idéal de ces orbitales nécessite des connaissances approfondies dans le domaine, ce qui a jusqu'à présent empêché leur adoption à grande échelle. Nous résolvons ce problème de manière empirique en entraînant un réseau tensoriel cartésien à prédire les positions orbitales ainsi que les coefficients orbitaux. Cela est rendu possible grâce à un mécanisme de rupture de symétrie qui est utilisé pour apprendre les déplacements de position avec une symétrie inférieure à celle de la molécule d'entrée tout en préservant l'équivariance de rotation de la densité de charge elle-même. Inspirés par les récents succès du Gaussian Splatting dans la représentation des densités dans l'espace, nous utilisons des orbitales gaussiennes et prédisons leurs poids et leurs matrices de covariance. Notre méthode atteint un équilibre de pointe entre l'efficacité computationnelle et la précision prédictive sur des benchmarks établis.
TLDR :Prédiction efficace de la densité de charge à l'aide d'orbitales flottantes
Spotlight paper
Weiwei Sun, Haokun Liu, Nikhil Kandpal, Colin Raffel (membre du corps professoral de Vector), Yiming Yang
Les méthodes d'attribution des données d'entraînement (TDA) visent à mesurer l'impact des données d'entraînement sur les prédictions d'un modèle. Si les méthodes d'attribution basées sur les gradients, telles que les fonctions d'influence, offrent une rigueur théorique, leur coût de calcul les rend peu pratiques pour les applications à grande échelle. Les méthodes d'attribution basées sur la représentation sont plus efficaces, car elles s'appuient sur des calculs de similarité entre des exemples dans un espace de représentation, mais elles manquent souvent d'optimisation spécifique à la tâche et au modèle, ce qui limite leur précision. Pour relever ces défis, nous proposons AirRep, une nouvelle approche basée sur la représentation qui améliore la qualité de la représentation grâce à l'optimisation axée sur les tâches d'un modèle d'encodage de représentation.De plus, nous étendons cette méthode au-delà de l'attribution à un seul échantillon en utilisant un mécanisme de regroupement basé sur l'attention afin d'estimer efficacement l'influence collective de groupes d'échantillons. Des expériences sur le réglage des instructions de grands modèles linguistiques démontrent qu'AirRep atteint des performances équivalentes à celles des approches de pointe basées sur les gradients, tout en étant près de deux ordres de grandeur plus efficace. Une analyse plus approfondie met en évidence sa robustesse, notamment sa généralisation à de nouvelles données et à de nouvelles tâches TDA.
TLDR :AirRep est un modèle de représentation textuelle optimisé pour le TDA, offrant des performances comparables à celles des méthodes basées sur les gradients tout en étant nettement plus efficace.
Chandler Smith, Marwa Abdulhai, Manfred Díaz, Marko Tesic, Rakshit Trivedi, Sasha Vezhnevets, Lewis Hammond, Jesse Clifton, Minsuk Chang, Edgar Duenez-Guzman, John Agapiou, Jayd Matyas, Danny Karmon, Beining Zhang, Jim Dilkes, Akash Kundu, Hieu Minh Nguyen, Emanuel Tewolde, Jebish Purbey, Ram Mohan Rao Kadiyala, Siddhant Gupta, Aliaksei Korshuk, Buyantuev Alexander, Ilya Makarov, Gang Zhao, Rolando Fernandez, Zhihan Wang, Caroline Wang, Jiaxun Cui, Lingyun Xiao, Di Shi, Yoonchang Sung, Muhammad Arrasy Rahman, Peter Stone, Yipeng Kang, Hyeonggeun Yun, Ananya Ananya, Taehun Cha, Zhiqiang Wu, Elizaveta Tennant, Olivia Macmillan-Scott, Marta Segura, Diana Riazi, Fuyang Cui, Sriram Ganapathi (membre affilié de la faculté Vector), Toryn Klassen (chercheur postdoctoral Vector CIFAR AI Safety), Nico Schiavone, Mogtaba Alim, Sheila McIlraith (membre du corps professoral de Vector), Manuel Rios, Oswaldo Peña, Carlos Rojas, Manuela Viviana Chacon-Chamorro, Rubén Manrique, Luis Felipe Giraldo, Nicanor Quijano, Yiding Wang, Yuxuan Chen, Fangwei Zhong, Mengmeng Wang, Wenming Tu, Zhaowei Zhang, Ziang Chen, Zixia Jia, Xue Feng, Zilong Zheng, Chichen Lin, Weijian Fan, Chenao Liu, Sneheel Sarangi, Ziyan Wang, Shuqing Shi, Yali Du, Avinaash Anand Kulandaivel, Yang Liu, Wu Ruiyang, Chetan Talele, 陆孙嘉, Gema Parreno, Shamika Dhuri, Bain McHale, Tim Baarslag, Dylan Hadfield-Menell, Natasha Jaques, José Hernández-Orallo, Joel Leibo
Les agents basés sur des modèles linguistiques de grande taille (LLM) ont démontré des capacités impressionnantes en matière d'interaction sociale et sont de plus en plus déployés dans des situations où ils peuvent interagir à la fois avec des agents humains et artificiels. Ces interactions représentent une frontière critique pour les agents basés sur les LLM, mais les méthodes d'évaluation existantes ne permettent pas de mesurer dans quelle mesure ces capacités s'appliquent à de nouvelles situations sociales. Dans cet article, nous présentons une méthode d'évaluation de la capacité des agents basés sur le LLM à coopérer dans des environnements à motivation mixte et sans apprentissage préalable, à l'aide de Concordia, un environnement de simulation multi-agents en langage naturel. Ce travail présente une approche permettant de mesurer l'intelligence coopérative appropriée à l'être humain, en mettant l'accent sur la capacité d'un agent à identifier et à exploiter les opportunités de gains mutuels entre divers partenaires et contextes. Nous présentons les résultats empiriques du concours Concordia NeurIPS 2024, dans le cadre duquel les agents ont été évalués sur leur capacité à obtenir des gains mutuels dans une série de scénarios divers, allant de la négociation à des problèmes d'action collective. Nos conclusions révèlent des écarts importants entre les capacités actuelles des agents et la généralisation robuste requise pour une coopération fiable, en particulier dans les scénarios exigeant de la persuasion et l'application de normes.
TL;DR :Dans cet article, nous présentons une méthode d'évaluation de la coopération entre des agents basés sur des modèles linguistiques à grande échelle (LLM) et des coéquipiers inconnus dans des scénarios novateurs à motivations mixtes, et nous rendons compte des techniques analytiques, des méthodes et des résultats du Concours Concordia 2024.
Hanxue Liang, Jiawei Ren, Ashkan Mirzaei, Antonio Torralba, Ziwei Liu, Igor Gilitschenski (membre du corps professoral de Vector), Sanja Fidler (membre du corps professoral de Vector), Cengiz Oztireli, Huan Ling, Zan Gojcic, Jiahui Huang
Les récentes avancées en matière de reconstruction statique de scènes par feed-forward ont permis des progrès significatifs dans la synthèse de vues nouvelles de haute qualité. Cependant, ces modèles ont souvent du mal à s'adapter à divers environnements et ne parviennent pas à traiter efficacement les contenus dynamiques. Nous présentons BTimer (abréviation de Bullet Timer), le premier modèle feed-forward sensible au mouvement pour la reconstruction en temps réel et la synthèse de vues nouvelles de scènes dynamiques. Notre approche reconstruit la scène complète dans une représentation 3D Gaussian Splatting à un moment donné (« bullet ») en agrégeant les informations de toutes les images contextuelles. Une telle formulation permet à BTimer de gagner en évolutivité et en généralisation en exploitant à la fois des ensembles de données de scènes statiques et dynamiques. À partir d'une vidéo dynamique monoculaire ordinaire, BTimer reconstruit une scène en bullet time en moins de 150 ms tout en atteignant des performances de pointe sur les ensembles de données de scènes statiques et dynamiques, même par rapport aux approches basées sur l'optimisation.
TLDR :Reconstruction dynamique en 3DGS d'une scène à partir de vidéos.
Spotlight paper
Filippo Bigi, Sanggyu Chong, Agustinus Kristiadi (membre affilié à la faculté Vector), Michele Ceriotti
La dynamique moléculaire (MD) fournit des informations sur les processus à l'échelle atomique en intégrant dans le temps les équations qui décrivent le mouvement des atomes sous l'action des forces interatomiques. Les modèles d'apprentissage automatique ont considérablement accéléré la MD en fournissant des prédictions peu coûteuses des forces, mais ils restent limités à des étapes d'intégration temporelle minuscules, qui sont requises par l'échelle de temps rapide du mouvement atomique. Dans ce travail, nous proposons FlashMD, une méthode permettant de prédire l'évolution des positions et des impulsions sur des pas d'une durée supérieure d'un à deux ordres de grandeur à celle des pas temporels MD classiques. Nous intégrons des considérations sur les propriétés mathématiques et physiques de la dynamique hamiltonienne dans l'architecture, généralisons l'approche pour permettre la simulation de tout ensemble thermodynamique et évaluons soigneusement les modes de défaillance possibles d'une approche MD directe. Nous validons la précision de FlashMD dans la reproduction des propriétés d'équilibre et dépendantes du temps, en utilisant à la fois des modèles spécifiques au système et des modèles à usage général, étendant ainsi la capacité de la simulation MD à atteindre les échelles de temps longues nécessaires pour modéliser des processus microscopiques présentant un intérêt scientifique et technologique élevé.
TLDR :Une méthode pour prédire les trajectoires de la dynamique moléculaire à l'aide de pas de temps longs
Jingkang Wang, Henry Che, Yun Chen, Ze Yang, Lily Goli, Sivabalan Manivasagam, Raquel Urtasun (membre du corps professoral de Vector)
La reconstruction de scènes dynamiques à grande échelle à partir d'observations visuelles est un défi fondamental en vision par ordinateur, avec des implications cruciales pour la robotique et les systèmes autonomes. Si les méthodes de rendu différentielles récentes telles que les champs de radiance neuronaux (NeRF) et le splatting gaussien 3D (3DGS) ont permis d'obtenir des reconstructions photoréalistes impressionnantes, elles souffrent de limitations en termes d'évolutivité et nécessitent des annotations pour découpler les mouvements des acteurs. Les méthodes auto-supervisées existantes tentent d'éliminer les annotations explicites en exploitant les indices de mouvement et les a priori géométriques, mais elles restent limitées par l'optimisation par scène et la sensibilité au réglage des hyperparamètres. Dans cet article, nous présentons Flux4D, un cadre simple et évolutif pour la reconstruction 4D de scènes dynamiques à grande échelle. Flux4D prédit directement les gaussiennes 3D et leur dynamique de mouvement afin de reconstruire les observations des capteurs, de manière entièrement non supervisée. En adoptant uniquement des pertes photométriques et en appliquant une régularisation « aussi statique que possible », Flux4D apprend à décomposer les éléments dynamiques directement à partir des données brutes, sans nécessiter de modèles supervisés pré-entraînés ou de priors fondamentaux, simplement en s'entraînant sur de nombreuses scènes. Notre approche permet une reconstruction efficace des scènes dynamiques en quelques secondes, s'adapte efficacement aux grands ensembles de données et se généralise bien à des environnements inconnus, y compris des objets rares et inconnus. Des expériences menées sur des ensembles de données de conduite en extérieur montrent que Flux4D surpasse largement les méthodes existantes en termes d'évolutivité, de généralisation et de qualité de reconstruction.
TLDR :Flux4D est un cadre simple et évolutif pour la reconstruction 4D non supervisée de scènes de conduite à grande échelle.
Nandan Thakur, Jimmy Lin (membre affilié de la faculté Vector), Samuel Havens, Michael Carbin, Omar Khattab, Andrew Drozdov
Nous présentons FreshStack, un cadre holistique permettant de créer automatiquement des benchmarks d'évaluation de la recherche d'informations (IR) en intégrant des questions et des réponses complexes. FreshStack effectue les étapes suivantes : (1) collecte automatique de corpus à partir de code et de documentation technique, (2) génération de pépites à partir de questions et réponses posées par la communauté, et (3) prise en charge au niveau des pépites, récupération de documents à l'aide d'une fusion de techniques de recherche et d'architectures hybrides.Nous utilisons FreshStack pour créer cinq ensembles de données sur des sujets en pleine croissance, récents et de niche afin de garantir que les tâches sont suffisamment complexes. Sur FreshStack, les modèles de recherche existants, lorsqu'ils sont appliqués tels quels, sont nettement moins performants que les approches oracle sur les cinq sujets, ce qui indique qu'il existe une marge de progression importante pour améliorer la qualité de la recherche d'informations. En outre, nous identifions les cas où les reclassements n'améliorent pas la précision de la recherche au premier stade (deux sujets sur cinq), et où le contexte oracle aide un générateur LLM à produire une réponse RAG de haute qualité. Nous espérons que FreshStack facilitera les travaux futurs visant à construire des benchmarks d'évaluation IR et RAG réalistes, évolutifs et non contaminés.
TL;DR :FreshStack est un cadre permettant de créer des benchmarks d'évaluation IR & RAG réalistes sur des domaines de niche et récents à partir de questions et réponses posées par la communauté.
Konstantinos Tsiolis, Alireza Mousavi-Hosseini, Murat Erdogdu (membre du corps professoral de Vector)
Pour comprendre la dynamique d'apprentissage des caractéristiques dans les réseaux neuronaux, des travaux théoriques récents se sont concentrés sur l'apprentissage basé sur le gradient de modèles gaussiens à indice unique, où l'étiquette est une fonction non linéaire d'une projection latente unidimensionnelle de l'entrée. Alors que la complexité de l'échantillon du SGD en ligne est déterminée par l'exposant d'information du lien non linéaire, des travaux récents ont amélioré cela en réutilisant des échantillons ou en modifiant la fonction de perte — transformations qui introduisent des mises à jour non corrélées — et sont plutôt limités par l'exposant génératif (potentiellement beaucoup plus petit). Cependant, cette image n'est valable que si le taux d'apprentissage est suffisamment élevé. Dans cet article, nous caractérisons la relation entre le taux d'apprentissage et la complexité de l'échantillon pour une large classe d'algorithmes basés sur le gradient qui encapsulent à la fois les mises à jour corrélatives et non corrélatives, et nous démontrons une transition de phase d'un « régime d'exposant d'information » avec un faible taux d'apprentissage à un « régime d'exposant génératif » avec un taux d'apprentissage élevé. Notre cadre couvre les analyses antérieures du SGD à passage unique et du SGD avec réutilisation par lots, tout en introduisant un nouvel algorithme d'apprentissage par couches qui exploite une approche à deux échelles de temps pour aller au-delà des requêtes corrélationnelles sans réutiliser les échantillons ni modifier la perte à partir de l'erreur quadratique. Notre étude théorique démontre que le choix du taux d'apprentissage est aussi important que la conception de l'algorithme pour atteindre l'efficacité statistique et computationnelle.
Xueguang Ma, Qian Liu, Dongfu Jiang, Ge Zhang, Zejun MA, Wenhu Chen (membre du corps professoral de Vector)
L'apprentissage par renforcement (RL) a récemment démontré un fort potentiel pour améliorer les capacités de raisonnement des grands modèles linguistiques (LLM). En particulier, l'apprentissage par renforcement « zéro » introduit par Deepseek-R1-Zero permet la formation directe par RL des LLM de base sans passer par une étape intermédiaire de réglage supervisé. Malgré ces progrès, les travaux actuels sur le raisonnement des LLM se concentrent principalement sur les domaines mathématiques et du codage, en grande partie en raison de l'abondance des données et de la facilité de vérification des réponses.Cela limite l'applicabilité et la généralisation de ces modèles à des domaines plus larges, où les questions ont souvent des représentations de réponses diverses et où les données sont plus rares. Dans cet article, nous proposons \model, un nouveau paradigme d'entraînement conçu pour améliorer les capacités de raisonnement des LLM dans divers domaines. Nos principales contributions sont les suivantes : (1) la construction d'un ensemble de données à grande échelle et de haute qualité, composé de questions dont les réponses sont vérifiables, sélectionnées par crawling web, couvrant un large éventail de disciplines ; et (2) le développement d'un vérificateur de réponses basé sur un modèle génératif, qui remplace la vérification traditionnelle basée sur des règles par la capacité de chaîne de pensée et de prise en compte du contexte. Notre évaluation complète à l'aide de benchmarks tels que MMLU-Pro, GPQA, SuperGPQA, BBEH et MATH, AMC, etc. démontre que \model surpasse les méthodes de référence existantes, offrant des performances de raisonnement robustes et généralisables tout en conservant une efficacité supérieure dans les tâches de raisonnement mathématique. Le code, les données et les points de contrôle du modèle utilisés dans ce travail seront publiés.
Ayoub El Hanchi, Murat Erdogdu (membre du corps professoral de Vector), Chris Maddison (membre du corps professoral de Vector)
Quelle propriété de la distribution des données détermine le risque excédentaire de l'analyse en composantes principales ? Dans cet article, nous apportons une réponse précise à cette question. Nous établissons un théorème de la limite centrale pour l'erreur du sous-espace principal estimé par l'ACP et dérivons la distribution asymptotique de son risque excédentaire sous la perte de reconstruction. Nous obtenons une borne supérieure non asymptotique sur le risque excédentaire de l'ACP qui récupère, dans la limite des grands échantillons, notre caractérisation asymptotique. Notre contribution repose sur le résultat suivant : nous prouvons que le quotient de Rayleigh négatif, défini sur le Grassmannien, est généralisé auto-concordant le long des géodésiques émanant de son minimiseur de rotation maximale inférieure à $\pi/4$.
TLDR :Nous prouvons la normalité asymptotique de l'ACP sur le Grassmannien et dérivons une borne non asymptotique stricte sur son risque excédentaire à l'aide de l'auto-concordance.
Zhuang Qi, Yu Pan, Lei Meng, Sijin Zhou, Han Yu, Xiaoxiao Li (membre du corps enseignant de Vector), Xiangxu Meng
L'apprentissage fédéré par prompts (FPL) permet une adaptation efficace en termes de communication en ajustant des prompts légers sur des modèles pré-entraînés figés. Les méthodes FPL existantes s'appuient généralement sur des informations globales, qui ne sont disponibles qu'après le deuxième cycle d'entraînement, afin de faciliter la collaboration entre les modèles clients. Elles dépendent donc intrinsèquement d'une communication en plusieurs cycles pour exploiter pleinement leurs atouts. De plus, les méthodes d'apprentissage fédéré en une seule fois existantes se concentrent généralement sur l'ajustement des tâches observées, mais manquent de généralisation entre les tâches. Pour combler cette lacune, nous proposons la méthode GPR-NIAM (global prompt refinement with non-interfering attention masking) pour le FPL en une seule fois. L'idée centrale est de concevoir un mécanisme de masquage qui limite les interactions excessives entre les intégrations de texte originales et les intégrations de prompts apprenables. Le GPR-NIAM y parvient grâce à la collaboration de deux modules clés. Tout d'abord, le module d'isolation de l'attention supprime l'attention des jetons de prompt apprenables vers les jetons de texte originaux, et repondère l'attention inverse qui préserve la généralisation entre les tâches. Deuxièmement, le module de raffinement collaboratif inter-silos intègre les connaissances visuelles décentralisées dans une base unifiée et calibre l'invite globale grâce à l'alignement des connaissances multimodales provenant de plusieurs sources, atténuant ainsi davantage l'incohérence causée par l'hétérogénéité des données. Des expériences approfondies menées sur dix ensembles de données de référence dans le cadre de deux tâches montrent que le GPR-NIAM surpasse huit méthodes de pointe en matière de généralisation au niveau des classes et au niveau des domaines.
Andrew Li, Toryn Klassen (chercheur postdoctoral en sécurité de l'IA au CIFAR Vector), Andrew Wang, Parand A. Alamdari, Sheila McIlraith (membre du corps professoral de Vector)
Ancrer le langage dans la perception et l'action est un défi majeur lorsqu'il s'agit de créer des agents situés capables d'interagir avec des humains ou d'autres agents par le biais du langage. Dans le passé, relever ce défi nécessitait de concevoir manuellement l'ancrage du langage ou de constituer d'énormes ensembles de données associant le langage à l'environnement. Nous proposons Ground-Compose-Reinforce, un cadre neurosymbolique de bout en bout permettant de former des agents RL directement à partir de spécifications de tâches de haut niveau, sans fonctions de récompense conçues manuellement ni autres oracles spécifiques au domaine, et sans ensembles de données massifs. Ces spécifications de tâches prennent la forme de machines à récompenses, des représentations basées sur des automates qui capturent la structure des tâches de haut niveau et qui, dans certains cas, peuvent être autoformalisées à partir du langage naturel. Nous montrons de manière cruciale que les machines de récompense peuvent être fondées sur des données limitées en exploitant la compositionnalité. Des expériences menées dans un domaine Meta-World personnalisé avec seulement 350 trajectoires de pré-entraînement étiquetées montrent que notre cadre permet d'obtenir fidèlement des comportements complexes à partir de spécifications de haut niveau, y compris des comportements qui n'apparaissent jamais dans le pré-entraînement, alors que les approches non compositionnelles échouent.
TLDR :Nous formons les agents RL directement à partir de spécifications de haut niveau, sans fonctions de récompense ni oracles spécifiques au domaine.
Andrés Guzmán-Cordero, Felix Dangel (chercheur postdoctoral émérite Vector), Gil Goldshlager, Marius Zeinhofer
Les méthodes de gradient naturel accélèrent considérablement l'entraînement des réseaux neuronaux informés par la physique (PINN), mais leur coût est souvent prohibitif. Nous présentons une série de techniques visant à améliorer la précision et l'efficacité de la descente du gradient naturel d'énergie (ENGD) pour les PINN. Tout d'abord, nous exploitons la formule de Woodbury pour réduire considérablement la complexité computationnelle de l'ENGD. Ensuite, nous adaptons l'algorithme de descente du gradient naturel par incréments projetés sous-échantillonnés issu de la littérature sur les méthodes variationnelles de Monte Carlo afin d'accélérer la convergence. Enfin, nous explorons l'utilisation d'algorithmes aléatoires pour réduire davantage le coût de calcul dans le cas de lots de grande taille. Nous constatons que la randomisation accélère les progrès dans les premières étapes de l'entraînement pour les problèmes de faible dimension, et nous identifions les principaux obstacles à l'accélération dans d'autres scénarios. Nos expériences numériques démontrent que nos méthodes surpassent les approches précédentes, atteignant la même erreur $L^2$ que l'ENGD original jusqu'à 75 fois plus rapidement.
TLDR :Nous introduisons l'identité matricielle de Woodbury, le SPRING de type momentum et la randomisation pour rendre la descente du gradient naturel de l'énergie 75 fois plus rapide pour les PINN.
Sana Tonekaboni (boursière postdoctorale distinguée Vector), Lena Stempfle, Adibvafa Fallahpour, Walter Gerych, Marzyeh Ghassemi
Les modèles de base formés à partir de dossiers médicaux électroniques (DME) anonymisés à grande échelle sont prometteurs pour les applications cliniques. Cependant, leur capacité à mémoriser les informations des patients soulève d'importantes questions en matière de confidentialité. Dans cet article, nous présentons une série de tests d'évaluation de type « boîte noire » visant à évaluer les risques de mémorisation dans les modèles de base formés à partir de données DME structurées. Notre cadre comprend des méthodes permettant d'étudier la mémorisation tant au niveau de l'intégration que de la génération, et distingue la généralisation de la mémorisation nuisible dans des contextes cliniques pertinents. Nous contextualisons la mémorisation en termes de risque potentiel pour la confidentialité des patients, en particulier pour les sous-groupes vulnérables. Nous validons notre approche sur un modèle de base DME accessible au public et publions une boîte à outils open source afin de faciliter les évaluations reproductibles et collaboratives de la confidentialité dans le domaine de l'IA appliquée aux soins de santé.
TLDR :Nous proposons des tests de type « boîte noire » pour détecter la mémorisation nuisible dans les modèles de base formés à partir de données EHR structurées. Validé sur un modèle public, notre outil permet de réaliser des audits de confidentialité en distinguant la généralisation de la mémorisation compromettant la confidentialité.
Shivalika Singh, Yiyang Nan, Alex Wang, Daniel Dsouza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng (membre affilié à la faculté Vector), Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker
Mesurer les progrès est fondamental pour l'avancement de tout domaine scientifique. Les benchmarks jouant un rôle de plus en plus central, ils sont également de plus en plus susceptibles d'être faussés. Chatbot Arena s'est imposé comme le classement de référence pour évaluer les systèmes d'IA les plus performants. Cependant, dans cet article, nous identifions des problèmes systématiques qui ont conduit à une distorsion du terrain de jeu. Nous constatons que les pratiques de test privées non divulguées profitent à une poignée de fournisseurs qui sont en mesure de tester plusieurs variantes avant leur publication et de retirer leurs scores s'ils le souhaitent. Nous établissons que la capacité de ces fournisseurs à choisir le meilleur score conduit à des scores Arena biaisés en raison de la divulgation sélective des résultats de performance. À l'extrême, nous avons constaté qu'un fournisseur testait 27 variantes privées avant de rendre public un modèle à la deuxième place du classement. Nous établissons également que les modèles propriétaires fermés sont échantillonnés à des taux plus élevés (nombre de batailles) et que moins de modèles sont retirés de l'arène que les alternatives ouvertes et open source. Ces deux politiques conduisent à d'importantes asymétries d'accès aux données au fil du temps. Les deux principaux fournisseurs ont reçu individuellement environ 19,2 % et 20,4 % de toutes les données de l'arène. En revanche, 83 modèles à poids ouvert combinés n'ont reçu qu'environ 29,7 % du total des données. Selon des estimations prudentes, nous montrons que l'accès aux données de Chatbot Arena apporte des avantages substantiels ; même des données supplémentaires limitées peuvent entraîner des gains de performance relatifs allant jusqu'à 112 % sur ArenaHard, un ensemble de tests provenant de la distribution de l'arène. Ensemble, ces dynamiques entraînent un surajustement aux dynamiques spécifiques à l'arène plutôt qu'à la qualité générale du modèle. L'Arena s'appuie sur les efforts considérables des organisateurs et d'une communauté ouverte qui maintient cette précieuse plateforme d'évaluation. Nous proposons des recommandations concrètes pour réformer le cadre d'évaluation de Chatbot Arena et promouvoir un benchmarking plus équitable et plus transparent dans ce domaine.
TL;DR :Chatbot Arena est devenue une plateforme de référence pour le classement des modèles d'IA. Notre étude approfondie révèle les dynamiques cachées qui faussent les classements et propose des mesures concrètes pour améliorer l'équité et la transparence dans l'évaluation des modèles sur Chatbot Arena.
Farnam Mansouri, Shai Ben-David (membre du corps professoral de Vector)
L'apprentissage PU (Positive Unlabeled) est une variante de l'apprentissage par classification supervisée dans laquelle les seules étiquettes révélées à l'apprenant sont celles des instances étiquetées positivement. L'apprentissage PU est présent dans de nombreuses applications du monde réel. La plupart des travaux existants reposent sur l'hypothèse simplificatrice selon laquelle les données d'apprentissage étiquetées positivement sont tirées de la restriction de la distribution génératrice de données aux instances étiquetées positivement et/ou que la proportion de points étiquetés positivement (alias la classe a priori) est connue a priori par l'apprenant. Cet article fournit une analyse théorique de la complexité statistique de l'apprentissage PU dans un éventail plus large de configurations. Contrairement à la plupart des travaux antérieurs, notre étude ne suppose pas que la classe a priori est connue de l'apprenant. Nous prouvons les limites supérieures et inférieures des tailles d'échantillons requises (à la fois pour les échantillons étiquetés positivement et ceux non étiquetés).
TLDR :Cet article fournit des exemples de limites de complexité pour l'apprentissage à partir d'exemples positifs et non étiquetés.
Gérard Ben Arous, Murat Erdogdu (membre du corps professoral de Vector), Nuri Mert Vural, Denny Wu
Nous étudions l'optimisation et la complexité d'échantillonnage de l'apprentissage par gradient d'un réseau neuronal à deux couches avec une fonction d'activation quadratique dans le régime à haute dimension, où les données sont générées comme suit : $y \propto \sum_{j=1}^{r}\lambda_j \sigma\left(\langle \boldsymbol{\theta_j}, \boldsymbol{x}\rangle\right), \boldsymbol{x} \sim \mathcal{N}(0,\boldsymbol{I}_d)$, où $\sigma$ est le deuxième polynôme de Hermite, et $\lbrace \boldsymbol{\theta}_j \rbrace _{j=1}^{r} \subset \mathbb{R}^d$ sont des directions de signaux orthonormales. Nous considérons le régime de largeur étendue $r \asymp d^\beta$ pour $\beta \in (0, 1)$, et supposons une décroissance exponentielle des coefficients (non négatifs) de la deuxième couche $\lambda_j\asymp j^{-\alpha}$ pour $\alpha \geq 0$. Nous fournissons une analyse précise de la dynamique SGD dans le régime d'apprentissage des caractéristiques, tant pour la limite de population que pour la discrétisation à échantillon fini (en ligne), et dérivons des lois d'échelle pour le risque de prédiction qui mettent en évidence les dépendances de loi de puissance par rapport au temps d'optimisation, à la taille de l'échantillon et à la largeur du modèle. Notre analyse combine une caractérisation précise de l'équation différentielle matricielle de Riccati associée avec de nouveaux arguments de monotonicité matricielle afin d'établir des garanties de convergence pour la dynamique effective à dimension infinie.
Marzi Heidari, Hanping Zhang, Yuhong Guo (membre affilié à la faculté Vector)
Le défi que représente l'apprentissage avec des étiquettes bruitées est important dans le domaine de l'apprentissage automatique, car il peut gravement nuire aux performances des modèles de prédiction s'il n'est pas traité correctement. Cet article présente un nouveau cadre qui conceptualise la correction des étiquettes bruitées comme un problème d'apprentissage par renforcement (RL). L'approche proposée, Reinforcement Learning for Noisy Label Correction (RLNLC), définit un espace d'état complet représentant les données et leurs étiquettes associées, un espace d'action indiquant les corrections d'étiquettes possibles et un mécanisme de récompense évaluant l'efficacité des corrections d'étiquettes. RLNLC apprend un réseau de politiques basé sur une représentation profonde des caractéristiques afin d'effectuer la correction des étiquettes par le biais de l'apprentissage par renforcement, en utilisant une méthode acteur-critique.La politique apprise est ensuite déployée pour corriger de manière itérative les étiquettes d'entraînement bruitées et soutenir l'entraînement du modèle de prédiction. L'efficacité du RLNLC est démontrée par des expériences approfondies sur plusieurs ensembles de données de référence, où il surpasse systématiquement les techniques de pointe existantes pour l'apprentissage à partir d'étiquettes bruitées.
Joseph Rowan, Truong Buu Phan, Ashish Khisti (membre affilié à la faculté Vector)
Nous étudions un assouplissement du problème du couplage des distributions de probabilité : une liste d'échantillons est générée à partir d'une distribution et une *acceptation* est déclarée si l'un de ces échantillons est identique à l'échantillon généré à partir de l'autre distribution. Nous proposons une nouvelle méthode de génération d'échantillons, qui étend l'échantillonnage Gumbel-max suggéré par Daliri et al. (2025) pour le couplage des distributions de probabilité. Nous établissons également une borne inférieure correspondante sur la probabilité d'acceptation, que nous appelons le « lemme de correspondance de liste ». Nous abordons ensuite deux applications de notre configuration. Tout d'abord, nous développons un nouveau mécanisme d'échantillonnage spéculatif multi-brouillons qui est simple à mettre en œuvre et offre des performances compétitives par rapport à des références telles que SpecTr et SpecInfer dans toute une série de tâches linguistiques. Notre méthode garantit également un certain degré d'« invariance du rédacteur » par rapport aux jetons de sortie, ce qui n'est pas pris en charge par les schémas existants. Nous fournissons également une borne inférieure théorique sur la probabilité d'acceptation au niveau des jetons. Comme deuxième application, nous considérons la compression distribuée avec perte et informations secondaires dans un contexte où un échantillon source est compressé et disponible pour plusieurs décodeurs, chacun disposant d'informations secondaires indépendantes. Nous proposons une technique de compression basée sur notre généralisation de l'échantillonnage Gumbel-max et montrons qu'elle apporte des gains significatifs dans des expériences impliquant des sources gaussiennes synthétiques et l'ensemble de données d'images MNIST.
TLDR :Nous présentons une technique permettant de coupler des distributions de probabilités lorsque plusieurs échantillons sont disponibles à partir d'une des distributions, et nous donnons des applications au décodage spéculatif multi-brouillons et à la compression distribuée avec perte et informations secondaires.
Hrad Ghoukasian, Bonwoo Lee, Shahab Asoodeh (membre affilié à la faculté Vector)
Nous étudions le problème de l'échantillonnage à partir d'une distribution dans le cadre de la confidentialité différentielle locale (LDP). Étant donné une distribution privée $P \in \mathcal{P}$, l'objectif est de générer un échantillon unique à partir d'une distribution qui reste proche de $P$ en termes de divergence $f$ tout en satisfaisant les contraintes de la LDP. Cette tâche reflète le défi fondamental que représente la production de données réalistes tout en garantissant un niveau élevé de confidentialité. Alors que les travaux antérieurs de Park et al. (NeurIPS'24) se concentrent sur l'optimalité minimax globale pour une classe de distributions, nous adoptons une perspective locale. Plus précisément, nous examinons l'erreur minimax dans un voisinage autour d'une distribution fixe $P_0$, et caractérisons sa valeur exacte, qui dépend à la fois de $P_0$ et du niveau de confidentialité. Notre principal résultat montre que l'erreur minimax locale est déterminée par l'erreur minimax globale lorsque la classe de distribution $\mathcal{P}$ est limitée à un voisinage autour de $P_0$. Pour établir cela, nous (1) étendons les travaux antérieurs du LDP pur au cadre plus général du LDP fonctionnel, et (2) prouvons que l'échantillonneur LDP fonctionnel globalement optimal produit l'échantillonneur local optimal lorsqu'il est limité aux distributions proches de $P_0$. Sur cette base, nous dérivons également une expression simple sous forme fermée pour les échantillonneurs minimax-optimaux localement qui ne dépend pas du choix de la divergence $f$. Nous affirmons en outre que ce cadre local modélise naturellement l'échantillonnage privé avec des données publiques, où la distribution des données publiques est représentée par $P_0$. Dans ce contexte, nous comparons empiriquement notre échantillonneur localement optimal aux méthodes globales existantes et démontrons qu'il surpasse systématiquement les échantillonneurs minimax globaux.
Anthony Fuller, Yousef Yassin, Junfeng Wen, Tarek Ibrahim, Daniel Kyrollos, James Green, Evan Shelhamer (membre du corps professoral de Vector)
Les transformateurs de vision sont de plus en plus grands, précis et coûteux à calculer. À haute résolution, le coût est encore plus élevé, car le nombre de jetons augmente de manière quadratique avec la taille de l'image. Nous nous tournons vers le calcul adaptatif pour faire face à ce coût en apprenant à prédire où calculer. Notre méthode LookWhere divise le calcul entre un sélecteur à basse résolution et un extracteur à haute résolution sans jamais traiter l'intégralité de l'entrée à haute résolution.Nous pré-entraînons conjointement le sélecteur et l'extracteur sans supervision de tâche par distillation à partir d'un enseignant auto-supervisé, apprenant en fait où et quoi calculer en même temps. Contrairement aux méthodes antérieures de réduction des jetons, qui paient pour économiser en élaguant les jetons déjà calculés, et aux méthodes antérieures de sélection des jetons, qui nécessitent une optimisation complexe et coûteuse par tâche, LookWhere sélectionne et extrait de manière économique et précise des représentations transférables d'images.Nous montrons que LookWhere excelle dans la reconnaissance clairsemée sur des entrées haute résolution (panneaux de signalisation), en maintenant la précision tout en réduisant les FLOP de 17 fois et le temps de 4 fois, ainsi que dans les tâches de reconnaissance standard qui sont globales (classification ImageNet) et locales (segmentation ADE20K), en améliorant la précision tout en réduisant le temps de 1,36 fois.
TLDR :Nous présentons un cadre sélecteur-extracteur qui extrait des caractéristiques haute résolution sans jamais voir les images haute résolution complètes afin d'économiser des ressources informatiques.
Ruofan Liang, Kai He, Zan Gojcic, Igor Gilitschenski (membre du corps professoral de Vector), Sanja Fidler (membre du corps professoral de Vector), Nandita Vijaykumar (membre du corps professoral de Vector), Zian Wang
L'estimation de l'éclairage d'une scène à partir d'une seule image ou vidéo reste un défi de longue date dans le domaine de la vision par ordinateur et du graphisme. Les approches basées sur l'apprentissage sont limitées par la rareté des cartes d'environnement HDR de référence, qui sont coûteuses à capturer et peu variées. Si les modèles génératifs récents offrent de solides a priori pour la synthèse d'images, l'estimation de l'éclairage reste difficile en raison de sa dépendance à des indices visuels indirects, de la nécessité de déduire le contexte global (non local) et de la récupération de sorties à plage dynamique élevée. Nous proposons LuxDiT, une nouvelle approche basée sur les données qui affine un transformateur de diffusion vidéo afin de générer des cartes d'environnement HDR conditionnées par l'entrée visuelle. Entraîné sur un vaste ensemble de données synthétiques présentant des conditions d'éclairage variées, notre modèle apprend à déduire l'éclairage à partir d'indices visuels indirects et généralise efficacement aux scènes du monde réel. Afin d'améliorer l'alignement sémantique entre l'entrée et la carte d'environnement prédite, nous introduisons une stratégie de réglage fin par adaptation de rang faible à l'aide d'un ensemble de données collectées de panoramas HDR. Notre méthode produit des prédictions d'éclairage précises avec des détails angulaires réalistes à haute fréquence, surpassant les techniques de pointe existantes tant dans les évaluations quantitatives que qualitatives.
A. Feder Cooper, Christopher Choquette-Choo, Miranda Bogen, Kevin Klyman, Matthew Jagielski, Katja Filippova, Ken Liu, Alex Chouldechova, Jamie Hayes, Yangsibo Huang, Eleni Triantafillou, Peter Kairouz, Nicole Mitchell, Niloofar Mireshghallah, Abigail Jacobs, James Grimmelmann, Vitaly Shmatikov, Christopher De Sa, I Shumailov, Andreas Terzis, Solon Barocas, Jennifer Wortman Vaughan, Danah Boyd, Yejin Choi, Sanmi Koyejo, Fernando Delgado, Percy Liang, Daniel Ho, Pamela Samuelson, Miles Brundage, David Bau, Seth Neel, Hanna Wallach, Amy Cyphert, Mark Lemley, Nicolas Papernot (membre du corps enseignant de Vector), Katherine Lee
Le « désapprentissage automatique » est une solution couramment proposée pour atténuer la présence, dans un modèle d'IA, de contenus problématiques pour des raisons juridiques ou morales, notamment en matière de confidentialité, de droits d'auteur, de sécurité, etc. Par exemple, le désapprentissage est souvent invoqué comme solution pour supprimer les effets d'informations spécifiques des paramètres d'un modèle d'IA générative, par exemple les données personnelles d'un individu particulier ou l'inclusion de contenus protégés par des droits d'auteur dans les données d'entraînement du modèle. Le désapprentissage est également proposé comme un moyen d'empêcher un modèle de générer des types d'informations ciblés dans ses résultats, par exemple des générations qui ressemblent étroitement aux données d'une personne en particulier ou qui reflètent le concept de « Spiderman ». Ces deux objectifs – la suppression ciblée d'informations d'un modèle et la suppression ciblée d'informations des résultats d'un modèle – présentent divers défis techniques et substantiels. Nous fournissons un cadre permettant aux chercheurs en apprentissage automatique et aux décideurs politiques de réfléchir de manière rigoureuse à ces défis, en identifiant plusieurs inadéquations entre les objectifs du désapprentissage et les mises en œuvre réalisables. Ces inadéquations expliquent pourquoi le désapprentissage n'est pas une solution universelle pour circonscrire le comportement des modèles d'IA générative au service d'un impact positif plus large.
Ruili Feng, Han Zhang, Zhilei Shu, Zhantao Yang, Longxiang Tang, Zhicai Wang, Andy Zheng, Jie Xiao, Zhiheng Liu, Ruihang Chu, Yukun Huang, Yu Liu, Hongyang Zhang (membre du corps professoral de Vector)
Nous vous présentons The Matrix, un simulateur réaliste fondamental capable de générer des flux vidéo en haute fidélité 720p infiniment longs avec un contrôle réactif en temps réel, à la fois en vue à la première et à la troisième personne. Entraîné à partir de données supervisées limitées provenant de jeux vidéo tels que Forza Horizon 5 et Cyberpunk 2077, complétées par des séquences non supervisées à grande échelle provenant de décors réels tels que les rues de Tokyo, The Matrix permet aux utilisateurs de traverser divers terrains (déserts, prairies, plans d'eau et paysages urbains) dans des séquences continues et ininterrompues d'une heure. Avec des vitesses pouvant atteindre 16 images par seconde, le système prend en charge l'interactivité en temps réel et fait preuve d'une généralisation sans apprenti, traduisant les environnements de jeux virtuels en contextes réels où la collecte de données de mouvement en continu est souvent impossible. Par exemple, The Matrix peut simuler une BMW X3 roulant dans un environnement de bureau, un environnement qui n'existe ni dans les données de jeu ni dans les sources du monde réel. Cette approche met en évidence le potentiel des données de jeu pour faire progresser des modèles mondiaux robustes, comblant ainsi le fossé entre les simulations et les applications du monde réel dans des scénarios où les données sont limitées.
TLDR :Cet article présente The Matrix, un simulateur de monde réaliste fondamental capable de générer des flux vidéo haute fidélité 720p infiniment longs avec un contrôle réactif en temps réel.
Haonan Duan, Stephen Lu, Caitlin F Harrigan, Nishkrit Desai, Jiarui Lu, Michał Koziarski, Leonardo Cotta, Chris Maddison (membre du corps professoral de Vector)
La conception d'expériences et l'interprétation des résultats sont des compétences scientifiques fondamentales, en particulier en biologie, où les chercheurs perturbent des systèmes complexes afin d'en découvrir les mécanismes sous-jacents. Les efforts récents visant à évaluer les capacités scientifiques des grands modèles linguistiques (LLM) ne parviennent pas à tester ces compétences, car les expériences en laboratoire humide sont extrêmement coûteuses en termes d'expertise, de temps et d'équipement. Nous présentons SciGym, un benchmark de premier ordre qui évalue les capacités des LLM en matière de conception et d'analyse d'expériences itératives dans le cadre de tâches de découverte scientifique ouvertes. SciGym surmonte le problème du coût des laboratoires humides en exploitant un laboratoire sec de systèmes biologiques. Ces modèles, codés en langage Systems Biology Markup Language, sont efficaces pour générer des données simulées, ce qui en fait des bancs d'essai idéaux pour l'expérimentation sur des systèmes complexes réalistes. Nous avons évalué six LLM de pointe sur 137 petits systèmes et avons publié un total de 350 systèmes sur https://huggingface.co/datasets/h4duan/scigym-sbml. Notre évaluation montre que si les modèles les plus performants ont démontré des performances supérieures, les performances de tous les modèles ont considérablement diminué à mesure que la complexité du système augmentait, ce qui suggère qu'il existe une marge d'amélioration substantielle dans les capacités scientifiques des agents LLM.
TL;DR :Nous présentons un benchmark utilisant des systèmes biologiques simulés pour évaluer les capacités de découverte scientifique des LLM.
Spotlight paper
Cong Wei, Bo Sun (membre affilié de la faculté Vector), Haoyu Ma, Ji Hou, Felix Juefei-Xu, Zecheng He, Xiaoliang Dai, Luxin Zhang, Kunpeng Li, Tingbo Hou, Animesh Sinha, Peter Vajda, Wenhu Chen (membre de la faculté Vector)
Les récentes avancées en matière de génération vidéo ont permis d'obtenir un réalisme impressionnant dans les mouvements, mais elles négligent souvent la narration axée sur les personnages, une tâche cruciale pour la génération automatisée de films et d'animations. Nous présentons \textbf{Talking Characters}, une tâche plus réaliste qui permet de générer des animations de personnages parlants directement à partir de la parole et du texte. Contrairement aux têtes parlantes, Talking Characters vise à générer le portrait complet d'un ou plusieurs personnages au-delà de la région faciale. Dans cet article, nous proposons MoCha, le premier système de ce type à générer des personnages parlants. Afin d'assurer une synchronisation précise entre la vidéo et la parole, nous proposons un mécanisme d'attention audio localisée qui aligne efficacement les tokens de parole et de vidéo. Pour pallier la rareté des ensembles de données vidéo à grande échelle étiquetés par la parole, nous introduisons une stratégie d'entraînement conjoint qui exploite à la fois les données vidéo étiquetées par la parole et celles étiquetées par le texte, améliorant ainsi considérablement la généralisation à travers diverses actions des personnages. Nous concevons également des modèles de prompts structurés avec des balises de personnages, permettant pour la première fois des conversations multi-personnages avec des dialogues tour à tour, ce qui permet aux personnages générés par l'IA d'engager des conversations contextuelles avec une cohérence cinématographique. Des évaluations qualitatives et quantitatives approfondies, notamment des études d'évaluation humaine et des comparaisons de référence, démontrent que MoCha établit une nouvelle norme en matière de narration cinématographique générée par l'IA, offrant un réalisme, une contrôlabilité et une généralisation supérieurs.
TLDR :Nous présentons MoCha, le premier modèle de génération de plans de films basé sur le dialogue.
Yuanpei Gao, Qi Yan, Yan Leng, Renjie Liao (membre du corps professoral de Vector)
Si les méthodes d'apprentissage profond ont obtenu d'excellents résultats dans la prédiction des séries chronologiques, leur nature opaque et leur incapacité à modéliser explicitement les processus stochastiques sous-jacents limitent souvent leur généralisation à des données non stationnaires, en particulier en présence de changements brusques. Dans cet article, nous présentons Neural MJD, un modèle de diffusion à saut de Merton (MJD) non stationnaire basé sur un réseau neuronal. Notre modèle formule explicitement la prévision comme un problème de simulation d'équation différentielle stochastique (SDE), combinant une diffusion d'Itô non homogène dans le temps pour capturer la dynamique stochastique non stationnaire avec un processus de Poisson composé non homogène dans le temps pour modéliser les sauts brusques. Afin de permettre un apprentissage facile, nous introduisons un mécanisme de troncature de vraisemblance qui limite le nombre de sauts dans de petits intervalles de temps et fournit une limite d'erreur théorique pour cette approximation. De plus, nous proposons un solveur Euler-Maruyama avec redémarrage, qui permet d'obtenir une limite d'erreur prouvée plus faible dans l'estimation des états attendus et une variance réduite par rapport au solveur standard. Des expériences menées sur des ensembles de données synthétiques et réels démontrent que le MJD neuronal surpasse systématiquement les méthodes d'apprentissage profond et d'apprentissage statistique de pointe.
TLDR :Une nouvelle équation différentielle stochastique neuronale de diffusion avec saut de Merton pour la prédiction probabiliste de séries chronologiques.
Wenlong Deng, Yi Ren, Muchen Li, Danica J. Sutherland, Xiaoxiao Li (membre du corps professoral de Vector), Christos Thrampoulidis
L'apprentissage par renforcement (RL) est devenu populaire pour améliorer les capacités de raisonnement des grands modèles linguistiques (LLM), l'optimisation relative des politiques de groupe (GRPO) s'imposant comme un algorithme largement utilisé dans les systèmes récents. Malgré l'adoption généralisée de la GRPO, nous avons identifié un phénomène jusqu'alors inconnu que nous avons baptisé « déplacement paresseux de la probabilité » (LLD), dans lequel la probabilité de réponses correctes augmente légèrement, voire diminue, pendant l'entraînement. Ce comportement reflète un problème de désalignement récemment découvert dans l'optimisation directe des préférences (DPO), attribué à l'influence des gradients négatifs. Nous fournissons une analyse théorique de la dynamique d'apprentissage du GRPO, identifiant la source du LLD comme étant la pénalisation naïve de tous les tokens dans les réponses incorrectes avec la même force. Pour y remédier, nous développons une méthode appelée NTHR, qui réduit la pondération des pénalités sur les jetons contribuant au LLD. Contrairement aux approches précédentes basées sur le DPO, le NTHR tire parti de la structure basée sur les groupes du GRPO, en utilisant les réponses correctes comme ancres pour identifier les jetons influents. Des expériences sur des benchmarks de raisonnement mathématique démontrent que le NTHR atténue efficacement le LLD, ce qui se traduit par des gains de performance constants sur des modèles allant de 0,5 à 3 milliards de paramètres.
Stephen Obadinma, Xiaodan Zhu (membre du corps professoral de Vector)
Une confiance verbale robuste générée par les grands modèles linguistiques (LLM) est essentielle pour le déploiement des LLM afin de garantir la transparence, la confiance et la sécurité dans les interactions entre l'homme et l'IA dans de nombreuses applications à haut risque. Dans cet article, nous présentons la première étude complète sur la robustesse de la confiance verbale face aux attaques adversaires. Nous introduisons un nouveau cadre permettant d'attaquer les scores de confiance verbale à l'aide de méthodes basées à la fois sur la perturbation et le jailbreak, et montrons que ces attaques peuvent compromettre de manière significative les estimations de confiance verbale et entraîner des changements fréquents de réponses. Nous examinons diverses stratégies d'invite, tailles de modèles et domaines d'application, révélant que les méthodes actuelles d'obtention de la confiance sont vulnérables et que les techniques de défense couramment utilisées sont largement inefficaces ou contre-productives. Nos conclusions soulignent la nécessité urgente de concevoir des mécanismes plus robustes pour l'expression de la confiance dans les LLM, car même des modifications subtiles préservant la sémantique peuvent conduire à une confiance trompeuse dans les réponses.
TLDR :Étude approfondie sur la confiance verbale dans les modèles linguistiques à grande échelle (LLM), leur robustesse générale et leur utilisation comme cible d'attaques adversaires.
Spotlight paper
Sasha Voitovych, Mahdi Haghifam, Idan Attias, Gintare Karolina Dziugaite, Roi Livni, Dan Roy (membre du corps enseignant de Vector)
Dans cet article, nous étudions la nécessité de la traçabilité pour un apprentissage précis dans l'optimisation convexe stochastique (SCO) sous des géométries $\ell_p$. De manière informelle, nous disons qu'un algorithme d'apprentissage est \emph{$m$-traçable} si, en analysant sa sortie, il est possible d'identifier au moins $m$ de ses échantillons d'entraînement. Nos principaux résultats révèlent un compromis fondamental entre la traçabilité et le risque excédentaire dans la SCO. Pour chaque $p\in [1,\infty)$, nous établissons l'existence d'un seuil de risque excédentaire en dessous duquel chaque apprenant efficace en termes d'échantillons est traçable avec un nombre d'échantillons qui est une fraction constante de son échantillon d'apprentissage. Pour $p\in [1,2]$, ce seuil coïncide avec le meilleur risque excédentaire des algorithmes à confidentialité différentielle (DP), c'est-à-dire qu'au-dessus de ce seuil, il existe des algorithmes qui ne sont pas traçables, ce qui correspond à une transition de phase nette. Pour $p \in (2,\infty)$, ce seuil donne plutôt de nouvelles bornes inférieures pour l'apprentissage DP, clôturant en partie un problème ouvert dans cette configuration. Pour établir ces résultats, nous prouvons une variante clairsemée du lemme de fingerprinting, qui présente un intérêt indépendant pour la communauté.
TLDR :Nous montrons que dans l'optimisation convexe stochastique, tout algorithme permettant d'obtenir une erreur inférieure à la meilleure possible dans le cadre de la confidentialité différentielle est traçable, le nombre d'échantillons traçables correspondant à la complexité statistique de l'échantillon d'apprentissage.
Faraz Zargari, Hossein Jazi, Lyndon Hallett, Bo Sun (membre affilié de la faculté Vector), Xiaoqi Tan
Nous étudions le problème de sélection multi-classes en ligne avec des garanties d'équité de groupe, où des ressources limitées doivent être allouées à des agents arrivant séquentiellement. Nos travaux abordent deux limitations clés dans la littérature existante. Premièrement, nous introduisons un nouveau schéma d'arrondi sans perte qui garantit que l'algorithme intégral atteint les mêmes performances attendues que n'importe quelle solution fractionnaire. Deuxièmement, nous abordons explicitement les défis posés par les agents qui appartiennent à plusieurs classes. À cette fin, nous développons un algorithme aléatoire basé sur un cadre de relaxation et d'arrondi. L'algorithme calcule d'abord une solution fractionnaire à l'aide d'une approche de réservation de ressources, appelée mécanisme de « mise de côté », afin de garantir l'équité entre les classes. L'étape d'arrondi qui suit préserve ces garanties d'équité sans dégrader les performances. De plus, nous proposons une variante augmentée par l'apprentissage qui intègre des prédictions non fiables issues de l'apprentissage automatique afin de mieux équilibrer l'équité et l'efficacité dans des contextes pratiques.
Spotlight paper
Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Xie, Junli Wang, Jiaqi Deng, Xiaole Guo, Zhennan Shen, Zhuokai Li, Ryan Li, Xiaochuan Li, Junda Chen, Boyuan Zheng, Li Peihang, Fangyu Lei, Chen Wu, Ruisheng Cao, Yeqiao Fu, Dongchan Shin, Martin Shin, Hu Jiarui, Yuyan Wang, Jixuan Chen, Yuxiao Ye, Yiheng Xu, Danyang Zhang, Yipu Wang, Heng Wang, Diyi Yang, Victor Zhong (membre du corps enseignant de Vector), Y. Charles, Zhilin Yang, Tao Yu
Les modèles de langage visuel ont démontré des capacités impressionnantes en tant qu'agents d'utilisation informatique (CUA) capables d'automatiser diverses tâches informatiques. Alors que leur potentiel commercial augmente, les détails essentiels des systèmes CUA les plus performants restent confidentiels et exclusifs. Étant donné que ces agents vont de plus en plus servir d'intermédiaires dans les interactions numériques et prendre des décisions importantes en notre nom, la communauté scientifique a besoin d'avoir accès à des cadres CUA véritablement ouverts afin d'étudier leurs capacités, leurs limites et leurs risques. Pour combler cette lacune, nous proposons AgentNet, un cadre open source complet pour la mise à l'échelle des données CUA et des modèles de base. Notre cadre comprend : (1) une infrastructure d'annotation qui capture de manière transparente les démonstrations d'utilisation de l'ordinateur par l'homme ; (2) l'ensemble de données AgentNet, un ensemble de 27 000 échantillons de données d'utilisation d'ordinateurs couvrant divers systèmes d'exploitation, applications et sites web ; (3) un pipeline qui discrétise les actions continues en paires état-action et synthétise un raisonnement réflexif à longue chaîne de pensée (CoT) ; (4) une recette de formation pour la modélisation CUA évolutive ; et (5) AgentNetBench, un benchmark multidimensionnel hors ligne pour une évaluation CUA plus rapide. Notre AgentNet-7B, optimisé sur l'ensemble de données AgentNet, affiche de solides performances sur plusieurs benchmarks CUA, avec un taux de réussite de 20,1 % sur OSWorld et de 21,1 % sur WindowsAgentArena. Notre recette de formation, en particulier ses mécanismes de raisonnement avancés et son mélange stratégique de données, permet une mise à l'échelle robuste des performances avec une augmentation de la taille des données. Une analyse plus approfondie de nos modèles démontre également une forte généralisation interdomaines et une mise à l'échelle des performances avec le calcul en temps de test. Nous publierons l'outil d'annotation, les ensembles de données, le code et les modèles afin de créer des bases ouvertes pour la poursuite des recherches sur la CUA.
Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He (membre du corps professoral de Vector), Philip Torr
La création d'affiches académiques est une tâche cruciale mais difficile dans le domaine de la communication scientifique, car elle nécessite de compresser des documents longs et entrelacés en une seule page visuellement cohérente. Pour relever ce défi, nous présentons Paper2Poster, la première suite de référence et de mesures pour la création d'affiches, qui associe des articles de conférence récents à des affiches conçues par leurs auteurs et évalue les résultats sur (i) la qualité visuelle (alignement sémantique avec les affiches humaines), (ii) la cohérence textuelle (fluidité linguistique), (iii) l'évaluation holistique (six critères esthétiques et informationnels détaillés notés par un VLM en tant que juge), et notamment (iv) PaperQuiz — la capacité de l'affiche à transmettre le contenu essentiel de l'article, mesurée par les VLM qui répondent à des quiz générés. Sur la base de ce benchmark, nous proposons PosterAgent, un pipeline multi-agents descendant et visuel en boucle : (a) le parseur distille l'article en une bibliothèque d'actifs structurée ; le (b) planificateur aligne les paires texte-visuel dans une disposition en arbre binaire qui préserve l'ordre de lecture et l'équilibre spatial ; et la boucle (c) peintre-commentateur affine chaque panneau en exécutant le code de rendu et en utilisant les commentaires des VLM pour éliminer les débordements et assurer l'alignement. Dans notre évaluation complète, nous constatons que les résultats du GPT-4o, bien que visuellement attrayants à première vue, présentent souvent un texte bruité et de mauvais scores au PaperQuiz ; Nous constatons que l'engagement des lecteurs est le principal obstacle esthétique, car les affiches conçues par l'homme s'appuient largement sur la sémantique visuelle pour transmettre leur message. Notre pipeline Paper2Poster entièrement open source surpasse les systèmes basés sur GPT-4o dans presque tous les domaines, tout en consommant 87 % de jetons en moins. Ces résultats tracent des orientations claires pour la prochaine génération de modèles de génération d'affiches entièrement automatisés.
Alex Su, Haozhe Wang, Weiming Ren, Fangzhen Lin, Wenhu Chen (membre du corps professoral de Vector)
Le raisonnement en chaîne de pensées a considérablement amélioré les performances des modèles linguistiques à grande échelle (LLM) dans divers domaines. Cependant, ce processus de raisonnement a été confiné exclusivement à l'espace textuel, ce qui limite son efficacité dans les tâches à forte intensité visuelle. Pour pallier cette limitation, nous introduisons le concept de raisonnement dans l'espace pixel. Dans ce nouveau cadre, les modèles vision-langage (VLM) sont équipés d'une suite d'opérations de raisonnement visuel, telles que le zoom avant et la sélection d'images. Ces opérations permettent aux VLM d'inspecter, d'interroger et de déduire directement à partir de preuves visuelles, améliorant ainsi la fidélité du raisonnement pour les tâches visuelles. Le développement de telles capacités de raisonnement dans l'espace pixel dans les VLM présente des défis notables, notamment le déséquilibre initial des compétences du modèle et sa réticence à adopter les nouvelles opérations dans l'espace pixel. Nous relevons ces défis grâce à une approche de formation en deux phases. La première phase utilise l'ajustement des instructions sur des traces de raisonnement synthétisées afin de familiariser le modèle avec les nouvelles opérations visuelles. Ensuite, une phase d'apprentissage par renforcement (RL) exploite un système de récompense basé sur la curiosité afin d'équilibrer l'exploration entre le raisonnement dans l'espace pixel et le raisonnement textuel. Grâce à ces opérations visuelles, les VLM peuvent interagir avec des entrées visuelles complexes, telles que des images ou des vidéos riches en informations, afin de recueillir de manière proactive les informations nécessaires. Nous démontrons que cette approche améliore considérablement les performances des VLM dans divers benchmarks de raisonnement visuel. Notre modèle 7B, Pixel-Reasoner, atteint 84 % sur le benchmark V*, 74 % sur TallyQA-Complex et 84 % sur InfographicsVQA, ce qui représente la plus grande précision jamais atteinte par un modèle open source à ce jour. Ces résultats soulignent l'importance du raisonnement dans l'espace pixel et l'efficacité de notre cadre.
TLDR :Nous présentons un nouveau paradigme de raisonnement : le raisonnement dans l'espace pixel. Nous avons identifié le piège de l'apprentissage lors du développement de cette capacité et avons proposé une approche RL axée sur la curiosité pour y remédier.
Gautam Kamath (membre du corps professoral de Vector), Alireza F. Pour, Matthew Regehr, David Woodruff
Nous proposons un algorithme avec une complexité de requête améliorée pour le problème de sélection d'hypothèses sous des contraintes de confidentialité différentielle locale. Étant donné un ensemble de $k$ distributions de probabilité $Q$, nous décrivons un algorithme qui satisfait à la confidentialité différentielle locale, effectue $\tilde{O}(k^{3/2})$ requêtes non adaptatives à des individus qui ont chacun des échantillons provenant d'une distribution de probabilité $p$, et produit une distribution de probabilité à partir de l'ensemble $Q$ qui est presque la plus proche de $p$. Les algorithmes précédents nécessitaient soit $\Omega(k^2)$ requêtes, soit de nombreux cycles de requêtes interactives. Techniquement, nous introduisons un nouvel objet que nous appelons le graphe de Scheffé, qui capture la structure des différences entre les distributions dans $Q$ et qui pourrait présenter un intérêt plus large pour les tâches de sélection d'hypothèses.
Shayan Shekarforoush, David Lindell (membre affilié de la faculté Vector), Marcus Brubaker (membre de la faculté Vector), David Fleet (membre de la faculté Vector)
La cryo-microscopie électronique est un paradigme transformationnel en biologie moléculaire où des méthodes computationnelles sont utilisées pour déduire la structure moléculaire 3D à résolution atomique à partir d'images 2D extrêmement bruitées obtenues par microscope électronique. La recherche se concentre actuellement sur la manière de modéliser la structure lorsque les particules imagées présentent une flexibilité conformationnelle non rigide et des variations de composition, avec parfois des parties manquantes. Nous présentons un nouveau cadre de reconstruction 3D avec un modèle hiérarchique de mélange gaussien, inspiré en partie par le Gaussian Splatting pour la reconstruction de scènes 4D. En particulier, la structure du modèle repose sur un processus initial qui déduit une segmentation par partie de la particule, fournissant un biais inductif essentiel afin de gérer à la fois la variabilité conformationnelle et compositionnelle. Le cadre, appelé CryoSPIRE, permet de révéler des structures biologiquement significatives sur des ensembles de données expérimentales complexes et établit une nouvelle référence sur CryoBench, un benchmark pour les méthodes d'hétérogénéité cryo-EM.
TLDR :Nous présentons un modèle de densité hiérarchique basé sur un GMM sensible aux parties pour traiter la reconstruction hétérogène par cryo-EM.
Stephen Zhao, Aidan Li, Rob Brekelmans, Roger Grosse (membre du corps professoral de Vector)
Pour éviter les mauvaises sorties du modèle linguistique (LM), il existe de nombreuses approches d'alignement (par exemple, RLHF, DPO). Idéalement, nous aimerions que notre LM ait une probabilité nulle de sorties indésirables. L'apprentissage par renforcement (RL) standard permettrait d'atteindre cet objectif de manière optimale (s'il n'est pas régularisé). Cependant, dans la pratique, il peut y avoir un compromis entre les méthodes axées sur la récompense attendue (RL standard) et les méthodes explicitement axées sur la réduction de la probabilité de résultats indésirables. Notre objectif est d'améliorer ce compromis, en réduisant autant que possible la probabilité de mauvais résultats, tout en maintenant les performances en termes de récompense attendue. Pour ce faire, nous introduisons RePULSe, une nouvelle méthode d'entraînement qui augmente la perte RL standard avec une perte supplémentaire qui utilise des propositions apprises pour guider l'échantillonnage des résultats à faible récompense, puis réduit la probabilité de ces résultats. Nous menons des expériences pour tester si notre méthode permet de mieux réduire la probabilité de mauvais résultats et la robustesse adverse, à un coût minimal pour la récompense attendue, par rapport aux approches d'alignement RL standard et à d'autres alternatives.
Xiaoli Tang, Han Yu, Xiaoxiao Li (membre du corps professoral de Vector)
L'apprentissage fédéré basé sur les enchères (AFL) favorise la collaboration entre les consommateurs de données (DC) et les propriétaires de données (DO) qui poursuivent leurs propres intérêts. L'un des principaux défis de l'AFL concerne la manière dont les DC sélectionnent les DO et enchérissent pour les obtenir. Les méthodes existantes sont généralement statiques, ce qui les rend peu adaptées aux marchés AFL dynamiques. Pour remédier à ce problème, nous proposons la stratégie d'enchères basée sur l'apprentissage par renforcement pour les DC dans l'apprentissage fédéré basé sur les enchères (RLB-AFL). Nous intégrons les états historiques dans un réseau Q profond afin de capturer les informations séquentielles essentielles aux décisions d'enchères. Pour atténuer la rareté de l'espace d'états, où des états spécifiques se reproduisent rarement pour chaque DC pendant les enchères, nous intégrons le modèle de mélange gaussien dans le RLB-AFL. Cela facilite le regroupement souple des états séquentiels, réduisant la dimensionnalité de l'espace d'états et facilitant l'exploration et l'approximation de la fonction de valeur d'action. En outre, nous améliorons la politique $\epsilon$-greedy afin d'aider l'agent RLB-AFL à équilibrer l'exploitation et l'exploration, ce qui lui permet d'être plus adaptable dans le processus décisionnel AFL. Des expériences approfondies menées sur 6 ensembles de données de référence largement utilisés démontrent que le RLB-AFL atteint des performances supérieures à celles de 8 approches de pointe. Il surpasse la meilleure référence de 10,56 % et 3,15 % en termes d'utilité totale moyenne.
Viet Nguyen, Changjian Shui, Vijay Giri, Siddharth Arya, Amol Verma (membre affilié à la faculté Vector), Fahad Razak (membre affilié à la faculté Vector), Rahul Krishnan (membre de la faculté Vector)
La distribution des données évolue au fil du temps ; les modèles fonctionnant dans des environnements dynamiques doivent être réentraînés. Mais savoir quand les réentraîner, sans avoir accès aux étiquettes, reste un défi, car certains changements, mais pas tous, dégradent les performances des modèles. Cet article formalise et aborde le problème de la surveillance de la détérioration post-déploiement (PDD). Nous proposons D3M, un algorithme de surveillance pratique et efficace basé sur le désaccord des modèles prédictifs, qui permet d'obtenir de faibles taux de faux positifs dans le cas de changements non dégradants et fournit des limites de complexité d'échantillonnage pour des taux de vrais positifs élevés dans le cas de changements dégradants. Les résultats empiriques obtenus à la fois sur un benchmark standard et sur un ensemble de données internes à grande échelle issues du monde réel démontrent l'efficacité du cadre et soulignent sa viabilité en tant que mécanisme d'alerte pour les pipelines d'apprentissage automatique à haut risque.
TLDR :D-PDDM surveille de manière vérifiable la détérioration du modèle sans nécessiter de données d'entraînement pendant le déploiement, et fonctionne bien avec des ensembles de données réels.
Guillaume Vray, Devavrat Tomar, Xufeng Gao, Jean-Philippe Thiran, Evan Shelhamer (membre du corps professoral de Vector), Behzad Bozorgtabar
Cet article présente **ReservoirTTA**, un nouveau cadre de plug-in conçu pour l'adaptation prolongée en temps de test (TTA) dans des scénarios où le domaine de test change continuellement au fil du temps, y compris dans les cas où les domaines se répètent ou évoluent progressivement. À la base, ReservoirTTA maintient un réservoir de modèles spécialisés par domaine (un ensemble de modèles adaptatifs en temps de test) qui détecte les nouveaux domaines via un regroupement en ligne des caractéristiques stylistiques des échantillons entrants et achemine chaque échantillon vers le modèle spécialisé approprié, permettant ainsi une adaptation spécifique au domaine. Cette stratégie multi-modèles surmonte les principales limites de l'adaptation à modèle unique, telles que l'oubli catastrophique, l'interférence entre domaines et l'accumulation d'erreurs, garantissant des performances robustes et stables sur des distributions de tests non stationnaires soutenues. Notre analyse théorique révèle les composants clés qui limitent la variance des paramètres et empêchent l'effondrement du modèle, tandis que notre module TTA plug-in atténue l'oubli catastrophique des domaines précédemment rencontrés. Des expériences approfondies sur les benchmarks de corruption de classification, notamment ImageNet-C et CIFAR-10/100-C, ainsi que sur la tâche de segmentation sémantique Cityscapes→ACDC, couvrant des changements de domaine récurrents et en constante évolution, démontrent que ReservoirTTA améliore considérablement la précision de l'adaptation et maintient des performances stables lors de changements prolongés et récurrents, surpassant les méthodes de pointe. Le code sera publié dès son acceptation.
TLDR :ReservoirTTA étend l'adaptation en temps de test à l'adaptation de modèles multiples grâce à un réservoir complet de modèles spécialisés dans un domaine donné, permettant une adaptation robuste prolongée/à long terme.
Robin Yadav, Qi Yan, Guy Wolf, Joey Bose, Renjie Liao (membre du corps professoral de Vector)
L'un des défis fondamentaux de la chimie organique consiste à identifier et à prédire la séquence de réactions qui synthétisent une molécule cible souhaitée. En raison de la nature combinatoire de l'espace de recherche chimique, la prédiction des réactifs en une seule étape, c'est-à-dire la rétrosynthèse en une seule étape, reste difficile, même pour les méthodes génératives de pointe sans modèle. Ces modèles ont souvent du mal à produire un ensemble précis mais diversifié de réactions réalisables d'une manière chimiquement rationnelle. Dans cet article, nous proposons RETRO SYNFLOW (RSF), un cadre de correspondance de flux discret qui formule la rétrosynthèse en une seule étape comme un pont de Markov entre une molécule de produit donnée et ses réactifs correspondants. Contrairement aux approches précédentes, RSF introduit une étape d'identification du centre de réaction afin d'extraire des structures intermédiaires, ou synthons, qui servent de source de distribution plus informative et structurée pour le modèle de flux discret. Afin d'améliorer encore la diversité et la faisabilité chimique des échantillons générés, RSF intègre le pilotage Feynman-Kac (FK) avec un rééchantillonnage séquentiel Monte Carlo (SMC) au moment de l'inférence. Cette approche exploite un oracle de récompense de synthèse directe appris pour guider le processus de génération vers des candidats réactifs plus prometteurs. Empiriquement, RSF surpasse largement les méthodes de pointe précédentes en termes de précision top-1. De plus, le pilotage FK améliore considérablement la précision aller-retour, démontrant une validité chimique et une faisabilité synthétique plus fortes, tout en conservant des performances compétitives en termes de top-k. Ces résultats font de RSF une nouvelle approche de pointe pour la prédiction de la rétrosynthèse en une seule étape.
Shuangyi Chen, Yuanxin Guo, Yue Ju, Hardik Dalal, Zhongwen Zhu, Ashish Khisti (membre affilié à la faculté Vector)
Les méthodes de réglage fin efficace des paramètres (PEFT), telles que l'adaptation de rang faible (LoRA), optimisent l'apprentissage fédéré en réduisant les coûts de calcul et de communication. Nous proposons RoLoRA, un cadre fédéré utilisant l'optimisation alternée pour affiner les adaptateurs LoRA. Notre approche souligne l'importance d'apprendre les matrices de projection ascendante et descendante afin d'améliorer l'expressivité et la robustesse. Nous utilisons à la fois une analyse théorique et des expériences approfondies pour démontrer les avantages de RoLoRA par rapport aux approches antérieures qui génèrent des mises à jour de modèles imparfaites ou limitent l'expressivité du modèle. Nous fournissons une analyse théorique sur un modèle linéaire afin de souligner l'importance de l'apprentissage des matrices de projection descendante et ascendante dans LoRA. Nous validons ces conclusions sur un modèle non linéaire et fournissons séparément une preuve de convergence dans des conditions générales. Afin de faire le lien entre la théorie et la pratique, nous avons mené des évaluations expérimentales approfondies sur des modèles linguistiques, notamment RoBERTa-Large et Llama-2-7B, dans le cadre de tâches diverses et de paramètres FL, afin de démontrer les avantages de RoLoRA par rapport à d'autres méthodes.
TLDR :RoLoRA améliore l'optimisation alternée fédérée de LoRA, renforçant ainsi son expressivité et sa robustesse. Il réduit les coûts de communication de moitié et surpasse les alternatives.
Qiao Gu, Yuanliang Ju, Shengxiang Sun, Igor Gilitschenski (membre du corps professoral de Vector), Haruki Nishimura, Masha Itkina, Florian Shkurti (membre du corps professoral de Vector)
Si les modèles vision-langage-action (VLA) ont démontré des comportements robotiques prometteurs dans un ensemble varié de tâches de manipulation, leur taux de réussite reste limité lorsqu'ils sont déployés sur des tâches nouvelles dès leur sortie de l'emballage. Pour permettre à ces politiques d'interagir en toute sécurité avec leur environnement, nous avons besoin d'un détecteur de défaillance qui émette une alerte en temps utile afin que le robot puisse s'arrêter, revenir en arrière ou demander de l'aide. Cependant, les détecteurs de défaillance existants sont formés et testés uniquement sur une ou quelques tâches spécifiques, alors que les VLA exigent que le détecteur généralise et détecte également les défaillances dans des tâches inédites et des environnements nouveaux. Dans cet article, nous présentons le problème de la détection multitâche des défaillances et proposons SAFE, un détecteur de défaillance pour les politiques robotiques généralistes telles que les VLA. Nous analysons l'espace des caractéristiques des VLA et constatons que les VLA disposent de connaissances de haut niveau suffisantes sur la réussite et l'échec des tâches, qui sont génériques à différentes tâches. Sur la base de cette observation, nous concevons SAFE pour apprendre à partir des caractéristiques internes des VLA et prédire un seul scalaire indiquant la probabilité d'échec d'une tâche. SAFE est formé à la fois sur des déploiements réussis et échoués, et est évalué sur des tâches inédites. SAFE est compatible avec différentes architectures de politiques. Nous le testons de manière approfondie sur OpenVLA, $\pi_0$ et $\pi_0$-FAST dans des environnements simulés et réels. Nous comparons SAFE à diverses références et montrons que SAFE atteint des performances de pointe en matière de détection des échecs et offre le meilleur compromis entre précision et temps de détection grâce à la prédiction conforme.
Christopher Chiu, Silviu Pitis (chercheur postdoctoral en sécurité de l'IA au CIFAR), Mihaela van der Schaar
Le raisonnement clinique en médecine est un processus fondé sur des hypothèses dans lequel les médecins affinent leurs diagnostics à partir d'informations limitées grâce à des antécédents ciblés, des examens physiques et des investigations diagnostiques. En revanche, les références médicales actuelles pour les grands modèles linguistiques (LLM) évaluent principalement la mémorisation des connaissances à travers des questions à réponse unique, où des informations cliniques complètes sont fournies à l'avance. Pour combler cette lacune, nous présentons VivaBench, une référence à réponses multiples qui évalue le raisonnement clinique séquentiel dans les agents LLM. Notre ensemble de données comprend 1 762 vignettes cliniques sélectionnées par des médecins, structurées sous forme de scénarios interactifs qui simulent un examen oral dans le cadre d'une formation médicale. Les agents doivent rechercher activement les résultats pertinents, sélectionner les examens appropriés et synthétiser les informations à travers plusieurs étapes pour parvenir à un diagnostic. Si les LLM actuels démontrent leur compétence dans le diagnostic de pathologies à partir de présentations cliniques bien décrites, leurs performances se dégradent considérablement lorsqu'ils doivent naviguer dans un raisonnement diagnostique itératif dans un contexte d'incertitude, comme le montre notre évaluation. Notre analyse a identifié plusieurs modes de défaillance qui reflètent des erreurs cognitives courantes dans la pratique clinique, notamment : (1) la fixation sur les hypothèses initiales, (2) l'ordonnancement inapproprié des examens, (3) la conclusion prématurée du diagnostic et (4) l'incapacité à dépister les affections graves. Ces schémas révèlent les limites fondamentales des LLM actuels dans leur raisonnement et leur prise de décision dans des conditions d'incertitude. Grâce à VivaBench, nous fournissons un référentiel standardisé pour évaluer les systèmes d'IA médicale conversationnelle destinés à l'aide à la décision clinique dans le monde réel. Au-delà des applications médicales, nous contribuons à l'ensemble plus large de la recherche sur l'IA agentielle en démontrant comment les trajectoires de raisonnement séquentiel peuvent diverger dans des environnements décisionnels complexes.
TL;DR :Nous présentons VivaBench, un benchmark extensible qui simule des conversations médicales à plusieurs tours. Nous démontrons que les agents LLM ont des connaissances cliniques, mais que leur capacité à recueillir des informations et à établir un diagnostic à partir de présentations incomplètes est limitée.
Weiming Liu, Xinting Liao (chercheur postdoctoral distingué Vector), Jun Dan, Fan Wang, Hua Yu, Junhao Dong, Shunjie Dong, Lianyong Qi, Yew Soon Ong
Le transport optimal semi-déséquilibré (SemiUOT) semble très prometteur pour faire correspondre deux mesures de probabilité en assouplissant l'une des contraintes marginales. Les solveurs précédents intègrent souvent un terme de régularisation de l'entropie, ce qui peut donner lieu à des solutions de correspondance inexactes. Pour remédier à ce problème, nous nous concentrons sur la détermination de la distribution de probabilité marginale du SemiUOT avec divergence KL à l'aide de l'approche proposée du mécanisme de transformation équivalente (ETM). De plus, nous étendons la méthode basée sur l'ETM afin d'exploiter la distribution de probabilité marginale du transport optimal déséquilibré (UOT) avec divergence KL pour valider sa généralisation. Une fois les probabilités marginales de l'UOT/SemiUOT déterminées, elles peuvent être transformées en un problème de transport optimal (OT) classique. De plus, nous proposons un terme de régularisation KKT-Multiplier combiné à un transport optimal régularisé par multiplicateur (MROT) afin d'obtenir des résultats de correspondance plus précis. Nous menons plusieurs expériences numériques afin de démontrer l'efficacité des méthodes que nous proposons pour traiter les problèmes UOT/SemiUOT.
TLDR :Nous proposons un mécanisme de transformation équivalent avec régularisation par multiplicateur KKT pour résoudre les problèmes SemiUOT et UOT.
Spotlight paper
Hossein Goli, Michael Gimelfarb, Nathan de Lara, Haruki Nishimura, Masha Itkina, Florian Shkurti (membre du corps professoral de Vector)
L'évaluation hors politique (OPE) estime les performances d'une politique cible à l'aide de données hors ligne collectées à partir d'une politique comportementale. Elle est cruciale dans des domaines tels que la robotique ou les soins de santé, où l'interaction directe avec l'environnement est coûteuse ou dangereuse. Les méthodes OPE existantes sont inefficaces pour les problèmes à haute dimension et à long terme, en raison de l'augmentation exponentielle de la variance due à la pondération par importance ou aux erreurs composées des modèles dynamiques appris. Pour relever ces défis, nous proposons STITCH-OPE, un cadre génératif basé sur un modèle qui exploite la diffusion par débruitage pour l'OPE à long terme dans des espaces d'états et d'actions à haute dimension. À partir d'un modèle de diffusion pré-entraîné sur les données comportementales, STITCH-OPE génère des trajectoires synthétiques à partir de la politique cible en guidant le processus de débruitage à l'aide de la fonction de score de la politique cible. STITCH-OPE propose deux innovations techniques qui le rendent avantageux pour l'OPE : (1) il empêche la surrégularisation en soustrayant le score de la politique comportementale pendant le guidage, et (2) il génère des trajectoires à long terme en assemblant des trajectoires partielles de bout en bout. Nous fournissons une garantie théorique selon laquelle, sous des hypothèses modérées, ces modifications entraînent une réduction exponentielle de la variance par rapport à la diffusion de trajectoires à long terme. Les expériences menées sur les benchmarks D4RL et OpenAI Gym montrent une amélioration substantielle des mesures d'erreur quadratique moyenne, de corrélation et de regret par rapport aux méthodes OPE de pointe.
TLDR :Nous présentons STITCH-OPE, un cadre de diffusion guidée pour l'évaluation hors politique qui assemble de courtes sous-trajectoires conditionnées par le comportement, utilise des indications de comportement négatif pour corriger le décalage de distribution et surpasse les références pour tous les indicateurs.
Javad Rajabi, Soroush Mehraban, Seyedmorteza Sadat, Babak Taati (membre affilié à la faculté Vector)
Le guidage sans classificateur (CFG) est devenu un élément essentiel des modèles de diffusion modernes pour améliorer à la fois la qualité de la génération et l'alignement avec les conditions d'entrée. Cependant, le CFG nécessite des procédures d'entraînement spécifiques et se limite à la génération conditionnelle. Pour pallier ces limites, nous proposons le guidage par perturbation des tokens (TPG), une nouvelle méthode qui applique des matrices de perturbation directement aux représentations intermédiaires des tokens au sein du réseau de diffusion. Le TPG utilise une opération de mélange préservant la norme pour fournir des signaux de guidage efficaces et stables qui améliorent la qualité de la génération sans modifier l'architecture. Par conséquent, le TPG ne nécessite aucun apprentissage et est indépendant des conditions d'entrée, ce qui le rend facilement applicable à la génération conditionnelle et inconditionnelle. Nous analysons également le terme de guidage fourni par le TPG et montrons que son effet sur l'échantillonnage ressemble davantage au CFG qu'aux techniques de guidage sans apprentissage existantes. Nous évaluons de manière approfondie TPG sur SDXL et Stable Diffusion 2.1, démontrant une amélioration de près de 2 fois du FID pour la génération inconditionnelle par rapport à la base de référence SDXL et montrant que TPG correspond étroitement au CFG en termes d'alignement rapide. Ainsi, TPG représente une méthode de guidage générale et indépendante des conditions qui étend les avantages du CFG à une classe plus large de modèles de diffusion.
TLDR :Le Token Perturbation Guidance (TPG) est un nouveau cadre qui applique des perturbations directement dans l'espace des jetons afin de guider le processus d'échantillonnage par diffusion.
Shuhong Zheng, Ashkan Mirzaei, Igor Gilitschenski (membre du corps professoral de Vector)
Les méthodes actuelles de génération 3D/4D sont généralement optimisées pour le photoréalisme, l'efficacité et l'esthétique. Cependant, elles ne parviennent souvent pas à préserver l'identité sémantique du sujet à travers différents points de vue. L'adaptation des méthodes de génération à partir d'une ou de quelques images d'un sujet spécifique (également appelée personnalisation ou génération axée sur le sujet) permet de générer un contenu visuel qui correspond à l'identité du sujet. Cependant, la génération 3D/4D personnalisée est encore largement sous-explorée. Dans ce travail, nous présentons TIRE (Track, Inpaint, REsplat), une nouvelle méthode de génération 3D/4D axée sur le sujet. Elle prend comme entrée un élément 3D initial produit par un modèle génératif 3D existant et utilise le suivi vidéo pour identifier les régions qui doivent être modifiées. Ensuite, nous adoptons un modèle de remplissage 2D axé sur le sujet pour remplir progressivement les régions identifiées. Enfin, nous replaçons les observations multi-vues 2D modifiées en 3D tout en conservant la cohérence. Des expériences approfondies démontrent que notre approche améliore considérablement la préservation de l'identité dans la génération 3D/4D par rapport aux méthodes de pointe.
TLDR :Nous présentons TIRE, une nouvelle méthode de génération 3D/4D axée sur le sujet qui préserve bien l'identité.
Jing Dong, Baoxiang Wang, Yaoliang Yu (membre du corps professoral de Vector)
Nous étudions le problème des algorithmes d'apprentissage sans regret pour les jeux monotones et lisses généraux et leurs propriétés de convergence à la dernière itération. Plus précisément, nous étudions le problème dans le cadre d'un retour d'information bandit et d'une dynamique fortement découplée, ce qui permet un développement modulaire du système multi-joueurs applicable à un large éventail d'applications réelles. Nous proposons un algorithme basé sur la descente miroir, qui converge en $O(T^{-1/4})$ et qui est également sans regret. Ce résultat est obtenu grâce à l'utilisation spécifique de deux régularisations et à l'analyse de leur point fixe. Le taux de convergence est encore amélioré à $O(T^{-1/2})$ dans le cas de jeux fortement monotones. Motivé par des tâches pratiques où le jeu évolue au fil du temps, l'algorithme est étendu aux jeux monotones variant dans le temps. Nous fournissons le premier résultat non asymptotique dans les jeux monotones convergents et donnons des résultats améliorés pour les jeux de suivi d'équilibre.
Spotlight paper
Benjamin Cookson, Nisarg Shah (membre affilié de la faculté Vector), Ziqi Yu
Les critères d'équité proportionnelle inspirés des idéaux démocratiques de la représentation proportionnelle ont fait l'objet d'une attention croissante dans la littérature sur le regroupement. Des travaux antérieurs les ont étudiés dans deux paradigmes distincts. Chen et al. [ICML 2019] étudient le « regroupement par centroïde », dans lequel la perte de chaque point de données est déterminée par sa distance par rapport à un point représentatif (centroïde) choisi dans son groupe. Caragiannis et al. [NeurIPS 2024] étudient le « regroupement non centroid », dans lequel la perte de chaque point de données est déterminée par sa distance maximale par rapport à tout autre point de données de son cluster. Nous généralisons ces deux paradigmes pour introduire le « semi-centroid clustering », dans lequel la perte de chaque point de données est une combinaison de ses pertes centroid et non-centroid, et étudions deux critères de proportionnalité : le « core » et son assouplissement, la « fully justified representation » (FJR). Notre principal résultat est un algorithme novateur qui permet d'obtenir une approximation constante du noyau, en temps polynomial, même lorsque les mesures de distance utilisées pour les pertes centroid et non centroid sont différentes. Nous obtenons également des résultats améliorés pour des fonctions de perte plus restrictives et le critère FJR plus faible, et établissons des limites inférieures dans chaque cas.
TLDR :Nous concevons des méthodes de regroupement proportionnellement équitables lorsque la fonction de perte de chaque agent est déterminée à la fois par sa distance par rapport aux autres agents de son groupe et par rapport à un agent représentatif de son groupe.
Spotlight paper
Kai He, Ruofan Liang, Jacob Munkberg, Jon Hasselgren, Nandita Vijaykumar (membre du corps professoral de Vector), Alexander Keller, Sanja Fidler (membre du corps professoral de Vector), Igor Gilitschenski (membre du corps professoral de Vector), Zan Gojcic, Zian Wang
Nous relevons le défi de rééclairer une seule image ou vidéo, une tâche qui exige une compréhension précise de la scène et une synthèse de transport de lumière de haute qualité. Les modèles de rééclairage de bout en bout existants sont souvent limités par la rareté des données multi-éclairage appariées, ce qui restreint leur capacité à généraliser à travers diverses scènes. À l'inverse, les pipelines en deux étapes qui combinent le rendu inverse et le rendu direct peuvent réduire les besoins en données, mais sont susceptibles d'accumuler des erreurs et échouent souvent à produire des résultats réalistes dans des conditions d'éclairage complexes ou avec des matériaux sophistiqués. Dans ce travail, nous présentons une approche polyvalente qui estime conjointement l'albédo et synthétise les résultats rééclairés en un seul passage, en exploitant les capacités génératives des modèles de diffusion vidéo. Cette formulation conjointe améliore la compréhension implicite des scènes et facilite la création d'effets d'éclairage réalistes et d'interactions complexes entre les matériaux, telles que les ombres, les reflets et la transparence. Entraîné sur des données synthétiques multi-éclairage et de nombreuses vidéos du monde réel étiquetées automatiquement, notre modèle fait preuve d'une forte généralisation dans divers domaines et surpasse les méthodes précédentes en termes de fidélité visuelle et de cohérence temporelle.
Zhihao Li, Jiale Cai, Gezheng Xu, Hao Zheng, Qiuyue Li, Fan Zhou, Shichun Yang, Charles Ling, Boyu Wang (membre affilié à la faculté Vector)
La croissance rapide des données accessibles au public a favorisé les progrès en matière d'apprentissage profond, mais soulève également des inquiétudes quant à l'utilisation non autorisée des données. Les exemples non apprenables (UE) sont apparus comme une stratégie de protection des données qui introduit des perturbations imperceptibles afin d'empêcher tout apprentissage non autorisé. Cependant, la plupart des méthodes UE existantes produisent des perturbations fortement liées à des ensembles d'entraînement spécifiques, ce qui entraîne une baisse significative de la non-apprenabilité lorsqu'elles sont appliquées à des données ou des tâches inconnues. Dans cet article, nous soutenons que pour une large applicabilité, les UE doivent conserver leur efficacité dans divers scénarios d'application. À cette fin, nous menons la première étude complète sur la transférabilité des UE dans des contextes diversifiés, pratiques mais exigeants. Plus précisément, nous identifions les scénarios clés qui posent des défis importants pour les méthodes UE existantes, notamment les styles variables, les classes hors distribution, les résolutions et les architectures. De plus, nous proposons le $\textbf{Versatile Transferable Generator}$ (VTG), un générateur transférable conçu pour protéger les données dans diverses conditions. Plus précisément, le VTG intègre l'augmentation du domaine antagoniste dans le processus d'entraînement du générateur afin de synthétiser des échantillons hors distribution, améliorant ainsi sa généralisation à des scénarios inconnus. En outre, nous proposons un mécanisme de couplage perturbation-étiquette qui exploite l'apprentissage contrastif pour aligner directement les perturbations avec les étiquettes de classe. Cette approche réduit la dépendance du générateur à la sémantique des données, permettant au VTG de produire des perturbations non apprenables d'une manière indépendante de la distribution. Des expériences approfondies démontrent l'efficacité et la large applicabilité de notre approche.
TLDR :Un générateur de perturbations polyvalent qui rend l'apprentissage impossible dans divers scénarios.
Spotlight paper
Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen (membre du corps professoral de Vector)
Récemment, des systèmes à réflexion lente tels que GPT-o1 et DeepSeek-R1 ont démontré un grand potentiel pour résoudre des problèmes complexes grâce à une réflexion explicite. Ils surpassent largement les meilleurs modèles à réflexion rapide, tels que GPT-4o, dans divers benchmarks mathématiques et scientifiques. Cependant, leurs capacités de raisonnement multimodal restent équivalentes à celles des modèles à réflexion rapide. Par exemple, les performances de GPT-o1 sur des benchmarks tels que MathVista, MathVerse et MathVision sont similaires à celles des modèles à réflexion rapide. Dans cet article, nous visons à améliorer les capacités de réflexion lente des modèles de vision-langage à l'aide de l'apprentissage par renforcement (sans recourir à la distillation) afin de faire progresser l'état de l'art. Tout d'abord, nous adaptons l'algorithme GRPO à l'aide d'une nouvelle technique appelée Selective Sample Replay (SSR) afin de résoudre le problème de la disparition des avantages. Bien que cette approche donne de bons résultats, les modèles formés par RL qui en résultent présentent une capacité limitée d'autoréflexion ou d'autovérification. Afin d'encourager davantage la réflexion lente, nous introduisons le Forced Rethinking, qui ajoute un jeton de déclenchement de réflexion à la fin des déploiements dans l'apprentissage par renforcement, imposant explicitement une étape de raisonnement par autoréflexion. En combinant ces deux techniques, notre modèle, VL-Rethinker, améliore les scores de pointe sur MathVista et MathVerse pour atteindre respectivement 80,4 % et 63,5 %. VL-Rethinker atteint également le SoTA open source sur des benchmarks multidisciplinaires tels que MathVision, MMMU-Pro, EMMA et MEGA-Bench, réduisant ainsi l'écart avec OpenAI-o1. Nous effectuons des ablations et des analyses complètes afin de fournir des informations sur l'efficacité de notre approche.
Stephan Rabanser, Nicolas Papernot (membre du corps professoral de Vector)
Les classificateurs sélectifs améliorent la fiabilité en s'abstenant sur les entrées incertaines, mais leurs performances sont souvent inférieures à celles de l'oracle d'ordonnancement parfait qui accepte les exemples dans l'ordre exact de leur exactitude. Nous formulons cette lacune comme un écart de couverture uniforme de la classification sélective et prouvons la première décomposition d'échantillon fini qui identifie cinq sources distinctes de laxisme : le bruit bayésien, l'erreur d'approximation, l'erreur de classement, le bruit statistique et le laxisme induit par la mise en œuvre ou le décalage. Notre limite montre que l'étalonnage monotone a posteriori ne peut pas réduire l'écart, car il préserve l'ordre des scores d'origine ; pour combler cet écart, il faut donc des mécanismes de notation capables de modifier le classement induit par le modèle de base. Nous validons notre décomposition de l'écart sur des données synthétiques à deux lunes et des benchmarks de vision réels, en isolant chaque composante d'erreur via des expériences contrôlées. Les résultats confirment que (i) le bruit bayésien et la capacité limitée du modèle expliquent à eux seuls les écarts importants, (ii) seuls les calibrateurs non monotones ou sensibles aux caractéristiques réduisent le terme de classement, et (iii) le décalage de distribution ajoute un écart distinct qui doit être traité par un apprentissage robuste. Notre décomposition fournit un budget d'erreur quantitatif et des directives de conception concrètes pour la création de classificateurs sélectifs qui se rapprochent du comportement idéal d'un oracle.
TLDR :Nous décomposons l'écart entre les classificateurs sélectifs et l'oracle idéal en cinq sources mesurables, montrant que seules les méthodes de notation non monotones peuvent le réduire et améliorer la fiabilité.
Sang Keun Choe, Hwijeen Ahn, Juhan Bae, Kewen Zhao, Youngseog Chung, Adithya Pratapa, Willie Neiswanger, Emma Strubell, Teruko Mitamura, Jeff Schneider, Eduard Hovy, Roger Grosse (membre du corps professoral de Vector), Eric Xing
Les grands modèles linguistiques (LLM) sont entraînés à partir d'une quantité considérable de données écrites par des humains, mais les fournisseurs de données restent souvent anonymes. Pour répondre à ce problème, l'évaluation des données (ou attribution des données), qui quantifie la contribution ou la valeur de chaque donnée au résultat du modèle, a été envisagée comme une solution potentielle. Néanmoins, l'application des méthodes d'évaluation des données existantes aux LLM récents et à leurs vastes ensembles de données d'entraînement a été largement limitée par des coûts de calcul et de mémoire prohibitifs. Dans ce travail, nous nous concentrons sur les fonctions d'influence, une méthode populaire d'évaluation des données basée sur les gradients, et améliorons considérablement leur évolutivité grâce à une stratégie efficace de projection des gradients appelée LoGra, qui exploite la structure des gradients dans la rétropropagation. Nous fournissons ensuite une motivation théorique des approches de projection des gradients aux fonctions d'influence afin de promouvoir la confiance dans le processus d'évaluation des données. Enfin, nous réduisons les obstacles à la mise en œuvre de systèmes d'évaluation des données en introduisant LogIX, un progiciel qui permet de transformer le code d'entraînement existant en code d'évaluation des données avec un minimum d'efforts. Dans nos expériences d'évaluation des données, LoGra atteint une précision compétitive par rapport à des références plus coûteuses, tout en affichant une amélioration jusqu'à 6 500 fois supérieure en termes de débit et une réduction de 5 fois de l'utilisation de la mémoire GPU lorsqu'il est appliqué à Llama3-8B-Instruct et à l'ensemble de données 1B-token.
TLDR :Nous adaptons la méthode d'évaluation des données basée sur la fonction d'influence aux modèles linguistiques récents (LLM) et à leurs énormes ensembles de données d'entraînement.
Alireza Mousavi-Hosseini, Clayton Sanford, Denny Wu, Murat Erdogdu (membre du corps professoral de Vector)
Les efforts théoriques visant à prouver les avantages des Transformers par rapport aux architectures classiques telles que les réseaux neuronaux feedforward et récurrents se sont principalement concentrés sur la puissance de représentation. Dans ce travail, nous adoptons une perspective alternative et démontrons que même avec une puissance de calcul infinie, les réseaux feedforward et récurrents peuvent souffrir d'une plus grande complexité d'échantillonnage par rapport aux Transformers, car ces derniers peuvent s'adapter à une forme de parcimonie dynamique. Plus précisément, nous considérons un modèle de génération de données séquence-à-séquence sur des séquences de longueur $N$, où la sortie à chaque position ne dépend que de $q \ll N$ tokens pertinents, et où les positions de ces tokens sont décrites dans l'invite d'entrée. Nous prouvons qu'un Transformer à une seule couche peut apprendre ce modèle si et seulement si son nombre de têtes d'attention est au moins égal à $q$, auquel cas il atteint une complexité d'échantillonnage presque indépendante de $N$, tandis que les réseaux récurrents nécessitent $N^{\Omega(1)}$ échantillons pour le même problème. Si nous simplifions ce modèle, les réseaux récurrents peuvent atteindre une complexité presque indépendante de $N$, tandis que les réseaux feedforward nécessitent toujours $N$ échantillons. Notre modèle de recherche clairsemée illustre une hiérarchie naturelle dans la complexité de l'échantillonnage entre ces architectures.
TLDR :Nous démontrons une séparation purement statistique entre les Transformers et d'autres architectures telles que les réseaux feedforward et récurrents, les Transformers étant plus efficaces en termes d'échantillonnage pour l'apprentissage de modèles de séquences clairsemées.