Les chercheurs en vecteurs font avancer les frontières de l’IA avec 80 articles au NeurIPS 2025

2 décembre 2025

Recherche de recherche 20252025

Des chercheurs de la communauté dynamique de Vector présentent des travaux novateurs couvrant tout le spectre de l’intelligence artificielle lors de la conférence de cette année sur les systèmes de traitement de l’information neuronale (NeurIPS), qui se tiendra du 2 au 7 décembre à San Diego et du 30 novembre au 5 décembre à Mexico. La conférence demeure le lieu de référence mondial pour la recherche sur le traitement de l’information neuronale, réunissant la communauté mondiale travaillant sur les fondements théoriques et les applications pratiques qui façonnent l’avenir de l’IA.

Les contributions à la recherche des membres du corps professoral Vector, des membres affiliés du corps professoral et des boursiers postdoctoraux distingués à NeurIPS 2025 démontrent la profondeur et l’étendue de l’innovation issues de notre écosystème de recherche remarquable. Leur travail reconnu couvre des domaines critiques – des modèles de fondation de nouvelle génération et des systèmes génératifs basés sur la diffusion aux percées en apprentissage par renforcement et approches fédérées préservant la vie privée – reflétant un engagement commun à faire progresser à la fois la science fondamentale de l’apprentissage automatique et le développement de systèmes d’IA fiables qui répondent aux défis réels.

Vous trouverez ci-dessous 80 articles acceptés, incluant des collaborations, provenant de membres du corps professoral de Vector, d’affiliés du corps professoral de Vector et de boursiers postdoctoraux distingués de Vector.

ActiveVOO : La valeur de l’information a guidé l’acquisition active de connaissances pour la planification de régression élevée incarnée en monde ouvert

Xiatoian Liu, Ali Pesaranghader, Jaehong Kim, Tanmana Sadhu, Hyejeong Jeon, Scott Sanner (affilié du corps professoral Vector)

Résumé

La capacité d’acquérir activement de l’information est essentielle pour la planification en monde ouvert sous observabilité partielle et connaissances incomplètes. Les systèmes d’IA incarnée existants reposent généralement sur des stratégies passives qui collectent de manière exhaustive des informations objetuelles et relationnelles. Cependant, une telle acquisition passive de connaissances devient impraticable dans des domaines visuellement complexes. Par exemple, un foyer typique peut contenir des centaines d’objets configurés de façon unique avec des configurations uniques. Par conséquent, les agents en monde ouvert doivent être capables d’identifier activement quels objets sont pertinents pour la tâche à accomplir. Dans ce travail, nous présentons ActiveVOI, un cadre zero-shot novateur pour la planification incarnée en monde ouvert qui met l’accent sur l’acquisition active de connaissances centrée sur l’objet. ActiveVOI utilise la régression élevée pour générer des descriptions compactes de sous-objectifs qui identifient les objets pertinents pour la tâche. Il propose également une approche de principe pour quantifier l’utilité des objets sensibles en utilisant la théorie de la valeur de l’information (VOI), guidée par des connaissances de bon sens issues de grands modèles langage et vision-langage (LLM/VLM). ActiveVOI est évalué selon le benchmark visuel ALFWorld, montrant des améliorations substantielles par rapport aux méthodes de planification existantes basées sur LLM et VLM, et surpassant même les VLM affinés sur les données ALFWorld. Ce travail établit une base fondée sur des principes pour construire des agents incarnés qui acquièrent activement et efficacement des connaissances à planifier dans des environnements ouverts.

TLDR : Nous introduisons le cadre ActiveVOO pour l’acquisition active de connaissances afin d’identifier, quantifier et prioriser l’information pertinente pour les tâches afin de planifier en monde ouvert.

Optimisation adaptative de la longueur du contexte avec troncature basse fréquence pour l’apprentissage par renforcement multi-agents

Wenchang Duan, Yaoliang Yu (membre du corps professoral Vector), Jiwan He, Yi Shi

Résumé

Récemment, l’apprentissage par renforcement multi-agent profond (MARL) a démontré des performances prometteuses pour résoudre des tâches complexes, telles que les dépendances à long terme et les environnements non markoviens. Son succès est en partie attribué au conditionnement des politiques sur une grande longueur de contexte fixe. Cependant, de telles longueurs de contexte fixes peuvent entraîner une efficacité d’exploration limitée et une information redondante. Dans cet article, nous proposons un cadre MARL novateur pour obtenir des informations contextuelles adaptatives et efficaces. Plus précisément, nous concevons un agent central qui optimise dynamiquement la longueur du contexte via l’analyse du gradient temporel, enrichissant l’exploration pour faciliter la convergence vers les optimaux globaux dans MARL. De plus, pour améliorer la capacité d’optimisation adaptative de la longueur du contexte, nous présentons une représentation d’entrée efficace pour l’agent central, qui filtre efficacement l’information redondante. En tirant parti d’une méthode de troncature basse fréquence basée sur Fourier, nous extravons les tendances temporelles globales entre les agents décentralisés, offrant une représentation efficace et efficiente de l’environnement MARL. Des expériences approfondies démontrent que la méthode proposée atteint des performances de pointe (SOTA) sur des tâches de dépendance à long terme, incluant PettingZoo, MiniGrid, Google Research Football (GRF) et StarCraft Multi-Agent Challenge v2 (SMACv2).

TLDR : Une grande longueur de contexte fixe limite l’exploration et introduit une redondance dans le MARL. Nous proposons une méthode d’optimisation adaptative de la longueur du contexte avec troncature basse fréquence basée sur Fourier afin d’améliorer la prise de décision à long terme.

Alignez votre flux : Échelle de la carte d’écoulement en temps continu

Amirmojtaba Sabour, Sanja Fidler (membre du corps professoral Vector), Karsten Kreis

Résumé

Les modèles basés sur la diffusion et le flux sont devenus des approches de modélisation générative à la fine pointe, mais ils nécessitent de nombreuses étapes d’échantillonnage. Les modèles de cohérence peuvent distiller ces modèles en générateurs efficaces en une seule étape; Cependant, contrairement aux méthodes basées sur le flux et la diffusion, leur performance se dégrade inévitablement en augmentant le nombre d’étapes, ce que nous montrons à la fois analytiquement et empiriquement. Les cartes d’écoulement généralisent ces approches en reliant deux niveaux de bruit quelconques en une seule étape et restent efficaces sur tous les comptages d’étapes. Dans cet article, nous introduisons deux nouveaux objectifs en temps continu pour les cartes de flux d’entraînement, ainsi que d’autres techniques d’entraînement novatrices, généralisant les objectifs existants de cohérence et d’adaptation des flux. Nous démontrons en outre que l’autoguidage peut améliorer la performance, en utilisant un modèle de faible qualité pour le guidage lors de la distillation, et qu’un bonus supplémentaire peut être obtenu par un affinage adversarial, avec une perte minimale de diversité d’échantillons. Nous validons de façon extensive nos modèles de cartes de flux, appelés *Align Your Flow*, sur des benchmarks de génération d’images exigeants et atteignons des performances de génération à la fine pointe de la technologie en quelques étapes sur ImageNet 64×64 et 512×512, en utilisant de petits réseaux de neurones efficaces. Enfin, nous montrons des modèles de cartes de flux texte-image qui surpassent tous les échantillonneurs à quelques étapes entraînés non adversement en synthèse conditionnée par texte.

TLDR : Nous développons des méthodes de cartes de flux pour la génération à quelques étapes de pointe, généralisant les modèles de flux, de diffusion et de cohérence.

Duos asymétriques : Les acolytes améliorent l’incertitude

Article de mise en lumière

Tim G. Zhou, Evan Shelhamer (membre du corps professoral Vector), Geoff Pleiss (membre du corps professoral Vector)

Résumé

The go-to strategy to apply deep networks in settings where uncertainty informs decisions—ensembling multiple training runs with random initializations—is ill-suited for the extremely large-scale models and practical fine-tuning workflows of today. We introduce a new cost-effective strategy for improving the uncertainty quantification and downstream decisions of a large model (e.g. a fine-tuned ViT-B): coupling it with a less accurate but much smaller “sidekick” (e.g. a fine-tuned ResNet-34) with a fraction of the computational cost. We propose aggregating the predictions of this \emph{Asymmetric Duo} by simple learned weighted averaging. Surprisingly, despite their inherent asymmetry, the sidekick model almost never harms the performance of the larger model. In fact, across five image classification benchmarks, and a variety of model architectures and training schemes (including soups), Asymmetric Duos significantly improve accuracy, uncertainty quantification, and selective classification metrics with only ${\approx}10-20$% more computation.

Attention Sinks : Un mécanisme de « Catch, Tag, and Release » pour les embeddings

Stephen Zhang, Mustafa Khan, Vardan Papyan (membre du corps professoral de Vector)

Résumé

Les grands modèles de langage (LLM) concentrent souvent leur attention sur quelques jetons spécifiques appelés *puits d’attention*. Des exemples courants incluent le premier jeton, un puits indépendant du prompt, et les jetons de ponctuation, qui dépendent du prompt. Bien que les jetons responsables des puits manquent souvent de sens sémantique direct, la présence des puits est cruciale pour la performance du modèle, particulièrement sous compression du modèle et mise en cache KV. Malgré leur omniprésence, la fonction, le rôle sémantique et l’origine des puits d’attention — surtout ceux au-delà du premier symbole — restent mal compris. Dans ce travail, nous menons une enquête approfondie démontrant que l’attention chute : *attraper* une séquence de jetons, *les étiqueter* en suivant une direction commune dans l’espace d’immersion, et *les relâcher* dans le flux résiduel, où les jetons sont ensuite récupérés en fonction des balises qu’ils ont acquises. Les expériences d’exploration révèlent que ces balises contiennent des informations sémantiquement pertinentes, comme la véracité d’un énoncé. Ces résultats s’étendent aux modèles de raisonnement, où le mécanisme s’étend sur plus de têtes et explique une plus grande variance dans les embeddings, ou aux modèles récents avec normalisation par clé de requête, où les puits restent tout aussi présents. Pour encourager l’analyse théorique future, nous introduisons un problème minimal qui peut être résolu par le mécanisme « attraper, marquer, relâcher », et où il émerge par l’entraînement.

Meilleure attribution des données d’entraînement grâce à de meilleurs produits inverses de vecteurs hessoïens

Andrew Wang, Elisa Nguyen, Runshi Yang, Juhan Bae, Sheila McIlraith (membre du corps professoral Vector), Roger Grosse (membre du corps professoral Vector)

Résumé

L’attribution des données d’entraînement (ATD) fournit des informations sur les données d’entraînement responsables d’un comportement de modèle appris. Les méthodes TDA basées sur le gradient, telles que les fonctions d’influence et la différentiation déroulée, impliquent toutes deux un calcul ressemblant à un produit vectoriel hessien inverse (iHVP), difficile à approximer efficacement. Nous introduisons un algorithme (ASTRA) qui utilise le préconditionneur EKFAC sur les itérations en série de Neumann afin d’arriver à une approximation iHVP précise pour la TDA. ASTRA est facile à régler, nécessite moins d’itérations que les itérations en série de Neumann, et est plus précis que les approximations basées sur EKFAC. En utilisant ASTRA, nous montrons que l’amélioration de la précision de l’approximation iHVP peut considérablement améliorer la performance TDA.

TLDR : Nous appliquons le préconditionneur EKFAC sur les itérations en série de Neumann pour parvenir à une approximation iHVP non biaisée pour la TDA qui améliore la fonction d’influence et la performance de la différenciation non déroulée.

Au-delà du masquage et du masquage : modèles de diffusion discrète via masquage partiel

Chen-Hao (Lance) Chao, Wei-Fang Sun, Hanwen Liang, Chun-Yi Lee, Rahul Krishnan (membre du corps professoral de Vector)

Résumé

Les modèles de diffusion masquée (MDM) sont de puissants modèles génératifs pour des données discrètes qui génèrent des échantillons en démasquant progressivement les jetons dans une séquence. Chaque jeton peut adopter l’un des deux états suivants : masqué ou démasqué. Nous observons que les séquences de jetons restent souvent inchangées entre les étapes d’échantillonnage consécutives; par conséquent, le modèle traite à plusieurs reprises des entrées identiques, ce qui conduit à des calculs redondants. Pour remédier à cette inefficacité, nous proposons le schéma de masquage partiel (Prime), qui augmente le MDM en permettant aux jetons de prendre des états intermédiaires interpolés entre les états masqués et non masqués. Cette conception permet au modèle de faire des prédictions basées sur des informations de jetons partiellement observées, et facilite un processus de réduction du bruit détaillé. Nous dérivons un objectif de formation variationnelle et introduisons une conception architecturale simple pour accueillir les entrées d’états intermédiaires. Notre méthode démontre une performance supérieure dans un ensemble diversifié de tâches de modélisation générative. Sur les données textuelles, elle atteint une perplexité de 15,36 sur OpenWebText, surpassant les MDM précédents (21,52), les modèles autorégressifs (17,54) et leurs variantes hybrides (17,58), sans dépendre d’une formulation autorégressive. Sur les données d’image, elle obtient des scores compétitifs FID de 3,26 sur CIFAR-10 et de 6,98 sur ImageNet-32, comparables aux principaux modèles génératifs continus.

BioReason : Incitation au raisonnement biologique multimodal dans un modèle ADN-LLM

Adibvafa Fallahpour, Andrew Magnuson, Purav Gupta, Shihao Ma, Jack Naimer, Arnav Shah, Haonan Duan, Omar Ibrahim, Hani Goodarzi, Chris Maddison (membre du corps professoral Vector), Bo Wang (membre du corps professoral Vector)

Résumé

Débloquer un raisonnement biologique profond et interprétable à partir de données génomiques complexes est un défi primordial pour l’intelligence artificielle, qui freine la découverte scientifique cruciale. Les modèles de fondation de l’ADN existants, malgré leurs puissantes capacités de représentation de séquences, ont souvent du mal avec le raisonnement en plusieurs étapes et manquent de mécanismes inhérents pour des explications transparentes et biologiquement intuitives. Nous présentons BioReason, une architecture pionnière qui, pour la première fois, intègre en profondeur un modèle de fondation d’ADN avec un grand modèle de langage (LLM). Cette connexion novatrice permet au LLM de traiter et de raisonner directement avec l’information génomique comme modalité d’entrée fondamentale, permettant une nouvelle forme de compréhension biologique multimodale. La capacité de BioReason à un raisonnement sophistiqué et en plusieurs étapes est cultivée grâce à un programme d’ajustement supervisé et d’apprentissage par renforcement ciblé, guidant le système intégré pour générer des déductions logiques et biologiquement cohérentes. Sur des références difficiles, incluant la prédiction des voies de la maladie basée sur KEGG — où BioReason améliore la précision d’environ 10 points (de 88% à 97%) — et l’analyse des effets variants, BioReason démontre un gain moyen de performance de 15% par rapport aux bases solides en monomodalité. Une avancée clé est la capacité de BioReason à raisonner sur des entités biologiques jusque-là invisibles et à articuler son processus décisionnel à travers des traces biologiques interprétables, étape par étape, soutenant mécaniquement ses prédictions. BioReason propose une approche transformatrice de l’IA en biologie, ouvrant la voie à des connaissances mécanistes plus profondes et à une génération accélérée d’hypothèses testables à partir de données génomiques.

TLDR : BioReason introduit une nouvelle architecture ADN-LLM où le LLM traite directement l’information génomique, atteignant un raisonnement biologique supérieur et interprétable en plusieurs étapes et accélérant la découverte mécanistique.

Briser la barrière des lots (B3) de l’apprentissage contrastif via l’exploration intelligente par lots

Article de mise en lumière

Raghuveer Thirukovalluru, Rui Meng, Ye Liu, Karthikeyan K, Mingyi Su, Ping Nie, Semih Yavuz, Yingbo Zhou, Wenhu Chen (membre du corps professoral de Vector), Bhuwan Dhingra

Résumé

L’apprentissage contrastif (CL) est une technique courante pour entraîner des modèles d’immersion, qui rapproche les exemples sémantiquement similaires (positifs) dans l’espace de représentation tout en éloignant davantage les exemples dissemblables (négatifs). Une source clé de négatifs est constitué des exemples « en lot », c’est-à-dire des positifs provenant d’autres exemples du lot. L’efficacité de ces modèles est donc fortement influencée par la taille et la qualité des groupes d’entraînement. Dans ce travail, nous proposons « Briser la barrière des lots » (B3), une stratégie novatrice de construction par lots conçue pour sélectionner des lots de haute qualité pour les CL. Notre approche commence par utiliser un modèle d’intégration d’enseignants préentraîné pour classer tous les exemples dans l’ensemble de données, à partir duquel un graphe de similarité clairsemé est construit. Un algorithme de détection de communauté est ensuite appliqué à ce graphe pour identifier des groupes d’exemples qui servent de négatifs forts les uns aux autres. Les clusters sont ensuite utilisés pour construire des lots riches en négatifs intégrés au lot. Les résultats empiriques du benchmark d’intégration multimodale MMEB (36 tâches) démontrent que notre méthode établit un nouvel état de l’art, surpassant les méthodes précédentes de +1,3 et +2,9 points aux échelles 7B et 2B, respectivement. Notamment, les modèles entraînés avec \bthm\ surpassent les résultats de pointe existants même avec une taille de lot aussi petite que 64, soit 4 à 16× moins que celle requise par d’autres méthodes.

BridgePure : Une fuite de protection limitée peut briser la protection des données en boîte noire

Yihan Wang, Yiwei Lu (membre affilié du corps professoral Vector), Xiao-Shan Gao, Gautam Kamath (membre du corps professoral Vector), Yaoliang Yu (membre du corps professoral Vector)

Résumé

Les attaques de disponibilité, ou exemples inapprisables, sont des techniques défensives qui permettent aux propriétaires de données de modifier leurs ensembles de données de manière à empêcher les modèles d’apprentissage automatique non autorisés d’apprendre efficacement tout en maintenant la fonctionnalité prévue des données. Cela a conduit au lancement d’outils de boîte noire populaires (par exemple, des API) permettant aux utilisateurs de télécharger des données personnelles et de recevoir des contreparties protégées. Dans ce travail, nous montrons que de telles protections de boîte noire peuvent être substantiellement compromises si un petit ensemble de données non protégées en cours de distribution est disponible. Plus précisément, nous proposons un nouveau modèle de menace de fuite de protection, où un adversaire peut (1) facilement acquérir des paires (non protégées, protégées) en interrogeant les protections de boîte noire avec un petit ensemble de données non protégé; et (2) entraîner un modèle de pont de diffusion pour construire une correspondance entre les données non protégées et protégées. Cette cartographie, appelée BridgePure, peut effectivement retirer la protection contre toute donnée auparavant invisible dans la même distribution. BridgePure démontre une performance de purification supérieure sur les tâches de classification et d’imitation de style, exposant des vulnérabilités critiques dans la protection des données en boîte noire. Nous suggérons aux praticiens de mettre en place des contre-mesures à plusieurs niveaux pour atténuer ces risques.

Les LLM multimodaux peuvent-ils fournir des conseils en temps réel, étape par étape, pour les tâches?

Apratim Bhattacharyya, Bicheng Xu, Sanjay Haresh, Reza Pourreza, Litian Liu, Sunny Panchal, Leonid Sigal (membre du corps professoral vectoriel), Roland Memisevic

Résumé

Les grands modèles de langage multimodaux (LLM) possèdent des capacités conversationnelles avancées, mais ont du mal à fournir des conseils en direct, interactifs, étape par étape, une capacité clé pour les futurs assistants IA. Un guide efficace nécessite non seulement de livrer des instructions, mais aussi de détecter leur exécution réussie, ainsi que d’identifier et d’alerter les utilisateurs en cas d’erreurs, ce qui doit se produire en temps réel. Cela nécessite des modèles qui ne sont pas au tour par tour, mais capables de réagir de façon asynchrone à un flux vidéo, ainsi que des données vidéo montrant les utilisateurs accomplissant des tâches, y compris des erreurs et leurs corrections. À cette fin, nous introduisons LiveCook, un nouveau benchmark et un ensemble de données basé sur CaptainCook4D, qui contient les erreurs des utilisateurs lors de l’exécution des tâches. LiveCook propose des instructions et des messages de rétroaction densément annotés et chronométrés, incluant notamment des alertes d’erreur précisément horodatées à leur apparition visuelle dans la vidéo. Nous évaluons des LLM multimodaux à la fine pointe de la technologie sur LiveCook et lançons LiveMamba, un LLM multimodal en continu conçu pour un accompagnement pédagogique interactif. Ce travail constitue le premier point de référence dédié et une base solide pour développer et évaluer le coaching en direct, situé sur place.

TLDR : Les LLM multimodaux actuels ont du mal à suivre des tâches en direct, étape par étape. Nous avons développé Qualcomm Interactive Cooking (un nouveau jeu de données avec des vidéos d’erreurs et des retours temporels) et LiveMamba (un modèle de diffusion en continu) pour permettre une meilleure orientation interactive en temps réel.

Care-PD : Un ensemble de données clinique anonymisé multisite pour l’évaluation de la démarche de la maladie de Parkinson

Vida Adeli, Ivan Klabučar, Javad Rajabi, Benjamin Filtjens, Soroush Mehraban, Diwei Wang, Trung Hieu Hoang, Minh Do, Hyewon Seo, Candice Muller, Daniel Coelho, Claudia de Oliveira, Pieter Ginis, Moran Gilat, Alice Nieuwboer, Joke Spildooren, J. Mckay, Hyeokhyen Kwon, Gari Clifford, Christine Esper, Stewart Factor, Imari Genias, Amirhossein Dadashzadeh, Leia Shum, Alan Whone, Majid Mirmehdi, Andrea Iaboni, Babak Taati (Affilié de la faculté Vector)

Résumé

L’évaluation objective de la démarche dans la maladie de Parkinson (MP) est limitée par l’absence de grands ensembles de données de mouvement variés et cliniquement annotés. Nous introduisons Care-PD, la plus grande archive publique disponible de données de marche 3D maillées pour la MP, ainsi que la première collection multi-sites couvrant 9 cohortes provenant de 8 centres cliniques. Tous les enregistrements (vidéo RVB ou capture de mouvement) sont convertis en maillages SMPL anonymisés via un pipeline de prétraitement harmonisé.  Care-PD soutient deux repères clés : la prédiction supervisée des scores cliniques (estimation de l’échelle unifiée d’évaluation de la maladie de Parkinson, UPDRS, les scores de marche) et les tâches prétextuelles non supervisées (levage 2D vers 3D et reconstruction 3D 3D complète). La prédiction clinique est évaluée selon quatre protocoles de généralisation : dans l’ensemble de données, croisé entre les ensembles de données, laisse un ensemble de données dehors et multi-ensemble de données dans le domaine. Pour évaluer la pertinence clinique, nous comparons les encodeurs de mouvement de pointe avec une base traditionnelle de caractéristiques de marche, constatant que les encodeurs surpassent systématiquement les caractéristiques faites à la main. Le préentraînement sur Care-PD réduit le MPJPE (de 60,8 mm à 7,5 mm) et augmente la sévérité de la MP macro-F1 de 17%, soulignant la valeur des données d’entraînement cliniquement sélectionnées et diversifiées. Care-PD et tout le code de référence sont publiés pour la recherche non commerciale (Code, Data).

TL; DR : Nous introduisons Care-PD, un ensemble de données multi-sites et référence pour l’analyse de la marche de Parkinson, permettant une prédiction clinique robuste de la sévérité et améliorant l’apprentissage de la représentation du mouvement grâce à des données pathologiques de marche diversifiées et anonymisées.

CausalPFN : estimation amortie de l’effet causal via l’apprentissage en contexte

Article de mise en lumière

Vahid Balazadeh, Hamidreza Kamkari, Valentin Thomas, Junwei Ma, Bingru Li, Jesse Cresswell, Rahul Krishnan (membre du corps professoral de Vector)

Résumé

L’estimation de l’effet causal à partir de données observationnelles est fondamentale dans diverses applications. Cependant, choisir un estimateur approprié parmi des dizaines de méthodes spécialisées demande un effort manuel important et une expertise du domaine. Nous présentons CausalPFN, un transformateur unique qui amortit ce flux de travail : entraîné une fois sur une grande bibliothèque de processus simulés de génération de données qui satisfont à l’ignorabilité, il déduit des effets causaux pour de nouveaux ensembles de données d’observation dès la sortie de la boîte. CausalPFN combine des idées de l’inférence causale bayésienne avec le protocole d’entraînement à grande échelle des réseaux préalablement ajustés (PFN), apprenant à mapper directement les observations brutes aux effets causaux sans ajustement spécifique à la tâche. Notre approche obtient une performance moyenne supérieure sur des repères d’estimation des effets du traitement hétérogènes et moyens (IHDP, Lalonde, ACIC). De plus, il démontre une performance concurrentielle pour l’élaboration de politiques réelles sur les tâches de modélisation de l’élévation. CausalPFN fournit des estimations calibrées de l’incertitude pour soutenir une prise de décision fiable basée sur des principes bayésiens. Ce modèle prêt à l’emploi ne nécessite ni entraînement supplémentaire ni ajustement et avance vers l’inférence causale automatisée (https://github.com/vdblm/CausalPFN/).

TLDR : CausalPFN est un transformateur pré-entraîné qui amortit l’estimation de l’effet causal : entraîné une fois sur des processus simulés de génération de données, il produit des effets calibrés pour de nouveaux ensembles de données d’observation sans réglage nul.

Simulation de canal et compression distribuée avec échantillonnage par rejet d’ensemble

Truong Buu Phan, Ashish Khisti (affilié à la faculté Vector)

Résumé

Nous étudions la simulation de canaux et l’appariement distribué, deux problèmes fondamentaux ayant plusieurs applications en apprentissage automatique, en utilisant une généralisation récente de l’algorithme standard d’échantillonnage par rejet (RS) connu sous le nom d’échantillonnage par rejet d’ensemble (ERS). Pour la simulation de canaux, nous proposons un nouveau schéma de codage basé sur ERS qui atteint un taux de codage quasi optimal. Dans ce processus, nous démontrons que le RS standard peut aussi atteindre un taux de codage quasi optimal et généralisons le résultat de Braverman et Garg (2014) à l’alphabet continu. Ensuite, comme contribution principale, nous présentons un lemme d’appariement distribué pour le RSE, qui sert de pendant par échantillonnage de rejet au lemme de correspondance de Poisson (PML) introduit par Li et Anantharam (2021). Notre résultat généralise également un travail récent sur le lemme d’appariement d’importance (Phan et al., 2024) et, à notre connaissance, constitue le premier résultat sur l’appariement distribué dans la famille des schémas d’échantillonnage par rejet où la probabilité d’appariement est proche de la PML. Nous démontrons l’importance pratique de notre approche par rapport aux travaux antérieurs en l’appliquant à la compression distribuée. L’efficacité de notre schéma proposé est validée par des expériences impliquant des sources gaussiennes synthétiques et une compression d’images distribuée à l’aide du jeu de données MNIST.

TLDR : Nous proposons une nouvelle approche de simulation de canal pour la compression distribuée utilisant l’échantillonnage par rejet d’ensemble

CheMixHub : ensembles de données et repères pour la prédiction des propriétés des mélanges chimiques

Ella Miray Rajaonson, Mahyar Rajabi Kochi, Luis Martin Mejia Mendoza, Mohamad Moosavi (membre du corps professoral Vector), Benjamin Sanchez-Lengeling (affilié au corps professoral Vector)

Résumé

Le développement de modèles prédictifs améliorés pour les systèmes multimoléculaires est crucial, car presque tous les produits chimiques utilisés résultent d’un mélange de produits chimiques. Bien qu’il s’agisse d’un élément essentiel du portefeuille industriel, le domaine des mélanges chimiques demeure relativement inexploré par la communauté de l’apprentissage automatique. Dans cet article, nous introduisons CheMixHub, une référence holistique pour les mélanges moléculaires, couvrant un corpus de 11 tâches de prédiction des propriétés des mélanges chimiques, allant des formulations d’administration de médicaments aux électrolytes de batterie, totalisant environ 500 000 points de données collectés et sélectionnés à partir de 7 ensembles de données accessibles publiquement. CheMixHub introduit diverses techniques de division des données pour évaluer la généralisation spécifique au contexte et la robustesse des modèles, fournissant une base pour le développement de modèles prédictifs des propriétés des mélanges chimiques. De plus, nous cartographions l’espace de modélisation des modèles d’apprentissage profond pour les mélanges chimiques, établissant des repères initiaux pour la communauté. Cet ensemble de données a le potentiel d’accélérer le développement des mélanges chimiques, englobant la reformulation, l’optimisation et la découverte. L’ensemble de données et le code des benchmarks se trouvent à : https://github.com/chemcognition-lab/chemixhub

Répartition par classe de la rediffusion des données pour l’apprentissage incrémental de classe fédéré

Zhuang Qi, Ying-Peng Tang, Lei Meng, Han Yu, Xiaoxiao Li (membre du corps professoral vectoriel), Xiangxu Meng

Résumé

L’apprentissage incrémental en classe fédéré (FCIL) vise à traiter de manière collaborative des tâches entrantes croissantes entre plusieurs clients. Parmi diverses approches, la relecture des données est devenue une solution prometteuse, qui peut atténuer l’oubli en réintroduisant des échantillons représentatifs des tâches précédentes. Cependant, leur performance est généralement limitée par un déséquilibre de classes, tant dans le tampon de replay dû à une connaissance globale limitée qu’entre les classes rejouées et nouvellement arrivées. Pour remédier à ce problème, nous proposons une méthode de relecture des données équilibrées par classe pour FCIL (FedCBDR), qui utilise un mécanisme global de coordination pour la construction de mémoire au niveau des classes et repondère l’objectif d’apprentissage afin d’atténuer les déséquilibres mentionnés précédemment. Plus précisément, la FedCBDR comporte deux composantes clés : 1) le module de relecture de données à perspective globale reconstruit les représentations globales des connaissances préalables sur les tâches de manière préservant la confidentialité, ce qui guide ensuite une stratégie d’échantillonnage sensible à la classe et à l’importance pour obtenir une relecture équilibrée; 2) Par la suite, pour gérer le déséquilibre de classes entre les tâches, le module d’échelle de température conscient des tâches ajuste de façon adaptative la température des logits au niveau des classes et des instances en fonction de la dynamique des tâches, ce qui réduit la surconfiance du modèle dans les classes majoritaires tout en augmentant sa sensibilité aux classes minoritaires. Les résultats expérimentaux ont confirmé que FedCBDR obtient un échantillonnage équilibré par classe sous des distributions de données hétérogènes et améliore la généralisation sous déséquilibre de tâche entre les tâches antérieures et récentes, ce qui donne une amélioration de la précision Top-1 de 2% à 15% par rapport à six méthodes de pointe.

Différenciation automatique du mode Taylor qui s’effondre

Felix Dangel (boursier postdoctoral distingué Vector), Tim Siebert, Marius Zeinhofer, Andrea Walther

Résumé

Le calcul des opérateurs d’équations aux dérivées partielles (EDP) via la rétropropagation imbriquée est coûteux, mais populaire, et limite fortement leur utilité pour l’apprentissage automatique scientifique.  Des avancées récentes, comme le laplacien avant et la différenciation automatique en mode Taylor randomisant (AD), proposent des schémas avancés pour remédier à ce problème.  Nous introduisons une technique d’optimisation pour le mode Taylor qui « effondre » les dérivées en réécrivant le graphe computationnel, et démontrons comment l’appliquer aux opérateurs PDE linéaires généraux, ainsi qu’au mode Taylor randomisé.  Les modifications nécessitent simplement de propager une somme du graphe computationnel, ce qui pourrait — ou devrait — être réalisé par un compilateur d’apprentissage automatique, sans exposer la complexité aux utilisateurs.  Nous implémentons notre procédure d’effondrement et l’évaluons sur des opérateurs PDE populaires, confirmant qu’elle accélère le mode Taylor et surpasse la rétropropagation imbriquée.

TLDR : Nous accélérons le mode Taylor pour des opérateurs différentiels pratiquement pertinents en effondrant les coefficients de Taylor; Cela peut être fait automatiquement avec des simplifications de graphes de calcul

The Common Pile v0.1 : un ensemble de données de 8 To de texte du domaine public et sous licence ouverte

Nikhil Kandpal, Brian Lester, Colin Raffel (membre du corps professoral de Vector), Sebastian Majstorovic, Stella Biderman, Baber Abbasi, Luca Soldaini, Enrico Shippole, A. Feder Cooper, Aviya Skowron, Shayne Longpre, Lintang Sutawika, Alon Albalak, Zhenlin Xu, Guilherme Penedo, Loubna Ben Allal, Elie Bakouch, John Pressman, Honglu Fan, Dashiell Stander, Guangyu Song, Aaron Gokaslan, John Kirchenbauer, Tom Goldstein, Brian Bartoldson, Bhavya Kailkhura, Tyler Murray

Résumé

Les grands modèles de langage (LLM) sont généralement entraînés sur d’énormes quantités de texte non licencié, une pratique qui a suscité un examen en raison de possibles violations de la propriété intellectuelle et de préoccupations éthiques. Former des LLM sur du texte sous licence ouverte constitue une première étape pour résoudre ces problèmes, mais les efforts de collecte de données antérieurs ont donné des ensembles de données trop petits ou de faible qualité pour produire des LLM performants. Pour combler cette lacune, nous collectons, sélectionnons et publions le Common Pile v0.1, une collection de texte sous licence ouverte de huit téraoctets conçue pour la pré-formation des LLM. La pile commune comprend du contenu provenant de 30 sources couvrant divers domaines, incluant des articles de recherche, du code, des livres, des encyclopédies, des documents pédagogiques, des transcriptions audio, et plus encore. De manière cruciale, nous validons nos efforts en entraînant Comma v0.1, un LLM de 7 milliards de paramètres entraîné sur 1 billion de jetons de texte provenant de la pile commune. La virgule atteint des performances compétitives par rapport aux LLM entraînés sur du texte non licencié avec des budgets computationnels similaires, tels que LLaMA 7B. En plus de publier le Common Pile v0.1 lui-même, nous publions aussi le code utilisé lors de sa création ainsi que le mélange de points de contrôle et d’entraînement de Comma v0.1.

TL; DR : Nous collectons 8 To de texte du domaine public et sous licence ouverte, et nous l’utilisons pour pré-entraîner un LLM performant à 7 B.

Ctrl-ADN : conception contrôlable d’ADN régulateur spécifique au type cellulaire via RL contraint

Article de mise en lumière

Xingyu Chen, Shihao Ma, Runsheng Lin, Jiecong Lin, Bo Wang (membre du corps professoral de Vector)

Résumé

La conception de séquences d’ADN régulatrices permettant d’obtenir une expression génique spécifique à chaque type cellulaire est cruciale pour les avancées en biologie synthétique, en thérapie génique et en médecine de précision. Bien que les modèles de langage (LM) basés sur les transformateurs puissent capturer efficacement des motifs dans l’ADN régulateur, leurs approches génératives peinent souvent à produire de nouvelles séquences avec une activité spécifique à la cellule fiable. Ici, nous introduisons regCon, un nouveau cadre d’apprentissage par renforcement (RL) contraint, conçu pour concevoir des séquences d’ADN régulatrices avec une spécificité de type cellulaire contrôlable. En formulant la conception de séquences régulatrices comme un problème d’optimisation contrainte informé biologiquement, nous appliquons la RL aux LM génomiques autorégressifs, permettant aux modèles de raffiner itérativement les séquences qui maximisent l’activité régulatrice dans les types cellulaires ciblés tout en limitant les effets hors cible. Notre évaluation sur les promoteurs et améliorateurs humains démontre que regCon surpasse constamment les approches génératives et basées sur le RL existantes, générant des séquences régulatrices à haute adéquation et atteignant une spécificité cellulaire à la fine pointe de la technologie. De plus, les séquences générées par regCon capturent des sites clés de liaison des facteurs de transcription spécifiques au type cellulaire (TFBS), de courts motifs d’ADN reconnus par les protéines régulatrices qui contrôlent l’expression génique, démontrant la plausibilité biologique des séquences générées.

DenseDPO : Optimisation fine des préférences temporelles pour les modèles de diffusion vidéo

Article de mise en lumière

Ziyi Wu, Anil Kag, Ivan Skorokhodov, Willi Menapace, Ashkan Mirzaei, Igor Gilitschenski (membre du corps professoral de Vector), Sergey Tulyakov, Aliaksandr Siarohin

Résumé

L’optimisation directe par préférence (DPO) a récemment été appliquée comme technique post-entraînement pour les modèles de diffusion texte-vers-vidéo. Pour obtenir des données d’entraînement, on demande aux annotateurs de fournir des préférences entre deux vidéos générées à partir de bruit indépendant. Cependant, cette approche interdit les comparaisons fines, et nous soulignons qu’elle oriente les annotateurs vers des extraits à faible mouvement, car ils contiennent souvent moins d’artefacts visuels. Dans ce travail, nous introduisons DenseDPO, une méthode qui corrige ces lacunes en apportant trois contributions. D’abord, nous créons chaque paire de vidéos pour DPO en éliminant le bruit des copies corrompues d’une vidéo de la vérité au sol. Cela donne des paires alignées avec des structures de mouvement similaires tout en différant dans les détails locaux, neutralisant effectivement le biais de mouvement. Deuxièmement, nous exploitons cet alignement temporel résultant pour étiqueter les préférences sur de courts segments plutôt que sur des clips entiers, ce qui donne un signal d’apprentissage plus dense et plus précis. Avec seulement un tiers des données étiquetées, DenseDPO améliore grandement la génération de mouvement par rapport à la DPO classique, tout en l’alignant du texte, la qualité visuelle et la cohérence temporelle. Enfin, nous montrons que DenseDPO débloque l’annotation automatique des préférences à l’aide de modèles de langage visuel (VLM) prêts à l’emploi) : GPT prédit avec précision les préférences au niveau des segments, similaire aux modèles de récompense vidéo ajustés spécifiquement à une tâche, et DenseDPO entraîné sur ces étiquettes atteint des performances proches de celles utilisant des étiquettes humaines.

TLDR : Nous proposons une méthode DPO améliorée adaptée aux modèles de diffusion vidéo

DiffBreak : La purification basée sur la diffusion est-elle robuste?

Andre Kassis, Urs Hengartner, Yaoliang Yu (membre du corps professoral de Vector)

Résumé

La purification basée sur la diffusion (DBP) est devenue une défense fondamentale contre les exemples adversariaux (AE), considérée comme robuste en raison de son utilisation de modèles de diffusion (DM) qui projettent des AE sur la variété naturelle de données. Nous réfutons cette affirmation fondamentale, prouvant théoriquement que les attaques basées sur le gradient ciblent effectivement le MJ plutôt que le classificateur, ce qui fait que les sorties de DBP s’alignent avec les distributions adverses. Cela conduit à une réévaluation de la robustesse de la DBP, lui attribuant deux défauts critiques : des gradients incorrects et des protocoles d’évaluation inappropriés qui ne testent qu’une seule purification aléatoire de l’AE. Nous montrons qu’avec une bonne prise en compte de la stochasticité et du risque de resoumission, la DBP s’effondre. Pour appuyer cela, nous introduisons DiffBreak, la première boîte à outils fiable pour la différenciation via DBP, éliminant les défauts de gradient qui auparavant gonflaient encore davantage les estimations de robustesse. Nous analysons également le schéma de défense actuel utilisé pour la DBP où la classification repose sur une purification unique, en soulignant son invalidité intrinsèque. Nous fournissons une alternative statistiquement fondée sur le vote majoritaire (MV) qui agrège les prédictions sur plusieurs copies purifiées, montrant un gain partiel mais significatif de robustesse. Nous proposons ensuite une nouvelle adaptation d’une méthode d’optimisation contre le filigranage deepfake, créant des perturbations systémiques qui contrecarrent DBP même sous MV, remettant en question sa viabilité.

TLDR : DiffBreak fournit le premier cadre fiable pour différencier par purification basée sur la diffusion, révélant des vulnérabilités clés lors d’attaques adaptatives.

Attribution des données d’entraînement distributionnelle : Quel échantillonnage les fonctions d’influence?

Article de mise en lumière

Bruno Mlodozeniec, Isaac Reid, Sam Power, David Krueger, Murat Erdogdu (membre du corps professoral Vector), Richard Turner, Roger Grosse (membre du corps professoral Vector)

Résumé

L’aléa est une partie inévitable de l’entraînement des modèles d’apprentissage profond, mais c’est quelque chose que les algorithmes traditionnels d’attribution des données d’entraînement ne tiennent pas en compte rigoureusement. Ils ignorent le fait que, en raison de la stochasticité dans l’initialisation et le batching, l’entraînement sur le même ensemble de données peut produire des modèles différents. Dans cet article, nous abordons cette lacune en introduisant l’attribution des données d’entraînement _distributionnelles_ (d-TDA), dont l’objectif est de prédire comment la distribution des résultats du modèle (sur les exécutions d’entraînement) dépend de l’ensemble de données. Nous démontrons l’importance pratique de la d-TDA dans les expériences, par exemple en identifiant des exemples d’entraînement qui modifient radicalement la distribution d’une mesure cible sans nécessairement modifier la moyenne. Fait intriguant, nous constatons aussi que les _influence functions_ (FI), un outil populaire mais mal compris d’attribution de données, émergent naturellement de notre cadre distributif comme limite à la différenciation non déroulée – sans nécessiter d’hypothèses restrictives de convexité. Cela apporte une nouvelle motivation mathématique à leur efficacité en apprentissage profond et aide à caractériser leurs limites.

TLDR : Cet article présente l’attribution des données d’entraînement distributionnelle, un cadre d’attribution des données qui tient compte de la stochasticité dans l’entraînement à l’apprentissage profond, permettant une justification mathématique du fonctionnement des fonctions d’influence dans ce contexte.

Ne soyez pas paresseux : CompleteP permet des transformateurs profonds efficaces en calcul

Nolan Dey, Bin Zhang, Lorenzo Noci, Mufan Li (affilié à Vector Faculty), Blake Bordelon, Shane Bergsma, Cengiz Pehlevan, Boris Hanin, Joel Hestness

Résumé

Nous étudions l’efficacité de calcul de l’entraînement des LLM lorsqu’on utilise différentes paramétrisations, c’est-à-dire des règles pour ajuster les hyperparamètres (HP) du modèle et des optimiseurs au fur et à mesure que la taille du modèle change. Certaines paramétrisations ne transmettent pas les CV de base optimaux (comme le taux d’apprentissage) entre les variations de profondeur du modèle, obligeant les praticiens soit à réajuster ces CV à mesure qu’ils augmentent (ce qui coûte cher), soit à accepter un entraînement sous-optimal lorsque le réajustement est prohibitif. Même lorsqu’ils atteignent un transfert HP, nous développons une théorie pour montrer que des paramétrisations peuvent encore exister dans le régime d’apprentissage paresseux où les couches n’apprennent que des caractéristiques proches de leur linéarisation, empêchant ainsi une utilisation efficace de la profondeur et de la non-linéarité. Enfin, nous identifions et adoptons la paramétrisation que nous appelons CompleteP, qui permet à la fois un transfert HP en profondeur et un apprentissage non paresseux dans toutes les couches. CompleteP permet une gamme plus large de rapports largeur/profondeur du modèle pour rester efficaces en calcul, débloquant des formes mieux adaptées à différents paramètres matériels et contextes opérationnels. De plus, CompleteP permet des améliorations d’efficacité de calcul de 12 à 34% par rapport à l’état de la technologie précédent.

TLDR : Nous introduisons CompleteP, qui offre un transfert HP en profondeur, des économies FLOP lors de l’entraînement de modèles profonds, ainsi qu’une gamme plus large de rapports largeur/profondeur efficaces en calcul.

EAGLE-3 : Mise à l’échelle de l’accélération d’inférence de grands modèles de langage via un test de temps d’entraînement

Yuhui Li, Fangyun Wei, Chao Zhang, Hongyang Zhang (membre du corps professoral de Vector)

Résumé

La nature séquentielle des LLM modernes les rend coûteux et lents, et le spéculatif s’est avéré être une solution efficace à ce problème. Des méthodes comme EAGLE effectuent l’autorégression au niveau des caractéristiques, réutilisant les caractéristiques de la couche supérieure du modèle cible pour obtenir de meilleurs résultats que l’échantillonnage spéculatif vanilla. Une tendance croissante dans la communauté LLM est d’augmenter l’échelle des données d’entraînement pour améliorer l’intelligence des modèles sans augmenter les coûts d’inférence. Cependant, nous observons que l’augmentation de l’échelle des données apporte des améliorations limitées à EAGLE. Nous identifions que cette limitation découle des contraintes de prédiction des caractéristiques d’EAGLE. Dans cet article, nous introduisons EAGLE-3, qui abandonne la prédiction des caractéristiques au profit de la prédiction directe par jetons et remplace la dépendance aux caractéristiques de la couche supérieure par la fusion multi-couches via une technique appelée test de temps d’entraînement. Ces améliorations améliorent considérablement la performance et permettent au modèle brouillon de bénéficier pleinement de l’augmentation à l’échelle des données d’entraînement. Nos expériences incluent à la fois des modèles de clavardage et des modèles de raisonnement, évalués sur cinq tâches. Les résultats montrent que l’EAGLE-3 atteint un ratio d’accélération allant jusqu’à 6,5 fois, avec environ 1,4 fois l’amélioration par rapport à l’EAGLE-2. Dans le cadre SGLang, EAGLE-3 atteint une amélioration du débit de 1,38x à une taille de lot de 64.

TLDR : Nous proposons EAGLE-3, en observant qu’il peut bénéficier d’une augmentation à l’échelle des données.

ELECTRA : Un réseau cartésien pour la prédiction de la densité de charge 3D avec orbitales flottantes

Article de mise en lumière

Jonas Elsborg, Luca Thiede, Alán Aspuru-Guzik (membre du corps professoral de Vector), Tejs Vegge, Arghya Bhowmik

Résumé

Nous présentons l’algorithme de reconstruction des tenseurs électroniques (ELECTRA) – un modèle équivariant pour prédire les densités de charge électroniques à l’aide d’orbitales flottantes. Les orbitales flottantes sont un concept de longue date dans la communauté de la chimie quantique qui promet des représentations plus compactes et précises en plaçant librement les orbitales dans l’espace, plutôt que de centrer toutes les orbitales à la position des atomes. Trouver l’emplacement idéal de ces orbitales nécessite toutefois une connaissance approfondie du domaine, ce qui a jusqu’à présent empêché une adoption généralisée. Nous résolvons cela de manière basée sur les données en entraînant un réseau tensoriel cartésien pour prédire les positions orbitales ainsi que les coefficients orbitaux. Cela est rendu possible grâce à un mécanisme de rupture de symétrie utilisé pour apprendre les déplacements de position avec une symétrie inférieure à celle de la molécule d’entrée tout en préservant l’équivariance de rotation de la densité de charge elle-même. Inspirés par les récents succès du splatting gaussen dans la représentation des densités dans l’espace, nous utilisons les orbitales gaussiennes et prédisons leurs poids et matrices de covariance. Notre méthode atteint un équilibre de pointe entre l’efficacité computationnelle et la précision prédictive sur des benchmarks établis.

TLDR : Prédiction efficace de la densité de charge à l’aide d’orbitales flottantes

Améliorer l’attribution des données d’entraînement grâce à l’optimisation représentative

Article de mise en lumière

Weiwei Sun, Haokun Liu, Nikhil Kandpal, Colin Raffel (membre du corps professoral de Vector), Yiming Yang

Résumé

Les méthodes d’attribution des données d’entraînement (ADT) visent à mesurer comment les données d’entraînement influencent les prédictions d’un modèle. Bien que les méthodes d’attribution basées sur le gradient, comme les fonctions d’influence, offrent une rigueur théorique, leurs coûts de calcul les rendent peu pratiques pour des applications à grande échelle. Les méthodes d’attribution basées sur la représentation sont plus efficaces, s’appuyant sur des calculs de similarité entre exemples dans certains espaces de représentation, mais elles manquent souvent d’optimisation consciente de la tâche et spécifique au modèle, limitant leur précision. Pour relever ces défis, nous proposons AirRep, une approche novatrice basée sur la représentation qui améliore la qualité de la représentation grâce à l’optimisation par tâche d’un modèle d’encodage de représentation. De plus, nous étendons cette méthode au-delà de l’attribution par échantillon unique en utilisant un mécanisme de regroupement basé sur l’attention afin d’estimer efficacement l’influence collective des groupes d’échantillons. Des expériences sur l’ajustement des instructions dans de grands modèles de langage démontrent qu’AirRep atteint des performances équivalentes aux approches de pointe basées sur le gradient tout en étant près de deux ordres de grandeur plus efficace. Une analyse plus approfondie met en lumière sa robustesse, incluant la généralisation vers de nouvelles données et de nouvelles tâches TDA.

TLDR : AirRep est un modèle de représentation textuelle optimisé pour TDA, offrant des performances comparables aux méthodes basées sur le gradient tout en étant nettement plus efficace.

Évaluation des capacités de généralisation des agents basés sur LLM dans des scénarios à motifs mixtes utilisant Concordia

Chandler Smith, Marwa Abdulhai, Manfred Díaz, Marko Tesic, Rakshit Trivedi, Sasha Vezhnevets, Lewis Hammond, Jesse Clifton, Minsuk Chang, Edgar Duenez-Guzman, John Agapiou, Jayd Matyas, Danny Karmon, Beining Zhang, Jim Dilkes, Akash Kundu, Hieu Minh Nguyen, Emanuel Tewolde, Jebish Purbey, Ram Mohan Rao Kadiyala, Siddhant Gupta, Aliaksei Korshuk, Buyantuev Alexander, Ilya Makarov, Gang Zhao, Rolando Fernandez, Zhihan Wang, Caroline Wang, Jiaxun Cui, Lingyun Xiao, Di Shi, Yoonchang Sung, Muhammad Arrasy Rahman, Peter Stone, Yipeng Kang, Hyeonggeun Yun, Ananya Ananya, Taehun Cha, Zhiqiang Wu, Elizaveta Tennant, Olivia Macmillan-Scott, Marta Segura, Diana Riazi, Fuyang Cui, Sriram Ganapathi (affilié du corps professoral Vector), Toryn Klassen (boursier postdoctoral en sécurité IA Vector CIFAR), Nico Schiavone, Mogtaba Alim, Sheila McIlraith (membre du corps professoral Vector), Manuel Rios, Oswaldo Peña, Carlos Rojas, Manuela Viviana Chacon-Chamorro, Rubén Manrique, Luis Felipe Giraldo, Nicanor Quijano, Yiding Wang, Yuxuan Chen, Fangwei Zhong, Mengmeng Wang, Wenming Tu, Zhaowei Zhang, Ziang Chen, Zixia Jia, Xue Feng, Zilong Zheng, Chichen Lin, Weijian Fan, Chenao Liu, Sneheel Sarangi, Ziyan Wang, shuqing shi, Yali Du, Avinaash Anand Kulandaivel, Yang Liu, Wu Ruiyang, Chetan Talele, 陆孙嘉, Gema Parreno, Shamika Dhuri, Bain McHale, Tim Baarslag, Dylan Hadfield-Menell, Natasha Jaques, José Hernández-Orallo, Joel Leibo

Résumé

Les agents de grands modèles de langage (LLM) ont démontré des capacités impressionnantes d’interaction sociale et sont de plus en plus déployés dans des situations où ils pourraient interagir à la fois avec des agents humains et artificiels. Ces interactions représentent une frontière critique pour les agents basés sur LLM, pourtant les méthodes d’évaluation existantes ne mesurent pas à quel point ces capacités se généralisent à de nouvelles situations sociales. Dans cet article, nous introduisons une méthode pour évaluer la capacité des agents basés sur LLM à coopérer dans des environnements mixtes à zéro tir en utilisant Concordia, un environnement de simulation multi-agents en langage naturel. Ce travail introduit une approche pour mesurer l’intelligence coopérative appropriée à l’humain, en mettant l’accent sur la capacité d’un agent à identifier et exploiter des occasions de gain mutuel entre partenaires et contextes diversifiés. Nous présentons les résultats empiriques du concours Concordia NeurIPS 2024, où les agents ont été évalués sur leur capacité à obtenir des gains mutuels à travers une gamme de scénarios diversifiés, allant de la négociation aux problèmes d’action collective. Nos résultats révèlent des écarts importants entre les capacités actuelles des agents et la généralisation robuste requise pour une coopération fiable, particulièrement dans les scénarios nécessitant la persuasion et l’application des normes.

TL; DR : Dans cet article, nous présentons une méthode pour évaluer la coopération chez des agents basés sur LLM avec des co-joueurs inconnus dans des scénarios nouveaux à motifs mixtes, et nous présentons les techniques analytiques, méthodes et résultats du concours Concordia 2024.

Reconstruction en bullet-time en avance de scènes dynamiques à partir de vidéos monoculaires

Hanxue Liang, Jiawei Ren, Ashkan Mirzaei, Antonio Torralba, Ziwei Liu, Igor Gilitschenski (membre du corps professoral Vector), Sanja Fidler (membre du corps professoral Vector), Cengiz Oztireli, Huan Ling, Zan Gojcic, Jiahui Huang

Résumé

Les avancées récentes dans la reconstruction statique de la scène en avance ont démontré des progrès significatifs dans la synthèse de vues nouvelles de haute qualité. Cependant, ces modèles ont souvent du mal à se généraliser dans des environnements variés et ne gèrent pas efficacement le contenu dynamique. Nous présentons BTimer (abréviation de Bullet Timer), le premier modèle de feed-forward sensible au mouvement pour la reconstruction en temps réel et la nouvelle synthèse de vues de scènes dynamiques. Notre approche reconstruit la scène complète dans une représentation 3D Gaussian Splatting à un horodatage cible donné (« balle ») en agrégeant l’information de tous les cadres contextuels. Une telle formulation permet à BTimer de gagner en évolutivité et en généralisation en exploitant à la fois des ensembles de données de scènes statiques et dynamiques. Avec une vidéo monoculaire dynamique décontractée, BTimer reconstruit une scène en bullet-time en 150 ms tout en atteignant des performances de pointe sur des ensembles de données de scènes statiques et dynamiques, même comparé aux approches basées sur l’optimisation.

TLDR : Reconstitution dynamique de scènes 3DGS en avance à partir de vidéos.

FlashMD : prédiction universelle et à pas long de la dynamique moléculaire

Article de mise en lumière

Filippo Bigi, Sanggyu Chong, Agustinus Kristiadi (affilié de la faculté Vector), Michele Ceriotti

Résumé

La dynamique moléculaire (DM) fournit des éclairages sur les processus à l’échelle atomique en intégrant au fil du temps les équations qui décrivent le mouvement des atomes sous l’action des forces interatomiques. Les modèles d’apprentissage automatique ont considérablement accéléré la DM en fournissant des prédictions peu coûteuses des forces, mais ils restent limités à de minuscules étapes d’intégration temporelle, requises par l’échelle rapide du mouvement atomique. Dans ce travail, nous proposons FlashMD, une méthode permettant de prédire l’évolution des positions et des moments de mouvement sur des foulées allant d’un à deux ordres de grandeur plus longues que les pas de temps typiques de la MD. Nous intégrons des considérations sur les propriétés mathématiques et physiques de la dynamique hamiltonienne dans l’architecture, généralisons l’approche pour permettre la simulation de tout ensemble thermodynamique, et évaluons soigneusement les modes de défaillance possibles d’une approche DM directe. Nous validons la précision de FlashMD dans la reproduction des propriétés d’équilibre et dépendantes du temps, en utilisant à la fois des modèles spécifiques au système et à usage général, étendant ainsi la capacité de la simulation MD à atteindre les longues échelles de temps nécessaires pour modéliser des processus microscopiques de grande importance scientifique et technologique.

TLDR : Une méthode pour la prédiction des trajectoires de dynamique moléculaire à l’aide de longs pas de temps

Flux4D : Reconstruction 4D non supervisée basée sur l’écoulement

Jingkang Wang, Henry Che, Yun Chen, Ze Yang, Lily Goli, Sivabalan Manivasagam, Raquel Urtasun (membre du corps professoral Vector)

Résumé

Reconstituer des scènes dynamiques à grande échelle à partir d’observations visuelles est un défi fondamental en vision par ordinateur, avec des implications cruciales pour la robotique et les systèmes autonomes. Bien que les méthodes récentes de rendu différentiable telles que Neural Radiance Fields (NeRF) et 3D Gaussian Splatting (3DGS) aient obtenu une reconstruction photoréaliste impressionnante, elles souffrent de limitations de scalabilité et nécessitent des annotations pour découper le mouvement de l’acteur. Les méthodes auto-supervisées existantes tentent d’éliminer les annotations explicites en tirant parti des indices de mouvement et des priors géométriques, mais elles restent limitées par l’optimisation par scène et la sensibilité à l’ajustement des hyperparamètres. Dans cet article, nous présentons Flux4D, un cadre simple et évolutif pour la reconstruction 4D de scènes dynamiques à grande échelle. Flux4D prédit directement les Gaussiennes 3D et leur dynamique de mouvement pour reconstruire les observations des capteurs, de manière entièrement non supervisée. En adoptant uniquement des pertes photométriques et en imposant une régularisation « aussi statique que possible », Flux4D apprend à décomposer les éléments dynamiques directement à partir de données brutes sans nécessiter de modèles supervisés pré-entraînés ou de priors fondamentaux, simplement en s’entraînant à travers de nombreuses scènes. Notre approche permet une reconstruction efficace de scènes dynamiques en quelques secondes, s’adapte efficacement à de grands ensembles de données et se généralise bien à des environnements invisibles, y compris des objets rares et inconnus. Des expériences sur des ensembles de données de conduite en plein air montrent que Flux4D surpasse nettement les méthodes existantes en termes de scalabilité, de généralisation et de qualité de reconstruction.

TLDR : Flux4D est un cadre simple et évolutif pour la reconstruction 4D non supervisée de scènes de conduite à grande échelle.

FreshStack : Établir des repères réalistes pour évaluer la récupération sur des documents techniques

Nandan Thakur, Jimmy Lin (affilié du corps professoral Vector), Samuel Havens, Michael Carbin, Omar Khattab, Andrew Drozdov

Résumé

Nous introduisons FreshStack, un cadre holistique permettant de construire automatiquement des références d’évaluation de la récupération d’information (RI) en intégrant des questions et réponses difficiles. FreshStack effectue les étapes suivantes : (1) collecte automatique de corpus à partir du code et de la documentation technique, (2) génération de nuggets à partir de questions et réponses posées par la communauté, et (3) support au niveau des nuggets, récupération de documents en utilisant une fusion de techniques de récupération et d’architectures hybrides. Nous utilisons FreshStack pour constituer cinq ensembles de données sur des sujets récents, à croissance rapide et de niche afin de garantir que les tâches soient suffisamment exigeantes. Sur FreshStack, les modèles de récupération existants, lorsqu’ils sont appliqués dès l’usée, sous-performent nettement les approches oracles sur les cinq sujets, ce qui laisse beaucoup de marge pour améliorer la qualité des IR. De plus, nous identifions des cas où les reclasseurs n’améliorent pas la précision de la récupération en première étape (deux sujets sur cinq), et le contexte oracle aide un générateur de LLM à générer une réponse RAG de haute qualité. Nous espérons que FreshStack facilitera les travaux futurs visant à construire des benchmarks d’évaluation IR et RAG réalistes, évolutifs et non contaminés.

TL; DR : FreshStack est un cadre pour construire des benchmarks réalistes d’évaluation IR et RAG sur des domaines de niche et récents à partir de questions et réponses posées par la communauté.

De l’information à l’exposant génératif : le taux d’apprentissage induit des transitions de phase dans le SGD

Konstantinos Tsiolis, Alireza Mousavi-Hosseini, Murat Erdogdu (membre du corps professoral Vector)

Résumé

Pour comprendre la dynamique de l’apprentissage des caractéristiques dans les réseaux de neurones, des travaux théoriques récents se sont concentrés sur l’apprentissage basé sur le gradient des modèles gaussiens à indice unique, où l’étiquette est une fonction non linéaire d’une projection latente unidimensionnelle de l’entrée. Bien que la complexité de l’échantillon du SGD en ligne soit déterminée par l’exposant d’information du lien non linéaire, des travaux récents ont amélioré cela en réutilisant des échantillons ou en modifiant la fonction de perte — des transformations qui introduisent des mises à jour non corrélationnelles — et sont plutôt limitées par l’exposant generatif (potentiellement beaucoup plus petit). Cependant, cette image n’est valide que si le taux d’apprentissage est suffisamment élevé. Dans cet article, nous caractérisons la relation entre le taux d’apprentissage et la complexité de l’échantillon pour une large classe d’algorithmes basés sur le gradient qui englobent à la fois les mises à jour corrélationnelles et non corrélationnelles, et démontrons une transition de phase d’un « régime d’exposants d’information » avec un faible taux d’apprentissage à un « régime d’exposants génératifs » avec un taux d’apprentissage élevé. Notre cadre couvre les analyses antérieures du SGD et du SGD en un seul passage avec réutilisation par lots, tout en introduisant un nouvel algorithme d’entraînement couche par couche qui exploite une approche à deux échelles temporelles pour aller au-delà des requêtes corrélationnelles sans réutiliser des échantillons ni modifier la perte due à l’erreur quadratique. Notre étude théorique démontre que le choix du taux d’apprentissage est aussi important que la conception de l’algorithme pour atteindre l’efficacité statistique et computationnelle.

Raisonneur général : Faire progresser le raisonnement LLM dans tous les domaines

Xueguang Ma, Qian Liu, Dongfu Jiang, Ge Zhang, Zejun MA, Wenhu Chen (membre du corps professoral de Vector)

Résumé

L’apprentissage par renforcement (RL) a récemment démontré un fort potentiel pour améliorer les capacités de raisonnement des grands modèles de langage (LLM). En particulier, l’apprentissage par renforcement « Zero » introduit par Deepseek-R1-Zero permet l’entraînement RL direct des LLM de base sans dépendre d’une étape d’ajustement fin supervisée intermédiaire. Malgré ces avancées, les travaux actuels en raisonnement LLM se concentrent principalement sur les domaines mathématiques et de codage, principalement en raison de l’abondance de données et de la facilité de vérification des réponses. Cela limite l’applicabilité et la généralisation de tels modèles à des domaines plus larges, où les questions ont souvent des représentations de réponses diverses et où les données sont plus rares. Dans cet article, nous proposons \model, un paradigme d’entraînement novateur conçu pour améliorer les capacités de raisonnement des LLM dans divers domaines. Nos contributions clés incluent : (1) la construction d’un ensemble de données de questions à grande échelle et de haute qualité, avec des réponses vérifiables sélectionnées par l’exploration web, couvrant un large éventail de disciplines; et (2) développer un vérificateur de réponses basé sur un modèle génératif, qui remplace la vérification traditionnelle basée sur des règles par la capacité de la chaîne de pensée et de la conscience contextuelle. Notre évaluation complète à travers des benchmarks tels que MMLU-Pro, GPQA, SuperGPQA, BBEH et MATH, AMC, etc., démontre que \model surpasse les méthodes de référence existantes, atteignant une performance de raisonnement robuste et généralisable tout en maintenant une efficacité supérieure dans les tâches de raisonnement mathématique. Les points de contrôle du code, des données et des modèles dans ce travail seront publiés.

Une analyse géométrique de l’ACP

Ayoub El Hanchi, Murat Erdogdu (membre du corps professoral Vector), Chris Maddison (membre du corps professoral Vector)

Résumé

Quelle propriété de la distribution des données détermine le risque excédentaire de l’analyse des composantes principales? Dans cet article, nous fournissons une réponse précise à cette question. Nous établissons un théorème central de la limite pour l’erreur du sous-espace principal estimé par l’ACP, et dérivons la distribution asymptotique de son excédent de risque sous la perte de reconstruction. Nous obtenons une borne supérieure non asymptotique sur le risque excédentaire d’ACP qui récupère, dans la grande limite d’échantillon, notre caractérisation asymptotique. Sous-jacente à nos contributions se trouve le résultat suivant : nous démontrons que le quotient de Rayleigh négatif, défini sur le grassmannien, est généralisé auto-concordant selon les géodésiques émanant de son minimiseur de rotation maximale inférieure à $\pi/4$.

TLDR : Nous démontrons la normalité asymptotique de l’ACP sur le Grassmannien, et dérivons une borne stricte non asymptotique sur son risque excédentaire à l’aide de l’auto-concordance.

Raffinement rapide mondial avec un masquage d’attention non interférent pour un apprentissage fédéré one-shot

Zhuang Qi, Yu Pan, Lei Meng, Sijin Zhou, Han Yu, Xiaoxiao Li (membre du corps professoral du Vector), Xiangxu Meng

Résumé

L’apprentissage fédéré des prompts (FPL) permet une adaptation efficace en communication en ajustant des invites légères au-dessus de modèles pré-entraînés gelés. Les méthodes FPL existantes reposent généralement sur des informations globales, qui ne sont disponibles qu’après la deuxième ronde d’entraînement, pour faciliter la collaboration entre modèles clients. Par conséquent, ils dépendent intrinsèquement de la communication multi-rounds pour démontrer pleinement leurs forces. De plus, les méthodes d’apprentissage fédéré one-shot existantes se concentrent généralement sur l’adéquation des tâches visibles, mais manquent de généralisation croisée. Pour combler cet écart, nous proposons la méthode globale de raffinement des prompts avec masquage d’attention non interférent (GPR-NIAM) pour le FPL en un seul tir. L’idée centrale est de concevoir un mécanisme de masquage qui limite l’interaction excessive entre les embeddings textuels originaux et les embeddings des prompts apprenables. Le GPR-NIAM y parvient grâce à la collaboration de deux modules clés. Premièrement, le module d’isolation de l’attention supprime l’attention des jetons d’invite apprenables vers les jetons textuels originaux, et réévalue l’attention inversée qui préserve la généralisation entre les tâches. Deuxièmement, le module de raffinement collaboratif inter-silos intègre des connaissances visuelles décentralisées dans une base unifiée et calibre l’invite globale grâce à l’alignement des connaissances multi-sources intermodales, atténuant ainsi davantage l’incohérence causée par l’hétérogénéité des données. Des expériences approfondies menées sur dix ensembles de données de référence sous deux tâches montrent que le GPR-NIAM surpasse huit méthodes de pointe tant au niveau de la classe qu’au niveau du domaine.

Ground-Compose-Reinforce : Tâche des agents d’apprentissage par renforcement à travers un langage formel

Andrew Li, Toryn Klassen (Boursier postdoctoral Vector CIFAR en sécurité IA), Andrew Wang, Parand A. Alamdari, Sheila McIlraith (membre du corps professoral Vector)

Résumé

Ancrer le langage dans la perception et l’action est un défi clé lors de la construction d’agents situés capables d’interagir avec des humains, ou d’autres agents, via le langage. Par le passé, relever ce défi a nécessité de concevoir manuellement le langage, d’ancrer ou de sélectionner d’énormes ensembles de données associant le langage à l’environnement. Nous proposons Ground-Compose-Reinforce, un cadre neurosymbolique de bout en bout pour entraîner directement les agents RL à partir de spécifications de tâches de haut niveau — sans fonctions de récompense conçues manuellement ni autres oracles spécifiques au domaine, et sans jeux de données massifs. Ces spécifications de tâches prennent la forme de machines à récompense, des représentations basées sur des automates qui capturent une structure de tâche de haut niveau et sont dans certains cas autoformalisables à partir du langage naturel. De manière cruciale, nous montrons que les machines à récompense peuvent être ancrées en utilisant des données limitées en exploitant la compositionnalité. Des expériences dans un domaine Meta-World personnalisé avec seulement 350 trajectoires de préentraînement identifiées montrent que notre cadre extrait fidèlement des comportements complexes à partir de spécifications de haut niveau — y compris des comportements qui n’apparaissent jamais dans le préentraînement — tandis que les approches non compositionnelles échouent.

TLDR : Nous entraînons les agents RL directement à partir de spécifications de haut niveau, sans fonctions de récompense ni oracles spécifiques au domaine.

Amélioration de la descente naturelle du gradient d’énergie à travers Woodbury, de la quantité de mouvement et de la randomisation

Andrés Guzmán-Cordero, Felix Dangel (boursier postdoctoral distingué Vector), Gil Goldshlager, Marius Zeinhofer

Résumé

Les méthodes à gradient naturel accélèrent considérablement l’entraînement des réseaux de neurones informés par la physique (PINN), mais sont souvent trop coûteuses. Nous introduisons un ensemble de techniques pour améliorer la précision et l’efficacité de la descente naturelle du gradient d’énergie (ENGD) pour les PINN. D’abord, nous utilisons la formule de Woodbury pour réduire considérablement la complexité computationnelle de l’ENGD. Deuxièmement, nous adaptons l’algorithme de descente naturelle du gradient projeté sous-échantillonné issu de la littérature variationnelle Monte Carlo pour accélérer la convergence. Troisièmement, nous explorons l’utilisation d’algorithmes aléatoires pour réduire davantage le coût de calcul dans le cas de grandes tailles de lots. Nous constatons que la randomisation accélère les progrès dans les premières étapes de l’entraînement pour des problèmes de faible dimension, et nous identifions les principaux obstacles à l’accélération dans d’autres scénarios. Nos expériences numériques démontrent que nos méthodes surpassent les approches précédentes, atteignant la même erreur de $L^2$ que l’ENGD original, jusqu’à 75 $/fois plus rapidement.

TLDR : Nous introduisons l’identité matricielle de Woodbury, le SPRING de type impulsion et la randomisation pour rendre la descente du gradient naturel de l’énergie 75 fois plus rapide pour les PINN.

Une étude du risque de mémorisation dans les modèles de fondations en santé

Sana Tonekaboni (boursière postdoctorale distinguée Vector), Lena Stempfle, Adibvafa Fallahpour, Walter Gerych, Marzyeh Ghassemi

Résumé

Les modèles Foundation entraînés sur des dossiers médicaux électroniques (DSE) à grande échelle et non identifiés, sont prometteurs pour des applications cliniques. Cependant, leur capacité à mémoriser les informations des patients soulève d’importantes préoccupations en matière de vie privée. Dans ce travail, nous introduisons une série de tests d’évaluation en boîte noire pour évaluer les risques de mémorisation dans des modèles fondamentaux entraînés sur des données DME structurées. Notre cadre inclut des méthodes pour sonder la mémorisation tant au niveau de l’embedding qu’au niveau génératif, et distingue la généralisation de la mémorisation nuisible dans des contextes cliniquement pertinents. Nous contextualisons la mémorisation en fonction de son potentiel à compromettre la vie privée des patients, particulièrement pour les sous-groupes vulnérables. Nous validons notre approche selon un modèle de fondation DSE accessible publiquement et publions une boîte à outils open source pour faciliter des évaluations reproductibles et collaboratives de la vie privée en IA en soins de santé.

TLDR : Nous proposons des tests en boîte noire pour détecter la mémorisation nuisible dans les modèles de base entraînés sur des données structurées de DSE. Validé sur un modèle public, notre boîte à outils soutient les audits de confidentialité en distinguant la généralisation de la mémorisation compromettante pour la vie privée.

L’illusion du classement

Shivalika Singh, Yiyang Nan, Alex Wang, Daniel Dsouza, Sayash Kapoor, Ahmet Üstün, Sanmi Koyejo, Yuntian Deng (affilié à la faculté Vector), Shayne Longpre, Noah Smith, Beyza Ermis, Marzieh Fadaee, Sara Hooker

Résumé

Mesurer le progrès est fondamental pour l’avancement de tout domaine scientifique. À mesure que les benchmarks jouent un rôle de plus en plus central, ils deviennent aussi plus vulnérables à la distorsion. Chatbot Arena est devenu le classement de référence pour classer les systèmes d’IA les plus performants. Pourtant, dans ce travail, nous identifions des problèmes systémiques qui ont entraîné une déformation du terrain de jeu. Nous constatons que les pratiques de tests privées non divulguées bénéficient à une poignée de fournisseurs capables de tester plusieurs variants avant leur publication publique et de retirer leurs scores si désirés. Nous établissons que la capacité de ces fournisseurs à choisir le meilleur score conduit à des scores Arena biaisés en raison de la divulgation sélective des résultats de performance. À l’extrême, nous avons trouvé un fournisseur testant 27 variantes privées avant de rendre un modèle public à la deuxième position du classement. Nous établissons également que les modèles fermés propriétaires sont échantillonnés à des taux plus élevés (nombre de combats) et ont moins de modèles retirés de l’arène que les alternatives open weight et open source. Ces deux politiques entraînent de grandes asymétries d’accès aux données au fil du temps. Les deux principaux fournisseurs ont individuellement reçu environ 19,2% et 20,4% de toutes les données sur l’arène. En revanche, un total combiné de 83 modèles à poids ouvert n’ont reçu qu’environ 29,7% des données totales. Avec des estimations prudentes, nous montrons que l’accès aux données de Chatbot Arena apporte des avantages substantiels; même des données supplémentaires limitées peuvent entraîner des gains relatifs de performance allant jusqu’à 112% sur ArenaHard, un ensemble de test issu de la distribution de l’arène. Ensemble, ces dynamiques entraînent un surajustement aux dynamiques spécifiques à l’Arena plutôt qu’à la qualité générale du modèle. L’Arena s’appuie sur les efforts substantiels des organisateurs et d’une communauté ouverte qui maintient cette plateforme d’évaluation précieuse. Nous offrons des recommandations concrètes pour réformer le cadre d’évaluation de l’arène des chatbots et promouvoir des étalons plus équitables et transparents pour le domaine.

TL; DR : Chatbot Arena est devenue une plateforme de premier plan pour classer les modèles d’IA. Notre étude approfondie met au jour des dynamiques cachées qui faussent les classements et propose des mesures concrètes pour améliorer l’équité et la transparence dans l’évaluation des modèles sur Chatbot Arena.

Apprendre à partir d’exemples positifs et non étiquetés - Bornes d’échantillon de taille finie

Farnam Mansouri, Shai Ben-David (Membre du corps professoral Vector)

Résumé

L’apprentissage PU (Positive Unlabeled) est une variante de l’apprentissage par classification supervisée dans laquelle les seules distinctions révélées à l’apprenant sont celles des instances positivement étiquetées. L’apprentissage des PU apparaît dans de nombreuses applications réelles. La plupart des travaux existants reposent sur l’hypothèse simplifiante que les données d’entraînement positivement étiquetées proviennent de la restriction de la distribution génératrice de données à des instances positivement étiquetées et/ou que la proportion de points positivement étiquetés (aussi appelée la classe précédente) est connue a priori pour l’apprenant. Cet article propose une analyse théorique de la complexité statistique de l’apprentissage par PU dans un éventail plus large de configurations. Contrairement à la plupart des travaux antérieurs, notre étude ne suppose pas que la classe précédente est connue de l’apprenant. Nous démontrons les bornes supérieures et inférieures sur les tailles d’échantillons requises (des échantillons positivement marqués et non marqués).

TLDR : Cet article fournit des exemples de limites de complexité pour apprendre à partir d’exemples positifs et non étiquetés.

Apprentissage des réseaux de neurones quadratiques en haute dimension : dynamique SGD et lois d’échelle

Gerard Ben Arous, Murat Erdogdu (membre du corps professoral Vector), Nuri Mert Vural, Denny Wu

Résumé

Nous étudions l’optimisation et la complexité d’échantillonnage de l’entraînement basé sur le gradient d’un réseau neuronal à deux couches avec fonction d’activation quadratique dans un régime à haute dimension, où les données sont générées comme $y \propto \sum_{j=1}^{r}\lambda_j \sigma\left(\langle \boldsymbol{\theta_j}, \boldsymbol{x}\rangle\right), \boldsymbol{x} \sim \mathcal{N}(0,\boldsymbol{I}_d)$, où $\sigma$ est le deuxième polynôme d’Hermite, et $\lbrace \boldsymbol{\theta}_j \rbrace _{j=1}^{r} \sous-ensemble \mathbb{R}^d$ sont des directions de signaux orthonormaux. On considère le régime de largeur étendue $r \asymp d^\beta$ pour $\beta \in (0, 1)$, et on suppose une désintégration de loi de puissance sur les coefficients de deuxième couche (non négatif) $\lambda_j\asymp j^{-\alpha}$ pour $\alpha \geq 0$. Nous fournissons une analyse précise de la dynamique SGD dans le régime d’apprentissage des caractéristiques, tant pour la limite de population que pour la discrétisation en échantillon fini (en ligne), et dérivons des lois d’échelle pour le risque de prédiction qui mettent en évidence les dépendances des lois de puissance sur le temps d’optimisation, la taille de l’échantillon et la largeur du modèle. Notre analyse combine une caractérisation précise de l’équation différentielle de Riccati associée à la matrice avec de nouveaux arguments de monotonie matricielle afin d’établir des garanties de convergence pour la dynamique effective de dimension infinie.

Apprendre à nettoyer : apprentissage par renforcement pour la correction d’étiquettes bruyantes

Marzi Heidari, Hanping Zhang, Yuhong Guo (affiliés de la faculté Vector)

Résumé

Le défi d’apprendre avec des étiquettes bruitées est important en apprentissage automatique, car il peut gravement dégrader la performance des modèles de prédiction s’il n’est pas correctement traité. Cet article présente un cadre novateur qui conceptualise la correction d’étiquettes bruitées comme un problème d’apprentissage par renforcement (RL). L’approche proposée, Reinforcement Learning for Noisy Label Correction (RLNLC), définit un espace d’états complet représentant les données et leurs étiquettes associées, un espace d’actions qui indique les corrections possibles d’étiquette, et un mécanisme de récompense qui évalue l’efficacité des corrections d’étiquette. RLNLC apprend un réseau de politiques profond basé sur la représentation de caractéristiques pour effectuer la correction d’étiquettes par apprentissage par renforcement, en utilisant une méthode acteur-critique. La politique apprise est ensuite déployée pour corriger de façon itérative les étiquettes d’entraînement bruyantes et soutenir l’entraînement par modèle de prédiction. L’efficacité du RLNLC est démontrée par des expériences approfondies sur plusieurs ensembles de données de référence, où il surpasse constamment les techniques de pointe existantes pour apprendre à partir d’étiquettes bruitées.

Couplage de distribution au niveau de liste avec applications au décodage spéculatif et à la compression avec perte

Joseph Rowan, Truong Buu Phan, Ashish Khisti (affilié du corps professoral Vector)

Résumé

Nous étudions une relaxation du problème des distributions de probabilité de couplage — une liste d’échantillons est générée à partir d’une distribution et un *accept* est déclaré si l’un de ces échantillons est identique à l’échantillon généré par l’autre distribution. Nous proposons une méthode nouvelle pour générer des échantillons, qui étend l’échantillonnage Gumbel-max suggéré par Daliri et al. (2025) pour le couplage des distributions de probabilité. Nous établissons aussi une borne inférieure correspondante à la probabilité d’acceptation, que nous appelons le \emph{lemme de correspondance par liste}. Nous discutons ensuite de deux applications de notre installation. Premièrement, nous développons un nouveau mécanisme d’échantillonnage spéculatif multi-brouillons qui est simple à mettre en œuvre et qui atteint des performances compétitives par rapport aux références telles que SpecTr et SpecInfer pour une gamme de tâches linguistiques. Notre méthode garantit également un certain degré d'*invariance de dessinateur* par rapport aux jetons de sortie, ce qui n’est pas supporté par les schémas existants. Nous fournissons également une borne inférieure théorique sur la probabilité d’acceptation au niveau des jetons. Comme deuxième application, nous considérons la compression distribuée avec perte avec informations latérales dans un contexte où un échantillon source est compressé et disponible pour plusieurs décodeurs, chacun avec des informations latérales indépendantes. Nous proposons une technique de compression basée sur notre généralisation de l’échantillonnage Gumbel-max et montrons qu’elle apporte des gains significatifs dans des expériences impliquant des sources gaussiennes synthétiques et le jeu d’images MNIST.

TLDR : Nous introduisons une technique de couplage des distributions de probabilité lorsque plusieurs échantillons sont disponibles à partir de l’une des distributions, et proposons des applications au décodage spéculatif multi-brouillon et à la compression distribuée avec perte avec information latérale.

Échantillonnage privé localement optimal : au-delà du minimax global

Hrad Ghoukasian, Bonwoo Lee, Shahab Asoodeh (affiliés de la faculté Vector)

Résumé

Nous étudions le problème de l’échantillonnage à partir d’une distribution selon la confidentialité différentielle locale (PLD). Étant donné une distribution privée $P \in \mathcal{P}$, l’objectif est de générer un seul échantillon à partir d’une distribution qui reste proche de $P$ en divergence $f$ tout en satisfaisant les contraintes de LDP. Cette tâche relève le défi fondamental de produire des données réalistes sous de fortes garanties de confidentialité. Alors que les travaux antérieurs de Park et al. (NeurIPS'24) se concentrent sur l’optimalité minimax globale à travers une classe de distributions, nous adoptons une perspective locale. Plus précisément, nous examinons l’erreur minimax dans un voisinage autour d’une distribution fixe $P_0$, et caractérisons sa valeur exacte, qui dépend à la fois de $P_0$ et du niveau de confidentialité. Notre principal résultat montre que l’erreur minimax locale est déterminée par l’erreur minimax globale lorsque la classe de distribution $\mathcal{P}$ est restreinte à un voisinage autour de $P_0$. Pour établir cela, nous (1) étendons les travaux antérieurs du LDP pur au cadre plus général du LDP fonctionnel, et (2) démontrons que l’échantillonneur LDP fonctionnel globalement optimal donne l’échantillonneur local optimal lorsqu’il est contraint à des distributions proches de $P_0$. En s’appuyant sur cela, nous dérivons aussi une expression simple en forme fermée pour les échantillonneurs localement minimax-optimaux qui ne dépend pas du choix de la divergence $f$. Nous soutenons en outre que ce cadre local modélise naturellement l’échantillonnage privé avec des données publiques, où la distribution des données publiques est représentée par $P_0$. Dans ce contexte, nous comparons empiriquement notre échantillonneur localement optimal aux méthodes globales existantes, et démontrons qu’il surpasse systématiquement les échantillonneurs minimax globaux.

LookWhere? Reconnaissance visuelle efficace en apprenant où regarder et quoi voir grâce à l’auto-supervision

Anthony Fuller, Yousef Yassin, Junfeng Wen, Tarek Ibrahim, Daniel Kyrollos, James Green, Evan Shelhamer (membre du corps professoral de Vector)

Résumé

Les transformateurs de vision sont de plus en plus grands, plus précis et plus coûteux à calculer. À haute résolution, le coût est encore plus extrême à mesure que le nombre de jetons augmente quadratiquement dans la taille de l’image. Nous nous tournons vers le calcul adaptatif pour faire face à ce coût en apprenant à prédire où calculer. Notre méthode LookWhere divise le calcul entre un sélecteur à basse résolution et un extracteur à haute résolution sans jamais traiter l’entrée complète à haute résolution. Nous préentraînons conjointement le sélecteur et l’extracteur sans supervision de tâche par distillation par un enseignant auto-supervisé, apprenant ainsi où et quoi calculer en même temps. Contrairement aux méthodes antérieures de réduction de jetons, qui paient pour économiser en élagant des jetons déjà calculés, et aux méthodes de sélection antérieure, qui nécessitent une optimisation complexe et coûteuse par tâche, LookWhere sélectionne et extrait de manière économique et précise des représentations transférables des images. Nous montrons que LookWhere excelle dans la reconnaissance clairsemée des entrées à haute résolution (panneaux de signalisation), le maintien de la précision tout en réduisant les FLOP de 17x et le temps de 4x, ainsi que dans les tâches de reconnaissance standard globales (classification ImageNet) et locales (segmentation ADE20K), améliorant la précision tout en réduisant le temps de 1,36x.

TLDR : Nous introduisons un cadre de sélecteur-extracteur qui extrait des caractéristiques haute résolution sans jamais voir les images complètes en haute résolution pour économiser le calcul.

LuxDiT : Estimation de l’éclairage avec transformateur de diffusion vidéo

Ruofan Liang, Kai He, Zan Gojcic, Igor Gilitschenski (membre du corps professoral Vector), Sanja Fidler (membre du corps professoral Vector), Nandita Vijaykumar (membre du corps professoral Vector), Zian Wang

Résumé

Estimer l’éclairage des scènes à partir d’une seule image ou vidéo demeure un défi de longue date en vision par ordinateur et en graphisme. Les approches basées sur l’apprentissage sont limitées par la rareté des cartes d’environnement HDR fiables, qui sont coûteuses à capturer et limitées en diversité. Bien que les modèles génératifs récents offrent de solides priorités pour la synthèse d’images, l’estimation de l’éclairage demeure difficile en raison de sa dépendance à des indices visuels indirects, de la nécessité d’inférer un contexte global (non local) et de la récupération de sorties à large plage dynamique. Nous proposons LuxDiT, une approche novatrice basée sur les données qui ajuste finement un transformateur de diffusion vidéo pour générer des cartes d’environnement HDR conditionnées à l’entrée visuelle. Entraîné sur un vaste ensemble de données synthétique avec des conditions d’éclairage variées, notre modèle apprend à déduire l’illumination à partir d’indices visuels indirects et généralise efficacement aux scènes réelles. Pour améliorer l’alignement sémantique entre l’entrée et la carte d’environnement prédite, nous introduisons une stratégie d’ajustement fin d’adaptation de bas rang à l’aide d’un ensemble de données collecté de panoramas HDR. Notre méthode produit des prédictions d’éclairage précises avec des détails angulaires réalistes à haute fréquence, surpassant les techniques de pointe existantes tant dans les évaluations quantitatives que qualitatives.

Le désapprentissage automatique ne fait pas ce que vous pensez : Leçons pour la politique et la recherche en IA générative

A. Feder Cooper, Christopher Choquette-Choo, Miranda Bogen, Kevin Klyman, Matthew Jagielski, Katja Filippova, Ken Liu, Alex Chouldechova, Jamie Hayes, Yangsibo Huang, Eleni Triantafillou, Peter Kairouz, Nicole Mitchell, Niloofar Mireshghallah, Abigail Jacobs, James Grimmelmann, Vitaly Shmatikov, Christopher De Sa, I Shumailov, Andreas Terzis, Solon Barocas, Jennifer Wortman Vaughan, Danah Boyd, Yejin Choi, Sanmi Koyejo, Fernando Delgado, Percy Liang, Daniel Ho, Pamela Samuelson, Miles Brundage, David Bau, Seth Neel, Hanna Wallach, Amy Cyphert, Mark Lemley, Nicolas Papernot (membre du corps professoral de Vector), Katherine Lee

Résumé

Le « désapprentissage automatique » est une solution proposée populaire pour atténuer l’existence de contenu dans un modèle d’IA qui pose problème pour des raisons juridiques ou morales, notamment la vie privée, le droit d’auteur, la sécurité, et plus encore. Par exemple, le désapprentissage est souvent invoqué comme solution pour éliminer les effets d’informations spécifiques des paramètres d’un modèle d’IA générative, par exemple, les données personnelles d’un individu particulier ou l’inclusion de contenu protégé par droit d’auteur dans les données d’entraînement du modèle. Le désapprentissage est aussi proposé comme un moyen d’empêcher un modèle de générer des types d’informations ciblés dans ses résultats, par exemple, des générations qui ressemblent beaucoup aux données d’un individu particulier ou reflètent le concept de « Spiderman ». Ces deux objectifs – la suppression ciblée d’informations d’un modèle et la suppression ciblée d’informations des résultats d’un modèle – présentent divers défis techniques et substantiels. Nous fournissons un cadre permettant aux chercheurs et décideurs en apprentissage automatique de réfléchir rigoureusement à ces défis, en identifiant plusieurs inadéquations entre les objectifs du désapprentissage et les mises en œuvre réalisables. Ces inadéquations expliquent pourquoi le désapprentissage n’est pas une solution polyvalente pour limiter le comportement des modèles d’IA générative au service d’un impact positif plus large.

La Matrice : génération de mondes à horizon infini avec contrôle mobile en temps réel

Ruili Feng, Han Zhang, Zhilei Shu, Zhantao Yang, Longxiang Tang, Zhicai Wang, Andy Zheng, Jie Xiao, Zhiheng Liu, Ruihang Chu, Yukun Huang, Yu Liu, Hongyang Zhang (membre du corps professoral de Vector)

Résumé

Nous vous présentons The Matrix, un simulateur de monde réaliste fondamental capable de générer des flux vidéo de scènes réelles haute fidélité en 720p infiniment longs, avec un contrôle réactif en temps réel en vue à la première et à la troisième personne. Entraîné sur des données supervisées limitées provenant de jeux vidéo comme Forza Horizon 5 et Cyberpunk 2077, complété par des séquences non supervisées à grande échelle provenant de décors réels comme les rues de Tokyo, The Matrix permet aux utilisateurs de traverser des terrains variés — déserts, prairies, plans d’eau et paysages urbains — dans des séquences continues et non coupées d’une heure. Avec des vitesses allant jusqu’à 16 FPS, le système supporte l’interactivité en temps réel et démontre une généralisation zéro coup, traduisant des environnements de jeu virtuels vers des contextes réels où la collecte de données de déplacement continu est souvent impossible. Par exemple, The Matrix peut simuler une BMW X3 traversant un bureau — un environnement présent ni dans les données de jeu ni dans les sources réelles. Cette approche démontre le potentiel des données de jeux pour faire progresser des modèles mondiaux robustes, comblant le fossé entre simulations et applications réelles dans des scénarios avec des données limitées.

TLDR : Cet article présente The Matrix, un simulateur de monde réaliste fondamental capable de générer des flux vidéo de scènes réelles haute fidélité 720p infiniment longs avec un contrôle réactif en temps réel.

Mesurer les capacités scientifiques des modèles de langage avec un laboratoire sec de biologie des systèmes

Haonan Duan, Stephen Lu, Caitlin F Harrigan, Nishkrit Desai, Jiarui Lu, Michał Koziarski, Leonardo Cotta, Chris Maddison (membre du corps professoral de Vector)

Résumé

La conception d’expériences et l’interprétation des résultats sont des compétences scientifiques fondamentales, particulièrement en biologie, où les chercheurs perturbent des systèmes complexes pour découvrir les systèmes sous-jacents. Les efforts récents pour évaluer les capacités scientifiques des grands modèles de langage (LLM) ne testent pas ces compétences, car l’expérimentation en laboratoire humide est prohibitive : en expertise, en temps et en équipement. Nous introduisons SciGym, un benchmark de premier ordre qui évalue les capacités de conception et d’analyse d’expériences itératives des LLM dans des tâches de découverte scientifique ouvertes. SciGym surmonte le défi des coûts de laboratoire humide en exploitant un laboratoire sec de systèmes biologiques. Ces modèles, codés dans Systems Biology Markup Language, sont efficaces pour générer des données simulées, ce qui en fait des bancs d’essai idéaux pour l’expérimentation sur des systèmes réellement complexes. Nous avons évalué six LLM Frontier sur 137 petits systèmes, et lancé un total de 350 systèmes à https://huggingface.co/datasets/h4duan/scigym-sbml. Notre évaluation montre que, bien que des modèles plus performants aient démontré une performance supérieure, la performance de tous les modèles a considérablement diminué à mesure que la complexité du système augmentait, ce qui suggère une marge substantielle d’amélioration des capacités scientifiques des agents LLM.

TL; DR : Nous introduisons une référence utilisant des systèmes biologiques simulés pour évaluer les capacités de découverte scientifique des LLM.

MoKa : Vers une génération de personnages parlants digne d’un film

Article de mise en lumière

Cong Wei, Bo Sun (affilié de la faculté Vector), Haoyu Ma, Ji Hou, Felix Juefei-Xu, Zecheng He, Xiaoliang Dai, Luxin Zhang, Kunpeng Li, Tingbo Hou, Animesh Sinha, Peter Vajda, Wenhu Chen (membre du corps professoral de Vector)

Résumé

Les avancées récentes en génération vidéo ont permis d’atteindre un réalisme du mouvement impressionnant, mais elles négligent souvent la narration axée sur les personnages, une tâche cruciale pour la génération automatisée de films et d’animation. Nous introduisons \textbf{Talking Characters}, une tâche plus réaliste pour générer des animations de personnages parlants directement à partir de la parole et du texte. Contrairement à Talking Head, Talking Characters vise à générer le portrait complet d’un ou plusieurs personnages au-delà de la région faciale. Dans cet article, nous proposons MoCha, le premier du genre à générer des personnages parlants. Pour assurer une synchronisation précise entre la vidéo et la parole, nous proposons un mécanisme \textbf{attention audio localisée} qui aligne efficacement les jetons de parole et de vidéo. Pour répondre à la rareté des ensembles de données vidéo à grande échelle étiquetés par la parole, nous introduisons une stratégie d’entraînement conjointe qui exploite à la fois les données vidéo étiquetées par la parole et par le texte, améliorant considérablement la généralisation entre diverses actions de caractères. Nous concevons aussi des modèles structurés d’invites avec balises de personnage, permettant pour la première fois \textbf{conversation multi-caractères avec dialogues au tour par tour} — permettant aux personnages générés par l’IA d’engager des conversations contextuelles avec une cohérence cinématographique. Des évaluations qualitatives et quantitatives approfondies, incluant des études humaines et des comparaisons de références, démontrent que MoCha établit une nouvelle norme pour la narration cinématographique générée par l’IA, atteignant un réalisme, une maîtrisabilité et une généralisation supérieurs.

TLDR : Nous introduisons MoCha, le premier modèle de génération de plans de film axés sur le dialogue.

Neural MJD : Diffusion par saut de Merton neuronale non stationnaire pour la prédiction des séries temporelles

Yuanpei Gao, Qi Yan, Yan Leng, Renjie Liao (membre du corps professoral de Vector)

Résumé

Bien que les méthodes d’apprentissage profond aient obtenu de fortes performances en prédiction de séries temporelles, leur nature boîte noire et leur incapacité à modéliser explicitement les processus stochastiques sous-jacents limitent souvent leur généralisation à des données non stationnaires, surtout en présence de changements abrupts. Dans ce travail, nous introduisons Neural MJD, un modèle de diffusion de saut de Merton (MJD) non stationnaire basé sur un réseau de neurones. Notre modèle formule explicitement la prévision comme un problème de simulation d’équation différentielle stochastique (EDS), combinant une diffusion d’Itô inhomogène dans le temps pour capturer des dynamiques stochastiques non stationnaires avec un processus de Poisson composé inhomogène dans le temps pour modéliser des sauts abrupts. Pour permettre un apprentissage traitable, nous introduisons un mécanisme de troncature par vraisemblance qui plafonne le nombre de sauts dans de petits intervalles de temps et fournit une borne d’erreur théorique pour cette approximation. De plus, nous proposons un solveur d’Euler-Maruyama avec redémarrage, qui atteint une borne d’erreur démontrablement plus basse dans l’estimation des états attendus et une variance réduite par rapport au solveur standard. Des expériences sur des ensembles de données synthétiques et réels démontrent que la DMJ neuronale surpasse constamment les méthodes d’apprentissage profond et statistique de pointe.

TLDR : Un nouvel SDE neural de diffusion par saut Merton pour la prédiction probabiliste des séries temporelles.

Sur l’effet du gradient négatif dans l’optimisation par renforcement profond relatif au groupe

Wenlong Deng, Yi Ren, Muchen Li, Danica J. Sutherland, Xiaoxiao Li (membre du corps professoral vectoriel), Christos Thrampoulidis

Résumé

L’apprentissage par renforcement (RL) est devenu populaire pour améliorer les capacités de raisonnement des grands modèles de langage (LLM), l’optimisation relative des politiques de groupe (GRPO) émergeant comme un algorithme largement utilisé dans les systèmes récents. Malgré l’adoption généralisée du GRPO, nous identifions un phénomène jusque-là non reconnu que nous appelons déplacement par probabilité paresseuse (LLD), où la probabilité de réponses correctes augmente ou diminue légèrement pendant l’entraînement. Ce comportement reflète un problème de désalignement récemment découvert dans l’optimisation directe par préférence (DPO), attribué à l’influence des gradients négatifs. Nous fournissons une analyse théorique de la dynamique d’apprentissage de GRPO, identifiant la source de LLD comme la pénalisation naïve de tous les jetons dans des réponses incorrectes avec la même intensité. Pour y remédier, nous développons une méthode appelée NTHR, qui réduit les pénalités sur les jetons contribuant au LLD. Contrairement aux approches antérieures basées sur les DPO, NTHR tire parti de la structure de groupe de GRPO, utilisant les réponses correctes comme ancres pour identifier les jetons influents. Des expériences sur des benchmarks de raisonnement mathématique démontrent que le NTHR atténue efficacement la LLD, produisant des gains de performance constants entre des modèles allant de 0,5B à 3B de paramètres.

Sur la robustesse de la confiance verbale des LLM dans les attaques adverses

Stephen Obadinma, Xiaodan Zhu (membre du corps professoral Vector)

Résumé

Une confiance verbale robuste générée par les grands modèles de langage (LLM) est cruciale pour le déploiement des LLM afin d’assurer transparence, confiance et sécurité dans les interactions humain-IA à travers de nombreuses applications à enjeux élevés. Dans cet article, nous présentons la première étude complète sur la robustesse de la confiance verbale face à des attaques adverses. Nous introduisons un cadre novateur pour attaquer les scores de confiance verbale à la fois par des méthodes basées sur la perturbation et le jailbreak, et montrons que ces attaques peuvent compromettre significativement les estimations de confiance verbale et entraîner des changements fréquents de réponse. Nous examinons une variété de stratégies d’incitation, de tailles de modèles et de domaines d’application, révélant que les méthodes actuelles d’épreuve de confiance sont vulnérables et que les techniques de défense couramment utilisées sont en grande partie inefficaces ou contre-productives. Nos résultats soulignent l’urgence de concevoir des mécanismes plus robustes pour l’expression de la confiance dans les LLM, car même des modifications subtiles préservant la sémantique peuvent mener à une confiance trompeuse dans les réponses.

TLDR : Une étude complète sur la confiance verbale dans les LLM et leur robustesse générale ainsi que son utilisation comme objectif pour les attaques adverses.

Sur la traçabilité dans l’optimisation convexe stochastique LP

Article de mise en lumière

Sasha Voitovych, Mahdi Haghifam, Idan Attias, Gintare Karolina Dziugaite, Roi Livni, Dan Roy (membre du corps professoral de Vector)

Résumé

Dans cet article, nous étudions la nécessité de la traçabilité pour un apprentissage précis en optimisation convexe stochastique (SCO) sous des géométries $ell_p\$. De façon informelle, on dit qu’un algorithme d’apprentissage est \emph{$m$-traçable} si, en analysant sa sortie, il est possible d’identifier au moins $m$ de ses échantillons d’entraînement. Nos principaux résultats révèlent un compromis fondamental entre la traçabilité et le risque excédentaire dans l’OCS. Pour chaque $p\in [1,\infty)$, nous établissons l’existence d’un seuil de risque excédentaire en dessous duquel chaque apprenant efficace par l’échantillon est traçable avec le nombre d’échantillons qui est une \emph{fraction constante} de son échantillon d’entraînement. Pour $p\in [1,2]$, ce seuil coïncide avec le meilleur risque excédentaire des algorithmes différentiellement privés (DP), c’est-à-dire qu’au-dessus de ce seuil, il existe des algorithmes qui ne sont pas traçables, ce qui correspond à une transition de phase brusque. Pour $p \in (2,\infty)$, ce seuil donne plutôt de nouvelles bornes inférieures pour l’apprentissage DP, refermant partiellement un problème ouvert dans cette configuration. En route vers l’établissement de ces résultats, nous démontrons une variante clairsemée du lemme de l’empreinte digitale, qui relève d’un intérêt indépendant pour la communauté.

TLDR : Nous montrons qu’en optimisation convexe stochastique, tout algorithme obtenant une erreur inférieure à la meilleure possible sous confidentialité différentielle est traçable, le nombre d’échantillons traçables correspondant à la complexité statistique de l’apprentissage.

Sélection multi-classes en ligne avec garantie de participation collective

Faraz Zargari, Hossein Jazi, Lyndon Hallett, Bo Sun (affiliée de la faculté Vector), Xiaoqi Tan

Résumé

Nous étudions le problème de la sélection multi-classes en ligne avec les garanties d’équité de groupe, où des ressources limitées doivent être allouées à des agents arrivant séquentiellement. Notre travail aborde deux limites clés de la littérature existante. D’abord, nous introduisons un nouveau schéma d’arrondi sans perte qui garantit que l’algorithme intégral atteint la même performance attendue que toute solution fractionnaire. Deuxièmement, nous abordons explicitement les défis introduits par des agents appartenant à plusieurs classes. À cette fin, nous développons un algorithme aléatoire basé sur un cadre de relax-and-round. L’algorithme calcule d’abord une solution fractionnée en utilisant une approche de réservation de ressources — appelée le mécanisme *set-aside* — afin d’assurer l’équité entre classes. L’étape d’arrondi suivante préserve ces garanties d’équité sans dégrader la performance. De plus, nous proposons une variante augmentée par apprentissage qui intègre des prédictions non fiables par apprentissage automatique afin de mieux équilibrer équité et efficacité dans des contextes pratiques.

OpenCUA : Fondations ouvertes pour les agents à usage informatique

Article de mise en lumière

Xinyuan Wang, Bowen Wang, Dunjie Lu, Junlin Yang, Tianbao Xie, Junli Wang, Jiaqi Deng, Xiaole Guo, Zhennan Shen, Zhuokai Li, Ryan Li, Xiaochuan Li, Junda Chen, Boyuan Zheng, Li Peihang, Fangyu Lei, Chen Wu, Ruisheng Cao, Yeqiao Fu, Dongchan Shin, Martin Shin, Hu Jiarui, Yuyan Wang, Jixuan Chen, Yuxiao Ye, Yiheng Xu, Danyang Zhang, Yipu Wang, Heng Wang, Diyi Yang, Victor Zhong (membre du corps professoral de Vector), Y. Charles, Zhilin Yang, Tao Yu

Résumé

Les modèles de vision-langage ont démontré des capacités impressionnantes en tant qu’agents d’utilisation informatique (CUA) capables d’automatiser diverses tâches informatiques. À mesure que leur potentiel commercial grandit, les détails critiques des systèmes ACUA les plus performants restent fermés et propriétaires. À mesure que ces agents médiatiseront de plus en plus les interactions numériques et prendront des décisions importantes en notre nom, la communauté de recherche a besoin d’accéder à des cadres CUA véritablement ouverts pour étudier leurs capacités, leurs limites et leurs risques. Pour combler cet écart, nous proposons AgentNet, un cadre open source complet pour étendre les données CUA et les modèles de fondation. Notre cadre comprend : (1) une infrastructure d’annotation qui capture sans interruption les démonstrations d’utilisation humain-ordinateur; (2) l’ensemble de données AgentNet, un ensemble de données de 27 000 échantillons de données informatiques couvrant divers systèmes d’exploitation, applications et sites web; (3) un pipeline qui discrétise les actions continues en paires état-action et synthétise le raisonnement réfléchi à longue chaîne de pensée (CoT); (4) une recette d’entraînement pour la modélisation CUA évolutive; et (5) AgentNetBench, un benchmark hors ligne multidimensionnel pour une évaluation CUA plus rapide. Notre jeu de données AgentNet-7B, affiné sur AgentNet, démontre de solides performances sur plusieurs benchmarks CUA, atteignant un taux de réussite de 20,1% sur OSWorld et de 21,1% sur WindowsAgentArena. Notre recette d’entraînement, en particulier ses mécanismes de raisonnement avancés et son mélange stratégique de données, permet une mise à l’échelle robuste des performances avec une taille de données accrue. Une analyse approfondie de nos modèles démontre également une forte généralisation inter-domaines et une forte mise à l’échelle des performances avec le calcul au moment du test. Nous publierons l’outil d’annotation, les ensembles de données, le code et les modèles pour bâtir des bases ouvertes à la recherche ultérieure en ACUA.

Paper2Poster : Étalonnage de la génération d’affiches multimodales à partir d’articles à long contexte

Wei Pang, Kevin Qinghong Lin, Xiangru Jian, Xi He (membre du corps professoral de Vector), Philip Torr

Résumé

La génération d’affiches académiques est une tâche cruciale mais complexe en communication scientifique, nécessitant la compression de documents contextuels longs en une seule page visuellement cohérente. Pour relever ce défi, nous introduisons Paper2Poster, la première suite de référence et de métriques pour la génération d’affiches, qui jumelle des articles récents de conférences à des affiches conçues par les auteurs et évalue les résultats sur (i) la qualité visuelle — l’alignement sémantique avec les affiches humaines, (ii) la cohérence textuelle — la fluidité linguistique, (iii) l’évaluation holistique — six critères esthétiques et informationnels à grain fin évalués par un juge VLM, et notamment (iv) PaperQuiz — la capacité de l’affiche à transmettre le contenu principal du travail tel que mesuré par des VLM répondant à des quiz générés. En s’appuyant sur cette référence, nous proposons PosterAgent, un pipeline multi-agents visuel en boucle descendant : le (a) analyseur distille l’article en une bibliothèque d’assets structurée; le (b) planificateur aligne les paires texte-visuel en une disposition binaire en arbre qui préserve l’ordre de lecture et l’équilibre spatial; et la boucle (c) Painter–Commenter affine chaque panneau en exécutant du code de rendu et en utilisant le retour VLM pour éliminer le débordement et assurer l’alignement. Dans notre évaluation complète, nous constatons que les résultats GPT-4o — bien que visuellement attrayants au premier abord — présentent souvent un texte bruyant et de faibles scores PaperQuiz; Nous constatons que l’engagement des lecteurs est le principal goulot d’étranglement esthétique, car les affiches conçues par l’humain reposent en grande partie sur la sémantique visuelle pour transmettre le sens. Notre pipeline entièrement open source Paper2Poster surpasse les systèmes basés sur GPT-4o sur presque toutes les métriques tout en consommant 87% moins de jetons. Ces résultats tracent des orientations claires pour la prochaine génération de modèles entièrement automatisés à la génération d’affiches.

Pixel Reasoner : Encourager le raisonnement en espace pixel via l’apprentissage par renforcement

Alex Su, Haozhe Wang, Weiming Ren, Fangzhen Lin, Wenhu Chen (membre du corps professoral de Vector)

Résumé

Le raisonnement en chaîne de pensée a considérablement amélioré la performance des grands modèles de langage (LLM) dans divers domaines. Cependant, ce processus de raisonnement s’est limité exclusivement à l’espace textuel, limitant son efficacité dans les tâches visuellement intensives. Pour remédier à cette limitation, nous introduisons le concept de raisonnement en espace pixel. Dans ce cadre novateur, les modèles de vision-langage (VLM) sont équipés d’une suite d’opérations de raisonnement visuel, telles que le zoom et le sélection-image. Ces opérations permettent aux VLM d’inspecter, d’interroger et d’inférer directement à partir de preuves visuelles, améliorant ainsi la fidélité du raisonnement pour les tâches visuelles. Cultiver de telles capacités de raisonnement en espace de pixels dans les VLM présente des défis notables, notamment la compétence initialement déséquilibrée du modèle et sa réticence à adopter les nouvelles opérations en espace pixel. Nous abordons ces défis par une approche de formation en deux phases. La première phase utilise l’ajustement des instructions sur des traces de raisonnement synthétisées pour familiariser le modèle avec les nouvelles opérations visuelles. Ensuite, une phase d’apprentissage par renforcement (RL) utilise un schéma de récompense basé sur la curiosité pour équilibrer l’exploration entre le raisonnement en espace des pixels et le raisonnement textuel. Grâce à ces opérations visuelles, les VLM peuvent interagir avec des entrées visuales complexes, telles que des images ou vidéos riches en information, afin de recueillir de manière proactive les informations nécessaires. Nous démontrons que cette approche améliore significativement la performance du VLM à travers divers benchmarks de raisonnement visuel. Notre modèle 7B, Pixel-Reasoner, obtient 84% sur le banc V*, 74% sur TallyQA-Complex, et 84% sur Infographics VQA, ce qui représente la plus grande précision atteinte à ce jour par un modèle open source. Ces résultats soulignent l’importance du raisonnement en pixels et l’efficacité de notre cadre.

TLDR : Nous introduisons un nouveau paradigme de raisonnement — le raisonnement en espace de pixels. Nous avons identifié le piège de l’apprentissage lors du développement de cette capacité et proposé une approche RL axée sur la curiosité pour y remédier.

Sélection d’hypothèses localement privées efficiente en requête via le graphe de Scheffe

Gautam Kamath (membre du corps professoral Vector), Alireza F. Pour, Matthew Regehr, David Woodruff

Résumé

Nous proposons un algorithme avec une complexité de requête améliorée pour le problème de sélection d’hypothèses sous contraintes locales de confidentialité différentielle. Étant donné un ensemble de distributions de probabilité $k$ $Q$, nous décrivons un algorithme qui satisfait la confidentialité différentielle locale, effectue des requêtes non adaptatives $\tilde{O}(k^{3/2})$ aux individus qui ont chacun des échantillons d’une distribution de probabilité $p$, et produit une distribution de probabilité à partir de l’ensemble $Q$ qui est presque le plus proche de $p$. Les algorithmes précédents nécessitaient soit des requêtes $\Omega(k^2)$, soit de nombreuses séries de requêtes interactives.    Techniquement, nous introduisons un nouvel objet que nous baptisons le graphe Scheff\e, qui capture la structure des différences entre les distributions dans $Q$, et pourrait être d’intérêt plus large pour les tâches de sélection d’hypothèses.

Reconstruction de biomolécules hétérogènes via des mélanges gaussiens hiérarchiques et découverte de parties

Shayan Shekarforoush, David Lindell (membre affilié du corps professoral Vector), Marcus Brubaker (membre du corps professoral Vector), David Fleet (membre du corps professoral Vector)

Résumé

La cryo-EM est un paradigme transformationnel en biologie moléculaire où des méthodes computationnelles sont utilisées pour déduire une structure moléculaire 3D à la résolution atomique à partir d’images extrêmement bruitées au microscope électronique 2D. Au cœur de la recherche se trouve la manière de modéliser la structure lorsque les particules imagées présentent une flexibilité conformationnelle non rigide et une variation compositionnelle là où des parties manquent parfois. Nous introduisons un nouveau cadre de reconstruction 3D avec un modèle mixte gaussienne hiérarchique, inspiré en partie par le splatting gaussien pour la reconstruction de scènes 4D. En particulier, la structure du modèle repose sur un processus initial qui déduit une segmentation partielle de la particule, fournissant un biais inductif essentiel afin de gérer à la fois la variabilité conformationnelle et compositionnelle. Le cadre, appelé CryoSPIRE, a démontré qu’il révèle des structures biologiquement significatives sur des ensembles de données expérimentales complexes, et établit un nouveau point de pointe sur CryoBench, une référence pour les méthodes d’hétérogénéité cryo-EM.

TLDR : Nous présentons un modèle de densité hiérarchique partiellement conscient basé sur le GMM pour aborder la reconstruction cryo-EM.

Réduction de la probabilité de mauvaises sorties dans les modèles de langage à l’aide de l’inférence probabiliste

Stephen Zhao, Aidan Li, Rob Brekelmans, Roger Grosse (membre du corps professoral de Vector)

Résumé

Pour éviter de mauvaises sorties dans les modèles de langage (LM), il existe de nombreuses approches d’alignement (par exemple, RLHF, DPO). Idéalement, nous aimerions que notre LM ait une probabilité nulle de sorties indésirables. L’apprentissage par renforcement (RL) standard atteindrait cela à l’optimalité (si non régularisé). Cependant, en pratique, il peut y avoir un compromis entre les méthodes axées sur la récompense attendue (RL standard) et les méthodes explicitement axées sur la réduction de la probabilité de sorties indésirables. Notre objectif est d’améliorer ce compromis, en réduisant autant que possible la probabilité de mauvais résultats, tout en maintenant la performance sur la récompense attendue. Pour ce faire, nous introduisons RePULSe, une nouvelle méthode d’entraînement qui complète la perte RL standard avec une perte supplémentaire utilisant des propositions apprises pour guider l’échantillonnage des sorties à faible récompense, puis réduit la probabilité de ces résultats. Nous menons des expériences pour tester si notre méthode offre une meilleure réduction de la probabilité de mauvais résultats et de robustesse adversaire, à un coût minimal par rapport à la récompense attendue, comparativement aux approches d’alignement RL standard et autres alternatives.

Une stratégie d’enchères basée sur l’apprentissage par renforcement pour les consommateurs de données dans l’apprentissage fédéré basé sur des enchères

Xiaoli Tang, Han Yu, Xiaoxiao Li (membre du corps professoral de Vector)

Résumé

L’apprentissage fédéré (AFL) basé sur les enchères favorise la collaboration entre les consommateurs de données (DC) intéressés par leur propre intérêt et les propriétaires de données (DO). Un défi majeur en AFL concerne la façon dont les DC sélectionnent et enchérissent pour les DO. Les méthodes existantes sont généralement statiques, ce qui les rend peu adaptées aux marchés dynamiques de l’AFL. Pour répondre à ce problème, nous proposons la stratégie d’enchères basée sur l’apprentissage de l’application de la loi pour les DC dans l’apprentissage fédéré basé sur les enchères (RLB-AFL). Nous intégrons les États historiques dans un Réseau Q profond pour recueillir des informations séquentielles cruciales pour les décisions d’enchères. Pour atténuer la parcimonie dans l’espace d’états, où des états spécifiques réapparaissent rarement pour chaque DC lors des enchères, nous intégrons le modèle de mélange gaussienne dans RLB-AFL. Cela facilite le regroupement doux sur les états séquentiels, réduisant la dimensionnalité de l’espace des états et facilitant l’exploration ainsi que l’approximation de la fonction action-valeur. De plus, nous améliorons la politique de la cupidité $\epsilon$ pour aider l’agent RLB-AFL à équilibrer exploitation et exploration, lui permettant ainsi d’être plus adaptable dans le processus décisionnel de l’AFL. Des expériences approfondies menées dans le cadre de 6 ensembles de données de référence largement utilisés démontrent que RLB-AFL obtient une performance supérieure à 8 approches de pointe. Il surpasse la meilleure référence de 10,56% et 3,15% en termes d’utilité totale moyenne

Détection fiable des défaillances de modèles en déploiement sans étiquettes

Viet Nguyen, Changjian Shui, Vijay Giri, Siddharth Arya, Amol Verma (affilié au corps professoral Vector), Fahad Razak (affilié au corps professoral Vector), Rahul Krishnan (membre du corps professoral Vector)

Résumé

La distribution des données change au fil du temps; Les modèles opérant dans des environnements dynamiques nécessitent un réentraînement. Mais savoir quand se réentraîner, sans accès aux labels, est un défi ouvert puisque certains, mais pas tous, les changements dégradent la performance du modèle. Cet article formalise et aborde le problème de la surveillance de la détérioration post-déploiement (PDD). Nous proposons D3M, un algorithme de suivi pratique et efficace basé sur le désaccord des modèles prédictifs, qui permet d’obtenir de faibles taux de faux positifs sous des décalages non détériorants et fournit des bornes de complexité d’échantillon pour des taux élevés de vrais positifs sous des décalages en détérioration. Des résultats empiriques, tant sur un benchmark standard que sur un ensemble de données réel de médecine interne à grande échelle, démontrent l’efficacité du cadre et soulignent sa viabilité comme mécanisme d’alerte pour des pipelines d’apprentissage automatique à enjeux élevés.

TLDR : D-PDDM surveille de façon démontrable la détérioration du modèle sans nécessiter de données d’entraînement lors du déploiement, et fonctionne bien dans les ensembles de données réels.

ReservoirTTA : Adaptation prolongée en temps de test pour les domaines évolutifs et récurrents

Guillaume Vray, Devavrat Tomar, Xufeng Gao, Jean-Philippe Thiran, Evan Shelhamer (membre du corps professoral de Vector), Behzad Bozorgtabar

Résumé

Cet article présente **ReservoirTTA**, un nouveau cadre de plug-in conçu pour une adaptation prolongée au temps de test (TTA) dans des scénarios où le domaine de test évolue continuellement dans le temps, y compris dans les cas où les domaines réapparaissent ou évoluent graduellement. Au cœur de ReservoirTTA maintient un réservoir de modèles spécialisés dans le domaine — un ensemble adaptatif de modèles au temps de test — qui détecte de nouveaux domaines via un regroupement en ligne sur les caractéristiques de style des échantillons entrants et oriente chaque échantillon vers le modèle spécialisé approprié, permettant ainsi une adaptation spécifique au domaine. Cette stratégie multi-modèles surmonte les principales limites de l’adaptation d’un seul modèle, telles que l’oubli catastrophique, les interférences inter-domaines et l’accumulation d’erreurs, assurant une performance robuste et stable sur des distributions de tests non stationnaires soutenues. Notre analyse théorique révèle des éléments clés qui limitent la variance des paramètres et empêchent l’effondrement du modèle, tandis que notre module TTA plug-in atténue l’oubli catastrophique des domaines déjà rencontrés. Des expériences approfondies sur les benchmarks de corruption de classification, incluant ImageNet-C et CIFAR-10/100-C, ainsi que la tâche de segmentation sémantique Cityscapes→ACDC, couvrant les changements de domaine récurrents et en évolution continue, démontrent que ReservoirTTA améliore significativement la précision de l’adaptation et maintient une performance stable à travers des changements prolongés et récurrents, surpassant les méthodes de pointe. Le code sera publié lors de l’acceptation.

TLDR : ReservoirTTA étend l’adaptation en temps de test à l’adaptation multiple de modèles avec un réservoir complet en temps de test de modèles spécialisés dans le domaine pour une adaptation robuste à long et long horizon.

RETRO SYNFLOW : Appariement discret des flux pour une rétrosynthèse précise et diversifiée en une seule étape

Robin Yadav, Qi Yan, Guy Wolf, Joey Bose, Renjie Liao (membre du corps professoral de Vector)

Résumé

Un défi fondamental en chimie organique est d’identifier et de prédire la séquence de réactions qui synthétisent une molécule cible désirée. En raison de la nature combinatoire de l’espace de recherche chimique, la prédiction des réactifs en une seule étape — c’est-à-dire la rétrosynthèse en une seule étape — demeure difficile, même pour les méthodes génératives à la fine pointe des modèles sans modèles. Ces modèles peinent souvent à produire un ensemble précis mais diversifié de réactions réalisables de manière chimiquement rationnelle. Dans cet article, nous proposons RETRO SYNFLOW (RSF), un cadre discret de correspondance de flux qui formule la rétrosynthèse en une seule étape comme un pont de Markov entre une molécule produit donnée et ses réactifs correspondants. Contrairement aux approches précédentes, la RSF introduit une étape d’identification du centre de réaction pour extraire les structures intermédiaires, ou synthons, qui servent de distribution de source plus informative et structurée pour le modèle d’écoulement discret. Pour améliorer davantage la diversité et la faisabilité chimique des échantillons générés, RSF intègre le pilotage Feynman-Kac (FK) avec le rééchantillonnage séquentiel Monte Carlo (SMC) au moment de l’inférence. Cette approche utilise un oracle de récompense à synthèse avancée appris pour guider le processus de génération vers des candidats réactifs plus prometteurs. Empiriquement, RSF surpasse largement les méthodes de pointe précédentes en termes de précision top 1. De plus, la direction FK améliore considérablement la précision aller-retour, démontrant une validité chimique plus forte et une faisabilité synthétique, tout en maintenant des performances compétitives en top-k. Ces résultats établissent la RSF comme une nouvelle approche de pointe pour la prédiction de rétrosynthèse en un seul étape.

Affining fédéré robuste des LLM via optimisation alternée de la LoRA

Shuangyi Chen, Yuanxin Guo, Yue Ju, Hardik Dalal, Zhongwen Zhu, Ashish Khisti (affiliée de la faculté Vector)

Résumé

Les méthodes Parameter-Efficient Fine-Tuning (PEFT) comme l’adaptation à bas rang (LoRA) optimisent la formation fédérée en réduisant les coûts computationnels et de communication.  Nous proposons RoLoRA, un cadre fédéré utilisant l’optimisation alternée pour affiner les adaptateurs LoRA. Notre approche met l’accent sur l’importance d’apprendre les matrices de projection montées et descendantes afin d’améliorer l’expressivité et la robustesse. Nous utilisons à la fois l’analyse théorique et des expériences approfondies pour démontrer les avantages de RoLoRA par rapport aux approches antérieures qui génèrent soit des mises à jour imparfaites du modèle, soit limitent l’expressivité du modèle. Nous fournissons une analyse théorique sur un modèle linéaire afin de souligner l’importance d’apprendre à la fois les matrices de projection descendante et de projection ascendante dans LoRA. Nous validons les connaissances sur un modèle non linéaire et fournissons séparément une preuve de convergence dans des conditions générales. Pour faire le lien entre théorie et pratique, nous avons mené des évaluations expérimentales approfondies sur des modèles de langage incluant RoBERTa-Large, Llama-2-7B sur diverses tâches et contextes FL afin de démontrer les avantages de RoLoRA par rapport à d’autres méthodes.

TLDR : RoLoRA améliore l’optimisation alternée de LoRA par réglage fédéré, renforçant l’expressivité et la robustesse. Il réduit de moitié les coûts de communication et surpasse les alternatives.

SAFE : Détection des pannes multitâches pour les modèles vision-langage-action

Qiao Gu, Yuanliang Ju, Shengxiang Sun, Igor Gilitschenski (membre du corps professoral Vector), Haruki Nishimura, Masha Itkina, Florian Shkurti (membre du corps professoral Vector)

Résumé

Bien que les modèles vision-langage-action (VLA) aient montré des comportements robotiques prometteurs dans un ensemble diversifié de tâches de manipulation, ils atteignent des taux de réussite limités lorsqu’ils sont déployés sur des tâches nouvelles dès l’emploi. Pour permettre à ces polices d’interagir en toute sécurité avec leur environnement, nous avons besoin d’un détecteur de défaillance qui donne une alerte rapide permettant au robot de s’arrêter, revenir en arrière ou demander de l’aide. Cependant, les détecteurs de défaillance existants ne sont entraînés et testés que sur une ou quelques tâches spécifiques, tandis que les VLA exigent que le détecteur généralise et détecte les défaillances dans des tâches invisibles et des environnements nouveaux. Dans cet article, nous introduisons le problème de détection des pannes multitâches et proposons SAFE, un détecteur de pannes pour les politiques robotiques généralistes telles que les VLA. Nous analysons l’espace de fonctionnalités des VLA et constatons que les VLA possèdent une connaissance suffisante de haut niveau sur le succès et l’échec des tâches, ce qui est générique selon les tâches. Sur la base de cette idée, nous concevons SAFE pour apprendre des caractéristiques internes du VLA et prédire un seul scalaire indiquant la probabilité d’échec de la tâche. SAFE est entraîné tant sur les déploiements réussis que sur les échecs, et est évalué sur des tâches invisibles. SAFE est compatible avec différentes architectures de politiques. Nous le testons beaucoup sur OpenVLA, $\pi_0$ et $\pi_0$-FAST dans des environnements simulés et réels. Nous comparons SAFE avec des références variées et montrons que SAFE atteint une performance de détection de pannes à la fine pointe de la technologie et le meilleur compromis entre précision et temps de détection grâce à la prédiction conforme.

Simulation d’examens oral oral pour évaluer le raisonnement clinique dans de grands modèles de langage

Christopher Chiu, Silviu Pitis (boursière postdoctorale CIFAR en sécurité IA), Mihaela van der Schaar

Résumé

Le raisonnement clinique en médecine est un processus basé sur des hypothèses où les médecins affinent les diagnostics à partir d’informations limitées grâce à l’historique ciblé, à l’examen physique et aux investigations diagnostiques. En revanche, les références médicales actuelles pour les grands modèles de langage (LLM) évaluent principalement la mémoire des connaissances à travers des questions à un seul tour, où l’information clinique complète est fournie dès le départ. Pour combler cette lacune, nous introduisons VivaBench, un benchmark multi-tours qui évalue le raisonnement clinique séquentiel chez les agents LLM. Notre ensemble de données comprend 1 762 vignettes cliniques sélectionnées par des médecins, structurées comme des scénarios interactifs qui simulent un examen oral (oral) en formation médicale, exigeant que les agents sondent activement les résultats pertinents, sélectionnent les investigations appropriées et synthétisent l’information à travers plusieurs étapes pour parvenir à un diagnostic. Bien que les LLM actuels démontrent leur compétence pour diagnostiquer des conditions à partir de présentations cliniques bien décrites, leur performance se dégrade significativement lorsqu’il est nécessaire de naviguer dans le raisonnement diagnostique itératif sous incertitude dans notre évaluation. Notre analyse a identifié plusieurs modes d’échec qui reflètent des erreurs cognitives courantes en pratique clinique, notamment : (1) fixation sur des hypothèses initiales, (2) ordonnancement inapproprié des investigations, (3) fermeture diagnostique prématurée et (4) omission de dépistage des conditions critiques. Ces schémas révèlent des limites fondamentales dans la façon dont les LLM actuels raisonnent et prennent des décisions dans l’incertitude. Grâce à VivaBench, nous fournissons un point de référence standardisé pour évaluer les systèmes d’IA médicale conversationnelle pour un soutien clinique à la décision dans le monde réel. Au-delà des applications médicales, nous contribuons au corpus plus large de recherches sur l’IA agente en démontrant comment les trajectoires de raisonnement séquentiel peuvent diverger dans des environnements décisionnels complexes.

TL; DR : Nous lançons VivaBench, un benchmark extensible qui simule des conversations médicales à plusieurs tours. Nous démontrons que les agents LLM sont cliniquement compétents, mais limités dans leur capacité à recueillir des informations et à diagnostiquer à partir de présentations incomplètes.

Résolution d’un transport optimal discret (semi) déséquilibré avec mécanisme de transformation équivalent et régularisation par multiplicateur KKT

Weiming Liu, Xinting Liao (boursier postdoctoral distingué Vector), Jun Dan, Fan Wang, Hua Yu, Junhao Dong, Shunjie Dong, Lianyong Qi, Yew Soon Ong

Résumé

Le transport optimal semi-déséquilibré (SemiUOT) montre un grand potentiel pour faire correspondre deux mesures de probabilité en assouplissant l’une des contraintes marginales. Les solveurs précédents intègrent souvent un terme de régularisation d’entropie, ce qui peut entraîner des solutions d’appariement inexactes. Pour répondre à ce problème, nous nous concentrons sur la détermination de la distribution de probabilité marginale de SemiUOT avec divergence KL en utilisant l’approche proposée par le Mécanisme de Transformation Équivalente (ETM). De plus, nous étendons la méthode basée sur l’ETM pour exploiter la distribution marginale de probabilité du transport optimal déséquilibré (UOT) avec divergence KL afin de valider sa généralisation. Une fois les probabilités marginales de UOT/SemiUOT déterminées, elles peuvent être transformées en un problème classique de transport optimal (OT). De plus, nous proposons un terme de régularisation du multiplicateur KKT combiné au transport optimal régularisé par le multiplicateur (MROT) afin d’obtenir des résultats d’appariement plus précis. Nous menons plusieurs expériences numériques pour démontrer l’efficacité de nos méthodes proposées pour résoudre les problèmes UOT/SemiUOT.

TLDR : Nous proposons un mécanisme de transformation équivalent avec régularisation par multiplicateur KKT pour résoudre SemiUOT et UOT

STITCH-OPE : Couture de trajectoire avec diffusion guidée pour une évaluation hors politique

Article de mise en lumière

Hossein Goli, Michael Gimelfarb, Nathan de Lara, Haruki Nishimura, Masha Itkina, Florian Shkurti (membre du corps professoral de Vector)

Résumé

L’évaluation hors politique (OPE) évalue la performance d’une politique cible à partir de données hors ligne recueillies à partir d’une politique comportementale, et est cruciale dans des domaines comme la robotique ou la santé où l’interaction directe avec l’environnement est coûteuse ou dangereuse. Les méthodes OPE existantes sont inefficaces pour les problèmes de grande dimension à long horizon, en raison des explosions exponentielles de la variance due à la pondération d’importance ou à la composition d’erreurs issues de modèles dynamiques appris. Pour relever ces défis, nous proposons STITCH-OPE, un cadre génératif basé sur un modèle qui exploite la diffusion de réduction du bruit pour l’OPE à long horizon dans des espaces d’états et d’actions à haute dimension. En partant d’un modèle de diffusion pré-entraîné sur les données de comportement, STITCH-OPE génère des trajectoires synthétiques à partir de la politique cible en guidant le processus de réduction du bruit à l’aide de la fonction score de la politique cible. STITCH-OPE propose deux innovations techniques qui le rendent avantageux pour l’OPE : (1) évite la surrégularisation en soustrayant le score de la politique de comportement lors de la guidage, et (2) génère des trajectoires à long horizon en regroupant des trajectoires partielles d’un bout à l’autre. Nous offrons une garantie théorique que, sous des hypothèses modérées, ces modifications entraînent une réduction exponentielle de la variance par rapport à la diffusion de trajectoire à long horizon. Des expériences sur les benchmarks D4RL et OpenAI Gym montrent une amélioration substantielle des indicateurs d’erreur quadratique moyenne, de corrélation et de regret comparativement aux méthodes OPE de pointe.

TLDR : Nous introduisons STITCH-OPE, un cadre de diffusion guidée pour l’évaluation hors politique qui recoud des sous-trajectoires courtes conditionnées par le comportement, utilise des directives de comportement négatif pour corriger le changement de distribution, et surpasse les références sur toutes les métriques.

Guide de perturbation des jetons pour les modèles de diffusion

Javad Rajabi, Soroush Mehraban, Seyedmorteza Sadat, Babak Taati (affiliés de la faculté Vector)

Résumé

Le guidage sans classificateur (CFG) est devenu un élément essentiel des modèles de diffusion modernes pour améliorer à la fois la qualité de la production et l’alignement avec les conditions d’entrée. Cependant, la CFG exige des procédures d’entraînement spécifiques et est limitée à la génération conditionnelle. Pour répondre à ces limitations, nous proposons le Token Perturbation Guidance (TPG), une méthode novatrice qui applique directement les matrices de perturbation aux représentations intermédiaires des jetons au sein du réseau de diffusion. TPG utilise une opération de mélange préservant les normes pour fournir des signaux de guidage efficaces et stables qui améliorent la qualité de production sans changements architecturaux. En conséquence, TPG est sans entraînement et agnostique aux conditions d’entrée, ce qui le rend facilement applicable à la génération conditionnelle et inconditionnelle. Nous analysons également le terme de guidance fourni par TPG et montrons que son effet sur l’échantillonnage ressemble davantage à la CFG comparativement aux techniques de guidage existantes sans entraînement. Nous évaluons en profondeur le TPG sur SDXL et Stable Diffusion 2.1, démontrant une amélioration de près de 2 fois le FID pour la génération inconditionnelle par rapport à la base SDXL et montrant que le TPG correspond étroitement au CFG en alignement prompt. Ainsi, le TPG représente une méthode de guidage générale, indépendante de la condition, qui étend des bénéfices similaires au CFG à une classe plus large de modèles de diffusion.

TLDR : Le Token Perturbation Guidance (TPG) est un cadre novateur qui applique directement les perturbations dans l’espace des jetons pour guider le processus d’échantillonnage de diffusion.

Track, Inpaint, Resplat : Génération 3D et 4D pilotée par le sujet avec remplissage progressif des textures

Shuhong Zheng, Ashkan Mirzaei, Igor Gilitschenski (membre du corps professoral de Vector)

Résumé

Les méthodes actuelles de génération 3D/4D sont généralement optimisées pour le photoréalisme, l’efficacité et l’esthétique. Cependant, ils échouent souvent à préserver l’identité sémantique du sujet à travers différents points de vue. Adapter les méthodes de génération avec une ou quelques images d’un sujet spécifique (aussi appelé personnalisation ou génération axée sur le sujet) permet de générer du contenu visuel qui correspond à l’identité du sujet. Cependant, la génération personnalisée 3D/4D reste largement sous-explorée. Dans ce travail, nous introduisons TIRE (Track, Inpaint, REsplat), une méthode novatrice pour la génération 3D/4D pilotée par le sujet. Il prend un actif 3D initial produit par un modèle génératif 3D existant comme entrée et utilise le suivi vidéo pour identifier les régions à modifier. Ensuite, nous adoptons un modèle d’inpainting 2D piloté par le sujet pour remplir progressivement les régions identifiées. Enfin, nous reconvertissons les observations multi-vues 2D modifiées en 3D tout en maintenant la cohérence. Des expériences approfondies démontrent que notre approche améliore significativement la préservation de l’identité dans la génération 3D/4D comparativement aux méthodes de pointe.

TLDR : Nous présentons TIRE, une méthode novatrice pour la génération 3D/4D pilotée par le sujet qui préserve bien l’identité.

Apprentissage découplé et convergent dans les jeux monotones sous rétroaction de bandit

Jing Dong, Baoxiang Wang, Yaoliang Yu (membre du corps professoral de Vector)

Résumé

Nous étudions le problème des algorithmes d’apprentissage sans regret pour les jeux monotones et lisses en général, ainsi que leurs propriétés de convergence à la dernière itération. Plus précisément, nous étudions le problème sous rétroaction de bandit et dynamiques fortement découplées, ce qui permet un développement modulaire du système multijoueur applicable à un large éventail d’applications réelles. Nous proposons un algorithme basé sur la descente miroir, qui converge en $O(T^{-1/4})$ et qui n’a pas non plus de regrets. Le résultat est obtenu par une utilisation dédiée de deux régularisations et l’analyse du point fixe de celles-ci. Le taux de convergence est encore amélioré à $O(T^{-1/2})$ dans le cas des jeux fortement monotones. Motivé par des tâches pratiques où le jeu évolue au fil du temps, l’algorithme est étendu aux jeux monotones variant dans le temps. Nous fournissons le premier résultat non asymptotique dans les jeux monotones convergents et offrons des résultats améliorés pour les jeux de suivi d’équilibre.

Équité proportionnelle unificatrice dans le regroupement de centroïdes et non-centroïdes

Article de mise en lumière

Benjamin Cookson, Nisarg Shah (affilié de la faculté Vector), Ziqi Yu

Résumé

Les critères d’équité proportionnelle, inspirés par les idéaux démocratiques de la représentation proportionnelle, ont suscité une attention croissante dans la littérature sur les regroupements. Des travaux antérieurs les ont étudiés dans deux paradigmes distincts. Chen et al. [ICML 2019] étude _centroid clustering_, dans laquelle la perte de chaque point de données est déterminée par sa distance à un point représentatif (centroïde) choisi dans son groupe. Caragiannis et al. [NeurIPS 2024] étudient _non-centroïde clustering_, dans laquelle la perte de chaque point de données est déterminée par sa distance maximale à tout autre point de données de son groupe.   Nous généralisons les deux paradigmes pour introduire la clustering_ _semi-centroïde, dans laquelle la perte de chaque point de données est une combinaison de ses pertes à centroïde et non-centroïde, et étudions deux critères d’équité proportionnelle — le noyau et, sa représentation de relaxation, la représentation pleinement justifiée (FJR). Notre principal résultat est un algorithme novateur qui permet d’obtenir une approximation constante du noyau, en temps polynomial, même lorsque les métriques de distance utilisées pour les mesures de perte du centroïde et non-centroïde sont différentes. Nous obtenons également de meilleurs résultats pour des fonctions de perte plus restreintes et le critère FJR plus faible, et établissons des bornes inférieures dans chaque cas.

TLDR : Nous concevons des méthodes de regroupement proportionnellement équitables lorsque la fonction de perte de chaque agent est déterminée à la fois par sa distance par rapport aux autres agents de son groupe et par rapport à un agent représentatif dans son groupe.

UniRelight : Apprendre la décomposition conjointe et la synthèse pour le rééclairage vidéo

Article de mise en lumière

Kai He, Ruofan Liang, Jacob Munkberg, Jon Hasselgren, Nandita Vijaykumar (membre du corps professoral Vector), Alexander Keller, Sanja Fidler (membre du corps professoral Vector), Igor Gilitschenski (membre du corps professoral Vector), Zan Gojcic, Zian Wang

Résumé

Nous relevons le défi de réilluminer une seule image ou vidéo, une tâche qui exige une compréhension intrinsèque précise de la scène et une synthèse de transport lumineux de haute qualité. Les modèles existants de rééclairage de bout en bout sont souvent limités par la rareté des données multi-illumination jumelées, ce qui limite leur capacité à généraliser sur diverses scènes. Inversement, les pipelines à deux étapes combinant rendu inverse et direct peuvent atténuer les besoins en données, mais sont susceptibles d’accumuler des erreurs et ne produisent souvent pas de résultats réalistes dans des conditions d’éclairage complexes ou avec des matériaux sophistiqués. Dans ce travail, nous introduisons une approche polyvalente qui estime conjointement l’albédo et synthétise les sorties relit en un seul passage, exploitant les capacités génératives des modèles de diffusion vidéo. Cette formulation conjointe améliore la compréhension implicite de la scène et facilite la création d’effets d’éclairage réalistes et d’interactions matérielles complexes, telles que les ombres, les reflets et la transparence. Entraîné sur des données synthétiques multi-illumination et de nombreuses vidéos réelles étiquetées automatiquement, notre modèle démontre une forte généralisation dans divers domaines et surpasse les méthodes précédentes tant en fidélité visuelle qu’en cohérence temporelle.

Générateur d’exemples polyvalent, transférable et non apprenable

Zhihao Li, Jiale Cai, Gezheng Xu, Hao Zheng, Qiuyue Li, Fan Zhou, Shichun Yang, Charles Ling, Boyu Wang (affilié de la faculté Vector)

Résumé

La croissance rapide des données publiques a alimenté les avancées en apprentissage profond, mais soulève aussi des inquiétudes concernant l’utilisation non autorisée des données. Les Exemples Inapprendables (UE) sont apparus comme une stratégie de protection des données qui introduit des perturbations imperceptibles pour prévenir l’apprentissage non autorisé. Cependant, la plupart des méthodes UE existantes produisent des perturbations fortement liées à des ensembles d’entraînement spécifiques, entraînant une baisse significative de l’inapprentabilité lorsqu’elles sont appliquées à des données ou tâches invisibles. Dans cet article, nous soutenons que pour une applicabilité large, les UE devraient maintenir leur efficacité dans divers scénarios d’application. À cette fin, nous menons la première étude complète sur la transférabilité des UEs dans des contextes divers et pratiques mais exigeants. Plus précisément, nous identifions des scénarios clés qui posent des défis importants pour les méthodes UE existantes, incluant les styles variés, les classes hors distribution, les résolutions et les architectures. De plus, nous proposons $\textbf{Versatile Transferable Generator}$ (VTG), un générateur transférable conçu pour protéger les données dans diverses conditions. Plus précisément, la VTG intègre l’augmentation du domaine adversarial dans le processus d’entraînement du générateur pour synthétiser des échantillons hors distribution, améliorant ainsi sa généralisabilité à des scénarios invisibles. De plus, nous proposons un mécanisme de couplage perturbation-étiquette qui exploite l’apprentissage contrastif pour aligner directement les perturbations avec les étiquettes de classe. Cette approche réduit la dépendance du générateur à la sémantique des données, permettant à VTG de produire des perturbations inapprenables de manière indépendante de la distribution. Des expériences approfondies démontrent l’efficacité et la large applicabilité de notre approche.

TLDR : Un générateur de perturbations polyvalent qui permet d’être inapprendable dans divers scénarios.

VL-Rethinker : Encourager l’auto-réflexion des modèles vision-langage avec l’apprentissage par renforcement

Article de mise en lumière

Haozhe Wang, Chao Qu, Zuming Huang, Wei Chu, Fangzhen Lin, Wenhu Chen (membre du corps professoral de Vector)

Résumé

Récemment, des systèmes à pensée lente comme GPT-o1 et DeepSeek-R1 ont démontré un grand potentiel pour résoudre des problèmes complexes par la réflexion explicite. Ils surpassent nettement les meilleurs modèles à réflexion rapide, comme GPT-4o, selon divers benchmarks mathématiques et scientifiques. Cependant, leurs capacités de raisonnement multimodal restent comparables à celles des modèles à pensée rapide. Par exemple, la performance de GPT-o1 sur des benchmarks comme MathVista, MathVerse et MathVision est similaire à celle des modèles à pensée rapide. Dans cet article, nous visons à améliorer les capacités de pensée lente des modèles vision-langage utilisant l’apprentissage par renforcement (sans recourir à la distillation) afin de faire progresser l’état de l’art. D’abord, nous adaptons l’algorithme GRPO avec une technique novatrice appelée Selective Sample Replay (SSR) pour résoudre le problème des avantages nuls. Bien que cette approche donne de fortes performances, les modèles entraînés en RL qui en résultent présentent une auto-réflexion ou une auto-vérification limitée. Pour encourager davantage la lenteur de la pensée, nous introduisons la repensée forcée, qui ajoute un jeton déclencheur de repensée à la fin des déploiements dans la formation RL, imposant explicitement une étape de raisonnement d’auto-réflexion. En combinant ces deux techniques, notre modèle, VL-Rethinker, fait progresser des scores de pointe sur MathVista et MathVerse pour atteindre respectivement 80,4%, 63,5%. VL-Rethinker atteint également le SoTA open source sur des benchmarks multidisciplinaires tels que MathVision, MMMU-Pro, EMMA et MEGA-Bench, réduisant ainsi l’écart avec OpenAI-o1. Nous réalisons des ablations et des analyses complètes afin de fournir un aperçu de l’efficacité de notre approche.

Qu’est-ce qu’il faut pour construire un classificateur sélectif performant?

Stephan Rabanser, Nicolas Papernot (membre du corps professoral Vector)

Résumé

Les classificateurs sélectifs améliorent la fiabilité en s’abstenant sur des entrées incertaines, mais leurs performances sont souvent en retard par rapport à l’oracle d’ordre parfait qui accepte les exemples dans l’ordre exact de la correction. Nous formulons cette lacune comme un écart de classification sélective uniforme à la couverture et démontrons la première décomposition à échantillon fini qui identifie cinq sources distinctes de lâchement : le bruit de Bayes, l’erreur d’approximation, l’erreur de classement, le bruit statistique et le jeu induit par l’implémentation ou le décalage. Notre borne montre que la calibration monotone post-hoc ne peut pas réduire l’écart, car elle préserve l’ordre original de la partition; combler l’écart nécessite donc des mécanismes de notation qui peuvent modifier le classement induit par le modèle de base. Nous validons notre décomposition de gap à partir de données synthétiques de deux lunes et de benchmarks de vision du monde réel, isolant chaque composante d’erreur via des expériences contrôlées. Les résultats confirment que (i) le bruit de Bayes et la capacité limitée du modèle expliquent à eux seuls les grands écarts, (ii) seuls les calibrateurs non monotones ou sensibles aux caractéristiques réduisent le terme de classement, et (iii) le décalage de distribution ajoute un mou distinct qui doit être comblé par un entraînement robuste. Notre décomposition fournit un budget d’erreur quantitatif et des lignes directrices concrètes pour la conception de classificateurs sélectifs qui approchent le comportement idéal de l’oracle.

TLDR : Nous décomposons l’écart entre les classificateurs sélectifs et l’oracle idéal en cinq sources mesurables, montrant que seules les méthodes de notation non monotones peuvent le réduire et améliorer la fiabilité.

Quelle est la valeur de vos données pour GPT? Évaluation des données à l’échelle des LLM avec fonctions d’influence

Sang Keun Choe, Hwijeen Ahn, Juhan Bae, Kewen Zhao, Youngseog Chung, Adithya Pratapa, Willie Neiswanger, Emma Strubell, Teruko Mitamura, Jeff Schneider, Eduard Hovy, Roger Grosse (membre du corps professoral de Vector), Eric Xing

Résumé

Les grands modèles de langage (LLM) sont entraînés sur une grande quantité de données écrites par des humains, mais les fournisseurs de données restent souvent non crédités. En réponse à ce problème, la valorisation des données (ou attribution des données), qui quantifie la contribution ou la valeur de chaque donnée au résultat du modèle, a été discutée comme solution potentielle. Néanmoins, l’application des méthodes existantes d’évaluation des données aux LLM récents et à leurs vastes ensembles de données d’entraînement a été largement limitée par des coûts de calcul et de mémoire prohibitifs. Dans ce travail, nous nous concentrons sur les fonctions d’influence, une méthode populaire d’évaluation des données basée sur le gradient, et améliorons significativement sa scalabilité grâce à une stratégie efficace de projection de gradient appelée LoGra, qui exploite la structure du gradient dans la rétropropagation. Nous fournissons ensuite une motivation théorique des approches de projection en gradient pour influencer les fonctions afin de promouvoir la confiance dans le processus d’évaluation des données. Enfin, nous réduisons la barrière à la mise en place de systèmes d’évaluation des données en introduisant LogIX, un logiciel capable de transformer du code d’entraînement existant en code d’évaluation des données avec un minimum d’effort. Dans nos expériences d’évaluation des données, LoGra atteint une précision compétitive face à des références plus coûteuses tout en montrant une amélioration de 6 500 fois le débit et une réduction de 5 fois l’utilisation de la mémoire GPU lorsqu’il est appliqué à Llama3-8B-Instruct et au jeu de données 1B-token.

TLDR : Nous adaptons la méthode d’évaluation des données basée sur les fonctions d’influence aux LLM récents et à leurs vastes ensembles de données d’entraînement.

Quand les Transformers surpassent-ils les réseaux feedforward et récurrents? Une perspective statistique

Alireza Mousavi-Hosseini, Clayton Sanford, Denny Wu, Murat Erdogdu (membre du corps professoral de Vector)

Résumé

Les efforts théoriques pour démontrer les avantages des Transformers par rapport aux architectures classiques telles que les réseaux feedforward et récurrents se sont principalement concentrés sur la puissance de représentation. Dans ce travail, nous adoptons une perspective alternative et démontrons que même avec un calcul infini, les réseaux feedforward et récurrents peuvent souffrir d’une complexité d’échantillonnage plus élevée comparativement aux Transformers, car ces derniers peuvent s’adapter à une forme de parcimonie dynamique. Plus précisément, nous considérons un modèle générateur de données séquence à séquence sur des séquences de longueur $N$, où la sortie à chaque position ne dépend que de $q \ll N$ jetons pertinents, et les positions de ces jetons sont décrites dans l’invite d’entrée. Nous démontrons qu’un Transformer à couche unique peut apprendre ce modèle si et seulement si son nombre de têtes d’attention est d’au moins $q$, auquel cas il atteint une complexité d’échantillonnage presque indépendante de $N$, tandis que les réseaux récurrents nécessitent des échantillons $N^{\Omega(1)}$ sur le même problème. Si on simplifie ce modèle, les réseaux récurrents peuvent atteindre une complexité presque indépendante de $N$, tandis que les réseaux feedforward nécessitent toujours des échantillons de $N$. Notre modèle proposé de récupération clairsemée illustre une hiérarchie naturelle de la complexité des échantillons à travers ces architectures.

TLDR : Nous démontrons une séparation purement statistique entre les Transformers et d’autres architectures telles que les réseaux feedforward et récurrents, où les Transformers sont plus efficaces en échantillonnage pour apprendre les modèles de séquences clairsemées.

À lire aussi :

2026
Réflexions
Recherche
Recherche 2026

La nouvelle cartographie de l’invisible

Logo vectoriel
2025
Réflexions

Une nouvelle étude révèle l’impact économique de 100 milliards de dollars de l’IA à travers le Canada, avec l’Ontario en tête

2025
Apprentissage automatique
Recherche
Recherche 2025

Quand l’IA intelligente devient trop intelligente : Principaux enseignements de l’atelier 2025 sur la sécurité et la vie privée en apprentissage automatique de Vector