Les chercheurs de Vector se plongent dans l'apprentissage profond à l'occasion de l'ICLR 2025

12 août 2025

2025 Recherche Recherche 2025

Les chercheurs de Vector ont apporté d'importantes contributions à l'International Conference on Learning Representations (ICLR) de cette année, la plus importante conférence mondiale sur l'apprentissage par représentation et la recherche sur l'apprentissage profond, qui s'est déroulée du 24 au 28 avril 2025 à Singapour. En tant que première conférence explorant la manière dont les machines apprennent des représentations significatives des données, l'ICLR a rassemblé la communauté mondiale travaillant sur les fondements théoriques et les applications pratiques de l'apprentissage profond.

Le portefeuille de recherche de Vector à l'ICLR 2025 a démontré le leadership de l'institut dans les domaines clés de l'apprentissage des représentations - des travaux fondamentaux sur les architectures neuronales, l'optimisation et la compréhension théorique aux applications innovantes couvrant l'IA multimodale, la découverte scientifique et l'apprentissage automatique responsable. Les articles acceptés reflètent l'engagement de Vector à faire progresser à la fois la science de l'apprentissage des représentations par les réseaux neuronaux et le développement de systèmes d'IA fiables qui profitent à la société.

Vous trouverez ci-dessous 71 articles acceptés, y compris les collaborations, des membres du corps professoral de Vector, des membres affiliés du corps professoral de Vector, des boursiers postdoctoraux distingués de Vector et de l'équipe d'ingénierie de l'IA de Vector.

ACES : Système d'extraction automatique de cohortes pour les ensembles de données de flux d'événements

Justin Xu, Jack Gallifant, Alistair Johnson (affilié à la faculté Vector), Matthew McDermott

Résumé

La reproductibilité reste un défi important dans le domaine de l'apprentissage machine (ML) pour les soins de santé. Les ensembles de données, les pipelines de modèles et même les définitions des tâches/cohortes sont souvent privés dans ce domaine, ce qui constitue un obstacle important au partage, à l'itération et à la compréhension des résultats de l'apprentissage automatique sur les ensembles de données des dossiers médicaux électroniques (DME). Cet article aborde une partie importante de ce problème en présentant le système d'extraction automatique de cohortes (ACES) pour les données de flux d'événements. Cette bibliothèque est conçue pour simplifier simultanément le développement de tâches/cohortes pour la ML dans les soins de santé et pour permettre la reproduction de ces cohortes, à la fois à un niveau exact pour des ensembles de données uniques et à un niveau conceptuel pour l'ensemble des ensembles de données. Pour ce faire, ACES fournit (1) un langage de configuration très intuitif et expressif pour définir à la fois les concepts spécifiques aux ensembles de données et les critères d'inclusion/exclusion agnostiques, et (2) un pipeline pour extraire automatiquement les enregistrements de patients qui répondent à ces critères définis à partir de données du monde réel. ACES peut être appliqué automatiquement à n'importe quel ensemble de données dans les formats Medical Event Data Standard (MEDS) ou EventStreamGPT (ESGPT), ou à ***n'importe quel*** ensemble de données dans lequel les prédicats nécessaires spécifiques à la tâche peuvent être extraits sous la forme d'un flux d'événements. ACES a le potentiel de réduire considérablement la barrière à l'entrée pour définir les tâches de ML qui apprennent des représentations, de redéfinir la façon dont les chercheurs interagissent avec les ensembles de données EHR et d'améliorer considérablement l'état de la reproductibilité des études de ML dans cette modalité.

Abstractions d'action pour l'échantillonnage amorti

Oussama Boussif, Léna Ezzine, Joseph Viviano, Michał Koziarski (affilié à la faculté Vector), Moksh Jain, Nikolay Malkin, Emmanuel Bengio, Rim Assouel, Yoshua Bengio

Résumé

Lorsque les trajectoires échantillonnées par les politiques utilisées par l'apprentissage par renforcement (RL) et les réseaux de flux génératifs (GFlowNets) s'allongent, l'attribution de crédits et l'exploration deviennent plus difficiles, et le long horizon de planification entrave la découverte et la généralisation de modes.Le défi est particulièrement prononcé dans les méthodes RL à la recherche d'entropie, telles que les réseaux de flux génératifs, où l'agent doit apprendre à échantillonner à partir d'une distribution structurée et à découvrir de multiples états à forte récompense, chacun d'entre eux nécessitant de nombreuses étapes pour être atteint.Pour relever ce défi, nous proposons une approche permettant d'incorporer la découverte d'abstractions d'action, ou d'actions de haut niveau, dans le processus d'optimisation de la politique.Notre approche consiste à extraire de manière itérative des sous-séquences d'actions couramment utilisées dans de nombreuses trajectoires à forte récompense et à les "regrouper" en une seule action qui est ajoutée à l'espace d'action. Dans une évaluation empirique sur des environnements synthétiques et réels, notre approche démontre une amélioration de l'efficacité de l'échantillonnage dans la découverte de divers objets à forte récompense, en particulier pour les problèmes d'exploration plus difficiles.Nous observons également que les actions abstraites d'ordre supérieur sont potentiellement interprétables, capturant la structure latente du paysage de récompense de l'espace d'action. Ce travail fournit une approche cognitivement motivée de l'abstraction d'action dans RL et constitue la première démonstration de planification hiérarchique dans l'échantillonnage séquentiel amorti.

AttriBoT : Un ensemble d'astuces pour une approximation efficace de l'attribution de contexte sans aucune restriction

Fengyuan Liu, Nikhil Kandpal, Colin Raffel (membre de la faculté Vector)

Résumé

L'influence de l'entrée contextuelle sur le comportement des grands modèles de langage (LLM) a suscité le développement de méthodes d'attribution de contexte qui visent à quantifier l'effet de chaque étendue de contexte sur les générations d'un LLM. L'erreur leave-one-out (LOO), qui mesure le changement dans la probabilité de la réponse du LLM lorsqu'un intervalle donné du contexte est supprimé, fournit un moyen de principe pour effectuer l'attribution de contexte, mais peut être prohibitif à calculer pour les modèles de grande taille. Dans ce travail, nous introduisons AttriBoT, une série de nouvelles techniques pour calculer efficacement une approximation de l'erreur LOO pour l'attribution de contexte. Plus précisément, AttriBoT utilise des activations mises en cache pour éviter les opérations redondantes, effectue une attribution hiérarchique pour réduire les calculs et émule le comportement des grands modèles cibles avec des modèles de substitution plus petits. Ensemble, AttriBoT peut fournir une accélération de 300 fois tout en restant plus fidèle à l'erreur LOO d'un modèle cible que les méthodes d'attribution de contexte antérieures. Cette forte augmentation des performances rend le calcul des attributions de contexte pour une réponse donnée 30 fois plus rapide que la génération de la réponse elle-même, ce qui permet des applications réelles qui nécessitent le calcul des attributions à grande échelle. Nous publions une implémentation conviviale et efficace d'AttriBoT afin de permettre une interprétabilité efficace de LLM et d'encourager le développement futur de méthodes d'attribution de contexte efficaces.

Conception automatisée de systèmes agentiques

Shengran Hu, Cong Lu, Jeff Clune (membre de la faculté Vector)

Résumé

Les chercheurs investissent des efforts considérables dans le développement d'agents puissants à usage général, dans lesquels les modèles de fondation sont utilisés comme modules au sein des systèmes agentiques (par exemple, la chaîne de pensée, l'autoréflexion, le formateur d'outils). Cependant, l'histoire de l'apprentissage automatique nous enseigne que les solutions conçues à la main sont finalement remplacées par des solutions apprises. Nous décrivons un nouveau domaine de recherche, la conception automatisée de systèmes agentiques (ADAS), qui vise à créer automatiquement des systèmes agentiques puissants, notamment en inventant de nouveaux blocs de construction et/ou en les combinant de manière inédite. Nous démontrons également qu'il existe une approche inexplorée mais prometteuse au sein de l'ADAS où les agents peuvent être définis dans le code et où de nouveaux agents peuvent être automatiquement découverts par un méta-agent programmant des agents toujours meilleurs dans le code. Étant donné que les langages de programmation sont des Turing Complets, cette approche permet théoriquement l'apprentissage de n'importe quel système agentique possible : y compris de nouvelles invites, l'utilisation d'outils, des flux de travail, et des combinaisons de ceux-ci. Nous présentons un algorithme simple mais efficace appelé Meta Agent Search pour démontrer cette idée, où un méta-agent programme itérativement de nouveaux agents intéressants sur la base d'une archive croissante de découvertes antérieures. Grâce à des expériences approfondies dans de nombreux domaines, notamment le codage, les sciences et les mathématiques, nous montrons que notre algorithme peut progressivement inventer des agents avec des conceptions nouvelles qui surpassent largement les agents de pointe conçus à la main. Fait important, nous observons régulièrement le résultat surprenant selon lequel les agents inventés par Meta Agent Search conservent des performances supérieures même lorsqu'ils sont transférés d'un domaine à l'autre et d'un modèle à l'autre, ce qui démontre leur robustesse et leur généralité. Pour autant que nous le développions en toute sécurité, notre travail illustre le potentiel d'une nouvelle direction de recherche passionnante vers la conception automatique de systèmes agentiques de plus en plus puissants au bénéfice de l'humanité.

Optimisation bayésienne via l'entraînement variationnel continu de la dernière couche

Spotlight paper

Paul Brunzema, Mikkel Jordahn, John Willes (personnel professionnel de Vector), Sebastian Trimpe, Jasper Snoek, James Harrison

Résumé

Les processus gaussiens (GP) sont largement considérés comme les modèles de substitution de pointe pour l'optimisation bayésienne (BO) en raison de leur capacité à modéliser l'incertitude et de leur performance dans les tâches où les corrélations sont facilement capturées (telles que celles définies par les métriques euclidiennes) et de leur capacité à être efficacement mises à jour en ligne. Toutefois, les performances des GP dépendent du choix du noyau, et la sélection du noyau pour les structures de corrélation complexes est souvent difficile ou doit être faite sur mesure. Bien que les réseaux neuronaux bayésiens (BNN) constituent une voie prometteuse pour les modèles de substitution à plus grande capacité, ils ont jusqu'à présent été peu utilisés en raison de leurs performances médiocres pour certains types de problèmes. Dans cet article, nous proposons une approche qui présente des performances compétitives pour de nombreux types de problèmes, y compris ceux pour lesquels les réseaux neuronaux bayésiens éprouvent généralement des difficultés. Nous nous appuyons sur les dernières couches bayésiennes variationnelles (VBLL) et associons la formation de ces modèles au conditionnement exact dans les GP. Nous exploitons cette connexion pour développer un algorithme de formation en ligne efficace qui associe le conditionnement et l'optimisation. Nos résultats suggèrent que les réseaux VBLL surpassent de manière significative les GPs et d'autres architectures BNN sur des tâches avec des corrélations d'entrée complexes, et égalent la performance de GPs bien réglés sur des tâches de référence établies.

Au-delà du jeu de l'imitation : Quantifier et extrapoler les capacités des modèles linguistiques

Auteurs

Clemencia Siro, Guy Gur-Ari, Gaurav Mishra, Stuart Shieber, Jason Phang, Zijie Wang, Kory Mathewson, Giorgio Mariani, Allen Nie, James Y Zou, Behnam Neyshabur, Karl Krauth, Shixiang Gu, Pablo Antonio Moreno Casares, Maarten Sap, Mohit Tiwari, Bill Yuchen Lin, Aykut Erdem, Angelica Chen, Swaroop Mishra, Chenlin Meng, Ashish Sabharwal, James Simon, Louis-Philippe Morency, Kyle Richardson, Emanuele Rodolà, Adam Fisch, Simone Melzi, Kristen Chiafullo, Rif A. Saurous, Shubh Pachchigar, Siamak Shakeri, Aitor Lewkowycz, Yonatan Belinkov, Mihir Kale, Mantas Mazeika, Dar Gilboa, Hongming Zhang, Seung Jae Lee, Owain Evans, Ambrose Slone, David Dohan, Damien Sileo, Mor Geva, Cameron Diao, Christopher Potts, Jekaterina Novikova, Alicia Parrish, Debajyoti Datta, Chitta Baral, Maarten Bosma, Michael Strube, Jiacheng Xu, Trishala Neeraj, Colin Raffel (Vector Faculty Member), Leo Gao, Vishakh Padmakumar, Yu Hou, Christopher Waites, Ellie Pavlick, Pouya Pezeshkpour, Nanyun (Violet) Peng, Gerard de Melo, Martin Potthast, Aarohi Srivastava, Abhinav Rastogi, Abu Awal Md Shoeb, Adam Brown, Adam Santoro, Aditya Gupta, Agnieszka Kluska, Diyi Yang, Akshat Agarwal, Alexander Kocurek, Ali Safaya, Ali Tazarv, Alice Xiang, Aman Hussain, Amanda Askell, Amanda Dsouza, Ameet Rahane, Anantharaman S. Iyer, Andrea Madotto, Andrea Santilli, Andreas Stuhlmüller, Andrew La, Ethan Dyer, Angela Jiang, Anh Vuong, Animesh Gupta, Anna Gottardi, Antonio Norelli, Anu Venkatesh, Arash Gholamidavoodi, Arfa Tabassum, Arul Menezes, Arun Kirubarajan, Asher Mullokandov, Austin Herrick, Avia Efrat, Ayla Karakaş, B. Roberts, Bao Loe, Bartłomiej Bojanowski, Benjamin Inden, Benno Stein, Batuhan Özyurt, Behnam Hedayatnia, Blake Howald, Bryan Orinion, Cameron Dour, Catherine Stinson, Cedrick Argueta, Cesar Ferri, Chandan Singh, Charles Rathkopf, Christian Voigt, Cindy Ramirez, Clara Rivera, Noah Fiedel, Courtney Ashcraft, Dan Garrette, Dan Kilman, C. Freeman, Daniel Levy, Daniel González, Danielle Perszyk, Danny Hernandez, David Jurgens, Deep Ganguli, Denis Emelin, Denis Kleyko, Deniz Yuret, Derek Chen, Mátyás Schubert, Derek Tam, Dilyar Buzan, Shyam Upadhyay, Dimitri Coelho Mollo, Dylan Schrader, Ekaterina Shutova, Elad Segal, Eleanor Hagerman, Elizabeth Barnes, Elizabeth Donoway, Emma Lam, Eric Tang, Ernie Chang, Ethan Chi, Ethan Jerzak, Ethan Kim, Eunice Manyasi, Evgenii Zheltonozhskii, Fanyue Xia, Fernando Martínez-Plumed, Francesca Happé, Gloria X Wang, Gonzalo Jaimovitch-Lopez, Gregor Betz, Hana Galijasevic, Hannah Kim, Hannah Rashkin, Hayden Bogar, Henry Shevlin, Hiromu Yakura, Hugh Wong, Kumar Shridhar, Ian Ng, Isaac Noble, Jaap Jumelet, Jack Geissinger, Jackson Kernion, James Zheng, Jan Kocon, Jana Thompson, Janelle Wingfield, Jared Kaplan, Jarema Radom, Jelle Bosscher, Jennifer Marsh, Jeremy Kim, Jeroen Taal, Jesujoba Alabi, Jillian Tang, Joan Waweru, John Burden, Dieuwke Hupkes, John Balis, Jonathan Batchelder, Jörg Frohberg, Jose Hernandez-Orallo, Joseph Boudeman, Joseph Guerr, Joseph Jones, Joshua Rule, Joyce Chua, Kamil Kanclerz, Karthik Gopalakrishnan, Katerina Ignatyeva, Li Zhang, Liam Dugan, Katja Markert, Kaustubh Dhole, Lucas Lam, Kevin Omondi, Kyle McDonell, Laria Reynolds, Lianhui Qin, Lidia Contreras-Ochando, Lucy Noble, Ludwig Schmidt, Luheng He, Luis Oliveros-Colón, Lütfi Kerem Senel, Maria Jose Ramirez-Quintana, Maartje Ter Hoeve, Mohit Bansal, Martha Lewis, Maheen Farooqi, Marco Baturan, Marco Marelli, Marco Maru, Marie Tolkiehn, Michael A. Yee, Mario Giulianelli, Michael Gu, Michael Ivanitskiy, Matthias Hagen, Medina Baitemirova, Mike Cain, Mimee Xu, Mitch Walker, Moin Aminnaseri, Mozhdeh Gheini, Nathan Chi, Michael Starritt, Michał Swędrowski, Michele Bevilacqua, Nayeon Lee, Neta Krakover, Nicholas Cameron, Nick Doiron, Nicole Martinez, Nikita Nangia, Niklas Deckers, Niveditha Iyer, Nuan Wen, Oliver Zhang, Omar Agha, Omar Elbaghdadi, Parth Doshi, Pascale Fung, Pegah Alipoormolabashi, Liao Peiyuan, Peter W Chang, Peter Eckersley, Phu Mon Htut, Pinyu Hwang, Piotr Miłkowski, Piyush Patil, Priti Oli, Qing Lyu, Qinlang Chen, Rabin Banjade, Rachel Rudolph, Raefer Gabriel, Rahel Habacker, Ramon Risco, Raphaël Millière, Rhythm Garg, Richard Barnes, Riku Arakawa, Robbe Raymaekers, Robert Frank, Rohan Sikand, Roman Novak, Paul Pu Liang, Rowan Jacobs, Ryan Stovall, Rylan Yang, Saif Mohammad, Sajant Anand, Sam Dillavou, Sam Wiseman, Samuel Gruetter, Sanghyun Han, Mukund Varma T, Sanjeev Kwatra, Sarah Rous, Sarik Ghazarian, Sean Casey, Sebastian Bischoff, Sebastian Gehrmann, Sepideh Sadeghi, Shadi Hamdan, Sherry Shi, Shikhar Singh, Daphne Ippolito, Shima Asaadi, Shyamolima Debnath, Simon Thormeyer, Sneha Makini, Soo-Hwan Lee, Spencer Torene, Stanislas Dehaene, Stefan Divic, Hanna Hajishirzi, Stephanie Lin, Stephen Prasad, Andrew Dai, Steven Piantadosi, Summer Misherghi, Svetlana Kiritchenko, Tao Li, Tariq Ali, Te-Lin Wu, Théo Desbordes, Theodore Rothschild, Thomas Phan, Tianle Wang, Adrià Garriga-Alonso, Tiberius Nkinyili, Timofei Kornev, Titus Tunduny, Trenton Chang, Tushar Khot, Tyler Shultz, Uri Shaham, Vedant Misra, Victoria Nyamai, Vikas Raunak, vinay prabhu, William Saunders, William Zhang, Wout Vossen, Xiaoyu Tong, Xinyi Wu, Yair Lakretz, Yichi Yang, Sophie Hao, Yifu Chen, Yufang Hou, Yuntao Bai, Zachary Seid, Cristina Garbacea, Ziyi Wu, Genta Winata, Shubham Toshniwal, Abubakar Abid, John Miller, Karen Livescu, Tatsunori Hashimoto, Ekin Cubuk, Sayan Ghosh, Harsh Mehta, Jacob Hilton, Yadollah Yaghoobzadeh, Jiaming Song, Siva Reddy, Stefano Ermon, Shashank Srivastava, Percy Liang, Chiyu Wu, James Koppel, Rui Zhang, David Drakard, Germàn Kruszewski, Dong-Ho Lee, Fatemeh Siar, Luke Metz, Roman Sitelew, Dan Hendrycks, Paul Vicol, Alexander Ray, Tobias Gerstenberg, Chris Callison-Burch, Sriharsha Hatwar, Xinran Zhao, Zijian Wang, Luca Moschella, Sam Bowman, Jaime Fernández Fisac, Danqi Chen, Stella R Biderman, Nitish Shirish Keskar, Eric Chu, Manaal Faruqui, Ksenia Shkaruta, Xudong Shen, Ryan Teehan, Vinay Ramasesh, Andy Zou, Jaehoon Lee, Hinrich Schuetze, Jesse Engel, Tal Schuster, Berk Ekmekci, Yangqiu Song, Andrew Lampinen, Dan Roth, Yasaman Bahri, Jascha Sohl-Dickstein, Jason Yosinski, Sebastian Schuster, Melody Arnaud, Russ Salakhutdinov, Nicholas Roberts, William Fedus, Sam Shleifer, Vivek Srikumar, Ronan Le Bras, Jos Rozen, Kevin Gimpel, Melvin McElrath, Omer Levy, Tal Linzen, Diganta Misra, Frieda Rong, Xiang Ren, Abhishek Rao, Mirac Suzgun, Yejin Choi, Michihiro Yasunaga, Sharon Zhou, Joshua B Tenenbaum, Sahib Singh, Michael Cohen, Tao Yu, Samuel Schoenholz, Rosanne Liu, Ryan Chi, Giambattista Parascandolo, Zhuoye Zhao, Erkut Erdem, Matthew Leavitt, Francois Chollet, Anders J Andreassen, Timo Schick, Vera Demberg, Qiaozhu Mei, Daniel Khashabi, Jonathan Berant, Noah Constant, Alex Warstadt, Zirui Wang, Alethea Power, Niklas Muennighoff, Barret Zoph, Jason Wei, Christopher Manning

Résumé

Les modèles linguistiques présentent à la fois des améliorations quantitatives et de nouvelles capacités qualitatives avec l'augmentation de l'échelle. Malgré leur impact potentiellement transformateur, ces nouvelles capacités sont encore mal caractérisées. Afin d'éclairer les recherches futures, de se préparer aux nouvelles capacités perturbatrices des modèles et d'atténuer les effets socialement néfastes, il est essentiel que nous comprenions les capacités et les limites actuelles et futures des modèles de langage.
Pour relever ce défi, nous présentons le benchmark Beyond the Imitation Game (BIG-bench). BIG-bench se compose actuellement de 204 tâches, réalisées par 450 auteurs de 132 institutions. Les sujets des tâches sont variés, tirant les problèmes de la linguistique, du développement de l'enfance, des mathématiques, du raisonnement de bon sens, de la biologie, de la physique, des préjugés sociaux, du développement de logiciels et d'autres domaines encore. BIG-bench se concentre sur des tâches considérées comme dépassant les capacités des modèles de langage actuels. Nous évaluons le comportement des modèles GPT d'OpenAI, des architectures de transformateurs denses internes à Google et des transformateurs épars de type Switch sur BIG-bench, pour des tailles de modèles allant de millions à des centaines de milliards de paramètres. En outre, une équipe d'évaluateurs experts humains a effectué toutes les tâches afin de fournir une base de référence solide. Les résultats sont les suivants : les performances et l'étalonnage des modèles s'améliorent avec l'échelle, mais sont médiocres en termes absolus (et par rapport aux performances des évaluateurs) ; les performances sont remarquablement similaires d'une classe de modèles à l'autre, bien qu'elles bénéficient de l'éparpillement ; les tâches qui s'améliorent progressivement et de manière prévisible impliquent généralement une grande composante de connaissance ou de mémorisation, tandis que les tâches qui présentent un comportement "révolutionnaire" à une échelle critique impliquent souvent de multiples étapes ou composantes, ou des métriques fragiles ; les préjugés sociaux augmentent généralement avec l'échelle dans les contextes ambigus, mais ils peuvent être améliorés par des messages-guides.

BitStack : Compression de grande taille de modèles linguistiques dans des environnements à mémoire variable

Xinghao Wang, Pengyu Wang, Bo Wang (membre de la faculté Vecteur), Dong Zhang, Yunhua Zhou, Xipeng Qiu

Résumé

Large language models (LLMs) have revolutionized numerous applications, yet their deployment remains challenged by memory constraints on local devices. While scaling laws have enhanced LLM capabilities, the primary bottleneck has shifted from $\textit{capability}$ to $\textit{availability}$, emphasizing the need for efficient memory management. Traditional compression methods, such as quantization, often require predefined compression ratios and separate compression processes for each setting, complicating deployment in variable memory environments. In this paper, we introduce $\textbf{BitStack}$, a novel, training-free weight compression approach that enables megabyte-level trade-offs between memory usage and model performance. By leveraging weight decomposition, BitStack can dynamically adjust the model size with minimal transmission between running memory and storage devices. Our approach iteratively decomposes weight matrices while considering the significance of each parameter, resulting in an approximately 1-bit per parameter residual block in each decomposition iteration. These blocks are sorted and stacked in storage as basic transmission units, with different quantities loaded based on current memory availability. Extensive experiments across a wide range of tasks demonstrate that, despite offering fine-grained size control, BitStack consistently matches or surpasses strong quantization baselines, particularly at extreme compression ratios. To the best of our knowledge, this is the first decomposition-based method that effectively bridges the gap to practical compression techniques like quantization. Code is available at https://github.com/xinghaow99/BitStack.

Méthodes de boosting pour les données censurées par intervalles avec régression et classification

Yuan Bian, Grace Yi (affiliée à la faculté Vector), Wenqing He

Résumé

Le boosting a suscité un intérêt considérable dans les communautés de l'apprentissage automatique et de la statistique. Les algorithmes de boosting traditionnels, conçus pour des échantillons aléatoires entièrement observés, se heurtent souvent à des problèmes réels, en particulier avec des données censurées par intervalles. Ce type de données est courant dans les analyses de survie et les études temps-événement où les temps exacts des événements ne sont pas observés mais se situent dans des intervalles connus. Le traitement efficace de ces données est crucial dans des domaines tels que la recherche médicale, l'ingénierie de la fiabilité et les sciences sociales. Dans ce travail, nous introduisons de nouvelles méthodes de boosting non paramétriques pour les tâches de régression et de classification avec des données censurées par intervalles. Nos approches s'appuient sur des transformations sans biais de censure pour ajuster les fonctions de perte et imputer les réponses transformées tout en maintenant la précision du modèle. Implémentées via la descente de gradient fonctionnelle, ces méthodes garantissent l'extensibilité et l'adaptabilité. Nous établissons rigoureusement leurs propriétés théoriques, y compris l'optimalité et les compromis de l'erreur quadratique moyenne, offrant des garanties solides. Les méthodes que nous proposons offrent non seulement un cadre robuste pour l'amélioration de la précision prédictive dans les domaines où les données à intervalle censuré sont courantes, mais elles complètent également les travaux existants, en élargissant l'applicabilité des techniques de renforcement. Des études empiriques démontrent une performance robuste dans divers scénarios d'échantillons finis, soulignant l'utilité pratique de nos approches.

Une brèche par mille fuites : Fuites d'informations dangereuses dans les réponses "sûres" de l'IA

David Glukhov, Ziwen Han, Ilia Shumailov, Vardan Papyan (affilié à la faculté Vector), Nicolas Papernot (membre de la faculté Vector)

Résumé

La vulnérabilité des modèles de langage de Frontier à l'utilisation abusive et au piratage a incité au développement de mesures de sécurité telles que les filtres et l'apprentissage de l'alignement dans un effort pour garantir la sécurité par la robustesse aux invites conçues par des adversaires. Nous affirmons que la robustesse est fondamentalement insuffisante pour garantir les objectifs de sécurité, et que les défenses et méthodes d'évaluation actuelles ne tiennent pas compte des risques liés aux requêtes à double intention et à leur composition à des fins malveillantes. Pour quantifier ces risques, nous introduisons un nouveau cadre d'évaluation de la sécurité basé sur \textit{fuite d'information inadmissible} des sorties du modèle et démontrons comment notre attaque de décomposition des questions proposée peut extraire des connaissances dangereuses d'un LLM censuré plus efficacement que le jailbreaking traditionnel. La méthode d'évaluation que nous proposons repose sur un nouveau modèle de menace fondé sur la théorie de l'information, à savoir \textit{adversaires inférentiels}, qui se distingue de \textit{adversaires de sécurité}, tels que les jailbreaks, dans la mesure où le succès est mesuré par la déduction de connaissances inadmissibles à partir des résultats de la victime, par opposition au fait de forcer des résultats explicitement inadmissibles de la part de la victime. Grâce à notre cadre théorique de l'information, nous montrons que pour garantir la sécurité contre les adversaires déductifs, les mécanismes de défense doivent assurer \textit{censure de l'information}, en limitant la fuite d'informations inadmissibles. Cependant, nous prouvons que de telles défenses entraînent inévitablement un compromis sécurité-utilité.

Le gradient textuel peut-il fonctionner dans l'apprentissage fédéré ?

Minghui Chen, Ruinan Jin, Wenlong Deng, Yuanyuan Chen, Zhi Huang, Han Yu, Xiaoxiao Li (membre de la faculté Vector)

Résumé

Des études récentes soulignent la promesse d'une optimisation prompte basée sur les LLM, en particulier avec TextGrad, qui automatise la "différenciation" via des textes et rétropropage le retour d'information textuel fourni par les LLM. Cette approche facilite la formation dans diverses applications du monde réel qui ne prennent pas en charge la propagation numérique du gradient ou le calcul des pertes. Elle ouvre de nouvelles voies pour l'optimisation dans des environnements décentralisés et limités en ressources, suggérant que les utilisateurs de LLM à boîte noire (par exemple, ChatGPT) pourraient améliorer les composants des systèmes agentiques LLM (tels que l'optimisation de l'invite) par le biais de paradigmes collaboratifs tels que l'apprentissage fédéré (FL). Dans cet article, nous explorons systématiquement le potentiel et les défis de l'incorporation du gradient textuel dans l'apprentissage fédéré. Nos contributions sont de quatre ordres. **Premièrement, nous introduisons un nouveau paradigme d'apprentissage fédéré, Federated Textual Gradient (FedTextGrad), qui permet aux clients d'apprentissage fédéré de télécharger leurs invites optimisées localement et dérivées de gradients textuels, tandis que le serveur d'apprentissage fédéré regroupe les invites reçues par le biais d'un résumé de texte. Contrairement aux cadres FL traditionnels, qui sont conçus pour l'agrégation numérique, FedTextGrad est spécifiquement adapté au traitement des données textuelles, ce qui élargit l'applicabilité de FL à une gamme plus large de problèmes pour lesquels il n'existe pas de fonctions de perte numériques bien définies. **Deuxièmement, en nous appuyant sur cette conception, nous menons des expériences approfondies pour explorer la faisabilité des gradients textuels fédérés. Nos résultats soulignent l'importance de régler correctement les facteurs clés (par exemple, les étapes locales) dans la formation FL pour intégrer efficacement les gradients textuels. **Troisièmement, nous mettons en évidence un défi majeur dans l'agrégation de gradients textuels fédérés : conserver les informations essentielles des mises à jour distribuées des messages-guides. La concaténation produit souvent des invites qui dépassent la fenêtre de contexte de l'API LLM, tandis que le résumé peut dégrader les performances en générant un texte trop condensé ou complexe qui manque de contexte clé. **Enfin, en réponse à ce problème, nous améliorons la variante vanille de FedTextGrad en fournissant des conseils pratiques au LLM lorsqu'il résume les invites du client en s'appuyant sur le principe de la densité uniforme de l'information. Une telle conception réduit la complexité de l'invite globale agrégée, encourageant ainsi davantage la capacité de raisonnement du LLM. Grâce à cette étude fondée sur des principes, nous permettons l'adoption de gradients textuels en FL pour optimiser les LLM, nous identifions des problèmes importants et nous indiquons des orientations futures, ouvrant ainsi un nouveau domaine de recherche qui mérite d'être approfondi.

Contrôler l'espace et le temps avec les modèles de diffusion

Daniel Watson, Saurabh Saxena, Lala Li, Andrea Tagliasacchi, David Fleet (membre de la faculté Vector)

Résumé

Nous présentons 4DiM, un modèle de diffusion en cascade pour la synthèse de nouvelles vues 4D (NVS), qui permet de générer des trajectoires de caméra et des horodatages arbitraires, dans des scènes naturelles, conditionnées par une ou plusieurs images. Grâce à une architecture et à une procédure d'échantillonnage novatrices, nous pouvons nous entraîner sur un mélange de données 3D (avec la pose de la caméra), 4D (pose+temps) et vidéo (temps mais pas de pose), ce qui améliore grandement la généralisation à des images et à des trajectoires de pose de caméra inédites par rapport aux travaux antérieurs qui opèrent généralement dans des domaines limités (par exemple, centrés sur l'objet). 4DiM est la toute première méthode de NVS avec un contrôle intuitif de la pose de la caméra à l'échelle métrique, rendu possible par notre nouveau pipeline d'étalonnage pour les données imposées par la structure à partir du mouvement. Les expériences démontrent que 4DiM surpasse les modèles NVS 3D antérieurs en termes de fidélité de l'image et d'alignement de la pose, tout en permettant la génération de la dynamique de la scène. 4DiM fournit un cadre général pour une variété de tâches, y compris la conversion d'une image unique en 3D, de deux images en vidéo (interpolation et extrapolation) et la traduction vidéo-vidéo conditionnée par la pose, que nous illustrons qualitativement sur une variété de scènes. Voir https://anonymous-4d-diffusion.github.io pour des exemples de vidéos.

Les modèles vision-langage représentent-ils l'espace et comment ? Évaluation du cadre de référence spatial en cas d'ambiguïté

Zheyuan Zhang, Fengyuan Hu, Jayjun Lee, Freda Shi (membre de la faculté Vector), Parisa Kordjamshidi, Joyce Chai, Ziqiao Ma

Résumé

Les expressions spatiales dans la communication située peuvent être ambiguës, car leur signification varie en fonction des cadres de référence adoptés par les locuteurs et les auditeurs. Bien que la compréhension du langage spatial et le raisonnement par des modèles vision-langage (VLM) aient fait l'objet d'une attention croissante, les ambiguïtés potentielles de ces modèles sont encore sous-explorées. Pour résoudre ce problème, nous présentons le test COMFORT (Consistent Multilingual Frame Of Reference Test), un protocole d'évaluation permettant d'évaluer systématiquement les capacités de raisonnement spatial des modèles vision-langage. Nous évaluons neuf VLM de pointe à l'aide de COMFORT. Malgré un certain alignement sur les conventions anglaises dans la résolution des ambiguïtés, nos expériences révèlent d'importantes lacunes des VLM : notamment, les modèles (1) présentent une robustesse et une cohérence médiocres, (2) manquent de flexibilité pour s'adapter à de multiples FoR, et (3) ne parviennent pas à adhérer aux conventions spécifiques à la langue ou à la culture dans les tests interlinguistiques, l'anglais ayant tendance à dominer les autres langues. Avec un effort croissant pour aligner les modèles vision-langage sur les intuitions cognitives humaines, nous appelons à plus d'attention sur la nature ambiguë et la diversité interculturelle du raisonnement spatial.

Recherche évolutive efficace sur l'espace chimique avec de grands modèles linguistiques

Haorui Wang, Marta Skreta, Cher Ser, Wenhao Gao, Lingkai Kong, Felix Strieth-Kalthoff, Chenru Duan, Yuchen Zhuang, Yue Yu, Yanqiao Zhu, Yuanqi Du, Alán Aspuru-Guzik (membre de la faculté Vector), Kirill Neklyudov, Chao Zhang

Résumé

La découverte moléculaire, lorsqu'elle est formulée comme un problème d'optimisation, présente des défis informatiques importants car les objectifs d'optimisation peuvent être non différentiables. Les algorithmes évolutionnaires (EA), souvent utilisés pour optimiser les objectifs de la boîte noire dans la découverte moléculaire, parcourent l'espace chimique en effectuant des mutations et des croisements aléatoires, ce qui entraîne un grand nombre d'évaluations d'objectifs coûteuses. Dans ce travail, nous améliorons cet inconvénient en incorporant des grands modèles de langage (LLM) tenant compte de la chimie dans les EA. Plus précisément, nous redéfinissons les opérations de croisement et de mutation dans les EA en utilisant des LLM formés sur de grands corpus d'informations chimiques. Nous réalisons des études empiriques approfondies sur des modèles commerciaux et open-source pour de multiples tâches impliquant l'optimisation de propriétés, la redécouverte de molécules et la conception de médicaments basée sur la structure. Nous démontrons que l'utilisation conjointe de LLM et d'EA permet d'obtenir des performances supérieures à celles de tous les modèles de base dans des contextes mono-objectifs et multi-objectifs. Nous démontrons que notre algorithme améliore à la fois la qualité de la solution finale et la vitesse de convergence, réduisant ainsi le nombre d'évaluations objectives requises.

Édition efficace de modèles avec un réglage fin épars localisé au niveau des tâches

Leonardo Iurada, Marco Ciccone (boursier postdoctoral distingué de Vector), Tatiana Tommasi

Résumé

Les modèles pré-entraînés sont des tremplins pour les systèmes modernes d'apprentissage automatique, mais la manière d'extraire, de réutiliser et d'orienter efficacement leurs connaissances pour de nouvelles tâches est un domaine de recherche qui comporte encore plusieurs questions ouvertes. Les solutions d'arithmétique des tâches de l'état de l'art sont fortement liées à la linéarisation du modèle, ce qui entraîne des goulots d'étranglement informatiques pendant l'entraînement et l'inférence, et néglige potentiellement les dépendances essentielles de la tâche. Dans ce travail, nous nous concentrons sur l'étape de réglage fin qui définit les vecteurs de tâches et proposons TaLoS, une nouvelle approche basée sur un réglage fin clairsemé qui met à jour de manière stratégique uniquement les paramètres censés fournir une localisation fonctionnelle des tâches. Cela permet d'obtenir efficacement des modèles démêlés par le poids sans qu'il soit nécessaire de procéder à une linéarisation explicite. Nous présentons une analyse expérimentale approfondie montrant comment notre approche améliore de manière significative l'efficacité de la formation et de l'inférence tout en surpassant les approches de pointe dans l'ajout et la négation de tâches. Notre travail offre une solution de principe à l'édition de modèles pré-entraînés et ouvre la voie à des systèmes d'apprentissage automatique plus rentables et évolutifs pour les applications du monde réel.

EgoSim : Exploration égocentrique dans les mondes virtuels avec conditionnement multimodal

Wei Yu, Songheng Yin, Steve Easterbrook, Animesh Garg (affilié à la faculté Vector)

Résumé

Les progrès récents dans les modèles de diffusion vidéo ont établi une base solide pour le développement de modèles mondiaux avec des applications pratiques. Le prochain défi consiste à explorer la manière dont un agent peut exploiter ces modèles de base pour comprendre, interagir et planifier dans les environnements observés. Pour ce faire, il faut ajouter plus de contrôlabilité au modèle, en le transformant en un moteur de jeu polyvalent capable de manipulation et de contrôle dynamiques. Pour ce faire, nous avons étudié trois facteurs de conditionnement clés : la caméra, le cadre contextuel et le texte, en identifiant les limites des modèles actuels. Plus précisément, la fusion de l'intégration de la caméra avec les caractéristiques vidéo fait que le contrôle de la caméra est influencé par ces caractéristiques. En outre, si les informations textuelles compensent les structures spatio-temporelles nécessaires, elles s'immiscent souvent dans des parties déjà observées de la scène. Pour résoudre ces problèmes, nous avons conçu la couche d'attention épipolaire spatio-temporelle, qui garantit que l'egomotion générée par le modèle s'aligne strictement sur le mouvement de la caméra grâce à des contraintes rigides. En outre, nous proposons l'adaptateur CI2V, qui utilise les informations de la caméra pour mieux déterminer s'il faut donner la priorité aux encastrements textuels ou visuels, ce qui permet d'atténuer le problème de l'intrusion textuelle dans les zones observées. Grâce à des expériences approfondies, nous démontrons que notre nouveau modèle EgoSim obtient d'excellents résultats sur les ensembles de données RealEstate et Epic-Field nouvellement réorganisé. Pour plus de résultats, veuillez vous référer à https://egosim.github.io/EgoSim/.

Apprentissage fédéré vertical en ligne piloté par les événements

Ganyu Wang, Boyu Wang (affilié à la faculté Vector), Bin Gu, Charles Ling (affilié à la faculté Vector)

Résumé

L'apprentissage en ligne s'adapte mieux aux scénarios du monde réel dans le cadre de l'apprentissage vertical fédéré (VFL) que l'apprentissage hors ligne. Cependant, l'intégration de l'apprentissage en ligne dans l'apprentissage vertical fédéré présente des difficultés en raison de la nature unique de l'apprentissage vertical fédéré, où les clients possèdent des ensembles de caractéristiques non intersectés pour le même échantillon. Dans les scénarios du monde réel, les clients ne peuvent pas recevoir de manière synchrone des flux de données pour les caractéristiques disjointes de la même entité. Au lieu de cela, les données sont généralement générées par un *événement* qui ne concerne qu'un sous-ensemble de clients. Nous sommes les premiers à identifier ces défis dans le domaine du VFL en ligne, qui ont été négligés par les recherches précédentes. Pour relever ces défis, nous avons proposé un cadre de VFL en ligne piloté par les événements. Dans ce cadre, seul un sous-ensemble de clients est activé lors de chaque événement, tandis que les autres clients collaborent passivement au processus d'apprentissage. En outre, nous avons incorporé le *regret local dynamique (DLR)* dans VFL pour relever les défis posés par les problèmes d'apprentissage en ligne avec des modèles non convexes dans un environnement non stationnaire. Nous avons effectué une analyse complète des regrets de notre cadre proposé, en examinant spécifiquement le DLR dans des conditions non convexes avec VFL en ligne piloté par les événements. Des expériences approfondies ont démontré que le cadre proposé était plus stable que le cadre VFL en ligne existant dans des conditions de données non stationnaires, tout en réduisant de manière significative les coûts de communication et de calcul.

Filtré et non mélangé : Gating en ligne basé sur le filtrage pour le mélange de grands modèles linguistiques

Raeid Saqur, Anastasis Kratsios (affilié à la faculté Vector), Florian Krach, Yannick Limmer, Blanka Horvath, Frank Rudzicz (membre de la faculté Vector)

Résumé

Nous proposons MoE-F - un mécanisme formalisé pour combiner N grands modèles de langage (LLM) pré-entraînés d'experts dans des tâches de prédiction de séries temporelles en ligne en prévoyant de manière adaptative la meilleure pondération des prédictions LLM à chaque étape temporelle. Notre mécanisme exploite l'information conditionnelle dans la performance en cours de chaque expert pour prévoir la meilleure combinaison de LLM pour prédire la série temporelle dans son étape suivante. S'écartant des méthodes statiques (apprises) de mélange d'experts (MoE), notre approche utilise des techniques de filtrage stochastique adaptées au temps pour combiner les experts. En formulant le problème de sélection d'experts comme un modèle de Markov caché (HMM) à espace d'état fini et à temps continu, nous pouvons exploiter le filtre de Wohman-Shiryaev. Notre approche commence par construire N filtres parallèles correspondant à chacun des N LLM individuels. Chaque filtre propose sa meilleure combinaison de LLM, compte tenu des informations auxquelles il a accès. Par la suite, les sorties des N filtres sont agrégées de manière optimale pour maximiser leur pouvoir prédictif robuste, et cette mise à jour est calculée efficacement via une expression de forme fermée, générant ainsi notre prédicteur d'ensemble. Nos contributions sont:- **(I)** l'algorithme MoE-F - déployable comme un harnais de filtrage plug-and-play,- **(II)** des garanties d'optimalité théoriques de l'algorithme de gating basé sur le filtrage proposé (via des garanties d'optimalité pour son filtrage bayésien parallèle et ses étapes d'agrégation robustes), et- **(III)** une évaluation empirique et des résultats ablatifs utilisant des LLMs fondateurs et MoE de pointe sur une tâche réelle de _Mouvement du marché financier_ où MoE-F atteint une amélioration remarquable de 17% en valeur absolue et de 48.5% d'amélioration relative de la mesure F1 par rapport à l'expert LLM individuel le plus performant qui prédit le mouvement du marché à court terme basé sur les nouvelles en continu. En outre, nous fournissons des preuves empiriques de gains de performance substantiels dans l'application de MoE-F par rapport à des modèles spécialisés dans le domaine de la prévision de séries temporelles à long terme.

Trouver des concepts décodables partagés et leurs négations dans le cerveau

Cory Efird, Alex Murphy, Joel Zylberberg (affilié à la faculté Vector), Alona Fyshe

Résumé

Prior work has offered evidence for functional localization in the brain; different anatomical regions preferentially activate for certain types of visual input. For example, the fusiform face area preferentially activates for visual stimuli that include a face. However, the spectrum of visual semantics is extensive, and only a few semantically-tuned patches of cortex have so far been identified in the human brain. Using a multimodal (natural language and image) neural network architecture (CLIP, \cite{CLIP}, we train a highly accurate contrastive model that maps brain responses during naturalistic image viewing to CLIP embeddings. We then use a novel adaptation of the DBSCAN clustering algorithm to cluster the parameters of these participant-specific contrastive models. This reveals what we call Shared Decodable Concepts (SDCs): clusters in CLIP space that are decodable from common sets of voxels across multiple participants.

L'examen des images les plus et les moins associées à chaque groupe de CDS nous donne un aperçu supplémentaire des propriétés sémantiques de chaque CDS. Nous notons des DSC pour des caractéristiques visuelles déjà signalées (par exemple, l'accord d'orientation dans le cortex visuel précoce) ainsi que pour des concepts sémantiques visuels tels que les visages, les lieux et les corps. Dans les cas où notre méthode trouve plusieurs groupes pour un concept visuo-sémantique, les images les moins associées nous permettent de dissocier les facteurs de confusion. Par exemple, nous avons découvert deux groupes d'images de nourriture, l'un déterminé par la couleur, l'autre par la forme. Nous avons également découvert des zones de sensibilité visuo-sémantique qui n'avaient pas été signalées auparavant, telles que des régions de l'aire corporelle extrastriée (EBA) accordées pour les jambes/mains et la sensibilité à la numération dans le sillon intrapariétal droit, la sensibilité associée à la perspective visuelle (proche/lointain) et bien d'autres choses encore. Ainsi, notre méthodologie d'apprentissage contrastif caractérise mieux les représentations visuo-sémantiques nouvelles et existantes dans le cerveau en tirant parti des représentations multimodales des réseaux neuronaux et d'une nouvelle adaptation des algorithmes de regroupement.

La généralisation dans les modèles de VAE et de diffusion : Une analyse unifiée de la théorie de l'information

Qi Chen, Jierui Zhu, Florian Shkurti (affilié à la faculté Vector)

Résumé

Malgré le succès empirique des modèles de diffusion (DM) et des autoencodeurs variationnels (VAE), leur performance en matière de généralisation reste théoriquement sous-explorée, notamment en raison de l'absence d'une prise en compte complète de la structure partagée entre le codeur et le générateur. En nous appuyant sur des outils récents de la théorie de l'information, nous proposons un cadre théorique unifié qui garantit la généralisation de l'encodeur et du générateur en les traitant comme des mappings aléatoires. Ce cadre permet en outre (1) d'affiner l'analyse des VAE en tenant compte de la généralisation du générateur, qui était auparavant négligée ; (2) d'illustrer un compromis explicite en termes de généralisation pour les DM qui dépend du temps de diffusion $T$ ; et (3) de fournir des limites estimables pour les DM en se basant uniquement sur les données d'apprentissage, ce qui permet de sélectionner le $T$ optimal et d'intégrer ces limites dans le processus d'optimisation afin d'améliorer les performances du modèle. Des résultats empiriques sur des ensembles de données synthétiques et réelles illustrent la validité de la théorie proposée.

GMValuator : Évaluation des données basée sur la similarité pour les modèles génératifs

Jiaxi Yang, Wenlong Deng, Benlin Liu, Yangsibo Huang, James Y Zou, Xiaoxiao Li (membre de la faculté Vector)

Résumé

L'évaluation des données joue un rôle crucial dans l'apprentissage automatique. Les méthodes d'évaluation des données existantes, principalement axées sur les modèles discriminatifs, négligent les modèles génératifs qui ont récemment attiré l'attention. Dans les modèles génératifs, l'évaluation des données mesure l'impact des données d'apprentissage sur les ensembles de données générés. Très peu de tentatives existantes de méthodes d'évaluation des données conçues pour les modèles génératifs profonds se concentrent sur des modèles spécifiques ou manquent de robustesse dans leurs résultats. En outre, l'efficacité révèle encore des lacunes vulnérables. Nous formulons le problème de l'évaluation des données dans les modèles génératifs du point de vue de l'appariement des similitudes afin de combler ces lacunes. Plus précisément, nous présentons Generative Model Valuator (GMValuator), la première approche sans apprentissage et agnostique en matière de modèle pour fournir une évaluation des données pour les tâches de génération. Il permet une évaluation efficace des données grâce à notre module innovant de mise en correspondance des similarités, calibre les contributions biaisées en intégrant l'évaluation de la qualité de l'image et attribue des crédits à tous les échantillons d'apprentissage en fonction de leurs contributions aux échantillons générés. En outre, nous introduisons quatre critères d'évaluation pour évaluer les méthodes d'évaluation des données dans les modèles génératifs. GMValuator est largement évalué sur des ensembles de données de référence et de haute résolution, ainsi que sur diverses architectures génératives courantes, afin de démontrer son efficacité.

Exploiter les interfaces utilisateur des pages web pour une compréhension visuelle riche en texte

Junpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen (membre de la faculté Vecteur), Graham Neubig, Xiang Yue

Résumé

La compréhension visuelle riche en texte, c'est-à-dire la capacité d'interpréter à la fois le contenu textuel et les éléments visuels d'une scène, est essentielle pour que les modèles de langage multimodaux à grande échelle (MLLM) puissent interagir efficacement avec des environnements structurés. Nous proposons d'exploiter les interfaces utilisateur des pages web en tant que source de données naturellement structurée et diversifiée pour améliorer les capacités des MLLM dans ce domaine. Les approches existantes, telles que l'extraction basée sur des règles, le sous-titrage de modèles multimodaux et l'analyse HTML rigide, sont entravées par des problèmes tels que le bruit, les hallucinations et la généralisation limitée. Pour surmonter ces difficultés, nous présentons MultiUI, un ensemble de données de 7,3 millions d'échantillons couvrant divers types d'interface utilisateur et de tâches, structuré à l'aide d'arbres d'accessibilité et de taxonomies de tâches améliorés. En mettant à l'échelle les instructions multimodales des interfaces Web par le biais de LLM, notre ensemble de données améliore la généralisation au-delà des domaines Web, améliorant de manière significative les performances en matière de compréhension de documents, de compréhension d'interfaces graphiques, de mise à la terre et de tâches d'agent avancées. Cela démontre le potentiel des données web structurées pour améliorer les compétences des MLLM dans le traitement d'environnements visuels riches en texte et la généralisation à d'autres domaines.

Un critère d'information pour le démêlage contrôlé des données multimodales

Chenyu Wang, Sharut Gupta, Xinyi Zhang, Sana Tonekaboni (Vector Distinguished Postdoctoral Fellow), Stefanie Jegelka, Tommi Jaakkola, Caroline Uhler

Résumé

L'apprentissage de la représentation multimodale cherche à relier et à décomposer les informations inhérentes à plusieurs modalités. En démêlant les informations spécifiques à une modalité des informations partagées entre les modalités, nous pouvons améliorer l'interprétabilité et la robustesse et permettre des tâches en aval telles que la génération de résultats contrefactuels. Séparer les deux types d'informations est un défi car elles sont souvent profondément enchevêtrées dans de nombreuses applications du monde réel. Nous proposons $\textbf{Disentangled}$ $\textbf{S}$ auto\textbf{S}$upervisé $\textbf{L}$earning (DisentangledSSL), une nouvelle approche auto-supervisée pour l'apprentissage de représentations démêlées. Nous présentons une analyse complète de l'optimalité de chaque représentation démêlée, en nous concentrant particulièrement sur le scénario non couvert par les travaux antérieurs où le point dit $\textit{Minimum Necessary Information}$ (MNI) n'est pas atteignable. Nous démontrons qu'\algo apprend avec succès des caractéristiques partagées et spécifiques à une modalité sur de multiples ensembles de données synthétiques et réelles et qu'il surpasse constamment les lignes de base sur diverses tâches en aval, y compris les tâches de prédiction pour les données vision-langage, ainsi que les tâches de recherche de molécules-phénotypes pour les données biologiques.

Go-Explore intelligent : Sur les épaules de modèles de fondation géants

Cong Lu, Shengran Hu, Jeff Clune (membre de la faculté Vector)

Résumé

Go-Explore est une puissante famille d'algorithmes conçus pour résoudre des problèmes d'exploration difficiles, basés sur le principe de l'archivage des états découverts et du retour itératif aux états les plus prometteurs et de l'exploration à partir de ceux-ci. Cette approche a permis d'obtenir des performances surhumaines dans une grande variété de problèmes difficiles, notamment les jeux Atari et le contrôle robotique, mais elle nécessite la conception manuelle d'une heuristique pour guider l'exploration (c'est-à-dire déterminer les états à sauvegarder et à explorer, et les actions à envisager ensuite), ce qui prend du temps et n'est pas réalisable en général. Pour résoudre ce problème, nous proposons Intelligent Go-Explore (IGE) qui étend considérablement la portée du Go-Explore original en remplaçant ces heuristiques artisanales par l'intelligence et les notions humaines intériorisées d'intérêt capturées par des modèles de fondation (FM) géants pré-entraînés. L'IGE dispose ainsi d'une capacité humaine à identifier instinctivement l'intérêt ou le caractère prometteur de tout nouvel état (par exemple, la découverte de nouveaux objets, emplacements ou comportements), même dans des environnements complexes où l'heuristique est difficile à définir. De plus, l'IGE offre la possibilité de reconnaître et de tirer parti des découvertes fortuites, c'est-à-dire des états rencontrés au cours de l'exploration qui sont intéressants en termes d'exploration, mais dont l'intérêt n'a pas été anticipé par l'utilisateur humain. Nous évaluons notre algorithme sur une gamme variée de tâches linguistiques et visuelles qui nécessitent des recherches et des explorations. Dans l'ensemble de ces tâches, IGE surpasse largement l'apprentissage par renforcement classique et les lignes de base de la recherche de graphes, et réussit également là où les agents FM de pointe antérieurs comme Reflexion échouent complètement. Dans l'ensemble, Intelligent Go-Explore combine les forces considérables des FM et le puissant algorithme Go-Explore, ouvrant une nouvelle frontière de recherche dans la création d'agents plus généralement capables avec des capacités d'exploration impressionnantes. L'ensemble de notre code est disponible en libre accès à l'adresse suivante : https://github.com/conglu1997/intelligent-go-explore.

InverseBench : Analyse comparative des modèles de diffusion prêts à l'emploi pour les problèmes inverses scientifiques

Spotlight paper

Hongkai Zheng, Wenda Chu, Bingliang Zhang, Zihui Wu, Austin Wang, Berthy Feng, Caifeng Zou, Yu Sun (affilié à la faculté Vector), Nikola Kovachki, Zachary Ross, Katherine Bouman, Yisong Yue

Résumé

Les méthodes de diffusion préalables "plug-and-play" sont apparues comme une voie de recherche prometteuse pour la résolution des problèmes inverses. Cependant, les études actuelles se concentrent principalement sur la restauration d'images naturelles, laissant la performance de ces algorithmes dans les problèmes inverses scientifiques largement inexplorés. Pour combler cette lacune, nous présentons \textsc{InverseBench}, un cadre unifié qui évalue les modèles de diffusion dans cinq problèmes inverses scientifiques distincts. Ces problèmes présentent des défis structurels uniques qui diffèrent des benchmarks existants, provenant d'applications scientifiques critiques telles que l'imagerie des trous noirs, la sismologie, la tomographie optique, l'imagerie médicale et la dynamique des fluides. Avec \textsc{InverseBench}, nous comparons 15 algorithmes de problèmes inverses qui utilisent des méthodes de diffusion préalables " plug-and-play " à des références solides et spécifiques au domaine, offrant de nouvelles perspectives précieuses sur les forces et les faiblesses des algorithmes existants. Les ensembles de données, les modèles pré-entraînés et la base de code sont en libre accès afin de faciliter la recherche et le développement futurs.

Apprentissage en présence d'un bruit d'étiquette temporel

Sujay Nagaraj, Walter Gerych, Sana Tonekaboni (chercheur postdoctoral émérite de Vector), Anna Goldenberg (membre de la faculté de Vector), Berk Ustun, Thomas Hartvigsen

Résumé

De nombreuses tâches de classification de séries temporelles, où les étiquettes varient dans le temps, sont affectées par un bruit d'étiquette qui varie également dans le temps. Ce bruit peut entraîner une amélioration, une détérioration ou un changement périodique de la qualité des étiquettes au fil du temps. Nous commençons par proposer et formaliser le bruit d'étiquette temporel, un problème non étudié pour la classification séquentielle des séries temporelles. Dans ce cadre, de multiples étiquettes sont enregistrées au fil du temps tout en étant corrompues par une fonction de bruit dépendant du temps. Nous démontrons tout d'abord l'importance de modéliser la nature temporelle de la fonction de bruit d'étiquette et la façon dont les méthodes existantes sont systématiquement sous-performantes. Nous proposons ensuite des méthodes qui permettent d'entraîner des classificateurs tolérants au bruit en estimant la fonction de bruit temporel des étiquettes directement à partir des données. Nous montrons que nos méthodes permettent d'obtenir des performances de pointe pour divers types de bruit temporel sur les étiquettes dans des ensembles de données réels.

Tirer parti de la sparité des variables pour affiner la stationnarité de Pareto dans l'optimisation multi-objectifs

Zeou Hu, Yaoliang Yu (Membre de la faculté Vector)

Résumé

L'optimisation multi-objectifs basée sur le gradient (MOO) est essentielle dans l'apprentissage automatique moderne, avec des applications dans l'apprentissage multi-tâches, l'apprentissage fédéré, l'équité algorithmique et l'apprentissage par renforcement. Dans ce travail, nous révélons d'abord certaines limites de la stationnarité de Pareto, une condition de premier ordre largement acceptée pour l'optimalité de Pareto, en présence de structures fonctionnelles-variables éparses. Ensuite, pour tenir compte de cette rareté, nous proposons un nouveau concept de solution appelé stationnarité de Pareto raffinée (RPS), dont nous prouvons qu'elle se situe toujours entre l'optimalité de Pareto et la stationnarité de Pareto. Nous proposons un algorithme de partitionnement efficace pour exploiter automatiquement la dépendance fonction-variable et réduire considérablement les solutions stationnaires de Pareto non optimales. Nous montrons ensuite que les algorithmes de descente basés sur le gradient dans MOO peuvent être améliorés grâce à notre partitionnement affiné. En particulier, nous proposons l'algorithme de descente de gradient multiple avec partition raffinée (RP-MGDA) comme exemple de méthode qui converge vers RPS, tout en bénéficiant d'une complexité par étape et d'un taux de convergence similaires. Enfin, nous validons notre approche par des expériences sur des exemples synthétiques et des scénarios d'application réalistes où apparaissent des structures de dépendance fonction-variable distinctes. Nos résultats soulignent l'importance de l'exploitation de la structure fonction-variable dans la MOO basée sur le gradient, et fournissent une amélioration transparente des approches existantes.

Hyperrésolution typée basée sur LLM pour le raisonnement sensé avec des bases de connaissances

Armin Toroghi, Ali Pesaranghader, Tanmana Sadhu, Scott Sanner (affilié à la faculté Vector)

Résumé

Les grands modèles de langage (LLM) sont de plus en plus utilisés pour des tâches nécessitant un raisonnement de bon sens. Malgré leur potentiel exceptionnel, le processus de raisonnement des LLM est sujet à des erreurs et à des hallucinations qui entravent leur applicabilité, en particulier dans les scénarios à fort enjeu. Plusieurs travaux ont tenté d'améliorer les performances des LLM en matière de raisonnement de bon sens (i) en utilisant des styles d'incitation qui suscitent un raisonnement plus précis, (ii) en utilisant le LLM comme analyseur sémantique pour un raisonneur symbolique, ou (iii) en obligeant le LLM à simuler une règle d'inférence logique. Cependant, toutes ces solutions ont des limitations critiques : elles sont incapables d'exploiter la connaissance de sens commun interne du LLM en tandem avec une base de connaissance axiomatique, elles manquent d'un mécanisme pour réparer de manière fiable les étapes d'inférence erronées, et leur application est restreinte à de petites bases de connaissance qui correspondent à la limite de contexte du LLM. Dans ce travail, nous présentons l'hyperrésolution typée basée sur les LLM (LLM-TH), un cadre de raisonnement logique de bon sens qui s'appuie sur la "résolution théorique", un concept de l'inférence logique classique qui permet d'intégrer les LLM dans la règle d'inférence de "résolution", atténuant ainsi les erreurs de raisonnement et les hallucinations et permettant la vérification de la procédure de raisonnement. LLM-TH est également équipé d'un mécanisme de réparation des étapes d'inférence erronées soutenu par des garanties théoriques. En utilisant les schémas "Hyperrésolution" et "Inférence typée", nous montrons que LLM-TH peut raisonner efficacement sur de grandes bases de connaissances composées de dizaines de milliers de règles avec des arities de prédicats arbitraires. Nos expériences sur trois tâches de raisonnement basées sur le langage - raisonnement de préférence, raisonnement déductif multi-domaine, et réponse à des questions géographiques - montrent que LLM-TH, en utilisant simplement un modèle d'implication NLI de paramètre BART 406M, réduit de manière significative les erreurs de raisonnement par rapport aux lignes de base utilisant Llama3-70B, Gemini1.5-Flash, GPT-3.5-Turbo, et Mixtral-46.7B.

Avatars sensibles à la localité à partir de vidéos

Chunjin Song, Zhijie Wu, Shih-Yang Su, Bastian Wandt, Leonid Sigal (membre de la faculté Vector), Helge Rhodin

Résumé

Nous présentons un avatar sensible à la localité, un réseau basé sur le champ de rayonnement neuronal (NeRF) pour apprendre les mouvements humains à partir de vidéos monoculaires. À cette fin, nous estimons une représentation canonique entre différentes images d'une vidéo avec un mappage non linéaire de l'observation à l'espace canonique, que nous décomposons en un mouvement rigide squelettique et une contrepartie non rigide. Notre principale contribution consiste à conserver les détails les plus fins en modélisant la partie non rigide à l'aide d'un réseau neuronal graphique (GNN) qui conserve les informations de pose locales pour les parties du corps voisines. Par rapport aux anciennes méthodes basées sur la représentation canonique qui opèrent uniquement sur l'espace de coordonnées d'une forme entière, notre modélisation du mouvement sensible à la localité peut reproduire à la fois des contours de forme réalistes et des détails à grain fin très vivants. Nous l'évaluons sur ZJU-MoCap, ActorsHQ, SynWild et diverses vidéos d'extérieur. Les expériences révèlent qu'avec la déformation sensible à la localité dans l'espace des caractéristiques canoniques, nous sommes les premiers à obtenir des résultats de pointe simultanément pour la synthèse de nouvelles vues, l'animation de nouvelles poses et la reconstruction de formes en 3D. Pour des raisons de reproductibilité, le code sera disponible lors de la publication.

MA-RLHF : Apprentissage par renforcement à partir du feedback humain avec des macro-actions

Yekun Chai, Haoran Sun, Huang Fang, Shuohuan Wang, Yu Sun (affilié à la faculté Vector), Hua Wu

Résumé

L'apprentissage par renforcement à partir du feedback humain (RLHF) a démontré son efficacité dans l'alignement des grands modèles de langage (LLM) sur les préférences humaines. Cependant, le RLHF au niveau des jetons souffre du problème de l'attribution des crédits sur de longues séquences, où les récompenses différées rendent difficile pour le modèle de discerner les actions qui ont contribué aux résultats positifs. Cela nuit à l'efficacité de l'apprentissage et ralentit la convergence. Dans cet article, nous proposons MA-RLHF, un cadre RLHF simple mais efficace qui incorpore des macro-actions - des séquences de jetons ou des constructions linguistiques de plus haut niveau - dans le processus d'apprentissage. En opérant à ce niveau d'abstraction plus élevé, notre approche réduit la distance temporelle entre les actions et les récompenses, ce qui facilite une attribution plus rapide et plus précise des crédits. Il en résulte des estimations plus stables du gradient de la politique et une amélioration de l'efficacité de l'apprentissage au sein de chaque épisode, le tout sans augmenter la complexité informatique lors de l'apprentissage ou de l'inférence. Nous validons notre approche par le biais d'expériences approfondies portant sur différentes tailles de modèles et différentes tâches, notamment le résumé de texte, la génération de dialogues, la réponse à des questions et la synthèse de programmes. Notre méthode permet d'améliorer considérablement les performances par rapport à la méthode RLHF standard, avec des gains de performance allant jusqu'à 30 % pour le résumé de texte et la génération de code, 18 % pour le dialogue et 8 % pour les tâches de réponse aux questions. Notamment, notre approche atteint la parité avec le RLHF vanille 1,7x à 2x plus rapidement en termes de temps d'entraînement et continue à le surpasser avec un entraînement plus poussé. Nous publierons notre code, nos données et nos modèles afin d'inspirer de futures recherches.

Le désapprentissage automatique ne permet pas d'éliminer les attaques par empoisonnement des données

Martin Pawelczyk, Jimmy Di, Yiwei Lu, Gautam Kamath (membre de la faculté Vector), Ayush Sekhari, Seth Neel

Résumé

Nous revisitons l'efficacité de plusieurs méthodes pratiques de désapprentissage approximatif des machines développées pour l'apprentissage profond à grande échelle. En plus de se conformer aux demandes de suppression de données, une application potentielle souvent citée pour les méthodes de désapprentissage est d'éliminer les effets de l'entraînement sur des données empoisonnées. Nous démontrons expérimentalement que, bien que les méthodes de désapprentissage existantes se soient avérées efficaces dans un certain nombre de contextes d'évaluation (par exemple, en atténuant les attaques d'inférence d'appartenance), elles ne parviennent pas à éliminer les effets de l'empoisonnement des données, à travers une variété de types d'attaques d'empoisonnement (indiscriminée, ciblée, et une attaque d'empoisonnement gaussienne nouvellement introduite) et de modèles (classificateurs d'images et LLM) ; même lorsqu'elles bénéficient d'un budget de calcul relativement important. Afin de caractériser précisément l'efficacité du désapprentissage, nous introduisons de nouvelles mesures d'évaluation pour le désapprentissage basé sur l'empoisonnement des données. Nos résultats suggèrent qu'une perspective plus large, comprenant une plus grande variété d'évaluations, est nécessaire pour éviter un faux sentiment de confiance dans les procédures de désapprentissage automatique pour l'apprentissage profond sans garanties prouvables. En outre, bien que les méthodes de désapprentissage montrent certains signes d'utilité pour supprimer efficacement les points de données empoisonnés sans avoir à se recycler, notre travail suggère que ces méthodes ne sont pas encore "prêtes pour le prime time", et offrent actuellement un avantage limité par rapport au recyclage.

MAD-TD : Model-Augmented Data stabilizes High Update Ratio RL

Spotlight paper

Claas Voelcker, Marcel Hussing, Eric Eaton, Amir-massoud Farahmand (affilié à la faculté Vector), Igor Gilitschenski (affilié à la faculté Vector)

Résumé

La construction d'agents d'apprentissage par renforcement (RL) profonds qui trouvent une bonne politique avec peu d'échantillons s'est avérée notoirement difficile. Pour atteindre l'efficacité de l'échantillonnage, des travaux récents ont exploré la mise à jour des réseaux neuronaux avec un grand nombre d'étapes de gradient pour chaque nouvel échantillon. Bien que ces ratios élevés de mise à jour des données (UTD) aient montré de solides performances empiriques, ils introduisent également de l'instabilité dans le processus d'apprentissage. Les approches précédentes doivent s'appuyer sur des réinitialisations périodiques des paramètres du réseau neuronal pour remédier à cette instabilité, mais le redémarrage du processus d'apprentissage est irréalisable dans de nombreuses applications réelles et nécessite un réglage de l'intervalle de réinitialisation. Dans cet article, nous nous concentrons sur l'une des principales difficultés de l'apprentissage stable avec des échantillons limités : l'incapacité des fonctions de valeur apprises à se généraliser à des actions non observées sur la politique. Nous atténuons directement ce problème en augmentant le processus d'apprentissage RL hors politique avec une petite quantité de données générées à partir d'un modèle du monde appris. Notre méthode, Model-Augmented Data for TD Learning (MAD-TD), utilise de petites quantités de données générées pour stabiliser l'entraînement UTD élevé et obtenir des performances compétitives sur les tâches les plus difficiles de la suite de contrôle DeepMind. Nos expériences soulignent en outre l'importance d'employer un bon modèle pour générer des données, la capacité de MAD-TD à lutter contre la surestimation des valeurs et ses gains de stabilité pratiques pour un apprentissage continu.

Magpie : Synthèse de données d'alignement à partir de zéro en invitant les LLM alignés à ne rien faire

Zhangchen Xu, Fengqing Jiang, Luyao Niu, Yuntian Deng (affilié à la faculté Vector), Radha Poovendran, Yejin Choi, Bill Yuchen Lin

Résumé

Des données d'instruction de haute qualité sont essentielles pour l'alignement des grands modèles de langage (LLM). Bien que certains modèles, tels que Llama-3-Instruct, aient des poids ouverts, leurs données d'alignement restent privées, ce qui entrave la démocratisation de l'IA. Les coûts élevés de la main-d'œuvre humaine et la portée limitée et prédéfinie de l'incitation empêchent les méthodes de création de données open-source existantes de s'étendre efficacement, ce qui pourrait limiter la diversité et la qualité des ensembles de données d'alignement publics. Est-il possible de synthétiser des données d'instruction de haute qualité à l'échelle en les extrayant directement d'un LLM aligné ? Nous présentons une méthode d'auto-synthèse pour générer des données d'alignement à grande échelle, appelée Magpie. Notre principale observation est que les LLM alignés comme Llama-3-Instruct peuvent générer une requête utilisateur lorsque nous entrons uniquement les modèles de pré-requête jusqu'à la position réservée aux messages utilisateur, grâce à leur nature auto-régressive. Nous utilisons cette méthode pour demander à Llama-3-Instruct de générer 4 millions d'instructions ainsi que les réponses correspondantes. Nous introduisons également des extensions de Magpie pour le filtrage, la génération de multitours, l'optimisation des préférences, les ensembles de données spécifiques à un domaine et multilingues. Nous effectuons une analyse complète des données générées par Magpie. Pour comparer les données générées par Magpie avec d'autres ensembles de données d'instruction publique (par exemple, ShareGPT, WildChat, Evol-Instruct, UltraChat, OpenHermes, Tulu-V2-Mix, GenQA), nous affinons Llama-3-8B-Base avec chaque ensemble de données et évaluons les performances des modèles affinés. Nos résultats indiquent que l'utilisation de Magpie pour le réglage fin supervisé (SFT) peut uniquement surpasser les performances des jeux de données publics précédents utilisés à la fois pour le SFT et l'optimisation des préférences, tels que l'optimisation directe des préférences avec UltraFeedback. Nous montrons également que, dans certaines tâches, les modèles supervisés avec Magpie ont des performances comparables à celles de l'ensemble officiel Llama-3-8B-Instruct, bien que ce dernier ait été enrichi de 10 millions de points de données grâce au SFT et à l'optimisation des préférences qui s'en est suivie. Cet avantage est évident sur les benchmarks d'alignement tels que AlpacaEval, ArenaHard et WildBench.

MEGA-Bench : L'évaluation multimodale à l'échelle de plus de 500 tâches du monde réel

Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Ziyan Jiang, Wang Zhu, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen (Membre de la faculté Vector)

Résumé

Nous présentons MEGA-Bench, une suite d'évaluation qui permet d'étendre l'évaluation multimodale à plus de 500 tâches réelles, afin de répondre aux cas d'utilisation quotidiens très hétérogènes des utilisateurs finaux.Notre objectif est d'optimiser un ensemble d'échantillons de données de haute qualité qui couvrent un ensemble très diversifié et riche de tâches multimodales, tout en permettant une évaluation de modèle rentable et précise.En particulier, nous avons recueilli 505 tâches réalistes englobant plus de 8 000 échantillons de 16 annotateurs experts pour couvrir largement l'espace des tâches multimodales. Au lieu d'unifier ces problèmes en questions standard à choix multiples (comme MMMU, MM-Bench et MMT-Bench), nous embrassons un large éventail de formats de sortie tels que les nombres, les phrases, le code, \LaTeX, les coordonnées, JSON, les formes libres, etc. Pour prendre en compte ces formats, nous avons développé plus de 40 métriques pour évaluer ces tâches. Contrairement aux benchmarks existants, MEGA-Bench offre un rapport de capacité très fin sur plusieurs dimensions (par exemple, application, type d'entrée, format de sortie, compétence), permettant aux utilisateurs d'interagir et de visualiser les capacités du modèle en profondeur. Nous évaluons une grande variété de modèles de langage de vision sur MEGA-Bench afin de comprendre leurs capacités à travers ces dimensions.

MixEval-X : Evaluations any-to-any à partir de mélanges de données du monde réel

Spotlight paper

Jinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Yuntian Deng (affilié à la faculté Vector), Andy Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Qizhe Shieh

Résumé

La perception et la génération de diverses modalités sont cruciales pour que les modèles d'IA apprennent efficacement des signaux du monde réel et s'y engagent, ce qui nécessite des évaluations fiables pour leur développement. Nous identifions deux problèmes majeurs dans les évaluations actuelles : (1) des normes incohérentes, façonnées par différentes communautés avec des protocoles et des niveaux de maturité variables ; et (2) des biais significatifs dans les requêtes, le classement et la généralisation. Pour y remédier, nous présentons MixEval-X, le premier benchmark du monde réel "any-to-any" conçu pour optimiser et normaliser les évaluations à travers diverses modalités d'entrée et de sortie. Nous proposons un mélange de références multimodales et des pipelines d'adaptation-rectification pour reconstruire les distributions de tâches du monde réel, garantissant que les évaluations se généralisent efficacement aux cas d'utilisation du monde réel. Des méta-évaluations approfondies montrent que notre approche aligne efficacement les échantillons de référence sur les distributions de tâches réelles. Parallèlement, les classements des modèles de MixEval-X sont en forte corrélation avec ceux des évaluations du monde réel obtenues par la foule (jusqu'à 0,98), tout en étant beaucoup plus efficaces. Nous fournissons des classements complets pour reclasser les modèles et les organisations existants et nous offrons des perspectives pour améliorer la compréhension des évaluations multimodales et informer la recherche future.

MixMax : Robustesse distributionnelle dans l'espace des fonctions via des mélanges de données optimaux

Anvith Thudi, Chris Maddison (membre de la faculté Vector)

Résumé

Les modèles d'apprentissage automatique doivent souvent être performants dans plusieurs contextes prédéfinis, tels qu'un ensemble de groupes d'utilisateurs. La performance dans le pire des cas est une mesure commune pour capturer cette exigence, et c'est l'objectif de l'optimisation distributionnellement robuste de groupe (DRO de groupe). Malheureusement, ces méthodes se heurtent à des difficultés lorsque la perte n'est pas convexe dans les paramètres ou que la classe de modèle est non paramétrique. Nous adoptons ici une démarche classique pour résoudre ce problème : nous reparamétrons l'optimisation robuste de groupe de l'espace des paramètres à l'espace des fonctions, ce qui présente un certain nombre d'avantages. Tout d'abord, nous montrons que la DRO de groupe sur l'espace des fonctions bornées admet un théorème minimax. Deuxièmement, pour l'entropie croisée et l'erreur quadratique moyenne, nous montrons que la distribution de mélange optimale minimax est la solution d'un simple problème d'optimisation convexe. Ainsi, à condition de travailler avec une classe modèle d'approximateurs de fonctions universelles, le DRO de groupe peut être résolu par un problème d'optimisation convexe suivi d'un problème classique de minimisation du risque. Nous appelons notre méthode MixMax. Dans nos expériences, nous avons constaté que MixMax égalait ou surpassait les lignes de base standard du DRO de groupe, et en particulier, MixMax a amélioré les performances de XGBoost par rapport à la seule ligne de base, l'équilibrage des données, pour les variations des ensembles de données d'annotations ACSIncome et CelebA.

MorphoDiff : Peinture de morphologie cellulaire à l'aide de modèles de diffusion

Spotlight paper

Zeinab Navidi, Jun Ma, Esteban Miglietta, Le Liu, Anne Carpenter, Beth Cimini, Benjamin Haibe-Kains (affilié à la faculté Vector), Bo Wang (faculté Vector)

Résumé

Il est essentiel de comprendre les réponses cellulaires aux stimuli externes pour analyser les mécanismes biologiques et faire progresser le développement thérapeutique. Les essais basés sur l'imagerie à haut contenu constituent une approche rentable pour examiner les phénotypes cellulaires induits par diverses interventions, ce qui permet d'obtenir des informations précieuses sur les processus biologiques et les états cellulaires. Dans cet article, nous présentons MorphoDiff, un pipeline génératif permettant de prédire les réponses morphologiques cellulaires à haute résolution dans différentes conditions, sur la base du codage des perturbations. À notre connaissance, MorphoDiff est le premier cadre capable de produire des prédictions guidées et à haute résolution de la morphologie cellulaire qui se généralisent aux interventions chimiques et génétiques. Le modèle intègre des perturbations intégrées comme signaux de guidage dans un modèle de diffusion latente en 2D. Les validations computationnelles, biologiques et visuelles complètes sur trois ensembles de données Cell Painting en source ouverte montrent que MorphoDiff peut générer des images de haute fidélité et produire des signaux biologiques significatifs sous diverses interventions. Nous pensons que le modèle facilitera l'exploration in silico des paysages perturbés pour des études de découverte de médicaments plus efficaces.

Échantillonnage spéculatif multi-draft : Architectures canoniques et limites théoriques

Spotlight paper

Ashish Khisti (affilié à la faculté Vector), MohammadReza Ebrahimi, Hassan Dbouk, Arash Behboodi, Roland Memisevic, Christos Louizos

Résumé

Nous considérons l'échantillonnage spéculatif multi-projets, où les séquences de propositions sont échantillonnées indépendamment à partir de différents modèles de projets. À chaque étape, un schéma de sélection de projet au niveau du jeton prend une liste de jetons valides en entrée et produit un jeton en sortie dont la distribution correspond à celle du modèle cible. Des travaux antérieurs ont démontré que le schéma optimal (qui maximise la probabilité d'accepter l'un des jetons d'entrée) peut être considéré comme une solution à un programme linéaire. Dans ce travail, nous montrons que le schéma optimal peut être décomposé en une solution en deux étapes : dans la première étape, un schéma de type échantillonnage d'importance est utilisé pour sélectionner un jeton intermédiaire ; dans la deuxième étape (un seul projet), l'échantillonnage spéculatif est appliqué pour générer le jeton de sortie. Pour le cas de deux ébauches de modèles identiques, nous avons en outre 1) établi une condition nécessaire et suffisante sur les distributions des modèles cibles et ébauches pour que la probabilité d'acceptation soit égale à un et 2) fourni une expression explicite pour la probabilité d'acceptation optimale. Notre analyse théorique motive également une nouvelle classe de schéma de sélection au niveau des jetons, basé sur l'échantillonnage d'importance pondéré. Nos résultats expérimentaux démontrent des améliorations constantes de l'efficacité des blocs et des taux de jetons réalisables par rapport aux schémas de base dans un certain nombre de scénarios.

Espaces neuronaux pour l'apprentissage de la représentation des DAG

Haitz Sáez de Ocáriz Borde, Anastasis Kratsios (affilié à la faculté Vector), Marc T Law, Xiaowen Dong, Michael Bronstein

Résumé

We propose a class of trainable deep learning-based geometries called Neural SpaceTimes (NSTs), which can universally represent nodes in weighted Directed Acyclic Graphs (DAGs) as events in a spacetime manifold. While most works in the literature focus on undirected graph representation learning or causality embedding separately, our differentiable geometry can encode both graph edge weights in its spatial dimensions and causality in the form of edge directionality in its temporal dimensions. We use a product manifold that combines a quasi-metric (for space) and a partial order (for time). NSTs are implemented as three neural networks trained in an end-to-end manner: an embedding network, which learns to optimize the location of nodes as events in the spacetime manifold, and two other networks that optimize the space and time geometries in parallel, which we call a neural (quasi-)metric and a neural partial order, respectively. The latter two networks leverage recent ideas at the intersection of fractal geometry and deep learning to shape the geometry of the representation space in a data-driven fashion, unlike other works in the literature that use fixed spacetime manifolds such as Minkowski space or De Sitter space to embed DAGs. Our main theoretical guarantee is a universal embedding theorem, showing that any $k$-point DAG can be embedded into an NST with $1+\mathcal{O}(\log(k))$ distortion while exactly preserving its causal structure. The total number of parameters defining the NST is sub-cubic in $k$ and linear in the width of the DAG. If the DAG has a planar Hasse diagram, this is improved to $\mathcal{O}(\log(k) + 2)$ spatial and 2 temporal dimensions. We validate our framework computationally with synthetic weighted DAGs and real-world network embeddings; in both cases, the NSTs achieve lower embedding distortions than their counterparts using fixed spacetime geometries.

Optimisation de la stabilité du bruit pour trouver des minima plats : une approche de régularisation basée sur le Hessien

Haotian Ju, Hongyang Zhang (affilié à la faculté Vector), Dongyue Li

Résumé

La formation des réseaux neuronaux sur-paramétrés a fait l'objet de nombreuses études dans la littérature récente. Une considération importante est la régularisation des réseaux sur-paramétrés en raison de leur géométrie hautement non convexe et non linéaire. Dans cet article, nous étudions les algorithmes d'injection de bruit, qui peuvent régulariser le hessien de la perte, ce qui permet d'obtenir des régions avec des surfaces de perte planes. Plus précisément, en injectant du bruit gaussien isotrope dans les matrices de poids d'un réseau neuronal, nous pouvons obtenir une estimation approximativement impartiale de la trace du hessien. Cependant, la mise en œuvre naïve de l'injection de bruit par l'ajout de bruit aux matrices de poids avant la rétropropagation présente des améliorations empiriques limitées. Pour remédier à cette limitation, nous concevons une estimation en deux points de la pénalité hessienne, qui injecte du bruit dans les matrices de poids le long des directions positives et négatives du bruit aléatoire. En particulier, cette estimation en deux points élimine la variance du terme d'expansion de Taylor du premier ordre sur la hessienne. Nous montrons une limite de généralisation PAC-Bayes qui dépend de la trace de la hessienne (et du rayon de l'espace des poids), qui peut être mesurée à partir des données.

Nous menons une étude expérimentale détaillée pour valider notre approche et montrer qu'elle peut régulariser efficacement la hessienne et améliorer la généralisation. Tout d'abord, notre algorithme peut surpasser les approches antérieures sur l'entraînement réduit à la netteté, offrant jusqu'à 2,4 % d'augmentation de la précision des tests pour l'ajustement fin des ResNets sur six ensembles de données de classification d'images. En outre, la trace du Hessien est réduite de 15,8 % et la plus grande valeur propre est réduite de 9,7 % avec notre approche. Nous constatons également que la régularisation du Hessien peut être combinée avec d'autres méthodes de régularisation, telles que la décroissance du poids et l'augmentation des données, ce qui permet d'obtenir une régularisation plus forte. Deuxièmement, notre approche reste très efficace pour améliorer la généralisation lors du préapprentissage des modèles CLIP multimodaux et de la mise au point de la chaîne de pensée.

OATS : Élagage tenant compte des valeurs aberrantes grâce à une décomposition éparse et de faible rang

Stephen Zhang, Vardan Papyan (affilié à la faculté Vector)

Résumé

Le récent changement de paradigme vers des modèles de fondation à grande échelle a ouvert une nouvelle ère pour l'apprentissage profond qui, bien qu'il ait connu un grand succès dans la pratique, a également été confronté à des coûts prohibitifs en termes de consommation de mémoire et de calcul. Pour atténuer ces problèmes, des efforts concertés ont été déployés pour mettre au point des techniques d'élagage post-hoc des réseaux neuronaux qui ne nécessitent pas de réentraînement coûteux. Malgré les progrès considérables réalisés, les méthodes existantes présentent souvent une baisse constante des performances du modèle à mesure que la compression augmente. Dans cet article, nous présentons une nouvelle approche de la compression des grands transformateurs, appelée OATS, qui comprime les poids du modèle en approximant chaque matrice de poids comme la somme d'une matrice peu dense et d'une matrice de faible rang. Avant la décomposition, les poids sont d'abord mis à l'échelle par le deuxième moment de leur intégration d'entrée, de manière à garantir la préservation des caractéristiques aberrantes récemment observées dans les modèles de transformateurs de grande taille. Sans recyclage, OATS atteint des performances de pointe lors de la compression de grands modèles de langage, tels que Llama-3 et Phi-3, et de transformateurs de vision, tels que ViT et DINOv2 de Google, jusqu'à $60\%$, tout en accélérant l'inférence du modèle sur un processeur jusqu'à $1.37\ fois$ par rapport aux méthodes d'élagage antérieures.

OMNI-EPIC : l'ouverture via des modèles de notions humaines d'intérêt avec des environnements programmés en code

Maxence Faldor, Jenny Zhang, Antoine Cully, Jeff Clune (membre de la faculté Vector)

Résumé

Les algorithmes ouverts et générateurs d'IA visent à générer et à résoudre en permanence des tâches de plus en plus complexes, offrant ainsi une voie prometteuse vers une intelligence plus générale. Pour réaliser cette grande vision, l'apprentissage doit se faire dans le cadre d'un vaste éventail de tâches potentielles. Les approches existantes de génération automatique d'environnements sont limitées à des distributions d'environnements prédéfinies manuellement et souvent étroites, ce qui limite leur capacité à créer n'importe quel environnement d'apprentissage. Pour remédier à cette limitation, nous présentons un nouveau cadre, OMNI-EPIC, qui complète les travaux antérieurs sur l'ouverture via des modèles de notions humaines d'intérêt (OMNI) avec des environnements programmés dans le code (EPIC). OMNI-EPIC s'appuie sur des modèles de base pour générer de manière autonome du code spécifiant les prochaines tâches apprenables (c'est-à-dire pas trop faciles ou difficiles pour les compétences actuelles de l'agent) et intéressantes (par exemple, valables et nouvelles). OMNI-EPIC génère à la fois des environnements (par exemple, une course d'obstacles) et des fonctions de récompense (par exemple, progresser rapidement dans la course d'obstacles sans toucher les objets rouges), ce qui lui permet, en principe, de créer n'importe quelle tâche d'apprentissage simulable. Nous présentons la créativité explosive d'OMNI-EPIC, qui innove en permanence pour proposer de nouveaux défis d'apprentissage intéressants. Nous soulignons également comment OMNI-EPIC peut s'adapter aux progrès d'apprentissage des agents d'apprentissage par renforcement, en générant des tâches d'une difficulté appropriée. Dans l'ensemble, OMNI-EPIC a le potentiel de créer à l'infini des environnements intéressants et propices à l'apprentissage, favorisant ainsi le développement de systèmes d'IA auto-améliorants et d'algorithmes générateurs d'IA.

OmniEdit : Construire des modèles généralistes d'édition d'images grâce à la supervision de spécialistes

Cong Wei, Zheyang Xiong, Weiming Ren, Xeron Du, Ge Zhang, Wenhu Chen (membre de la faculté Vector)

Résumé

Les méthodes d'édition d'images guidées par des instructions ont démontré un potentiel significatif en entraînant des modèles de diffusion sur des paires d'éditions d'images synthétisées automatiquement ou annotées manuellement. Cependant, ces méthodes sont encore loin d'avoir des applications pratiques dans la vie réelle. Nous identifions trois défis principaux qui contribuent à cette lacune. Premièrement, les modèles existants ont des compétences limitées en matière d'édition en raison du processus de synthèse biaisé. Deuxièmement, ces méthodes sont entraînées avec des ensembles de données contenant un volume élevé de bruit et d'artefacts. Cela est dû à l'application de méthodes de filtrage simples telles que le CLIP-score. Troisièmement, tous ces ensembles de données sont limités à une seule basse résolution et à un rapport d'aspect fixe, ce qui limite leur polyvalence pour traiter les cas d'utilisation dans le monde réel. Dans cet article, nous présentons OmniEdit, un éditeur omnipotent capable de traiter sept tâches d'édition d'images différentes avec n'importe quel rapport d'aspect de manière transparente. Notre contribution comporte quatre volets : (1) OmniEdit est formé en utilisant la supervision de sept modèles spécialisés différents afin de garantir la couverture des tâches. (2) Nous utilisons l'échantillonnage d'importance basé sur les scores fournis par de grands modèles multimodaux (comme GPT-4o) au lieu du score CLIP pour améliorer la qualité des données. (3) nous proposons une nouvelle architecture d'édition appelée EditNet pour augmenter considérablement le taux de réussite de l'édition, (4) nous fournissons des images avec différents rapports d'aspect pour s'assurer que notre modèle peut traiter n'importe quelle image dans la nature. Nous avons constitué un ensemble de tests contenant des images de différents rapports d'aspect, accompagnées de diverses instructions pour couvrir différentes tâches. L'évaluation automatique et l'évaluation humaine montrent qu'OmniEdit est nettement plus performant que tous les modèles existants.

OmniRe : Reconstruction de scènes urbaines par Omni

Spotlight paper

Ziyu Chen, Jiawei Yang, Jiahui Huang, Riccardo de Lutio, Janick Martinez Esturo, Boris Ivanovic, Or Litany, Zan Gojcic, Sanja Fidler (membre de la faculté Vector), Marco Pavone, Li Song, Yue Wang

Résumé

Nous présentons OmniRe, un système complet permettant de créer efficacement des jumeaux numériques de haute fidélité de scènes dynamiques du monde réel à partir de données enregistrées sur l'appareil. Les méthodes récentes utilisant les champs neuronaux ou le "Gaussian Splatting" se concentrent principalement sur les véhicules, empêchant la mise en place d'un cadre holistique pour tous les avant-plans dynamiques exigés par les applications en aval, par exemple la simulation du comportement humain. OmniRe va au-delà de la modélisation des véhicules pour permettre une reconstruction précise et complète de divers objets dynamiques dans les scènes urbaines. Notre approche construit des graphes de scènes sur 3DGS et construit de multiples représentations gaussiennes dans des espaces canoniques qui modélisent divers acteurs dynamiques, y compris des véhicules, des piétons, des cyclistes et d'autres. OmniRe permet de reconstruire de manière holistique n'importe quel objet dynamique de la scène, ce qui permet des simulations avancées (~60 Hz) qui incluent des scénarios de participation humaine, tels que la simulation du comportement des piétons et l'interaction homme-véhicule. Cette capacité de simulation complète est inégalée par les méthodes existantes. Des évaluations approfondies sur l'ensemble de données Waymo montrent que notre approche surpasse quantitativement et qualitativement les méthodes antérieures de pointe par une grande marge. Nous étendons en outre nos résultats à cinq autres ensembles de données de conduite populaires pour démontrer sa généralisation sur des scènes urbaines courantes. Nous mettrons le code et les données à la disposition du public.

Avantages de l'adaptation du domaine graphique en fonction des attributs

Ruiyi Fang, Bingheng Li, Zhao Kang, Qiuhao Zeng, Ruizhi Pu, Nima Hosseini Dashtbayaz, Charles Ling (affilié à la faculté Vector), Boyu Wang (affilié à la faculté Vector)

Résumé

L'adaptation au domaine des graphes (GDA) répond à un défi pressant dans l'apprentissage inter-réseaux, particulièrement pertinent en raison de l'absence de données étiquetées dans les ensembles de données de graphes du monde réel. Des études récentes ont tenté d'apprendre des représentations invariantes par rapport au domaine en éliminant les changements structurels entre les graphes. Dans ce travail, nous montrons que les méthodologies existantes ont négligé l'importance de l'attribut du nœud du graphe, un facteur essentiel pour l'alignement du domaine du graphe. Plus précisément, nous révélons d'abord l'impact des attributs de nœuds pour l'ADG en prouvant théoriquement qu'en plus de la divergence structurelle des graphes entre les domaines, la divergence des attributs de nœuds joue également un rôle critique dans l'ADG. En outre, nous montrons empiriquement que le changement d'attribut est plus important que le changement de topologie, ce qui souligne encore davantage l'importance de l'alignement des attributs de nœuds dans la GDA. Inspiré par cette découverte, un nouveau module cross-canal est développé pour fusionner et aligner les deux vues entre les graphes source et cible pour la GDA. Les résultats expérimentaux sur une variété de points de référence vérifient l'efficacité de notre méthode.

Résoudre les inégalités des Olympiades par la synergie des LLM et du raisonnement symbolique

Zenan Li, Zhaoyu Li, Wen Tang, Xian Zhang, Yuan Yao, Xujie Si (affilié à la faculté Vector), Fan Yang, Kaiyu Yang, Xiaoxing Ma

Résumé

Large language models (LLMs) can prove mathematical theorems formally by generating proof steps (\textit{a.k.a.} tactics) within a proof system. However, the space of possible tactics is vast and complex, while the available training data for formal proofs is limited, posing a significant challenge to LLM-based tactic generation. To address this, we introduce a neuro-symbolic tactic generator that synergizes the mathematical intuition learned by LLMs with domain-specific insights encoded by symbolic methods. The key aspect of this integration is identifying which parts of mathematical reasoning are best suited to LLMs and which to symbolic methods. While the high-level idea of neuro-symbolic integration is broadly applicable to various mathematical problems, in this paper, we focus specifically on Olympiad inequalities (Figure~1). We analyze how humans solve these problems and distill the techniques into two types of tactics: (1) scaling, handled by symbolic methods, and (2) rewriting, handled by LLMs. In addition, we combine symbolic tools with LLMs to prune and rank the proof goals for efficient proof search. We evaluate our framework on 161 challenging inequalities from multiple mathematics competitions, achieving state-of-the-art performance and significantly outperforming existing LLM and symbolic approaches without requiring additional training data.

PWM : Apprentissage de politiques avec des modèles mondiaux multitâches

Ignat Georgiev, Varun Giridhar, Nicklas Hansen, Animesh Garg (affilié à la faculté Vector)

Résumé

L'apprentissage par renforcement (RL) a fait des progrès significatifs dans les tâches complexes, mais il se heurte à des difficultés dans les environnements multitâches avec différentes incarnations. Les méthodes basées sur des modèles mondiaux offrent une évolutivité en apprenant une simulation de l'environnement, mais s'appuient souvent sur des méthodes d'optimisation sans gradient inefficaces pour l'extraction de politiques. En revanche, les méthodes basées sur le gradient présentent une variance plus faible mais ne parviennent pas à gérer les discontinuités. Nos travaux révèlent que des modèles de monde bien régularisés peuvent générer des paysages d'optimisation plus lisses que la dynamique réelle, facilitant ainsi une optimisation de premier ordre plus efficace. Nous présentons Policy learning with multi-task World Models (PWM), un nouvel algorithme RL basé sur un modèle pour le contrôle continu. Initialement, le modèle du monde est pré-entraîné sur des données hors ligne, puis des politiques sont extraites de ce modèle en utilisant l'optimisation de premier ordre en moins de 10 minutes par tâche. PWM résout efficacement des tâches comportant jusqu'à 152 dimensions d'action et surpasse les méthodes qui utilisent la dynamique de la vérité de terrain. En outre, PWM s'étend à un cadre de 80 tâches, obtenant des récompenses jusqu'à 27% plus élevées que les lignes de base existantes, sans dépendre d'une planification en ligne coûteuse. Les visualisations et le code sont disponibles à l'adressesuivante : [https://policy-world-model.github.io/]

Flux de reconstruction dynamique ReMatching

Sara Oblak, Despoina Paschalidou, Sanja Fidler (membre de la faculté Vector), Matan Atzmon

Résumé

La reconstruction de scènes dynamiques à partir d'images est une tâche fondamentale de l'informatique de surveillance qui a de nombreuses applications en aval. Malgré les progrès récents, les approches existantes peinent encore à obtenir des reconstructions de haute qualité à partir de points de vue et d'horodatages invisibles. Ce travail présente le cadre ReMatching, conçu pour améliorer la qualité de la généralisation en incorporant des antécédents de déformation dans les modèles de reconstruction dynamique. Notre approche préconise des priorités basées sur le champ de vitesse, pour lesquelles nous suggérons une procédure d'appariement qui peut compléter de manière transparente les pipelines de reconstruction dynamique existants. Le cadre est hautement adaptable et peut être appliqué à diverses représentations dynamiques. En outre, il prend en charge l'intégration de plusieurs types de prieurs de modèle et permet de combiner des prieurs plus simples pour créer des classes plus complexes. Nos évaluations sur des benchmarks populaires impliquant des scènes dynamiques synthétiques et réelles démontrent une nette amélioration de la précision de reconstruction des modèles actuels de pointe.

Retri3D : récupération de représentations graphiques neuronales en 3D

Spotlight paper

Yushi Guan, Daniel Kwan, Jean Dandurand, Xi Yan, Ruofan Liang, Yuxuan Zhang, Nilesh Jain, Nilesh Ahuja, Selvakumar Panneer, Nandita Vijaykumar (affilié à la faculté Vector)

Résumé

Les représentations graphiques neuronales 3D apprenables (3DNGR) sont apparues comme des représentations 3D prometteuses pour reconstruire des scènes 3D à partir d'images 2D. De nombreux travaux, notamment les champs de radiance neuronaux (NeRF), l'éclatement gaussien 3D (3DGS) et leurs variantes, ont permis d'améliorer considérablement la qualité de ces représentations. La facilité de construction à partir d'images 2D, l'aptitude à la visualisation/au partage en ligne et les applications dans les tâches en aval de la conception de jeux ou d'œuvres d'art en font une représentation 3D essentielle, avec la création potentielle d'un grand nombre de modèles 3D de ce type. Il est donc nécessaire de disposer de vastes entrepôts de données, locaux ou en ligne, pour sauvegarder les données visuelles 3D dans ces formats. Cependant, aucun cadre existant ne permet une récupération précise des 3DNGR stockés. Dans ce travail, nous proposons Retri3D, un cadre qui permet une récupération précise et efficace des scènes 3D représentées sous forme de NGR à partir de grandes bases de données à l'aide de requêtes textuelles. Nous introduisons une nouvelle technique d'analyse d'artefacts par champ neuronal, combinée à un module de mouvement de caméra intelligent, afin de sélectionner des vues propres et de naviguer dans des 3DNGRs pré-entraînés. Ces techniques permettent une extraction précise en sélectionnant les meilleures directions de vue dans la scène 3D pour des enregistrements de caractéristiques visuelles de haute qualité. Nous démontrons que Retri3D est compatible avec n'importe quelle représentation NGR. Sur les ensembles de données LERF et ScanNet++, nous montrons une amélioration significative de la précision de la recherche par rapport aux techniques existantes, tout en étant des ordres de grandeur plus rapides et plus efficaces en termes de stockage.

Réexamen de l'élagage des paramètres du delta pour les modèles à réglage fin

Spotlight paper

Wenlong Deng, Yize Zhao, Vala Vakilian, Minghui Chen, Xiaoxiao Li (membre de la faculté Vector), Christos Thrampoulidis

Résumé

Le stockage séparé des modèles open-source finement ajustés introduit une redondance et augmente les temps de réponse dans les applications utilisant plusieurs modèles. L'élagage des paramètres delta (DPP), en particulier la méthode DARE (random drop and rescale) proposée par Yu et al. permet de résoudre ce problème en élaguant la majorité des paramètres delta - les différences entre les poids des modèles finement ajustés et pré-entraînés - tout en maintenant une perte de performance minimale. Cependant, DARE échoue lorsque le taux d'élagage ou l'ampleur des paramètres delta sont importants. Nous mettons en évidence deux raisons principales de cet échec : (1) un facteur de remise à l'échelle trop important lorsque les taux d'élagage augmentent, et (2) une moyenne et une variance élevées dans les paramètres delta : (1) DARq, qui modifie le facteur de remise à l'échelle dans DARE, conduisant à des gains de performance significatifs à des taux d'élagage élevés (par exemple, >30% sur COLA et SST2 pour les modèles codeurs, avec des améliorations encore plus importantes dans les modèles décodeurs), et (2) AdamR, une modification en cours d'apprentissage qui incorpore une régularisation Delta appropriée avant d'appliquer la DPP. Nous démontrons également que DARq peut être combiné de manière transparente avec des techniques de réglage fin efficaces sur le plan des paramètres comme LoRA et peut faciliter la DPP structurelle. En outre, nous réexaminons l'application des techniques d'élagage basées sur l'importance dans le cadre de la PPD, en démontrant qu'elles sont plus performantes que les méthodes basées sur l'aléatoire lorsque les paramètres delta sont importants. Grâce à cette étude complète, nous développons un pipeline pour sélectionner la méthode DPP la plus appropriée dans divers scénarios pratiques.

Réexamen de l'adaptation du domaine sans source : une nouvelle perspective via le contrôle de l'incertitude

Gezheng Xu, Hui Guo, Li Yi, Charles Ling (affilié à la faculté Vector), Boyu Wang (affilié à la faculté Vector), Grace Yi (affiliée à la faculté Vector)

Résumé

L'adaptation de domaine sans source (SFDA) vise à adapter un modèle source pré-entraîné au domaine cible en utilisant uniquement des données cibles non étiquetées, sans accès aux données sources originales. Alors que les méthodes actuelles de pointe (SOTA) s'appuient sur une faible supervision du modèle source pour extraire des informations fiables pour l'adaptation auto-supervisée, elles négligent souvent l'incertitude qui survient au cours du processus de transfert. Dans cet article, nous effectuons une analyse systématique et théorique de l'incertitude inhérente aux méthodes SFDA existantes et démontrons son impact sur les performances de transfert à travers l'optique de l'optimisation distributionnellement robuste (DRO). En nous appuyant sur les résultats théoriques, nous proposons un nouvel algorithme de contrôle de l'incertitude dépendant de l'instance pour l'AFD. Notre méthode est conçue pour quantifier et exploiter l'incertitude pendant le processus d'adaptation, ce qui améliore considérablement la performance du modèle. Des expériences approfondies sur des ensembles de données de référence et des analyses empiriques confirment la validité de nos résultats théoriques et l'efficacité de la méthode proposée. Ce travail offre de nouvelles perspectives pour comprendre et améliorer les performances de la SFDA.

Distillation de la cohérence latente guidée par la récompense

William Wang, Jiachen Li, Weixi Feng, Wenhu Chen (membre de la faculté Vector)

Résumé

La distillation de cohérence latente (LCD) est apparue comme un paradigme prometteur pour une synthèse texte-image efficace. En distillant un modèle de cohérence latente (LCM) à partir d'un modèle de diffusion latente (LDM) pré-entraîné, la LCD facilite la génération d'images de haute fidélité en seulement 2 à 4 étapes d'inférence. Cependant, l'inférence efficace du MCL est obtenue au détriment de la qualité de l'échantillon. Dans cet article, nous proposons de compenser la perte de qualité en alignant la sortie du LCM sur les préférences humaines lors de la formation. Plus précisément, nous introduisons l'ACL guidée par la récompense (ACL-RG), qui intègre le retour d'information d'un modèle de récompense (MR) dans le processus d'ACL en augmentant la perte d'ACL originale avec l'objectif de maximiser la récompense associée à la génération en une seule étape de la MCL. Comme validé par l'évaluation humaine, lorsqu'ils sont formés avec le retour d'un bon MR, les générations en deux étapes de notre RG-LCM sont préférées par les humains aux échantillons DDIM en 50 étapes du MLD enseignant, ce qui représente une accélération de l'inférence de 25 fois sans perte de qualité.

Comme l'optimisation directe vers des MR différentiables peut souffrir de sur-optimisation, nous faisons le premier pas pour surmonter cette difficulté en proposant l'utilisation d'un MR de substitution latent (MRL). Ce nouveau composant sert d'intermédiaire, reliant notre LCM au RM. Empiriquement, nous démontrons que l'incorporation du LRM dans notre RG-LCD évite avec succès le bruit à haute fréquence dans les images générées, contribuant à la fois à l'amélioration de la distance d'inception de Fréchet (FID) sur MS-COCO et à un meilleur score HPSv2.1 sur l'ensemble de test de HPSv2, surpassant ceux obtenus par le LCM de base.

Page du projet : https://rg-lcd.github.io/

S4M : S4 pour la prévision de séries temporelles multivariées avec valeurs manquantes

Jing Peng, Meiqi Yang, Qiong Zhang, Xiaoxiao Li (membre de la faculté Vector)

Résumé

Les données de séries temporelles multivariées font partie intégrante de nombreuses applications réelles, notamment dans les domaines de la finance, des soins de santé et de la météorologie, où des prévisions précises sont essentielles pour prendre des décisions éclairées et des mesures proactives. Cependant, la présence de données manquantes pose des problèmes importants, qui nuisent souvent à la performance des modèles prédictifs. Les approches traditionnelles en deux étapes qui imputent d'abord les valeurs manquantes et effectuent ensuite les prévisions ont tendance à accumuler les erreurs, en particulier dans les contextes multivariés complexes avec des ratios de données manquantes élevés et des structures de dépendance complexes. Dans ce travail, nous présentons S4M, un cadre de prévision des séries temporelles de bout en bout qui intègre de manière transparente le traitement des données manquantes dans l'architecture du modèle S4 (Structured State Space Sequence). Contrairement aux méthodes conventionnelles qui traitent l'imputation comme une étape de prétraitement distincte, S4M exploite l'espace latent des modèles S4 pour reconnaître et représenter directement les modèles de données manquantes, capturant ainsi plus efficacement les dépendances temporelles et multivariées sous-jacentes. Notre approche comprend deux modules clés : l'Adaptive Temporal Prototype Mapper (ATPM) et le Missing-Aware Dual Stream S4 (MDS-S4). L'ATPM utilise une banque de prototypes pour dériver des représentations robustes et informatives à partir de modèles de données historiques, tandis que le MDS-S4 traite ces représentations avec des masques d'absence en tant que flux d'entrée doubles pour effectuer des prévisions précises. Des évaluations empiriques approfondies sur divers ensembles de données réelles démontrent que S4M atteint constamment des performances de pointe, validant l'efficacité de notre approche intégrée dans le traitement des données manquantes, soulignant sa robustesse et sa supériorité par rapport aux méthodes traditionnelles basées sur l'imputation. Ces résultats soulignent le potentiel de notre méthode pour faire progresser la prévision fiable des séries temporelles dans les applications pratiques.

Désapprentissage sélectif par l'effacement de la représentation à l'aide d'une formation adverbiale

Nazanin Sepahvand, Eleni Triantafillou, Hugo Larochelle, Doina Precup, Jim Clark, Dan Roy (membre de la faculté Vector), Gintare Karolina Dziugaite

Résumé

Lors du déploiement de modèles d'apprentissage automatique dans le monde réel, nous sommes souvent confrontés au défi de "désapprendre" des points de données spécifiques ou des sous-ensembles après la formation. Inspirés par la formation des réseaux neuronaux à l'aune du domaine (DANN), nous proposons un nouvel algorithme, SURE, pour un désapprentissage ciblé. SURE traite le processus comme un problème d'adaptation de domaine, où l'"ensemble d'oubli" (données à supprimer) et un ensemble de validation de la même distribution forment deux domaines distincts. Nous formons un classificateur de domaine pour discriminer les représentations des ensembles d'oubli et de validation. En utilisant une stratégie d'inversion de gradient similaire à DANN, nous effectuons des mises à jour de gradient sur les représentations pour "tromper" le classificateur de domaine et ainsi obscurcir les représentations appartenant à l'ensemble d'oubli. Simultanément, la descente de gradient est appliquée à l'ensemble conservé (données d'apprentissage originales moins l'ensemble oublié) afin de préserver ses performances de classification. Contrairement à d'autres approches de désapprentissage dont les objectifs d'apprentissage sont construits sur la base des sorties du modèle, SURE manipule directement leurs présentations. Ceci est essentiel pour assurer la robustesse contre un ensemble d'attaques plus puissantes que celles actuellement considérées dans la littérature, qui visent à détecter quels exemples ont été désappris grâce à l'accès aux encastrements appris. Nos expériences approfondies révèlent que SURE offre un meilleur compromis entre la qualité du désapprentissage et l'utilité par rapport à d'autres techniques de désapprentissage standard pour les réseaux neuronaux profonds.

SG-I2V : Contrôle de trajectoire autoguidé dans la génération d'image à vidéo

Koichi Namekata, Sherwin Bahmani, Ziyi Wu, Yash Kant, Igor Gilitschenski (affilié à la faculté Vector), David Lindell (affilié à la faculté Vector)

Résumé

Les méthodes de génération d'images à partir de vidéos ont permis d'obtenir une qualité photo-réaliste impressionnante. Cependant, l'ajustement d'éléments spécifiques dans les vidéos générées, tels que le mouvement des objets ou de la caméra, est souvent un processus fastidieux d'essais et d'erreurs, impliquant par exemple de générer à nouveau des vidéos avec différentes graines aléatoires. Les techniques récentes s'attaquent à ce problème en affinant un modèle pré-entraîné pour suivre des signaux de conditionnement, tels que des boîtes de délimitation ou des trajectoires de points. Cependant, cette procédure de réglage fin peut être coûteuse en termes de calcul et nécessite des ensembles de données avec des mouvements d'objets annotés, ce qui peut être difficile à obtenir. Dans ce travail, nous présentons SG-I2V, un cadre pour la génération contrôlable d'images-vidéos qui est autoguidé et qui offre un contrôle zéro en s'appuyant uniquement sur les connaissances présentes dans un modèle de diffusion d'images-vidéos pré-entraîné, sans avoir besoin d'un réglage fin ou de connaissances externes. Notre méthode "zero-shot" est plus performante que les modèles de base non supervisés, tout en réduisant considérablement l'écart de performance avec les modèles supervisés en termes de qualité visuelle et de fidélité des mouvements. Des détails supplémentaires et des résultats vidéo sont disponibles sur notre page de projet : https://sgi2v-paper.github.io

SmartPretrain : Apprentissage de la représentation pour la prédiction de mouvement en fonction du modèle et de l'ensemble de données

Yang Zhou, Hao Shao, Letian Wang, Steven Waslander (affilié à la faculté Vector), Hongsheng Li, Yu Liu

Résumé

Prédire le mouvement futur des agents environnants est essentiel pour que les véhicules autonomes (AV) puissent fonctionner en toute sécurité dans des environnements dynamiques et mixtes homme-robot. Cependant, la rareté des données de conduite à grande échelle a entravé le développement de modèles de prédiction de mouvement robustes et généralisables, limitant leur capacité à capturer des interactions et des géométries routières complexes. Inspiré par les progrès récents du traitement du langage naturel (NLP) et de la vision par ordinateur (CV), l'apprentissage auto-supervisé (SSL) a suscité beaucoup d'intérêt dans la communauté de la prédiction des mouvements pour l'apprentissage de représentations de scènes riches et transférables. Néanmoins, les méthodes de pré-entraînement existantes pour la prédiction de mouvement se sont largement concentrées sur des architectures de modèles spécifiques et des ensembles de données uniques, ce qui limite leur évolutivité et leur généralisation. Pour relever ces défis, nous proposons SmartPretrain, un cadre SSL général et évolutif pour la prédiction de mouvement qui est à la fois agnostique au niveau des modèles et des ensembles de données. Notre approche intègre le SSL contrastif et reconstructif, tirant parti des forces des paradigmes génératifs et discriminatifs pour représenter efficacement l'évolution spatio-temporelle et les interactions sans imposer de contraintes architecturales. En outre, SmartPretrain utilise une stratégie d'échantillonnage de scénarios agnostique qui intègre plusieurs ensembles de données, améliorant ainsi le volume, la diversité et la robustesse des données. Des expériences approfondies sur plusieurs ensembles de données démontrent que SmartPretrain améliore constamment les performances des modèles de prédiction de pointe, quels que soient les ensembles de données, les divisions de données et les principales mesures. Par exemple, SmartPretrain réduit de manière significative le taux d'échec de Forecast-MAE de 10,6 %. Ces résultats soulignent l'efficacité de SmartPretrain en tant que solution unifiée et évolutive pour la prédiction de mouvement, en s'affranchissant des limites du régime des petites données.

Fusion douce d'experts avec routage adaptatif

Haokun Liu, Muqeeth Mohammed, Colin Raffel (membre de la faculté Vector)

Résumé

Les réseaux neuronaux qui apprennent à acheminer leurs entrées à travers différents sous-réseaux "experts" offrent une forme de modularité que les modèles denses standard n'ont pas. Malgré leurs avantages possibles, les modèles modulaires avec routage appris sont souvent moins performants que leurs homologues denses appariés aux paramètres, ainsi que les modèles qui utilisent des stratégies de routage heuristiques non apprises. Dans cet article, nous émettons l'hypothèse que ces lacunes proviennent des techniques d'estimation du gradient utilisées pour entraîner les modèles modulaires qui utilisent des décisions de routage discrètes non différentiables. Pour résoudre ce problème, nous introduisons le $\textbf{S}$oft $\textbf{M}$erging of $\textbf{E}$xperts with $\textbf{A}$daptive $\textbf{R}$outing (SMEAR), qui évite le routage discret en utilisant un seul expert "fusionné" construit par le biais d'une moyenne pondérée de tous les paramètres de l'expert. En acheminant les activations par l'intermédiaire d'un seul expert fusionné, SMEAR n'entraîne pas d'augmentation significative des coûts de calcul et permet une formation standard basée sur le gradient. Nous validons empiriquement que les modèles utilisant SMEAR sont plus performants que les modèles qui routent sur la base de métadonnées ou qui apprennent le routage par l'estimation du gradient. En outre, nous fournissons une analyse qualitative démontrant que les experts appris par SMEAR présentent une spécialisation importante.

Spider 2.0 : Évaluation des modèles de langage sur des flux de travail texte vers SQL en entreprise dans le monde réel

Fangyu Lei, Jixuan Chen, Yuxiao Ye, Ruisheng Cao, Dongchan Shin, Hongjin SU, Zhaoqing Suo, Hongcheng Gao, Wenjing Hu, Pengcheng Yin, Victor Zhong (membre de la faculté Vector), Caiming Xiong, Ruoxi Sun, Qian Liu, Sida Wang, Tao Yu

Résumé

Les flux de travail texte vers SQL des entreprises du monde réel impliquent souvent des données complexes dans le nuage ou locales à travers divers systèmes de base de données, de multiples requêtes SQL dans divers dialectes, et diverses opérations allant de la transformation des données à l'analyse. Nous présentons Spider 2.0, un cadre d'évaluation comprenant $595$ des problèmes réels de flux de travail texte-SQL dérivés de cas d'utilisation de bases de données au niveau de l'entreprise. Les bases de données de Spider 2.0 proviennent d'applications de données réelles, contenant souvent plus de 1 000 colonnes et stockées dans des systèmes de base de données locaux ou en nuage tels que BigQuery et Snowflake. Nous montrons que la résolution des problèmes dans Spider 2.0 nécessite fréquemment de comprendre et de rechercher dans les métadonnées des bases de données, la documentation des dialectes et même les bases de code au niveau du projet. Ce défi exige que les modèles interagissent avec des environnements de flux de travail SQL complexes, traitent des contextes extrêmement longs, effectuent des raisonnements complexes et génèrent de multiples requêtes SQL avec diverses opérations, dépassant souvent 100$ lignes, ce qui va bien au-delà des défis traditionnels de conversion de texte en SQL. Nos évaluations indiquent que, sur la base de o1-preview, notre cadre d'agent de code ne résout avec succès que 15,1 % des tâches, contre 91,2 % pour Spider 1.0 et 73,0 % pour BIRD. Nos résultats sur Spider 2.0 montrent que si les modèles de langage ont fait preuve d'une performance remarquable dans la génération de code - en particulier dans les benchmarks antérieurs de conversion de texte en SQL - ils nécessitent des améliorations significatives afin d'atteindre une performance adéquate pour une utilisation en entreprise dans le monde réel. Les progrès réalisés sur Spider 2.0 représentent des étapes cruciales vers le développement d'agents de code intelligents et autonomes pour les entreprises du monde réel.

Correspondance des flux de Stiefel pour l'élucidation des structures en fonction des moments

Austin Cheng, Alston Lo, Kin Long Kelvin Lee, Santiago Miret, Alán Aspuru-Guzik (membre de la faculté Vector)

Résumé

L'élucidation de la structure moléculaire est une étape critique dans la compréhension des phénomènes chimiques, avec des applications pour identifier les molécules dans les produits naturels, les synthèses de laboratoire, les échantillons médico-légaux et le milieu interstellaire.Nous considérons la tâche d'élucider la structure 3D d'une molécule à partir de sa formule moléculaire et de ses moments d'inertie, motivée par la capacité de la spectroscopie rotationnelle à mesurer précisément ces moments.Alors que les modèles génératifs existants peuvent conditionnellement échantillonner des structures 3D avec des moments approximativement corrects, ce conditionnement doux ne parvient pas à exploiter les nombreux chiffres de précision offerts par la spectroscopie rotationnelle expérimentale.Pour résoudre ce problème, nous montrons d'abord que l'espace des nuages de points de $n$-atomes avec un ensemble fixe de moments d'inertie est intégré dans le manifold de Stiefel $\textrm{St}(n, 4)$. Nous proposons ensuite l'appariement des flux de Stiefel comme modèle génératif pour élucider la structure 3D sous des contraintes de moments exacts.De plus, nous apprenons des flux plus simples et plus courts en trouvant des solutions approximatives pour le transport optimal sur le collecteur de Stiefel. Empiriquement, la correspondance de flux de Stiefel atteint des taux de réussite plus élevés et un échantillonnage plus rapide que les modèles de diffusion euclidiens, même sur des collecteurs à haute dimension correspondant à de grandes molécules dans l'ensemble de données GEOM.

SymmetricDiffusers : Apprentissage de la diffusion discrète sur les groupes symétriques finis

Yongxing Zhang, Donglin Yang, Renjie Liao (membre de la faculté Vector)

Résumé

Le groupe de permutations $S_n$, également connu sous le nom de groupes symétriques finis, est essentiel dans des domaines tels que la combinatoire, la physique et la chimie. Cependant, l'apprentissage d'une distribution de probabilité sur $S_n$ pose des défis importants en raison de sa taille irréalisable et de sa nature discrète. Dans cet article, nous présentons *SymmetricDiffusers*, un nouveau modèle de diffusion discrète qui simplifie la tâche d'apprentissage d'une distribution compliquée sur $S_n$ en la décomposant en l'apprentissage de transitions plus simples de la diffusion inverse à l'aide de réseaux neuronaux profonds. Nous identifions le riffle shuffle comme une transition efficace vers l'avant et fournissons des lignes directrices empiriques pour la sélection de la longueur de diffusion basée sur la théorie des marches aléatoires sur des groupes finis. En outre, nous proposons une distribution Plackett-Luce (PL) généralisée pour la transition inverse, qui est manifestement plus expressive que la distribution PL. Nous introduisons en outre un "calendrier de débruitage" théoriquement fondé pour améliorer l'efficacité de l'échantillonnage et de l'apprentissage. Des expériences approfondies montrent que notre modèle atteint l'état de l'art ou des performances comparables dans la résolution de tâches telles que le tri d'images MNIST à 4 chiffres, les puzzles et les problèmes de vendeurs itinérants.

T2V-Turbo-v2 : Améliorer le post-entraînement des modèles vidéo grâce à la conception de données, de récompenses et d'orientations conditionnelles

Jiachen Li, Qian Long, Jian (Skyler) Zheng, Xiaofeng Gao, Robinson Piramuthu, Wenhu Chen (membre de la faculté Vector), William Wang

Résumé

Dans cet article, nous nous concentrons sur l'amélioration d'un modèle texte-vidéo (T2V) basé sur la diffusion pendant la phase de post-formation en distillant un modèle de cohérence très performant à partir d'un modèle T2V pré-formé. La méthode que nous proposons, T2V-Turbo-v2, introduit une avancée significative en intégrant divers signaux de supervision, notamment des données de formation de haute qualité, un retour d'information sur le modèle de récompense et une orientation conditionnelle, dans le processus de distillation de la cohérence. Grâce à des études d'ablation complètes, nous soulignons l'importance cruciale de l'adaptation des ensembles de données à des objectifs d'apprentissage spécifiques et l'efficacité de l'apprentissage à partir de divers modèles de récompense pour améliorer à la fois la qualité visuelle et l'alignement texte-vidéo. En outre, nous mettons en évidence le vaste espace de conception des stratégies de guidage conditionnel, qui se concentre sur la conception d'une fonction d'énergie efficace pour augmenter le solveur ODE de l'enseignant. Nous démontrons le potentiel de cette approche en extrayant le guidage par le mouvement des ensembles de données d'apprentissage et en l'incorporant dans le solveur ODE. Nous démontrons son efficacité dans l'amélioration de la qualité du mouvement des vidéos générées avec les métriques améliorées liées au mouvement de VBench et T2V-CompBench. Empiriquement, notre T2V-Turbo-v2 établit un nouveau résultat de pointe sur VBench, **avec un score total de 85,13**, surpassant les systèmes propriétaires tels que Gen-3 et Kling.

Apprendre aux LLM à apprendre grâce à l'ajustement contextuel

Younwoo Choi, Muhammad Adil Asif, Ziwen Han, John Willes (professionnels de Vector), Rahul G. Krishnan (membre du corps enseignant de Vector)

Résumé

L'incitation des grands modèles de langage (LLM), ou la fourniture d'un contexte sur le modèle d'opération attendu, est un moyen efficace d'orienter les résultats de ces modèles pour satisfaire les désirs humains après qu'ils ont été formés. Mais dans les domaines en évolution rapide, il est souvent nécessaire d'affiner les LLM pour améliorer soit le type de connaissances dans leur mémoire, soit leur capacité à effectuer un raisonnement ouvert dans de nouveaux domaines. Lorsque l'être humain apprend de nouveaux concepts, il le fait souvent en reliant le nouveau matériel qu'il étudie à des concepts qu'il a déjà appris auparavant. C'est pourquoi nous nous demandons si les messages-guides peuvent nous aider à enseigner aux LLM comment apprendre. Dans ce travail, nous étudions une nouvelle généralisation de l'ajustement des instructions, appelée ajustement contextuel, afin d'affiner les LLM. Notre méthode s'appuie sur des invites pédagogiques conçues pour imiter les stratégies cognitives humaines en matière d'apprentissage et de résolution de problèmes afin de guider le processus d'apprentissage pendant la formation, dans le but d'améliorer l'interprétation et la compréhension par le modèle des connaissances spécifiques à un domaine. Nous démontrons empiriquement que cette modification simple mais efficace améliore la capacité des LLM à être affinés rapidement sur de nouveaux ensembles de données dans les domaines médical et financier.

Vérification plus stricte de la confidentialité du DP-SGD dans le modèle de menace de l'état caché

Tudor Cebere, Aurélien Bellet, Nicolas Papernot (membre de la faculté Vector)

Résumé

Les modèles d'apprentissage automatique peuvent être formés avec des garanties formelles de confidentialité grâce à des optimiseurs différentiellement privés tels que DP-SGD. Dans ce travail, nous nous concentrons sur un modèle de menace dans lequel l'adversaire n'a accès qu'au modèle final, sans visibilité sur les mises à jour intermédiaires. Dans la littérature, ce modèle de menace à "état caché" présente un écart important entre la limite inférieure de l'audit empirique de la protection de la vie privée et la limite supérieure théorique fournie par la comptabilité de la protection de la vie privée. Pour combler cet écart, nous proposons d'auditer ce modèle de menace avec des adversaires qui élaborent une séquence de gradient conçue pour maximiser la perte de confidentialité du modèle final sans s'appuyer sur les mises à jour intermédiaires. Nos expériences montrent que cette approche est systématiquement plus performante que les tentatives précédentes d'audit du modèle d'état caché. En outre, nos résultats permettent de mieux comprendre les garanties de confidentialité réalisables dans le cadre de ce modèle de menace. Plus précisément, lorsque le gradient artificiel est inséré à chaque étape d'optimisation, nous montrons que la dissimulation des mises à jour intermédiaires du modèle dans DP-SGD n'amplifie pas la protection de la vie privée. La situation est plus complexe lorsque le gradient fabriqué n'est pas inséré à chaque étape : notre limite inférieure d'audit correspond à la limite supérieure de confidentialité uniquement pour un paysage de perte choisi par l'adversaire et une taille de lot suffisamment grande. Cela suggère que les limites supérieures de confidentialité existantes peuvent être améliorées dans certains régimes.

Couplage de blocs de transformateurs et sa corrélation avec la généralisation dans les LLM

Murdock Aubry, Haoming Meng, Anton Sugolov, Vardan Papyan (affilié à la faculté Vector)

Résumé

Les grands modèles de langage (LLM) ont fait des progrès considérables dans le traitement du langage naturel, et il est essentiel de comprendre précisément les mécanismes internes qui sont à l'origine de leur succès. Dans ce travail, nous retraçons les trajectoires des jetons individuels lorsqu'ils passent par les blocs de transformation, et nous linéarisons le système le long de ces trajectoires par le biais de leurs matrices jacobiennes. En examinant les relations entre ces jacobiens, nous découvrons un phénomène de couplage des blocs transformateurs dans une variété de LLM, caractérisé par le couplage de leurs vecteurs singuliers supérieurs à travers les jetons et la profondeur. Nos résultats révèlent que le couplage est positivement corrélé avec la performance du modèle, et que cette relation est plus forte qu'avec d'autres hyperparamètres, à savoir le budget des paramètres, la profondeur du modèle et la dimension d'intégration. Nous étudions en outre l'émergence de ces propriétés par le biais de l'entraînement, en notant le développement du couplage, ainsi qu'une augmentation de la linéarité et une croissance exponentielle au niveau des couches dans les trajectoires des jetons. Ces aperçus collectifs offrent une nouvelle perspective sur les interactions entre les encastrements de jetons et incitent à adopter d'autres approches pour étudier l'apprentissage et la généralisation dans les LLM.

Une méthode de Newton tronquée pour le transport optimal

Mete Kemertas, Amir-massoud Farahmand (affilié à la faculté Vector), Allan Jepson

Résumé

Le développement d'un solveur de transport optimal (OT) contemporain nécessite de faire des compromis entre plusieurs exigences critiques : La parallélisation sur GPU, l'extensibilité aux problèmes de haute dimension, les garanties de convergence théoriques, la performance empirique en termes de précision par rapport au temps d'exécution, et la stabilité numérique dans la pratique. En gardant ces défis à l'esprit, nous introduisons un algorithme de Newton tronqué spécialisé pour l'OT régularisé entropique. En plus de prouver qu'une convergence localement quadratique est possible sans supposer un Hessien Lipschitz, nous fournissons des stratégies pour exploiter au maximum le taux élevé de convergence locale dans la pratique. Notre algorithme parallèle au GPU présente des performances d'exécution exceptionnellement favorables, atteignant la haute précision des ordres de grandeur plus rapidement que de nombreuses alternatives existantes. Ceci est démontré par des expériences en temps réel sur des problèmes de transfert de couleurs et de MNIST à 4096 dimensions. L'extensibilité de l'algorithme est démontrée sur un problème OT extrêmement grand avec $n \approx 10^6$, résolu approximativement avec une régularisation entoprique faible.

Comprendre l'inférence de contraintes dans l'apprentissage par renforcement inverse pour des raisons de sécurité

Bo Yue, Shufan Wang, Ashish Gaurav, Jian Li, Pascal Poupart (membre de la faculté Vector), Guiliang Liu

Résumé

Dans les applications pratiques, la connaissance des contraintes sous-jacentes est souvent inconnue et difficile à spécifier. Pour résoudre ce problème, les progrès récents de l'apprentissage par renforcement avec contraintes inverses (ICRL) se sont concentrés sur l'inférence de ces contraintes à partir de démonstrations d'experts. Cependant, l'approche ICRL caractérise généralement l'apprentissage par contraintes comme un problème d'optimisation à trois niveaux, qui est intrinsèquement complexe en raison de ses variables interdépendantes et de ses multiples couches d'optimisation. Compte tenu de ces défis, une question cruciale se pose : *Pouvons-nous intégrer implicitement les signaux de contrainte dans les fonctions de récompense et résoudre efficacement ce problème à l'aide d'un algorithme classique d'inférence de récompense ? La méthode qui en résulte, connue sous le nom de correction inverse de la récompense (IRC), mérite d'être étudiée. Dans ce travail, nous effectuons une analyse théorique comparant les complexités d'échantillonnage des deux solveurs. Nos résultats confirment que le solveur IRC atteint une complexité d'échantillon inférieure à celle de son homologue ICRL. Néanmoins, cette réduction de la complexité se fait au détriment de la généralisabilité. Plus précisément, dans l'environnement cible, les termes de correction de la récompense peuvent ne pas garantir la sécurité de la politique résultante, alors que ce problème peut être efficacement atténué en transférant les contraintes via le solveur ICRL. Pour faire avancer notre enquête, nous étudions les conditions dans lesquelles le solveur ICRL garantit l'optimalité $\epsilon$ lors du transfert vers de nouveaux environnements. Les résultats empiriques obtenus dans divers environnements valident nos conclusions théoriques, soulignant les compromis nuancés entre la réduction de la complexité et la généralisation dans les applications critiques pour la sécurité.

Recherche multimodale universelle avec des LLM multimodaux

Sheng-Chieh Lin, Chankyu Lee, Mohammad Shoeybi, Jimmy Lin (affilié à la faculté Vector), Bryan Catanzaro, Wei Ping

Résumé

Les modèles de recherche d'informations les plus récents s'appliquent généralement à un scénario de recherche simple, dans lequel les tâches de recherche sont fixes (par exemple, trouver un passage pour répondre à une question spécifique) et une seule modalité est prise en charge à la fois pour les requêtes et pour les résultats récupérés. Cet article présente des techniques permettant de faire progresser la recherche d'informations à l'aide de grands modèles de langage multimodaux (MLLM), ce qui permet un scénario de recherche plus large, appelé recherche multimodale universelle, dans lequel plusieurs modalités et diverses tâches de recherche sont prises en charge. À cette fin, nous commençons par étudier le réglage fin d'un MLLM en tant que récupérateur bi-encodeur sur 10 ensembles de données comportant 16 tâches de recherche. Nos résultats empiriques montrent que le récupérateur MLLM affiné est capable de comprendre des requêtes difficiles, composées à la fois de texte et d'image, mais qu'il est moins performant qu'un récupérateur CLIP plus petit dans les tâches de récupération multimodales en raison du biais de modalité des MLLM. Pour résoudre ce problème, nous proposons une extraction de négatifs durs tenant compte de la modalité afin d'atténuer le biais de modalité dont font preuve les extracteurs MLLM. Deuxièmement, nous proposons d'affiner continuellement l'extracteur multimodal universel afin d'améliorer sa capacité d'extraction de texte tout en conservant sa capacité d'extraction multimodale. En conséquence, notre modèle, UniEmb, atteint des performances de pointe sur le benchmark de recherche multimodale M-BEIR, qui couvre plusieurs domaines et tâches, tout en surpassant le modèle de recherche de texte de pointe, NV-Embed-v1, sur le benchmark de recherche MTEB.Enfin, nous explorons la possibilité d'inviter les MLLM disponibles sur le marché en tant que reranker zéro pour affiner le classement des candidats du récupérateur multimodal. Nous constatons que, grâce à l'incitation et au reclassement, les MLLM peuvent encore améliorer la recherche multimodale lorsque les requêtes de l'utilisateur (par exemple, les requêtes composées de texte et d'images) sont plus complexes et plus difficiles à comprendre. Ces résultats ouvrent également la voie à l'amélioration de la recherche multimodale universelle à l'avenir.

VLM2Vec : Formation de modèles vision-langage pour les tâches d'intégration multimodales massives

Ziyan Jiang, Rui Meng, Xinyi Yang, Semih Yavuz, Yingbo Zhou, Wenhu Chen (membre de la faculté Vector)

Résumé

Les modèles d'intégration ont joué un rôle crucial dans l'exécution de diverses tâches en aval telles que la similarité sémantique, la recherche d'informations et le regroupement. Récemment, le développement de modèles d'intégration de texte universels capables de se généraliser à travers les tâches (par exemple, MTEB) a suscité un regain d'intérêt. Cependant, les progrès dans l'apprentissage de modèles d'intégration multimodaux universels ont été relativement lents malgré leur importance. Dans ce travail, nous visons à explorer le potentiel de construction de modèles d'intégration universels capables de traiter un large éventail de tâches en aval. Nos contributions sont doubles : (1) MMEB (Massive Multimodal Embedding Benchmark), qui couvre 4 méta-tâches et 36 ensembles de données, dont 20 ensembles de données de formation et 16 ensembles de données d'évaluation, et (2) VLM2VEC (Vision-Language Model → Vector), un cadre de formation contrastive qui convertit n'importe quel modèle de vision-langage de pointe en un modèle d'intégration. Contrairement aux modèles précédents tels que CLIP et BLIP, VLM2VEC peut traiter n'importe quelle combinaison d'images et de texte pour générer un vecteur à dimension fixe basé sur les instructions de la tâche. Nous construisons une série de modèles VLM2VEC sur Phi-3.5-V et les évaluons sur MMEB. Nos résultats montrent que VLM2VEC réalise une amélioration moyenne absolue de 10 à 20 % par rapport aux modèles d'intégration multimodale existants sur les ensembles de données de la MMEB, qu'ils soient distribués ou non.

Que signifie être un transformateur ? Aperçu d'une analyse théorique du hessien

Spotlight paper

Weronika Ormaniec, Felix Dangel (Vector Distinguished Postdoctoral Fellow), Sidak Pal Singh

Résumé

L'architecture Transformer a incontestablement révolutionné l'apprentissage profond, dépassant les architectures classiques telles que les perceptrons multicouches (MLP) et les réseaux neuronaux convolutifs (CNN). En son cœur, le bloc d'attention diffère dans sa forme et sa fonctionnalité de la plupart des autres composants architecturaux de l'apprentissage profond - dans la mesure où les Transformers sont souvent accompagnés d'optimiseurs adaptatifs, d'une normalisation des couches, d'un échauffement du taux d'apprentissage, et bien plus encore, par rapport aux MLP/CNN. Les causes profondes de ces manifestations extérieures et les mécanismes précis qui les régissent restent mal compris. Dans ce travail, nous comblons cette lacune en apportant une compréhension fondamentale de ce qui distingue le Transformer des autres architectures - en s'appuyant sur une comparaison théorique du Hessien (de perte). Concrètement, pour une seule couche d'auto-attention, (a) nous dérivons d'abord entièrement le hessien du Transformateur et l'exprimons en dérivées matricielles ; (b) nous le caractérisons ensuite en termes de données, de poids et de dépendances au moment de l'attention ; et (c) tout en faisant cela, nous mettons en évidence les différences structurelles importantes par rapport au hessien des réseaux classiques. Nos résultats suggèrent que divers choix communs d'architecture et d'optimisation dans les Transformers peuvent être attribués à leurs dépendances hautement non linéaires sur les matrices de données et de poids, qui varient de manière hétérogène selon les paramètres. En fin de compte, nos résultats permettent de mieux comprendre le paysage d'optimisation unique des transformateurs et les défis qu'il pose.

Ce qui a été négligé dans l'adaptation contrastive à un domaine sans source : Tirer parti de l'augmentation latente informée par la source dans le contexte du voisinage

Jiahong Chen, Kuangen Zhang, Clarence Silva, Jing Wang, Leonid Sigal (membre de la faculté Vector), Wonho Bae

Résumé

L'adaptation au domaine sans source (SFDA) consiste à adapter un modèle initialement formé à l'aide d'un ensemble de données étiquetées (domaine source) pour qu'il fonctionne efficacement sur un ensemble de données non étiquetées (domaine cible) sans dépendre d'aucune donnée source au cours de l'adaptation. Cette adaptation est particulièrement cruciale lorsqu'il existe d'importantes disparités dans la distribution des données entre les deux domaines et lorsque les données d'entraînement du modèle source posent des problèmes de confidentialité. L'absence d'accès aux données sources pendant l'adaptation rend difficile l'estimation analytique de l'écart entre les domaines. Pour résoudre ce problème, diverses techniques ont été proposées, telles que le regroupement non supervisé, l'apprentissage contrastif et l'apprentissage continu. Dans cet article, nous commençons par effectuer une analyse théorique approfondie de l'AFD basée sur l'apprentissage contrastif, principalement parce qu'elle a démontré des performances supérieures à celles d'autres techniques. Motivés par les résultats obtenus, nous introduisons ensuite une méthode d'augmentation latente simple mais très efficace, adaptée à l'AFD contrastive. Cette méthode d'augmentation exploite la dispersion des caractéristiques latentes dans le voisinage de l'échantillon de la requête, guidée par le modèle pré-entraîné de la source, afin d'améliorer l'informativité des clés positives. Notre approche, fondée sur une perte contrastive unique basée sur l'InfoNCE, surpasse les méthodes SFDA de pointe sur des ensembles de données de référence largement reconnus.

WildBench : Benchmarking des LLMs avec des tâches difficiles d'utilisateurs réels dans la nature

Spotlight paper

Bill Yuchen Lin, Yuntian Deng (affilié à la faculté Vector), Khyathi Chandu, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, Yejin Choi

Résumé

Nous présentons WildBench, un cadre d'évaluation automatisé conçu pour évaluer les grands modèles de langage (LLM) à l'aide de requêtes d'utilisateurs difficiles et réelles. WildBench se compose de 1 024 tâches soigneusement sélectionnées parmi plus d'un million de journaux de conversations entre humains et chatbots. Pour l'évaluation automatisée avec WildBench, nous avons développé deux mesures, WB-Reward et WB-Score, qui sont calculables en utilisant des LLMs avancés tels que GPT-4-turbo. L'évaluation WildBench utilise des listes de contrôle spécifiques aux tâches pour évaluer systématiquement les résultats des modèles et fournit des explications structurées qui justifient les scores et les comparaisons, ce qui permet d'obtenir des jugements automatiques plus fiables et plus faciles à interpréter. WB-Reward utilise des comparaisons fines par paire entre les réponses des modèles, générant cinq résultats potentiels : beaucoup mieux, légèrement mieux, légèrement moins bien, beaucoup moins bien ou égalité. Contrairement aux évaluations précédentes qui utilisaient un seul modèle de référence, nous avons sélectionné trois modèles de référence à différents niveaux de performance afin de garantir une évaluation complète par paires. En outre, nous proposons une méthode simple pour atténuer le biais de longueur, en convertissant les résultats "légèrement meilleur/pire" en "égalité" si la réponse du gagnant dépasse celle du perdant de plus de K caractères. WB-Score évalue la qualité des résultats du modèle individuellement, ce qui en fait une mesure d'évaluation rapide et rentable. Les résultats de WildBench démontrent une forte corrélation avec les notes Elo votées par les humains de Chatbot Arena sur des tâches difficiles. Plus précisément, WB-Reward atteint une corrélation de Pearson de 0,98 avec les modèles les mieux classés. De plus, WB-Score atteint 0,95, surpassant à la fois les 0,91 d'ArenaHard et les 0,89 d'AlpacaEval2.0 pour les taux de victoire contrôlés par la longueur, ainsi que les 0,87 pour les taux de victoire normaux.

ZETA : Exploitation des courbes d'ordre $Z$ pour une attention top-$k$ efficace

Qiuhao Zeng, Jierui Huang, Peng Lu, Gezheng Xu, Boxing Chen, Charles Ling (affilié à la faculté Vector), Boyu Wang (affilié à la faculté Vector)

Résumé

Au cours des dernières années, le transformateur est devenu un élément fondamental des architectures de modélisation de séquences. Pourtant, son cœur est l'utilisation de l'auto-attention, dont la mémoire et le coût de calcul augmentent quadratiquement avec la longueur de la séquence $N$, ce qui rend son coût prohibitif pour les longues séquences. Une approche prometteuse est l'attention top-$k$, qui ne sélectionne que les $k$ tokens les plus pertinents et atteint des performances comparables à l'auto-attention vanille tout en réduisant de manière significative l'espace et les exigences de calcul. Cependant, les masques causaux exigent que le jeton de requête actuel ne soit attentif qu'aux jetons passés, ce qui empêche les méthodes d'attention top-$k$ existantes de rechercher efficacement les jetons les plus pertinents en parallèle, limitant ainsi l'efficacité de l'apprentissage. Dans ce travail, nous proposons ZETA, qui s'appuie sur les courbes d'ordre Z pour l'attention top-k efficace, afin de permettre l'interrogation parallèle des jetons passés pour des séquences entières. Nous commençons par montrer théoriquement que le choix des dimensions de la clé et de la requête implique un compromis entre la malédiction de la dimensionnalité et la préservation des distances relatives après la projection. À la lumière de cette constatation, nous proposons de réduire la dimensionnalité des clés et des requêtes par rapport aux valeurs et de tirer parti des courbes d'ordre Z pour cartographier les clés et les requêtes de faible dimension dans un espace unidimensionnel, ce qui permet un tri parallèle, améliorant ainsi considérablement l'efficacité de la sélection des tokens top-$k$. Les résultats expérimentaux démontrent que ZETA~ correspond aux performances de l'attention standard sur les tâches synthétiques Associative Recall et surpasse l'attention et ses variantes sur Long-Range Arena et WikiText-103 language modeling.

En rapport :

2025
Ingénierie de l'IA
Actualités
Recherche
Recherche 2025

Quand l'IA rencontre l'humain : Évaluer les modèles multimodaux à travers une lentille centrée sur l'humain - Présentation de HumaniBench

2025
Perspectives
Partenariat
Histoires de réussite

Pourquoi le partenariat entre le leader des services bancaires d'IA, la CIBC, et l'Institut Vecteur continue de se développer

Trois personnes en pleine réflexion regardant un ordinateur portable
2025

Rapport annuel 2024-25 de l'Institut Vecteur : Quand la recherche en IA rencontre l'impact sur le monde réel