Les chercheurs en vecteurs plongent dans l’apprentissage profond à l’ICLR 2025
12 août 2025
12 août 2025
Les chercheurs de Vector ont apporté des contributions significatives à la Conférence internationale sur les représentations de l’apprentissage (ICLR) de cette année, le principal lieu mondial pour la recherche sur l’apprentissage par représentation et l’apprentissage profond, qui s’est tenue du 24 au 28 avril 2025 à Singapour. En tant que conférence phare explorant comment les machines apprennent des représentations significatives des données, l’ICLR a réuni la communauté mondiale travaillant sur les fondements théoriques et les applications pratiques de l’apprentissage profond.
Le portefeuille de recherche de Vector à l’ICLR 2025 a démontré le leadership de l’institut dans les domaines clés de l’apprentissage de la représentation – des travaux fondamentaux sur les architectures neuronales, l’optimisation et la compréhension théorique aux applications innovantes couvrant l’IA multimodale, la découverte scientifique et l’apprentissage automatique responsable. Les articles acceptés reflétaient l’engagement de Vector à faire progresser à la fois la science de la manière dont les réseaux neuronaux apprennent les représentations et le développement de systèmes d’IA fiables qui profitent à la société.
Vous trouverez ci-dessous 71 articles acceptés, incluant des collaborations, de membres du corps professoral de Vector, d’affiliés du corps professoral de Vector, de boursiers postdoctoraux distingués de Vector et de l’équipe d’ingénierie IA de Vector.
Justin Xu, Jack Gallifant, Alistair Johnson (affilié du corps professoral Vector), Matthew McDermott
La reproductibilité demeure un défi important en apprentissage automatique (ML) pour les soins de santé. Les ensembles de données, les pipelines de modèles, et même les définitions de tâches/cohortes sont souvent privés dans ce domaine, ce qui constitue un obstacle important au partage, à l’itération et à la compréhension des résultats d’apprentissage automatique sur les ensembles de données de dossiers médicaux électroniques (DSE). Cet article aborde une partie importante de ce problème en introduisant le Système Automatique d’Extraction de Cohortes (ACES) pour les données du flux d’événements. Cette bibliothèque est conçue pour simplifier simultanément le développement des tâches/cohortes pour l’apprentissage automatique en santé et permettre la reproduction de ces cohortes, tant à un niveau exact pour des ensembles de données individuels qu’au niveau conceptuel entre ensembles de données. Pour y parvenir, ACES fournit (1) un langage de configuration hautement intuitif et expressif pour définir à la fois des concepts spécifiques à chaque ensemble de données et des critères d’inclusion/exclusion indépendants de celui-ci, et (2) un pipeline pour extraire automatiquement les dossiers des patients répondant à ces critères définis à partir de données réelles. ACES peut être appliqué automatiquement à n’importe quel ensemble de données sous forme de Medical Event Data Standard (MEDS) ou EventStreamGPT (ESGPT), ou à *n’importe quel* ensemble de données dans lequel les prédicats spécifiques à chaque tâche peuvent être extraits sous forme de flux d’événements. ACES a le potentiel de réduire considérablement la barrière d’entrée pour définir des tâches d’apprentissage automatique qui apprennent des représentations, de redéfinir la façon dont les chercheurs interagissent avec les ensembles de données DSE, et d’améliorer significativement l’état de reproductibilité pour les études d’apprentissage automatique dans cette modalité.
Oussama Boussif, Léna Ezzine, Joseph Viviano, Michał Koziarski (affilié à la faculté Vector), Moksh Jain, Nikolay Malkin, Emmanuel Bengio, Rim Assouel, Yoshua Bengio
À mesure que les trajectoires échantillonnées par les politiques utilisées par l’apprentissage par renforcement (RL) et les réseaux de flux génératif (GFlowNets) s’allongent, l’attribution des crédits et l’exploration deviennent plus difficiles, et le long horizon de planification freine la découverte et la généralisation des modes. Le défi est particulièrement marqué dans les méthodes RL à recherche d’entropie, telles que les réseaux d’écoulement génératif, où l’agent doit apprendre à échantillonner à partir d’une distribution structurée et découvrir plusieurs états à haute récompense, chacun nécessitant de nombreuses étapes pour être atteint. Pour relever ce défi, nous proposons une approche consistant à intégrer la découverte d’abstractions d’actions, ou d’actions de haut niveau, dans le processus d’optimisation des politiques. Notre approche consiste à extraire itérativement des sous-suites d’actions couramment utilisées sur de nombreuses trajectoires à haute récompense et à les « fragmenter » en une seule action ajoutée à l’espace d’actions. Dans l’évaluation empirique sur des environnements synthétiques et réels, notre approche démontre une meilleure performance de l’efficacité de l’échantillonnage en découvrant divers objets à haute récompense, surtout sur des problèmes d’exploration plus difficiles. Nous observons aussi que les actions abstraites de haut ordre sont potentiellement interprétables, capturant la structure latente du paysage de récompense de l’espace d’actions. Ce travail offre une approche cognitivement motivée de l’abstraction de l’action en RL et constitue la première démonstration de la planification hiérarchique dans l’échantillonnage séquentiel amorti.
Fengyuan Liu, Nikhil Kandpal, Colin Raffel (membre du corps professoral de Vector)
L’influence de l’entrée contextuelle sur le comportement des grands modèles de langage (LLM) a mené au développement de méthodes d’attribution de contexte visant à quantifier l’effet de chaque période contextuelle sur les générations d’un LLM. L’erreur leave-one-out (LOO), qui mesure le changement de la probabilité de réponse du LLM lorsqu’une période donnée du contexte est retirée, offre une manière fondée de principe pour attribuer le contexte, mais peut être prohibitivement coûteuse à calculer pour de grands modèles. Dans ce travail, nous introduisons AttriBoT, une série de techniques novatrices permettant de calculer efficacement une approximation de l’erreur LOO pour l’attribution du contexte. Plus précisément, AttriBoT utilise des activations en cache pour éviter les opérations redondantes, effectue une attribution hiérarchique pour réduire le calcul, et émule le comportement de grands modèles cibles avec des modèles proxy plus petits. Pris ensemble, AttriBoT peut fournir une accélération de 300x tout en restant plus fidèle à l’erreur LOO d’un modèle cible que les méthodes d’attribution contextuelle antérieures. Cette augmentation marquée de la performance rend l’attribution de contexte de calcul pour une réponse donnée 30 $ plus rapide que la génération de la réponse elle-même, permettant ainsi des applications réelles qui nécessitent des attributions de calcul à grande échelle. Nous publions une implémentation conviviale et efficace d’AttriBoT afin de permettre une interprétabilité efficace des LLM et d’encourager le développement futur de méthodes efficaces d’attribution de contexte.
Shengran Hu, Cong Lu, Jeff Clune (membre du corps professoral Vector)
Les chercheurs investissent des efforts considérables dans le développement d’agents polyvalents puissants, où les modèles de fondation sont utilisés comme modules au sein des systèmes agents (par exemple, chaîne de pensée, auto-réflexion, formateur d’outils). Cependant, l’histoire de l’apprentissage automatique nous enseigne que les solutions conçues à la main sont finalement remplacées par des solutions apprises. Nous décrivons un domaine de recherche nouvellement formé, la conception automatisée des systèmes agents (ADAS), qui vise à créer automatiquement des conceptions puissantes de systèmes agentiques, y compris l’invention de nouveaux blocs de construction et/ou leur combinaison de nouvelles façons. Nous démontrons en plus qu’il existe une approche inexplorée mais prometteuse au sein de l’ADAS, où les agents peuvent être définis en code et où de nouveaux agents peuvent être automatiquement découverts par un méta-agent, programmant des agents toujours meilleurs en code. Étant donné que les langages de programmation sont complets de Turing, cette approche permet théoriquement l’apprentissage de tout système agent possible : y compris les nouvelles invites, l’utilisation d’outils, les flux de travail et les combinaisons de ceux-ci. Nous présentons un algorithme simple mais efficace nommé Meta Agent Search pour démontrer cette idée, où un meta agent programme de manière itérative de nouveaux agents intéressants à partir d’une archive toujours croissante de découvertes antérieures. Grâce à des expériences approfondies dans plusieurs domaines, notamment le codage, la science et les mathématiques, nous avons démontré que notre algorithme peut progressivement inventer des agents aux conceptions novatrices qui surpassent largement les agents à la fine pointe de la technologie. Il est important de noter que nous observons constamment le résultat surprenant que les agents inventés par Meta Agent Search maintiennent des performances supérieures même lorsqu’ils sont transférés entre domaines et modèles, démontrant leur robustesse et leur généralité. À condition que nous le développions en toute sécurité, notre travail illustre le potentiel d’une nouvelle orientation de recherche passionnante visant à concevoir automatiquement des systèmes agents de plus en plus puissants pour bénéficier à l’humanité.
Article de mise en lumière
Paul Brunzema, Mikkel Jordahn, John Willes (personnel professionnel de Vector), Sebastian Trimpe, Jasper Snoek, James Harrison
Les processus gaussiens (GP) sont largement considérés comme les modèles substituts de pointe pour l’optimisation bayésienne (EB) en raison de leur capacité à modéliser l’incertitude et de leur performance sur des tâches où les corrélations sont facilement capturées (comme celles définies par les métriques euclidiennes) et de leur capacité à être mises à jour efficacement en ligne. Cependant, la performance des GP dépend du choix du noyau, et la sélection du noyau pour les structures de corrélation complexes est souvent difficile ou doit être faite sur mesure. Bien que les réseaux neuronaux bayésiens (BNN) soient une direction prometteuse pour les modèles de substitut à plus grande capacité, ils ont jusqu’à présent été utilisés de manière limitée en raison de mauvaises performances sur certains types de problèmes. Dans cet article, nous proposons une approche qui démontre une performance compétitive sur de nombreux types de problèmes, y compris certains avec lesquels les BNN ont généralement du mal. Nous nous appuyons sur les dernières couches bayésiennes variationnelles (VBLLs) et relions l’entraînement de ces modèles au conditionnement exact chez les GP. Nous exploitons cette connexion pour développer un algorithme d’entraînement en ligne efficace qui entrelace conditionnement et optimisation. Nos résultats suggèrent que les réseaux VBLL surpassent largement les GP et autres architectures BNN sur des tâches aux corrélations d’entrée complexes, et égalent la performance des GP bien réglés sur des tâches de benchmark établies.
Clemencia Siro, Guy Gur-Ari, Gaurav Mishra, Stuart Shieber, Jason Phang, Zijie Wang, Kory Mathewson, Giorgio Mariani, Allen Nie, James Y Zou, Behnam Neyshabur, Karl Krauth, Shixiang Gu, Pablo Antonio Moreno Casares, Maarten Sap, Mohit Tiwari, Bill Yuchen Lin, Aykut Erdem, Angelica Chen, Swaroop Mishra, Chenlin Meng, Ashish Sabharwal, James Simon, Louis-Philippe Morency, Kyle Richardson, Emanuele Rodolà, Adam Fisch, Simone Melzi, Kristen Chiafullo, Rif A. Saurous, Shubh Pachchigar, Siamak Shakeri, Aitor Lewkowycz, Yonatan Belinkov, Mihir Kale, Mantas Mazeika, Dar Gilboa, Hongming Zhang, Seung Jae Lee, Owain Evans, Ambrose Slone, David Dohan, Damien Sileo, Mor Geva, Cameron Diao, Christopher Potts, Jekaterina Novikova, Alicia Parrish, Debajyoti Datta, Chitta Baral, Maarten Bosma, Michael Strube, Jiacheng Xu, Trishala Neeraj, Colin Raffel (Vector Faculty Member), Leo Gao, Vishakh Padmakumar, Yu Hou, Christopher Waites, Ellie Pavlick, Pouya Pezeshkpour, Nanyun (Violet) Peng, Gerard de Melo, Martin Potthast, Aarohi Srivastava, Abhinav Rastogi, Abu Awal Md Shoeb, Adam Brown, Adam Santoro, Aditya Gupta, Agnieszka Kluska, Diyi Yang, Akshat Agarwal, Alexander Kocurek, Ali Safaya, Ali Tazarv, Alice Xiang, Aman Hussain, Amanda Askell, Amanda Dsouza, Ameet Rahane, Anantharaman S. Iyer, Andrea Madotto, Andrea Santilli, Andreas Stuhlmüller, Andrew La, Ethan Dyer, Angela Jiang, Anh Vuong, Animesh Gupta, Anna Gottardi, Antonio Norelli, Anu Venkatesh, Arash Gholamidavoodi, Arfa Tabassum, Arul Menezes, Arun Kirubarajan, Asher Mullokandov, Austin Herrick, Avia Efrat, Ayla Karakaş, B. Roberts, Bao Loe, Bartłomiej Bojanowski, Benjamin Inden, Benno Stein, Batuhan Özyurt, Behnam Hedayatnia, Blake Howald, Bryan Orinion, Cameron Dour, Catherine Stinson, Cedrick Argueta, Cesar Ferri, Chandan Singh, Charles Rathkopf, Christian Voigt, Cindy Ramirez, Clara Rivera, Noah Fiedel, Courtney Ashcraft, Dan Garrette, Dan Kilman, C. Freeman, Daniel Levy, Daniel González, Danielle Perszyk, Danny Hernandez, David Jurgens, Deep Ganguli, Denis Emelin, Denis Kleyko, Deniz Yuret, Derek Chen, Mátyás Schubert, Derek Tam, Dilyar Buzan, Shyam Upadhyay, Dimitri Coelho Mollo, Dylan Schrader, Ekaterina Shutova, Elad Segal, Eleanor Hagerman, Elizabeth Barnes, Elizabeth Donoway, Emma Lam, Eric Tang, Ernie Chang, Ethan Chi, Ethan Jerzak, Ethan Kim, Eunice Manyasi, Evgenii Zheltonozhskii, Fanyue Xia, Fernando Martínez-Plumed, Francesca Happé, Gloria X Wang, Gonzalo Jaimovitch-Lopez, Gregor Betz, Hana Galijasevic, Hannah Kim, Hannah Rashkin, Hayden Bogar, Henry Shevlin, Hiromu Yakura, Hugh Wong, Kumar Shridhar, Ian Ng, Isaac Noble, Jaap Jumelet, Jack Geissinger, Jackson Kernion, James Zheng, Jan Kocon, Jana Thompson, Janelle Wingfield, Jared Kaplan, Jarema Radom, Jelle Bosscher, Jennifer Marsh, Jeremy Kim, Jeroen Taal, Jesujoba Alabi, Jillian Tang, Joan Waweru, John Burden, Dieuwke Hupkes, John Balis, Jonathan Batchelder, Jörg Frohberg, Jose Hernandez-Orallo, Joseph Boudeman, Joseph Guerr, Joseph Jones, Joshua Rule, Joyce Chua, Kamil Kanclerz, Karthik Gopalakrishnan, Katerina Ignatyeva, Li Zhang, Liam Dugan, Katja Markert, Kaustubh Dhole, Lucas Lam, Kevin Omondi, Kyle McDonell, Laria Reynolds, Lianhui Qin, Lidia Contreras-Ochando, Lucy Noble, Ludwig Schmidt, Luheng He, Luis Oliveros-Colón, Lütfi Kerem Senel, Maria Jose Ramirez-Quintana, Maartje Ter Hoeve, Mohit Bansal, Martha Lewis, Maheen Farooqi, Marco Baturan, Marco Marelli, Marco Maru, Marie Tolkiehn, Michael A. Yee, Mario Giulianelli, Michael Gu, Michael Ivanitskiy, Matthias Hagen, Medina Baitemirova, Mike Cain, Mimee Xu, Mitch Walker, Moin Aminnaseri, Mozhdeh Gheini, Nathan Chi, Michael Starritt, Michał Swędrowski, Michele Bevilacqua, Nayeon Lee, Neta Krakover, Nicholas Cameron, Nick Doiron, Nicole Martinez, Nikita Nangia, Niklas Deckers, Niveditha Iyer, Nuan Wen, Oliver Zhang, Omar Agha, Omar Elbaghdadi, Parth Doshi, Pascale Fung, Pegah Alipoormolabashi, Liao Peiyuan, Peter W Chang, Peter Eckersley, Phu Mon Htut, Pinyu Hwang, Piotr Miłkowski, Piyush Patil, Priti Oli, Qing Lyu, Qinlang Chen, Rabin Banjade, Rachel Rudolph, Raefer Gabriel, Rahel Habacker, Ramon Risco, Raphaël Millière, Rhythm Garg, Richard Barnes, Riku Arakawa, Robbe Raymaekers, Robert Frank, Rohan Sikand, Roman Novak, Paul Pu Liang, Rowan Jacobs, Ryan Stovall, Rylan Yang, Saif Mohammad, Sajant Anand, Sam Dillavou, Sam Wiseman, Samuel Gruetter, Sanghyun Han, Mukund Varma T, Sanjeev Kwatra, Sarah Rous, Sarik Ghazarian, Sean Casey, Sebastian Bischoff, Sebastian Gehrmann, Sepideh Sadeghi, Shadi Hamdan, Sherry Shi, Shikhar Singh, Daphne Ippolito, Shima Asaadi, Shyamolima Debnath, Simon Thormeyer, Sneha Makini, Soo-Hwan Lee, Spencer Torene, Stanislas Dehaene, Stefan Divic, Hanna Hajishirzi, Stephanie Lin, Stephen Prasad, Andrew Dai, Steven Piantadosi, Summer Misherghi, Svetlana Kiritchenko, Tao Li, Tariq Ali, Te-Lin Wu, Théo Desbordes, Theodore Rothschild, Thomas Phan, Tianle Wang, Adrià Garriga-Alonso, Tiberius Nkinyili, Timofei Kornev, Titus Tunduny, Trenton Chang, Tushar Khot, Tyler Shultz, Uri Shaham, Vedant Misra, Victoria Nyamai, Vikas Raunak, vinay prabhu, William Saunders, William Zhang, Wout Vossen, Xiaoyu Tong, Xinyi Wu, Yair Lakretz, Yichi Yang, Sophie Hao, Yifu Chen, Yufang Hou, Yuntao Bai, Zachary Seid, Cristina Garbacea, Ziyi Wu, Genta Winata, Shubham Toshniwal, Abubakar Abid, John Miller, Karen Livescu, Tatsunori Hashimoto, Ekin Cubuk, Sayan Ghosh, Harsh Mehta, Jacob Hilton, Yadollah Yaghoobzadeh, Jiaming Song, Siva Reddy, Stefano Ermon, Shashank Srivastava, Percy Liang, Chiyu Wu, James Koppel, Rui Zhang, David Drakard, Germàn Kruszewski, Dong-Ho Lee, Fatemeh Siar, Luke Metz, Roman Sitelew, Dan Hendrycks, Paul Vicol, Alexander Ray, Tobias Gerstenberg, Chris Callison-Burch, Sriharsha Hatwar, Xinran Zhao, Zijian Wang, Luca Moschella, Sam Bowman, Jaime Fernández Fisac, Danqi Chen, Stella R Biderman, Nitish Shirish Keskar, Eric Chu, Manaal Faruqui, Ksenia Shkaruta, Xudong Shen, Ryan Teehan, Vinay Ramasesh, Andy Zou, Jaehoon Lee, Hinrich Schuetze, Jesse Engel, Tal Schuster, Berk Ekmekci, Yangqiu Song, Andrew Lampinen, Dan Roth, Yasaman Bahri, Jascha Sohl-Dickstein, Jason Yosinski, Sebastian Schuster, Melody Arnaud, Russ Salakhutdinov, Nicholas Roberts, William Fedus, Sam Shleifer, Vivek Srikumar, Ronan Le Bras, Jos Rozen, Kevin Gimpel, Melvin McElrath, Omer Levy, Tal Linzen, Diganta Misra, Frieda Rong, Xiang Ren, Abhishek Rao, Mirac Suzgun, Yejin Choi, Michihiro Yasunaga, Sharon Zhou, Joshua B Tenenbaum, Sahib Singh, Michael Cohen, Tao Yu, Samuel Schoenholz, Rosanne Liu, Ryan Chi, Giambattista Parascandolo, Zhuoye Zhao, Erkut Erdem, Matthew Leavitt, Francois Chollet, Anders J Andreassen, Timo Schick, Vera Demberg, Qiaozhu Mei, Daniel Khashabi, Jonathan Berant, Noah Constant, Alex Warstadt, Zirui Wang, Alethea Power, Niklas Muennighoff, Barret Zoph, Jason Wei, Christopher Manning
Les modèles de langage démontrent à la fois une amélioration quantitative et de nouvelles capacités qualitatives avec une échelle croissante. Malgré leur impact potentiellement transformateur, ces nouvelles capacités sont encore peu caractérisées. Afin d’éclairer les recherches futures, de se préparer aux capacités perturbatrices de nouveaux modèles et d’atténuer les effets socialement nuisibles, il est essentiel que nous comprenions les capacités présentes et futures ainsi que les limites des modèles de langage.
Pour relever ce défi, nous introduisons le benchmark Beyond the Imitation Game (BIG- bench). BIG-bench comprend actuellement 204 tâches, réalisées par 450 auteurs répartis dans 132 institutions. Les sujets des tâches sont variés, s’appuyant sur la linguistique, le développement de l’enfance, les mathématiques, le raisonnement de bon sens, la biologie, la physique, les biais sociaux, le développement de logiciels, et plus encore. BIG-bench se concentre sur des tâches considérées comme dépassant les capacités des modèles de langage actuels. Nous évaluons le comportement des modèles GPT d’OpenAI, des architectures internes de transformateurs denses de Google, et des transformateurs clairsemés de type Switch sur BIG-bench, à travers des tailles de modèles couvrant des millions à des centaines de milliards de paramètres. De plus, une équipe d’experts humains-évaluateurs a accompli toutes les tâches afin d’établir une base de référence solide. Les résultats incluent : la performance du modèle et l’étalonnage s’améliorent toutes deux avec l’échelle, mais sont faibles en termes absolus (et comparées à la performance de l’évaluateur); Les performances sont remarquablement similaires entre les classes de modèles, bien qu’avec des avantages liés à la rareté; Les tâches qui s’améliorent graduellement et de manière prévisible impliquent souvent une grande composante de connaissances ou de mémorisation, tandis que les tâches qui présentent un comportement « percé » à une échelle critique impliquent souvent plusieurs étapes ou composantes, ou des indicateurs fragiles; Le biais social augmente généralement avec l’échelle dans des contextes à contexte ambigu, mais cela peut être amélioré avec des incitations.
Xinghao Wang, Pengyu Wang, Bo Wang (membre du corps professoral vectoriel), Dong Zhang, Yunhua Zhou, Xipeng Qiu
Large language models (LLMs) have revolutionized numerous applications, yet their deployment remains challenged by memory constraints on local devices. While scaling laws have enhanced LLM capabilities, the primary bottleneck has shifted from $\textit{capability}$ to $\textit{availability}$, emphasizing the need for efficient memory management. Traditional compression methods, such as quantization, often require predefined compression ratios and separate compression processes for each setting, complicating deployment in variable memory environments. In this paper, we introduce $\textbf{BitStack}$, a novel, training-free weight compression approach that enables megabyte-level trade-offs between memory usage and model performance. By leveraging weight decomposition, BitStack can dynamically adjust the model size with minimal transmission between running memory and storage devices. Our approach iteratively decomposes weight matrices while considering the significance of each parameter, resulting in an approximately 1-bit per parameter residual block in each decomposition iteration. These blocks are sorted and stacked in storage as basic transmission units, with different quantities loaded based on current memory availability. Extensive experiments across a wide range of tasks demonstrate that, despite offering fine-grained size control, BitStack consistently matches or surpasses strong quantization baselines, particularly at extreme compression ratios. To the best of our knowledge, this is the first decomposition-based method that effectively bridges the gap to practical compression techniques like quantization. Code is available at https://github.com/xinghaow99/BitStack.
Yuan Bian, Grace Yi (affiliée de la faculté Vector), Wenqing He
Boosting a suscité un intérêt considérable tant dans les communautés de l’apprentissage automatique que des statistiques. Les algorithmes traditionnels de boosting, conçus pour des échantillons aléatoires entièrement observés, rencontrent souvent des problèmes réels, en particulier avec les données censurées par intervalles. Ce type de données est courant dans l’analyse de survie et les études temporel-événement, où les heures exactes de l’événement ne sont pas observées mais restent dans des intervalles connus. La gestion efficace de ces données est cruciale dans des domaines comme la recherche médicale, l’ingénierie de la fiabilité et les sciences sociales. Dans ce travail, nous introduisons de nouvelles méthodes de renforcement non paramétrique pour les tâches de régression et de classification avec des données censurées par intervalle. Nos approches exploitent la censure des transformations impartiales pour ajuster les fonctions de perte et imputer des réponses transformées tout en maintenant la précision du modèle. Implémentées via la descente fonctionnelle du gradient, ces méthodes assurent la scalabilité et l’adaptabilité. Nous établissons rigoureusement leurs propriétés théoriques, y compris l’optimalité et les compromis d’erreur quadratique moyenne, offrant des garanties solides. Nos méthodes proposées offrent non seulement un cadre solide pour améliorer la précision prédictive dans les domaines où les données censurées par intervalles sont courantes, mais complètent aussi les travaux existants, élargissant ainsi l’applicabilité des techniques de boosting. Des études empiriques démontrent une performance robuste dans divers scénarios à échantillons finis, soulignant l’utilité pratique de nos approches.
David Glukhov, Ziwen Han, Ilia Shumailov, Vardan Papyan (membre affilié du corps professoral Vector), Nicolas Papernot (membre du corps professoral Vector)
La vulnérabilité des modèles de langage Frontier aux abus et aux jailbreaks a mené au développement de mesures de sécurité telles que des filtres et des formations à l’alignement, dans le but d’assurer la sécurité grâce à la robustesse face aux consignes formulées par des adversaires. Nous affirmons que la robustesse est fondamentalement insuffisante pour assurer les objectifs de sécurité, et que les défenses et méthodes d’évaluation actuelles ne tiennent pas compte des risques des requêtes à double intention ni de leur composition pour des objectifs malveillants. Pour quantifier ces risques, nous introduisons un nouveau cadre d’évaluation de la sécurité basé sur \textit{fuite d’information non permise} des résultats du modèle et démontrons comment notre attaque proposée par question-décomposition peut extraire plus efficacement des connaissances dangereuses d’un LLM censuré que le jailbreak traditionnel. À la base de notre méthode d’évaluation proposée se trouve un nouveau modèle de menace info-théorique des \textit{adversaires inférentiels}, distingué des \textit{adversaires de sécurité}, comme les évasions de prison, en ce que le succès se mesure en inférant des connaissances non permises à partir des résultats de la victime plutôt qu’en forçant des résultats explicitement inadmissibles de la victime. Grâce à notre cadre de théorie de l’information, nous montrons que pour assurer la sécurité contre les adversaires inférentiels, les mécanismes de défense doivent garantir le \textit{censure de l’information}, limitant la fuite d’informations inadmissibles. Cependant, nous prouvons que de telles défenses entraînent inévitablement un compromis sécurité-utilité.
Minghui Chen, Ruinan Jin, Wenlong Deng, Yuanyuan Chen, Zhi Huang, Han Yu, Xiaoxiao Li (membre du corps professoral de Vector)
Des études récentes soulignent le potentiel de l’optimisation des prompts basée sur les LLM, notamment avec TextGrad, qui automatise la « différenciation » via les textes et rétropropage les rétroactions textuelles fournies par les LLM. Cette approche facilite la formation dans diverses applications réelles qui ne supportent pas la propagation numérique du gradient ni le calcul des pertes. Il ouvre de nouvelles voies pour l’optimisation dans des environnements décentralisés et limités en ressources, suggérant que les utilisateurs de LLM boîte noire (par exemple, ChatGPT) pourraient améliorer des composants des systèmes agents LLM (comme l’optimisation des prompts) grâce à des paradigmes collaboratifs comme l’apprentissage fédéré (FL). Dans cet article, nous explorons systématiquement le potentiel et les défis liés à l’intégration du gradient textuel dans la FL. Nos contributions sont quadruples. **Tout d’abord**, nous introduisons un nouveau paradigme FL, le Gradient textuel fédéré (FedTextGrad), qui permet aux clients FL de téléverser leurs prompts optimisés localement dérivés de gradients textuels, tandis que le serveur FL agrège les prompts reçus par résumé textuel. Contrairement aux cadres FL traditionnels, conçus pour l’agrégation numérique, FedTextGrad est spécifiquement conçu pour traiter des données textuelles, élargissant ainsi l’applicabilité de FL à un éventail plus large de problèmes qui manquent de fonctions de perte numérique bien définies. **Deuxièmement**, en s’appuyant sur ce concept, nous menons des expériences approfondies pour explorer la faisabilité des dégradés textuels fédérés. Nos résultats soulignent l’importance d’ajuster correctement les facteurs clés (par exemple, les étapes locales) dans l’entraînement à la FL afin d’intégrer efficacement les dégradés textuels. **Troisièmement**, nous mettons en lumière un défi majeur dans l’agrégation fédérée des gradients textuels : conserver les informations essentielles issues des mises à jour rapides distribuées. La concaténation produit souvent des invites qui dépassent la fenêtre de contexte de l’API LLM, tandis que la synthèse peut dégrader la performance en générant un texte trop condensé ou complexe sans contexte clé. **Enfin, mais non des moindres**, en réponse à ce problème, nous améliorons la variante classique de FedTextGrad en fournissant des conseils concrets au LLM lors du résumé des prompts clients en tirant parti du principe de densité uniforme de l’information. Un tel design réduit la complexité de l’invite globale agrégée, ce qui incite mieux la capacité de raisonnement du LLM. Grâce à cette étude de principe, nous permettons l’adoption de gradients textuels en Floride pour optimiser les LLM, identifier des enjeux importants et cibler des orientations futures, ouvrant ainsi un nouveau domaine de recherche qui mérite une investigation plus approfondie.
Daniel Watson, Saurabh Saxena, Lala Li, Andrea Tagliasacchi, David Fleet (membre du corps professoral de Vector)
Nous présentons 4DiM, un modèle de diffusion en cascade pour la synthèse de nouvelles vues 4D (NVS), supportant la génération avec des trajectoires et des horodatages arbitraires, dans des scènes naturelles, conditionnées à une ou plusieurs images. Avec une architecture et une procédure d’échantillonnage novatrices, nous permettons l’entraînement sur un mélange de données 3D (avec pose caméra), 4D (pose+temps) et vidéo (temps mais pas de pose), ce qui améliore grandement la généralisation vers des images invisibles et des trajectoires de pose de caméra par rapport aux travaux antérieurs qui opèrent généralement dans des domaines limités (par exemple, centrés sur l’objet). 4DiM est la toute première méthode NVS avec un contrôle intuitif de la pose de la caméra à l’échelle métrique, rendu possible par notre pipeline d’étalonnage novateur pour les données structurées à partir du mouvement. Des expériences démontrent que 4DiM surpasse les modèles NVS 3D précédents tant en termes de fidélité d’image que d’alignement des poses, tout en permettant la génération de dynamiques de scènes. 4DiM offre un cadre général pour une variété de tâches, incluant une seule image vers 3D, deux images vers vidéo (interpolation et extrapolation), et la traduction vidéo-vidéo conditionnée à la pose, que nous illustrons qualitativement sur diverses scènes. Voir https://anonymous-4d-diffusion.github.io pour des exemples vidéo.
Zheyuan Zhang, Fengyuan Hu, Jayjun Lee, Freda Shi (membre du corps professoral de Vector), Parisa Kordjamshidi, Joyce Chai, Ziqiao Ma
Les expressions spatiales dans la communication située peuvent être ambiguës, car leurs significations varient selon les référentiels (FoR) adoptés par les locuteurs et les auditeurs. Bien que la compréhension et le raisonnement du langage spatial par les modèles vision-langage (VLM) aient attiré une attention croissante, les ambiguïtés potentielles dans ces modèles restent encore peu explorées. Pour répondre à cette question, nous présentons le Consistent Multilingual Framework Of Reference Test (COMFORT), un protocole d’évaluation visant à évaluer systématiquement les capacités de raisonnement spatial des VLM. Nous évaluons neuf VLM à la fine pointe de la technologie à l’aide de COMFORT. Bien qu’ils montrent un certain alignement avec les conventions anglaises pour résoudre les ambiguïtés, nos expériences révèlent des lacunes importantes des VLM : notamment, les modèles (1) présentent une faible robustesse et cohérence, (2) manquent de flexibilité pour accueillir plusieurs FoR, et (3) ne respectent pas les conventions spécifiques à la langue ou à la culture dans les tests interlinguistiques, l’anglais ayant tendance à dominer les autres langues. Avec un effort croissant pour aligner les modèles vision-langage avec les intuitions cognitives humaines, nous appelons à accorder plus d’attention à la nature ambiguë et à la diversité interculturelle du raisonnement spatial.
Haorui Wang, Marta Skreta, Cher Ser, Wenhao Gao, Lingkai Kong, Felix Strieth-Kalthoff, Chenru Duan, Yuchen Zhuang, Yue Yu, Yanqiao Zhu, Yuanqi Du, Alán Aspuru-Guzik (membre du corps professoral Vector), Kirill Neklyudov, Chao Zhang
La découverte moléculaire, lorsqu’elle est formulée comme un problème d’optimisation, présente des défis computationnels importants car les objectifs d’optimisation peuvent être non différentiables. Les algorithmes évolutifs (EA), souvent utilisés pour optimiser les objectifs en boîte noire dans la découverte moléculaire, traversent l’espace chimique en effectuant des mutations et des croisements aléatoires, ce qui conduit à un grand nombre d’évaluations coûteuses d’objectifs. Dans ce travail, nous corrigeons cette lacune en intégrant des grands modèles de langage (LLM) conscients de la chimie dans les EA. En effet, nous repensons les opérations de crossover et de mutation dans les EAs à l’aide de LLM entraînés sur de grands corpus d’informations chimiques. Nous réalisons des études empiriques approfondies sur des modèles commerciaux et open source sur de multiples tâches impliquant l’optimisation des propriétés, la redécouverte moléculaire et la conception de médicaments basée sur la structure, démontrant que l’utilisation conjointe des LLM avec les EAs offre des performances supérieures à tous les modèles de base, à l’échelle d’un ou plusieurs objectifs. Nous démontrons que notre algorithme améliore à la fois la qualité de la solution finale et la vitesse de convergence, réduisant ainsi le nombre d’évaluations objectives requises.
Leonardo Iurada, Marco Ciccone (boursier postdoctoral distingué Vector), Tatiana Tommasi
Les modèles pré-entraînés sont des tremplins pour les systèmes d’apprentissage automatique modernes, mais comment extraire, réutiliser et orienter efficacement leurs connaissances pour de nouvelles tâches est un domaine de recherche qui reste encore plusieurs questions ouvertes. Les solutions de pointe en arithmétique des tâches sont fortement liées à la linéarisation des modèles, ce qui entraîne des goulots d’étranglement computationnels lors de l’entraînement et de l’inférence, et peut négliger des dépendances essentielles des tâches. Dans ce travail, nous nous concentrons sur l’étape d’ajustement fin qui définit les vecteurs de tâche et proposons TaLoS, une nouvelle approche basée sur un ajustement fin clairsemé qui met à jour stratégiquement uniquement les paramètres censés fournir une localisation fonctionnelle des tâches. Cela donne efficacement des modèles détriqués en poids sans besoin de linéarisation explicite. Nous présentons une analyse expérimentale approfondie montrant comment notre approche améliore significativement l’efficacité de l’entraînement et de l’inférence tout en surpassant les approches de pointe en addition et négation de tâches. Notre travail offre une solution de principe à l’édition de modèles pré-entraînée et ouvre la voie à des systèmes d’apprentissage automatique plus rentables et évolutifs pour des applications réelles.
Wei Yu, Songheng Yin, Steve Easterbrook, Animesh Garg (affilié du corps professoral Vector)
Les avancées récentes dans les modèles de diffusion vidéo ont établi une base solide pour des modèles dans les pays en développement ayant des applications pratiques. Le prochain défi réside dans l’exploration de la manière dont un agent peut exploiter ces modèles fondamentaux pour comprendre, interagir avec et planifier dans les environnements observés. Cela nécessite d’ajouter plus de contrôlabilité au modèle, en le transformant en un moteur de jeu polyvalent capable de manipulation et de contrôle dynamiques. Pour y remédier, nous avons étudié trois facteurs de conditionnement clés : la caméra, le cadre contextuel et le texte, en identifiant les limites dans les conceptions actuelles des modèles. Plus précisément, la fusion des embeddings de la caméra avec des fonctions vidéo fait en sorte que le contrôle de la caméra soit influencé par ces caractéristiques. De plus, bien que l’information textuelle compense les structures spatiotemporelles nécessaires, elle s’infiltre souvent dans des parties déjà observées de la scène. Pour aborder ces problèmes, nous avons conçu la couche d’attention épipolaire de l’espace-temps, qui garantit que l’égomotion générée par le modèle s’aligne strictement avec le mouvement de la caméra à travers des contraintes rigides. De plus, nous proposons l’adaptateur CI2V, qui utilise les informations de la caméra pour mieux déterminer s’il faut prioriser les plongements textuels ou visuels, atténuant ainsi le problème d’intrusion textuelle dans les zones observées. Grâce à des expériences approfondies, nous démontrons que notre nouveau modèle EgoSim obtient d’excellents résultats tant sur les ensembles de données RealEstate que sur les nouveaux ensembles de données Epic-Field réutilisés. Pour plus de résultats, veuillez consulter https://egosim.github.io/EgoSim/.
Ganyu Wang, Boyu Wang (affilié du corps professoral Vector), Bin Gu, Charles Ling (affilié du corps professoral Vector)
L’apprentissage en ligne est plus adaptable aux scénarios réels dans l’apprentissage fédéré vertical (VFL) comparativement à l’apprentissage hors ligne. Cependant, l’intégration de l’apprentissage en ligne dans la VFL présente des défis en raison de la nature unique de la VFL, où les clients possèdent des ensembles de fonctionnalités non intersectables pour le même échantillon. Dans des scénarios réels, les clients peuvent ne pas recevoir de flux de données synchrones pour les caractéristiques disjointes de la même entité. Au lieu de cela, les données sont généralement générées par un *événement* pertinent uniquement pour un sous-ensemble de clients. Nous sommes les premiers à identifier ces défis dans la VFL en ligne, qui avaient été négligés par des recherches antérieures. Pour relever ces défis, nous avons proposé un cadre VFL en ligne axé sur les événements. Dans ce cadre, seul un sous-ensemble de clients était activé lors de chaque événement, tandis que les autres clients collaboraient passivement au processus d’apprentissage. De plus, nous avons intégré *regret local dynamique (DLR)* dans la VFL afin de relever les défis posés par les problèmes d’apprentissage en ligne avec des modèles non convexes dans un environnement non stationnaire. Nous avons mené une analyse complète des regrets de notre cadre proposé, examinant spécifiquement le DLR dans des conditions non convexes avec le VFL en ligne piloté par événements. Des expériences approfondies ont démontré que notre cadre proposé était plus stable que le cadre VFL en ligne existant dans des conditions de données non stationnaires, tout en réduisant significativement les coûts de communication et de calcul.
Raeid Saqur, Anastasis Kratsios (affiliée à la faculté Vector), Florian Krach, Yannick Limmer, Blanka Horvath, Frank Rudzicz (membre du corps professoral Vector)
Nous proposons MoE-F — un mécanisme formalisé pour combiner N grands modèles de langage (LLM) experts pré-entraînés dans des tâches de prédiction de séries temporelles en ligne, en prévoyant de manière adaptative la meilleure pondération des prédictions des LLM à chaque étape temporelle. Notre mécanisme exploite les informations conditionnelles dans la performance de fonctionnement de chaque expert pour prévoir la meilleure combinaison de LLM afin de prédire la série chronologique à l’étape suivante. En s’écartant des méthodes statiques (apprises) du mélange d’experts (MoE), notre approche utilise des techniques de filtrage stochastique adaptatif au temps pour combiner des experts. En encadrant le problème de sélection des experts comme un modèle de Markov caché (HMM) en espace d’états fini et en temps continu, on peut tirer parti du filtre de Wohman-Shiryaev. Notre approche construit d’abord N filtres parallèles correspondant à chacun des N LLM individuels. Chaque filtre propose sa meilleure combinaison de LLM, compte tenu de l’information à laquelle il a accès. Par la suite, les N sorties des filtres sont agrégées de façon optimale pour maximiser leur puissance prédictive robuste, et cette mise à jour est calculée efficacement via une expression en forme fermée, générant ainsi notre prédicteur d’ensemble. Nos contributions sont : **(I)** l’algorithme MoE-F — déployable comme harnais de filtrage plug-and-play, - **(II)** garanties théoriques d’optimalité de l’algorithme de filtrage proposé (via des garanties d’optimalité pour son filtrage bayésien parallèle et ses étapes d’agrégation robustes), et - **(III)** l’évaluation empirique et les résultats ablatifs utilisant des LLM fondamentaux et MoE de pointe sur une tâche réelle _Financial Market Movement_ où le MoE-F atteint un remarquable 17% absolu et 48,5% de F1 relatif mesurent une amélioration par rapport à l’expert individuel LLM suivant le plus performant, prédisant les mouvements du marché à court terme selon les nouvelles en streaming. De plus, nous fournissons des preuves empiriques de gains substantiels de performance dans l’application du MoE-F par rapport à des modèles spécialisés dans le domaine forecasting_ des séries temporelles _long-horizon.
Cory Efird, Alex Murphy, Joel Zylberberg (affilié du corps professoral Vector), Alona Fyshe
Prior work has offered evidence for functional localization in the brain; different anatomical regions preferentially activate for certain types of visual input. For example, the fusiform face area preferentially activates for visual stimuli that include a face. However, the spectrum of visual semantics is extensive, and only a few semantically-tuned patches of cortex have so far been identified in the human brain. Using a multimodal (natural language and image) neural network architecture (CLIP, \cite{CLIP}, we train a highly accurate contrastive model that maps brain responses during naturalistic image viewing to CLIP embeddings. We then use a novel adaptation of the DBSCAN clustering algorithm to cluster the parameters of these participant-specific contrastive models. This reveals what we call Shared Decodable Concepts (SDCs): clusters in CLIP space that are decodable from common sets of voxels across multiple participants.
Examiner les images les plus et les moins associées à chaque cluster SDC nous donne un aperçu supplémentaire des propriétés sémantiques de chaque SDC. Nous notons les SDC pour des caractéristiques visuelles précédemment rapportées (par exemple, l’ajustement de l’orientation dans le cortex visuel précoce) ainsi que pour des concepts sémantiques visuels tels que les visages, les lieux et les corps. Dans les cas où notre méthode trouve plusieurs groupes pour un concept visuo-sémantique, les images les moins associées nous permettent de dissocier entre les facteurs de confusion. Par exemple, nous avons découvert deux groupes d’images alimentaires, l’un basé sur la couleur, l’autre par la forme. Nous découvrons également des zones auparavant non rapportées présentant une sensibilité visuo-sémantique, telles que des régions d’aire corporelle extrastriée (EBA) ajustées pour les jambes/mains et une sensibilité à la numérosité dans le sillon intrapariétal droit, une sensibilité associée à la perspective visuelle (proche/lointaine) et plus encore. Ainsi, notre méthodologie d’apprentissage contrastif caractérise mieux les représentations visuo-sémantiques nouvelles et existantes dans le cerveau en tirant parti des représentations multimodales de réseaux neuronaux et une adaptation novatrice des algorithmes de regroupement.
Qi Chen, Jierui Zhu, Florian Shkurti (affiliés de la faculté Vector)
Malgré le succès empirique des modèles de diffusion (DM) et des autoencodeurs variationnels (VAE), leur performance de généralisation demeure théoriquement sous-explorée, en particulier en manquant d’une prise en compte complète de la structure encodeur-générateur partagé. En tirant parti d’outils récents en théorie de l’information, nous proposons un cadre théorique unifié qui garantit la généralisation à la fois de l’encodeur et du générateur en les traitant comme des applications aléatoires. Ce cadre permet en outre (1) une analyse affinée des AVA, tenant compte de la généralisation du générateur, qui avait été auparavant négligée; (2) illustrer un compromis explicite en termes de généralisation pour les DM qui dépend du temps de diffusion $T$; et (3) fournir des bornes estimables pour les DM basées uniquement sur les données d’entraînement, permettant la sélection des $T$ optimales et l’intégration de ces bornes dans le processus d’optimisation pour améliorer la performance du modèle. Les résultats empiriques sur des ensembles de données synthétiques et réels illustrent la validité de la théorie proposée.
Jiaxi Yang, Wenlong Deng, Benlin Liu, Yangsibo Huang, James Y Zou, Xiaoxiao Li (membre du corps professoral de Vector)
L’évaluation des données joue un rôle crucial en apprentissage automatique. Les méthodes existantes d’évaluation des données, principalement axées sur les modèles discriminatifs, négligent les modèles génératifs qui ont récemment attiré l’attention. Dans les modèles génératifs, l’évaluation des données mesure l’impact des données d’entraînement sur les ensembles de données générés. Très peu de tentatives existantes de méthodes d’évaluation des données conçues pour des modèles génératifs profonds se concentrent sur des modèles spécifiques ou manquent de robustesse dans leurs résultats. De plus, l’efficacité révèle toujours des faiblesses vulnérables. Nous formulons le problème de valorisation des données dans les modèles génératifs à partir d’une perspective d’appariement par similarité pour combler les écarts. Plus précisément, nous introduisons Generative Model Valuator (GMValuator), la première approche sans entraînement et indépendante du modèle pour fournir l’évaluation des données pour les tâches de génération. Il permet une évaluation efficace des données grâce à notre module innovant de correspondance de similarité, calibre les contributions biaisées en intégrant l’évaluation de la qualité de l’image, et attribue des crédits à tous les échantillons d’entraînement en fonction de leur contribution aux échantillons générés. De plus, nous introduisons quatre critères d’évaluation pour évaluer les méthodes d’évaluation des données dans les modèles génératifs. GMValuator est largement évalué sur des ensembles de données de référence et haute résolution ainsi que sur diverses architectures génératives grand public afin de démontrer son efficacité.
Junpeng Liu, Tianyue Ou, Yifan Song, Yuxiao Qu, Wai Lam, Chenyan Xiong, Wenhu Chen (membre du corps professoral Vector), Graham Neubig, Xiang Yue
La compréhension visuelle riche en texte — la capacité d’interpréter à la fois le contenu textuel et les éléments visuels dans une scène — est cruciale pour que les grands modèles de langage multimodaux (MLLM) interagissent efficacement avec des environnements structurés. Nous proposons d’utiliser les interfaces de pages web comme source de données naturellement structurée et diversifiée pour améliorer les capacités des MLLM dans ce domaine. Les approches existantes, telles que l’extraction basée sur des règles, le sous-titrage multimodal de modèles et l’analyse HTML rigide, sont entravées par des problèmes comme le bruit, les hallucinations et la généralisation limitée. Pour surmonter ces défis, nous introduisons MultiUI, un ensemble de données de 7,3 millions d’échantillons couvrant divers types d’UI et tâches, structuré à l’aide d’arbres d’accessibilité améliorés et de taxonomies de tâches. En faisant évoluer les instructions multimodales des interfaces web via les LLM, notre jeu de données améliore la généralisation au-delà des domaines web, améliorant considérablement les performances dans la compréhension des documents, la compréhension des interfaces graphiques, le grounding et les tâches avancées des agents. Cela démontre le potentiel des données web structurées pour améliorer la compétence des MLLM dans le traitement d’environnements visuels riches en texte et la généralisation à travers les domaines.
Chenyu Wang, Sharut Gupta, Xinyi Zhang, Sana Tonekaboni (boursière postdoctorale distinguée Vector), Stefanie Jegelka, Tommi Jaakkola, Caroline Uhler
L’apprentissage multimodal de la représentation cherche à relier et à décomposer l’information inhérente à plusieurs modalités. En démêlant l’information spécifique à la modalité de celle partagée entre différentes modalités, nous pouvons améliorer l’interprétabilité et la robustesse et permettre des tâches en aval telles que la génération de résultats contrefactuels. Séparer ces deux types d’informations est difficile, car ils sont souvent profondément liés à de nombreuses applications réelles. Nous proposons $\textbf{Disentangled}$ $\textbf{S}$elf-$\textbf{S}$upervised $\textbf{L}$earning (DisentangledSSL), une approche novatrice auto-supervisée pour apprendre les représentations démêlées. Nous présentons une analyse complète de l’optimalité de chaque représentation démêlée, en nous concentrant particulièrement sur le scénario non couvert dans les travaux antérieurs où le point dit $\textit{Minimum Necessary Information}$ (MNI) n’est pas atteignable. Nous démontrons que \algo apprend avec succès des caractéristiques partagées et spécifiques à chaque modalité sur plusieurs ensembles de données synthétiques et réels, et surpasse constamment les références sur diverses tâches en aval, y compris les tâches de prédiction pour les données en langage visuel, ainsi que les tâches de récupération de phénotypes moléculaires pour les données biologiques.
Cong Lu, Shengran Hu, Jeff Clune (membre du corps professoral Vector)
Go-Explore est une puissante famille d’algorithmes conçue pour résoudre des problèmes d’exploration difficile, fondée sur le principe d’archiver les états découverts, puis de revenir et d’explorer de manière itérative les états les plus prometteurs. Cette approche a mené à des performances surhumaines sur une grande variété de problèmes complexes, y compris les jeux Atari et le contrôle robotique, mais nécessite de concevoir manuellement des heuristiques pour guider l’exploration (c’est-à-dire déterminer quels états sauvegarder et explorer, et quelles actions envisager ensuite), ce qui est long et généralement irréalisable. Pour résoudre cela, nous proposons l’Intelligent Go-Explore (IGE) qui étend considérablement la portée du Go-Explore original en remplaçant ces heuristiques artisanales par l’intelligence et les notions humaines intériorisées d’intérêt capturées par d’immenses modèles de fondation préentraînés (FM). Cela confère à l’IGE une capacité semblable à celle de l’humain à identifier instinctivement à quel point un nouvel état est intéressant ou prometteur (par exemple, découvrir de nouveaux objets, lieux ou comportements), même dans des environnements complexes où les heuristiques sont difficiles à définir. De plus, l’IGE offre l’occasion passionnante de reconnaître et de tirer parti de découvertes fortuites — des états rencontrés lors de l’exploration, qui sont précieux en termes d’exploration, mais où ce qui les rend intéressants n’était pas anticipé par l’utilisateur humain. Nous évaluons notre algorithme sur une gamme diversifiée de tâches basées sur le langage et la vision qui nécessitent recherche et exploration. Dans ces tâches, l’IGE dépasse largement les références classiques de l’apprentissage par renforcement et de la recherche graphique, et réussit aussi là où des agents FM de pointe comme Reflexion échouent complètement. Dans l’ensemble, Intelligent Go-Explore combine les forces considérables des FM et le puissant algorithme Go-Explore, ouvrant une nouvelle frontière de recherche pour créer des agents plus généralement capables avec des capacités d’exploration impressionnantes. Tout notre code est open source à : https://github.com/conglu1997/intelligent-go-explore.
Article de mise en lumière
Hongkai Zheng, Wenda Chu, Bingliang Zhang, Zihui Wu, Austin Wang, Berthy Feng, Caifeng Zou, Yu Sun (affiliée de la faculté Vector), Nikola Kovachki, Zachary Ross, Katherine Bouman, Yisong Yue
Les méthodes précédentes de diffusion plug-and-play se sont imposées comme une voie de recherche prometteuse pour résoudre des problèmes inverses. Cependant, les études actuelles se concentrent principalement sur la restauration d’images naturelles, laissant la performance de ces algorithmes dans les problèmes scientifiques inverses largement inexplorée. Pour combler cette lacune, nous introduisons \textsc{InverseBench}, un cadre unifié qui évalue les modèles de diffusion sur cinq problèmes scientifiques inverses distincts. Ces problèmes présentent des défis structurels uniques qui diffèrent des références existantes, découlant d’applications scientifiques cruciales telles que l’imagerie des trous noirs, la sismologie, la tomographie optique, l’imagerie médicale et la dynamique des fluides. Avec \textsc{InverseBench}, nous comparons 15 algorithmes de problème inverse qui utilisent des méthodes de diffusion à priori plug-and-play contre des bases solides spécifiques à un domaine, offrant de nouveaux insights précieux sur les forces et faiblesses des algorithmes existants. Nous rendons open source les ensembles de données, les modèles pré-entraînés et la base de code pour faciliter la recherche et le développement futurs.
Sujay Nagaraj, Walter Gerych, Sana Tonekaboni (boursière postdoctorale distinguée Vector), Anna Goldenberg (membre du corps professoral Vector), Berk Ustun, Thomas Hartvigsen
De nombreuses tâches de classification des séries temporelles, où les étiquettes varient dans le temps, sont affectées par le bruit des étiquettes qui varie aussi dans le temps. Un tel bruit peut améliorer, aggraver ou modifier périodiquement la qualité de l’étiquette au fil du temps. Nous proposons d’abord et formalisons le bruit d’étiquette temporelle, un problème non étudié pour la classification séquentielle des séries temporelles. Dans ce contexte, plusieurs étiquettes sont enregistrées au fil du temps tout en étant corrompues par une fonction de bruit dépendante du temps. Nous démontrons d’abord l’importance de modéliser la nature temporelle de la fonction de bruit d’étiquette et comment les méthodes existantes vont constamment sous-performer. Nous proposons ensuite des méthodes capables d’entraîner des classificateurs tolérants au bruit en estimant directement la fonction de bruit temporel des étiquettes à partir des données. Nous démontrons que nos méthodes mènent à des performances de pointe sous divers types de bruit temporel sur des ensembles de données du monde réel.
Zeou Hu, Yaoliang Yu (membre du corps professoral de Vector)
L’optimisation multi-objectifs basée sur le gradient (MOO) est essentielle dans l’apprentissage automatique moderne, avec des applications notamment dans l’apprentissage multitâche, l’apprentissage fédéré, l’équité algorithmique et l’apprentissage par renforcement. Dans ce travail, nous révélons d’abord certaines limites de la stationarité de Pareto, une condition du premier ordre largement acceptée pour l’optimalité de Pareto, en présence de structures à variables de fonction clairsemées. Ensuite, pour tenir compte de cette rareté, nous proposons un concept de solution novateur appelé Stationarité de Pareto raffinée (RPS), que nous prouvons être toujours coincé entre l’optimalité de Pareto et la stationnalité de Pareto. Nous fournissons un algorithme de partitionnement efficace pour exploiter automatiquement la dépendance aux variables de fonction et réduire considérablement les solutions stationnaires de Pareto non optimales. Ensuite, nous montrons que les algorithmes de descente basés sur le gradient dans MOO peuvent être améliorés grâce à notre partitionnement raffiné. En particulier, nous proposons l’algorithme de descente à gradient multiple avec partition raffinée (RP-MGDA) comme méthode d’exemple qui converge vers RPS, tout en conservant une complexité par étape et un taux de convergence similaires. Enfin, nous validons notre approche à travers des expériences sur des exemples synthétiques et des scénarios d’application réalistes où des structures distinctes de dépendance fonction-variable apparaissent. Nos résultats soulignent l’importance d’exploiter la structure fonction-variable dans le MOO basé sur le gradient, et offrent une amélioration fluide des approches existantes.
Armin Toroghi, Ali Pesaranghader, Tanmana Sadhu, Scott Sanner (affilié du corps professoral Vector)
Les grands modèles de langage (LLM) sont de plus en plus appliqués à des tâches nécessitant un raisonnement de bon sens. Malgré leur potentiel exceptionnel, le raisonnement des LLM est sujet à des erreurs et des hallucinations qui nuisent à leur applicabilité, surtout dans des situations à enjeux élevés. Plusieurs travaux ont tenté d’améliorer la performance du raisonnement de bon sens des LLM en (i) en utilisant des styles d’incitation qui permettent un raisonnement plus précis, (ii) en utilisant le LLM comme analyseur sémantique pour un raisonneur symbolique, ou (iii) en imposant le LLM pour simuler une règle d’inférence logique. Cependant, toutes ces solutions présentent des limites critiques : elles ne peuvent pas exploiter la connaissance interne du bon sens du LLM en tandem avec une base de connaissances axiomatique, elles manquent d’un mécanisme pour corriger de manière fiable les étapes erronées d’inférence, et leur application est limitée à de petites bases de connaissances correspondant à la limite contextuelle du LLM. Dans ce travail, nous présentons l’hyperrésolution typée (LLM-TH) basée sur les LLM, un cadre logique de raisonnement de bon sens qui exploite la « résolution théorique », un concept issu de l’inférence logique classique qui permet d’intégrer les LLM dans la règle d’inférence de « résolution », atténuant ainsi les erreurs de raisonnement et les hallucinations et permettant la vérification de la procédure de raisonnement. Le LLM-TH est également équipé d’un mécanisme pour réparer les étapes d’inférence erronées soutenu par des garanties théoriques. En utilisant les schémas « hyperrésolution » et « inférence typée », nous montrons que LLM-TH peut raisonner efficacement sur de vastes bases de connaissances composées de dizaines de milliers de règles avec des arités de prédicats arbitraires. Nos expériences sur trois différentes tâches de raisonnement basées sur le langage — raisonnement par préférences, raisonnement déductif multi-domaines et réponse à des questions géographiques — démontrent que le LLM-TH, utilisant uniquement un modèle NLI du paramètre BART 406M, réduit significativement les erreurs de raisonnement comparativement aux références utilisant Llama3-70B, Gemini1.5-Flash, GPT-3.5-Turbo et Mixtral-46.7B.
Chunjin Song, Zhijie Wu, Shih-Yang Su, Bastian Wandt, Leonid Sigal (membre du corps professoral de Vector), Helge Rhodin
Nous présentons un avatar sensible à la localité, un réseau basé sur un champ de radiance neuronale (NeRF) pour apprendre les mouvements humains à partir de vidéos monoculaires. À cette fin, nous estimons une représentation canonique entre différentes images d’une vidéo avec une correspondance non linéaire de l’observation à l’espace canonique, que nous décomposons en un mouvement rigide squelettique et un pendant non rigide. Notre contribution clé est de conserver des détails précis en modélisant la partie non rigide avec un réseau neuronal graphe (GNN) qui garde l’information de la posture locale aux parties du corps voisines. Comparé aux anciennes méthodes canoniques basées sur des représentations qui ne fonctionnent que sur l’espace de coordonnées d’une forme entière, notre modélisation de mouvement sensible à la localité peut reproduire à la fois des contours de forme réalistes et des détails à grains fins et vifs. Nous évaluons sur ZJU-MoCap, ActorsHQ, SynWild et diverses vidéos extérieures. Les expériences révèlent qu’avec la déformation sensible à la localité de l’espace des caractéristiques canonique, nous sommes les premiers à obtenir des résultats de pointe grâce à la synthèse de nouvelles vues, à l’animation de poses novatrices et à la reconstruction 3D de formes simultanément. Pour des raisons de reproductibilité, le code sera disponible dès sa publication.
Yekun Chai, Haoran Sun, Huang Fang, Shuohuan Wang, Yu Sun (affiliée de la faculté Vector), Hua Wu
L’apprentissage par renforcement à partir de la rétroaction humaine (RLHF) a démontré son efficacité pour aligner les grands modèles de langage (LLM) avec les préférences humaines. Cependant, le RLHF au niveau des jetons souffre du problème d’attribution de crédits sur de longues séquences, où les récompenses retardées rendent difficile pour le modèle de discerner quelles actions ont contribué aux résultats réussis. Cela freine l’efficacité de l’apprentissage et ralentit la convergence. Dans cet article, nous proposons MA-RLHF, un cadre RLHF simple mais efficace qui intègre des actions macro – des séquences de jetons ou des constructions de langage de niveau supérieur – dans le processus d’apprentissage. En opérant à ce niveau d’abstraction plus élevé, notre approche réduit la distance temporelle entre les actions et les récompenses, facilitant ainsi une attribution de crédits plus rapide et plus précise. Cela permet d’obtenir des estimations du gradient de politiques plus stables et d’améliorer l’efficacité de l’apprentissage à chaque épisode, le tout sans augmenter la complexité computationnelle pendant l’entraînement ou l’inférence. Nous validons notre approche par des expériences approfondies sur différentes tailles de modèles et tâches, incluant le résumé de texte, la génération de dialogues, la réponse aux questions et la synthèse de programmes. Notre méthode obtient des améliorations substantielles de performance par rapport au RLHF standard, avec des gains de performance allant jusqu’à 30% en résumé de texte et en génération de code, 18% en dialogue et 8% dans les tâches de réponse aux questions. Notamment, notre approche atteint la parité avec le RLHF vanilla de 1,7 à 2 fois plus vite en termes de temps d’entraînement et continue de la surpasser avec un entraînement supplémentaire. Nous publierons notre code, nos données et nos modèles pour inspirer la recherche future.
Martin Pawelczyk, Jimmy Di, Yiwei Lu, Gautam Kamath (membre du corps professoral de Vector), Ayush Sekhari, Seth Neel
Nous revenons sur l’efficacité de plusieurs méthodes pratiques pour l’apprentissage automatique approximatif développées pour l’apprentissage profond à grande échelle. En plus de se conformer aux demandes de suppression de données, une application potentielle souvent citée pour désapprendre les méthodes est d’éliminer les effets de l’entraînement sur des données empoisonnées. Nous démontrons expérimentalement que, bien que les méthodes existantes de désapprentissage se soient révélées efficaces dans plusieurs contextes d’évaluation (par exemple, atténuer les attaques d’inférence d’appartenance), elles ne parviennent pas à éliminer les effets de l’empoisonnement des données, à travers divers types d’attaques d’empoisonnement (indiscriminées, ciblées et une attaque d’empoisonnement gaussien nouvellement introduite) et des modèles (classificateurs d’images et LLM); même lorsqu’on dispose d’un budget de calcul relativement important. Afin de caractériser précisément l’efficacité du désapprentissage, nous introduisons de nouvelles métriques d’évaluation du désapprentissage basées sur l’empoisonnement des données. Nos résultats suggèrent qu’une perspective plus large, incluant une plus grande variété d’évaluations, est nécessaire pour éviter un faux sentiment de confiance dans les procédures de désapprentissage automatique pour l’apprentissage profond sans garanties prouvées. De plus, bien que les méthodes de désapprentissage montrent certains signes d’utilité pour éliminer efficacement des points de données empoisonnés sans avoir à se réentraîner, nos travaux suggèrent que ces méthodes ne sont pas encore « prêtes pour le grand public » et offrent actuellement un bénéfice limité par rapport à la rééducation.
Article de mise en lumière
Claas Voelcker, Marcel Hussing, Eric Eaton, Amir-massoud Farahmand (affilié du corps professoral Vector), Igor Gilitschenski (affilié du corps professoral Vector)
Construire des agents d’apprentissage par renforcement profond (RL) qui trouvent une bonne politique avec peu d’échantillons s’est avéré notoirement difficile. Pour atteindre l’efficacité de l’échantillon, des travaux récents ont exploré la mise à jour des réseaux de neurones avec un grand nombre d’étapes de gradient pour chaque nouvel échantillon. Bien que de tels ratios élevés de mise à jour par rapport aux données (UTD) aient montré une forte performance empirique, ils introduisent aussi de l’instabilité dans le processus d’entraînement. Les approches précédentes devaient s’appuyer sur des réinitialisations périodiques des paramètres des réseaux neuronaux pour corriger cette instabilité, mais relancer le processus d’entraînement est impossible dans de nombreuses applications réelles et nécessite d’ajuster l’intervalle de réinitialisation. Dans cet article, nous nous concentrons sur l’une des difficultés fondamentales de l’entraînement stable avec des échantillons limités : l’incapacité des fonctions de valeur apprises à se généraliser à des actions non observées sur les politiques. Nous atténuons ce problème directement en complétant le processus d’entraînement RL hors politique avec une petite quantité de données générées à partir d’un modèle de monde appris. Notre méthode, Model-Augmented Data for TD Learning (MAD-TD), utilise de petites quantités de données générées pour stabiliser un entraînement UTD élevé et atteindre une performance compétitive sur les tâches les plus exigeantes de la suite de contrôle DeepMind. Nos expériences soulignent également l’importance d’employer un bon modèle pour générer des données, la capacité de MAD-TD à combattre la surestimation de la valeur, ainsi que ses gains pratiques de stabilité pour l’apprentissage continu.
Zhangchen Xu, Fengqing Jiang, Luyao Niu, Yuntian Deng (affiliée de la faculté Vector), Radha Poovendran, Yejin Choi, Bill Yuchen Lin
Des données d’instructions de haute qualité sont essentielles pour aligner les grands modèles de langage (LLM). Bien que certains modèles, comme Llama-3-Instruct, aient des poids ouverts, leurs données d’alignement restent privées, ce qui freine la démocratisation de l’IA. Des coûts humains élevés et un champ d’action limité et prédéfini empêchent les méthodes existantes de création de données open source de s’étendre efficacement, limitant potentiellement la diversité et la qualité des ensembles de données d’alignement public. Est-il possible de synthétiser à grande échelle des données d’instructions de haute qualité en les extrayant directement d’un LLM aligné? Nous présentons une méthode d’auto-synthèse pour générer des données d’alignement à grande échelle nommée Magpie. Notre observation clé est que les LLM alignés comme Llama-3-Instruct peuvent générer une requête utilisateur lorsque nous n’entrons que les modèles de pré-requête jusqu’à la position réservée aux messages utilisateurs, grâce à leur nature auto-régressive. Nous utilisons cette méthode pour inciter Llama-3-Instruct et générer 4 millions d’instructions ainsi que leurs réponses correspondantes. Nous introduisons également des extensions de Magpie pour le filtrage, la génération de jeux de données multi-tours, optimisation des préférences, spécifiques au domaine et multilingues. Nous réalisons une analyse complète des données générées par les Magpies. Pour comparer les données générées par Magpie avec d’autres ensembles de données d’instructions publiques (par exemple, ShareGPT, WildChat, Evol-Instruct, UltraChat, OpenHermes, Tulu-V2-Mix, GenQA), nous ajustons Llama-3-8B-Base avec chaque ensemble de données et évaluons la performance des modèles affinés. Nos résultats indiquent que l’utilisation de Magpie uniquement pour l’ajustement fin supervisé (SFT) peut surpasser la performance des ensembles de données publics précédents utilisés à la fois pour la SFT et l’optimisation des préférences, comme l’optimisation directe des préférences avec UltraFeedback. Nous montrons aussi que dans certaines tâches, les modèles supervisés et affinés avec Magpie fonctionnent de manière comparable à l’Instruit officiel Llama-3-8B, malgré que ce dernier soit amélioré avec 10 millions de points de données grâce à la SFT et à l’optimisation des préférences ultérieure. Cet avantage est évident sur des benchmarks d’alignement tels qu’AlpacaEval, ArenaHard et WildBench.
Jiacheng Chen, Tianhao Liang, Sherman Siu, Zhengqing Wang, Kai Wang, Yubo Wang, Yuansheng Ni, Ziyan Jiang, Wang Zhu, Bohan Lyu, Dongfu Jiang, Xuan He, Yuan Liu, Hexiang Hu, Xiang Yue, Wenhu Chen (membre du corps professoral du Vector)
Nous présentons MEGA-Bench, une suite d’évaluation qui étend l’évaluation multimodale à plus de 500 tâches réelles, afin de répondre aux cas d’utilisation quotidiens très hétérogènes des utilisateurs finaux. Notre objectif est d’optimiser pour un ensemble d’échantillons de données de haute qualité couvrant un ensemble très diversifié et riche de tâches multimodales, tout en permettant une évaluation des modèles rentable et précise. En particulier, nous avons recueilli 505 tâches réalistes englobant plus de 8 000 échantillons provenant de 16 annotateurs experts pour couvrir largement l’espace des tâches multimodales. Au lieu d’unifier ces problèmes en questions à choix multiples standard (comme MMMU, MM-Bench et MMT-Bench), nous adoptons une large gamme de formats de sortie comme les nombres, les phrases, le code, le LaTeX, les coordonnées, le JSON, le free-form, etc. Pour s’adapter à ces formats, nous avons développé plus de 40 indicateurs pour évaluer ces tâches. Contrairement aux benchmarks existants, MEGA-Bench offre un rapport de capacités détaillé sur plusieurs dimensions (par exemple, application, type d’entrée, format de sortie, compétence), permettant aux utilisateurs d’interagir et de visualiser en profondeur les capacités du modèle. Nous évaluons une grande variété de modèles de vision-langage de pointe sur MEGA-Bench afin de comprendre leurs capacités à travers ces dimensions.
Article de mise en lumière
Jinjie Ni, Yifan Song, Deepanway Ghosal, Bo Li, David Junhao Zhang, Xiang Yue, Fuzhao Xue, Yuntian Deng (affilié de la faculté Vector), Andy Zheng, Kaichen Zhang, Mahir Shah, Kabir Jain, Yang You, Michael Qizhe Shieh
La perception et la génération de différentes modalités sont essentielles pour que les modèles d’IA apprennent efficacement des signaux réels et s’y engagent, ce qui nécessite des évaluations fiables pour leur développement. Nous identifions deux problèmes majeurs dans les évaluations actuelles : (1) des normes incohérentes, façonnées par différentes communautés avec des protocoles et des niveaux de maturité variés; et (2) des biais importants liés aux requêtes, à la notation et à la généralisation. Pour y remédier, nous introduisons MixEval-X, la première référence de type n’importe quel à n’importe quel type concrète conçue pour optimiser et standardiser les évaluations à travers diverses modalités d’entrée et de sortie. Nous proposons des pipelines multimodaux de mélange de benchmarks et d’adaptation-rectification pour reconstruire la distribution réelle des tâches, assurant que les évaluations se généralisent efficacement aux cas d’usage réels. Des méta-évaluations approfondies montrent que notre approche aligne efficacement les échantillons de référence avec la répartition réelle des tâches. Par contre, les classements des modèles de MixEval-X sont fortement corrélés à ceux des évaluations participatives du monde réel (jusqu’à 0,98) tout en étant beaucoup plus efficaces. Nous fournissons des classements complets pour reclasser les modèles et organisations existants et proposons des perspectives pour améliorer la compréhension des évaluations multimodales et éclairer les recherches futures.
Anvith Thudi, Chris Maddison (membre du corps professoral de Vector)
Les modèles d’apprentissage automatique doivent souvent bien fonctionner dans plusieurs paramètres prédéfinis, comme un ensemble de groupes d’utilisateurs. La performance dans le pire des cas est une métrique courante pour capturer cette exigence, et constitue l’objectif de l’optimisation robuste à la distribution par groupe (DRO de groupe). Malheureusement, ces méthodes rencontrent des difficultés lorsque la perte n’est pas convexe dans les paramètres, ou que la classe du modèle est non paramétrique. Ici, nous faisons un geste classique pour y répondre : nous reparamétrisons les DRO de groupe de l’espace des paramètres vers l’espace des fonctions, ce qui entraîne plusieurs avantages. D’abord, nous montrons que le groupe DRO sur l’espace des fonctions bornées admet un théorème minimax. Deuxièmement, pour l’entropie croisée et l’erreur quadratique moyenne, nous montrons que la distribution optimale de mélange minimax est la solution d’un problème simple d’optimisation convexe. Ainsi, à condition de travailler avec une classe de modèles d’approximateurs de fonctions universelles, le DRO de groupe peut être résolu par un problème d’optimisation convexe suivi d’un problème classique de minimisation des risques. Nous appelons notre méthode MixMax. Dans nos expériences, nous avons constaté que MixMax correspondait ou surpassait les bases de référence standard des groupes de DRO, et en particulier, MixMax améliorait la performance de XGBoost par rapport à la seule base, l’équilibrage des données, pour les variations des ensembles de données d’annotations ACSIncome et CelebA.
Article de mise en lumière
Zeinab Navidi, Jun Ma, Esteban Miglietta, Le Liu, Anne Carpenter, Beth Cimini, Benjamin Haibe-Kains (affilié de la faculté Vector), Bo Wang (faculté Vector)
Comprendre les réponses cellulaires aux stimuli externes est essentiel pour analyser les mécanismes biologiques et faire progresser le développement thérapeutique. Les tests basés sur des images à haute teneur offrent une approche rentable pour examiner les phénotypes cellulaires induits par diverses interventions, ce qui offre des informations précieuses sur les processus biologiques et les états cellulaires. Dans cet article, nous introduisons MorphoDiff, un pipeline génératif permettant de prédire les réponses morphologiques cellulaires à haute résolution sous différentes conditions, basé sur l’encodage par perturbation. À notre connaissance, MorphoDiff est le premier cadre capable de produire des prédictions guidées et à haute résolution de la morphologie cellulaire qui se généralisent à la fois aux interventions chimiques et génétiques. Le modèle intègre des plongements de perturbation comme signaux guides dans un modèle de diffusion latente 2D. Les validations computationnelles, biologiques et visuelles complètes à travers trois ensembles de données open source de Cell Painting démontrent que MorphoDiff peut générer des images haute fidélité et produire des signaux biologiques significatifs sous diverses interventions. Nous envisageons que le modèle facilitera une exploration efficace in silico des paysages perturbationnels vers des études de découverte de médicaments plus efficaces.
Article de mise en lumière
Ashish Khisti (affilié de la faculté Vector), MohammadReza Ebrahimi, Hassan Dbouk, Arash Behboodi, Roland Memisevic, Christos Louizos
Nous considérons l’échantillonnage spéculatif multi-ébauches, où les séquences de propositions sont échantillonnées indépendamment de différents modèles de brouillons. À chaque étape, un schéma de sélection au niveau du jeton prend une liste de jetons valides en entrée et produit un jeton de sortie dont la distribution correspond à celle du modèle cible. Des travaux antérieurs ont démontré que le schéma optimal (qui maximise la probabilité d’accepter un des jetons d’entrée) peut être présenté comme une solution à un programme linéaire. Dans ce travail, nous montrons que le schéma optimal peut être décomposé en une solution en deux étapes : à la première étape, un schéma de type échantillonnage d’importance (IS) est utilisé pour sélectionner un jeton intermédiaire; à la deuxième étape (brouillon unique), un échantillonnage spéculatif est appliqué pour générer le jeton de sortie. Pour le cas de deux modèles de brouillon identiques, nous 1) établissons une condition nécessaire et suffisante sur les distributions des modèles cible et brouillon pour que la probabilité d’acceptation soit égale à un et 2) fournissons une expression explicite pour la probabilité d’acceptation optimale. Notre analyse théorique motive également une nouvelle classe de schéma de sélection au niveau des jetons basé sur l’échantillonnage pondéré d’importance. Nos résultats expérimentaux démontrent des améliorations constantes de l’efficacité des blocs réalisables et des taux de jetons par rapport aux schémas de référence dans plusieurs scénarios.
Haitz Sáez de Ocáriz Borde, Anastasis Kratsios (affilié à la faculté Vector), Marc T Law, Xiaowen Dong, Michael Bronstein
We propose a class of trainable deep learning-based geometries called Neural SpaceTimes (NSTs), which can universally represent nodes in weighted Directed Acyclic Graphs (DAGs) as events in a spacetime manifold. While most works in the literature focus on undirected graph representation learning or causality embedding separately, our differentiable geometry can encode both graph edge weights in its spatial dimensions and causality in the form of edge directionality in its temporal dimensions. We use a product manifold that combines a quasi-metric (for space) and a partial order (for time). NSTs are implemented as three neural networks trained in an end-to-end manner: an embedding network, which learns to optimize the location of nodes as events in the spacetime manifold, and two other networks that optimize the space and time geometries in parallel, which we call a neural (quasi-)metric and a neural partial order, respectively. The latter two networks leverage recent ideas at the intersection of fractal geometry and deep learning to shape the geometry of the representation space in a data-driven fashion, unlike other works in the literature that use fixed spacetime manifolds such as Minkowski space or De Sitter space to embed DAGs. Our main theoretical guarantee is a universal embedding theorem, showing that any $k$-point DAG can be embedded into an NST with $1+\mathcal{O}(\log(k))$ distortion while exactly preserving its causal structure. The total number of parameters defining the NST is sub-cubic in $k$ and linear in the width of the DAG. If the DAG has a planar Hasse diagram, this is improved to $\mathcal{O}(\log(k) + 2)$ spatial and 2 temporal dimensions. We validate our framework computationally with synthetic weighted DAGs and real-world network embeddings; in both cases, the NSTs achieve lower embedding distortions than their counterparts using fixed spacetime geometries.
Haotian Ju, Hongyang Zhang (Affiliée à la faculté Vector), Dongyue Li
L’entraînement des réseaux de neurones surparamétrés a fait l’objet de nombreuses études dans la littérature récente. Une considération importante est la régularisation des réseaux surparamétrisés en raison de leur géométrie hautement non convexe et non linéaire. Dans cet article, nous étudions les algorithmes d’injection de bruit, qui peuvent régulariser la Hessien de la perte, menant à des régions avec des surfaces de perte plates. Plus précisément, en injectant du bruit gaussien isotrope dans les matrices de poids d’un réseau de neurones, on peut obtenir une estimation approximativement non biaisée de la trace de la Hessien. Cependant, implémenter naïvement l’injection de bruit en ajoutant du bruit aux matrices de poids avant la rétropropagation présente des améliorations empiriques limitées. Pour répondre à cette limitation, nous concevons une estimation en deux points de la pénalité de Hesse, qui injecte du bruit dans les matrices de poids le long des directions positive et négative du bruit aléatoire. En particulier, cette estimation en deux points élimine la variance du terme d’expansion de Taylor du premier ordre sur le Hessois. Nous montrons une borne de généralisation PAC-Bayes qui dépend de la trace de la Hessien (et du rayon de l’espace de poids), qui peut être mesurée à partir des données.
Nous menons une étude expérimentale détaillée pour valider notre approche et démontrer qu’elle peut régulariser efficacement le Hessois et améliorer la généralisation. Premièrement, notre algorithme peut surpasser les approches précédentes sur l’entraînement à réduction de netteté, offrant jusqu’à 2,4% d’augmentation de la précision des tests pour l’ajustement fin des ResNets sur six ensembles de données de classification d’images. De plus, la trace du Hessois diminue de 15,8%, et la plus grande valeur propre est réduite de 9,7% avec notre approche. Nous constatons également que la régularisation du Hessois peut être combinée avec des méthodes de régularisation alternatives, telles que la désintégration des poids et l’augmentation des données, menant à une régularisation plus forte. Deuxièmement, notre approche demeure très efficace pour améliorer la généralisation dans le préentraînement des modèles multimodaux CLIP et l’ajustement fin par chaîne de pensée.
Stephen Zhang, Vardan Papyan (affilié du corps professoral Vector)
Le récent changement de paradigme vers les modèles de fondation à grande échelle a inauguré une nouvelle ère pour l’apprentissage profond qui, bien qu’ayant rencontré un grand succès en pratique, a aussi été minée par des coûts prohibitifs en termes de consommation mémoire et de calcul élevés. Pour atténuer ces problèmes, un effort concerté a été déployé dans des techniques d’élagage post-hoc des réseaux neuronaux qui ne nécessitent pas de réentraînement coûteux. Malgré les progrès considérables, les méthodes existantes présentent souvent une baisse constante des performances du modèle à mesure que la compression augmente. Dans cet article, nous présentons une approche novatrice pour comprimer de grands transformateurs, appelée OATS, qui comprime les poids du modèle en approximant chaque matrice de poids comme la somme d’une matrice parcipienne et d’une matrice de bas rang. Avant la décomposition, les poids sont d’abord mis à l’échelle au second moment de leurs plongements d’entrée, afin d’assurer la préservation des caractéristiques aberrantes récemment observées dans les grands modèles de transformateurs. Sans réentraînement, OATS atteint des performances de pointe lors de la compression de grands modèles de langage, tels que Llama-3 et Phi-3, ainsi que de transformateurs de vision, comme ViT et DINOv2 de Google, jusqu’à 60% $, tout en accélérant l’inférence du modèle sur un processeur jusqu’à 1,37 $ par rapport aux méthodes d’élagage précédentes.
Maxence Faldor, Jenny Zhang, Antoine Cully, Jeff Clune (membre du corps professoral de Vector)
Les algorithmes ouverts et générateurs d’IA visent à générer et résoudre continuellement des tâches de plus en plus complexes indéfiniment, offrant une voie prometteuse vers une intelligence plus générale. Pour réaliser cette grande vision, l’apprentissage doit se faire dans un vaste éventail de tâches potentielles. Les approches existantes pour générer automatiquement des environnements sont limitées dans des distributions manuellement prédéfinies, souvent étroites, ce qui limite leur capacité à créer un environnement d’apprentissage. Pour remédier à cette limitation, nous introduisons un cadre novateur, OMNI-EPIC, qui complète les travaux antérieurs en ouverture via des modèles de notions humaines d’intérêt (OMNI) avec des environnements programmés en code (EPIC). OMNI-EPIC exploite des modèles de base pour générer de façon autonome du code spécifiant la prochaine tâche apprenable (c’est-à-dire pas trop facile ou difficile pour les compétences actuelles de l’agent) et intéressante (par exemple, intéressante et intéressante). OMNI-EPIC génère à la fois des environnements (par exemple, un parcours d’obstacles) et des fonctions de récompense (par exemple, progresser rapidement dans le parcours sans toucher d’objets rouges), ce qui lui permet, en principe, de créer toute tâche d’apprentissage simulable. Nous mettons en valeur la créativité explosive d’OMNI-EPIC, qui innove continuellement pour proposer de nouveaux défis d’apprentissage intéressants. Nous mettons également en lumière comment OMNI-EPIC peut s’adapter aux progrès d’apprentissage des agents d’apprentissage par renforcement, générant des tâches de difficulté appropriée. Dans l’ensemble, OMNI-EPIC a le potentiel de créer sans fin des environnements apprennables et intéressants, favorisant davantage le développement de systèmes d’IA auto-améliorés et d’algorithmes générateurs d’IA.
Cong Wei, Zheyang Xiong, Weiming Ren, Xeron Du, Ge Zhang, Wenhu Chen (membre du corps professoral de Vector)
Les méthodes d’édition d’images guidées par instructions ont démontré un potentiel significatif en entraînant des modèles de diffusion sur des paires d’édition d’images synthétisées automatiquement ou annotées manuellement. Cependant, ces méthodes restent loin d’être des applications pratiques et réelles. Nous identifions trois principaux défis contribuant à cet écart. Premièrement, les modèles existants ont des compétences limitées en édition en raison du processus de synthèse biaisé. Deuxièmement, ces méthodes sont entraînées avec des ensembles de données contenant un volume élevé de bruit et d’artefacts. Cela est dû à l’application de méthodes de filtrage simples comme CLIP-score. Troisièmement, tous ces ensembles de données sont limités à une seule basse résolution et un rapport d’aspect fixe, ce qui limite la polyvalence pour gérer des cas d’utilisation réels. Dans cet article, nous présentons OmniEdit, un éditeur omnipotent capable de gérer sept tâches différentes de retouche d’image avec n’importe quel format d’image de manière fluide. Notre contribution se divise en quatre volets : (1) OmniEdit est formé en utilisant la supervision de sept modèles spécialisés différents pour assurer la couverture des tâches. (2) nous utilisons l’échantillonnage d’importance basé sur les scores fournis par les grands modèles multimodaux (comme GPT-4o) au lieu de CLIP-score pour améliorer la qualité des données. (3) nous proposons une nouvelle architecture de montage appelée EditNet pour augmenter considérablement le taux de réussite de l’édition, (4) nous fournissons des images avec différents rapports d’aspect pour garantir que notre modèle puisse gérer n’importe quelle image dans la nature. Nous avons sélectionné un ensemble de test contenant des images de différents rapports d’aspect, accompagnées d’instructions variées pour couvrir différentes tâches. L’évaluation automatique et les évaluations humaines démontrent qu’OmniEdit peut surpasser largement tous les modèles existants.
Article de mise en lumière
Ziyu Chen, Jiawei Yang, Jiahui Huang, Riccardo de Lutio, Janick Martinez Esturo, Boris Ivanovic, Or Litany, Zan Gojcic, Sanja Fidler (membre du corps professoral de Vector), Marco Pavone, Li Song, Yue Wang
Nous lançons OmniRe, un système complet permettant de créer efficacement des jumeaux numériques haute fidélité de scènes dynamiques du monde réel à partir des journaux embarqués. Les méthodes récentes utilisant des champs neuronaux ou le splatting gaussien se concentrent principalement sur les véhicules, entravant un cadre global pour tous les premiers plans dynamiques exigés par les applications en aval, par exemple la simulation du comportement humain. OmniRe va au-delà de la modélisation des véhicules pour permettre une reconstruction précise et en pleine longueur d’objets dynamiques divers dans des scènes urbaines. Notre approche construit des graphes de scène sur 3DGS et construit plusieurs représentations gaussiennes dans des espaces canoniques qui modélisent divers acteurs dynamiques, y compris les véhicules, les piétons, les cyclistes et d’autres. OmniRe permet de reconstruire de manière holistique tout objet dynamique dans la scène, permettant des simulations avancées (~60 Hz) incluant des scénarios impliqués par des humains, comme la simulation du comportement des piétons et l’interaction humain-véhicule. Cette capacité de simulation complète est inégalée par les méthodes existantes. Des évaluations approfondies de l’ensemble de données Waymo montrent que notre approche surpasse largement les méthodes de pointe antérieures, tant sur le plan quantitatif que qualitatif. Nous étendons également nos résultats à 5 autres ensembles de données populaires pour démontrer sa généralisabilité sur les scènes urbaines courantes. Nous rendrons le code et les données accessibles au public.
Ruiyi Fang, Bingheng Li, Zhao Kang, Qiuhao Zeng, Ruizhi Pu, Nima Hosseini Dashtbayaz, Charles Ling (affilié à la faculté Vector), Boyu Wang (affilié à la faculté Vector)
L’adaptation du domaine des graphes (GDA) répond à un défi pressant dans l’apprentissage inter-réseaux, particulièrement pertinent en raison de l’absence de données étiquetées dans les ensembles de données de graphes réels. Des études récentes ont tenté d’apprendre les représentations invariantes de domaine en éliminant les déplacements structurels entre graphes. Dans ce travail, nous montrons que les méthodologies existantes ont négligé l’importance de l’attribut du nœud graphe, un facteur clé pour l’alignement du domaine du graphe. Plus précisément, nous révélons d’abord l’impact des attributs des nœuds pour la GDA en démontrant théoriquement qu’en plus de la divergence structurelle des graphes entre les domaines, la divergence des attributs des nœuds joue aussi un rôle crucial dans la GDA. De plus, nous montrons empiriquement que le décalage d’attribut est plus important que le décalage topologique, ce qui souligne encore l’importance de l’alignement des attributs des nœuds dans la GDA. Inspiré par cette découverte, un nouveau module transversal est développé pour fusionner et aligner les deux vues entre les graphes source et cible pour GDA. Les résultats expérimentaux sur divers benchmarks confirment l’efficacité de notre méthode.
Zenan Li, Zhaoyu Li, Wen Tang, Xian Zhang, Yuan Yao, Xujie Si (affiliée de la faculté Vector), Fan Yang, Kaiyu Yang, Xiaoxing Ma
Large language models (LLMs) can prove mathematical theorems formally by generating proof steps (\textit{a.k.a.} tactics) within a proof system. However, the space of possible tactics is vast and complex, while the available training data for formal proofs is limited, posing a significant challenge to LLM-based tactic generation. To address this, we introduce a neuro-symbolic tactic generator that synergizes the mathematical intuition learned by LLMs with domain-specific insights encoded by symbolic methods. The key aspect of this integration is identifying which parts of mathematical reasoning are best suited to LLMs and which to symbolic methods. While the high-level idea of neuro-symbolic integration is broadly applicable to various mathematical problems, in this paper, we focus specifically on Olympiad inequalities (Figure~1). We analyze how humans solve these problems and distill the techniques into two types of tactics: (1) scaling, handled by symbolic methods, and (2) rewriting, handled by LLMs. In addition, we combine symbolic tools with LLMs to prune and rank the proof goals for efficient proof search. We evaluate our framework on 161 challenging inequalities from multiple mathematics competitions, achieving state-of-the-art performance and significantly outperforming existing LLM and symbolic approaches without requiring additional training data.
Ignat Georgiev, Varun Giridhar, Nicklas Hansen, Animesh Garg (affilié du corps professoral Vector)
L’apprentissage par renforcement (RL) a fait des progrès significatifs dans les tâches complexes, mais rencontre des difficultés dans des contextes multitâches avec différentes incarnations. Les méthodes des modèles mondiaux offrent une évolutivité en apprenant une simulation de l’environnement, mais reposent souvent sur des méthodes d’optimisation inefficaces sans gradient pour l’extraction de politiques. En revanche, les méthodes basées sur le gradient présentent une variance plus faible mais ne gèrent pas les discontinuités. Nos travaux révèlent que des modèles de mondes bien régularisés peuvent générer des paysages d’optimisation plus fluides que les dynamiques réelles, facilitant ainsi une optimisation du premier ordre plus efficace. Nous introduisons l’apprentissage des politiques avec les World Models multitâches (PWM), un nouvel algorithme RL basé sur des modèles pour le contrôle continu. Au départ, le modèle mondial est pré-entraîné sur des données hors ligne, puis les politiques en sont extraites en optimisation du premier ordre en moins de 10 minutes par tâche. La PWM résout efficacement des tâches allant jusqu’à 152 dimensions d’action et surpasse les méthodes utilisant des dynamiques basiques. De plus, la PWM s’étend à un environnement de 80 tâches, offrant jusqu’à 27% de récompenses supérieures aux références existantes, sans recourir à une planification en ligne coûteuse. Visualisations et code disponibles à [https://policy-world-model.github.io/]
Sara Oblak, Despoina Paschalidou, Sanja Fidler (membre du corps professoral Vector), Matan Atzmon
Reconstruire des scènes dynamiques à partir d’entrées d’images est une tâche fondamentale en vision par ordinateur avec de nombreuses applications en aval. Malgré les avancées récentes, les approches existantes peinent encore à obtenir des reconstructions de haute qualité à partir de points de vue et d’horodatages invisibles. Ce travail introduit le cadre ReMatching, conçu pour améliorer la qualité de la généralisation en incorporant les priors de déformation dans les modèles de reconstruction dynamique. Notre approche préconise les priors basés sur le champ de vitesse, pour lesquels nous suggérons une procédure d’appariement capable de compléter sans interruption les pipelines de reconstruction dynamique existants. Le cadre est très adaptable et peut être appliqué à diverses représentations dynamiques. De plus, il supporte l’intégration de plusieurs types de priors de modèles et permet de combiner des types plus simples pour créer des classes plus complexes. Nos évaluations sur des benchmarks populaires, impliquant à la fois des scènes dynamiques synthétiques et réelles, démontrent une nette amélioration de la précision de la reconstruction des modèles actuels de pointe.
Article de mise en lumière
Yushi Guan, Daniel Kwan, Jean Dandurand, Xi Yan, Ruofan Liang, Yuxuan Zhang, Nilesh Jain, Nilesh Ahuja, Selvakumar Panneer, Nandita Vijaykumar (affiliée de la faculté Vector)
Les représentations graphiques neuronales 3D apprenables (3DNGR) sont apparues comme des représentations 3D prometteuses pour reconstruire des scènes 3D à partir d’images 2D. De nombreux travaux, dont Neural Radiance Fields (NeRF), 3D Gaussian Splatting (3DGS) et leurs variantes, ont considérablement amélioré la qualité de ces représentations. La facilité de construction à partir d’images 2D, la compatibilité pour la visualisation et le partage en ligne, ainsi que les applications dans les tâches de conception de jeux ou d’art en font une représentation 3D essentielle, avec un potentiel de création d’un grand nombre de ces modèles 3D. Cela nécessite de grands entrepôts de données, locaux ou en ligne, pour sauvegarder des données visuelles 3D dans ces formats. Cependant, aucun cadre existant ne permet une récupération précise des 3DNGR stockés. Dans ce travail, nous proposons Retri3D, un cadre qui permet une récupération précise et efficace de scènes 3D représentées par des NGR à partir de grands magasins de données à l’aide de requêtes textuelles. Nous introduisons une technique novatrice d’analyse d’artefacts de champ neuronal, combinée à un module intelligent de mouvement de caméra, pour sélectionner des vues nettes et naviguer dans des 3DNGR pré-entraînés. Ces techniques permettent une récupération précise en sélectionnant les meilleures directions de vision dans la scène 3D pour des embeddings visuels de haute qualité. Nous démontrons que Retri3D est compatible avec toute représentation NGR. Sur les ensembles de données LERF et ScanNet++, nous montrons une amélioration significative de la précision de la récupération par rapport aux techniques existantes, tout en étant des ordres de grandeur plus rapides et efficaces en stockage.
Article de mise en lumière
Wenlong Deng, Yize Zhao, Vala Vakilian, Minghui Chen, Xiaoxiao Li (membre du corps professoral vectoriel), Christos Thrampoulidis
Stocker des modèles affinés open source séparément introduit de la redondance et augmente les temps de réponse dans les applications utilisant plusieurs modèles. L’élagage par paramètres delta (DPP), en particulier la méthode random drop and rescale (DARE) proposée par Yu et al., répond à cela en élagant la majorité des paramètres delta — les différences entre les poids des modèles finement ajustés et pré-entraînés — tout en maintenant généralement une perte de performance minimale. Cependant, le DARE échoue lorsque le taux d’élagage ou la magnitude des paramètres delta est élevé. Nous soulignons deux raisons clés de cet échec : (1) un facteur de redimensionnement excessivement élevé à mesure que les taux d’élagage augmentent, et (2) une moyenne et une variance élevées dans les paramètres delta. Pour y remédier, nous développons deux améliorations algorithmiques : (1) DARq, qui modifie le facteur de remise à l’échelle dans DARE, menant à des gains de performance significatifs à des taux d’élagage élevés (par exemple, >30% sur COLA et SST2 pour les modèles encodeurs, avec des améliorations encore plus importantes dans les modèles décodeurs), et (2) AdamR, une modification en cours d’entraînement qui intègre une régularisation Delta appropriée avant d’appliquer DPP. Nous démontrons également que DARq peut être combiné sans effort avec des techniques d’ajustement fin efficaces par paramètre vanilla comme LoRA et peut faciliter la DPP structurelle. De plus, nous revenons sur l’application des techniques d’élagage basées sur l’importance dans le DPP, démontrant qu’elles surpassent les méthodes basées sur le hasard lorsque les paramètres delta sont grands. Grâce à cette étude approfondie, nous développons un pipeline pour sélectionner la méthode DPP la plus appropriée dans divers scénarios pratiques.
Gezheng Xu, Hui Guo, Li Yi, Charles Ling (affilié à la faculté Vector), Boyu Wang (affilié à la faculté Vector), Grace Yi (affiliée à la faculté Vector)
L’adaptation de domaine sans source (SFDA) vise à adapter un modèle source pré-entraîné au domaine cible en utilisant uniquement des données cibles non étiquetées, sans accès aux données sources originales. Bien que les méthodes actuelles de pointe (SOTA) reposent sur l’exploitation d’une supervision faible du modèle source pour extraire des informations fiables en vue d’une adaptation auto-supervisée, elles négligent souvent l’incertitude qui survient lors du processus de transfert. Dans cet article, nous réalisons une analyse systématique et théorique de l’incertitude inhérente aux méthodes SFDA existantes et démontrons son impact sur la performance des transferts à travers le prisme de l’optimisation robuste à la distribution (DRO). En s’appuyant sur les résultats théoriques, nous proposons un nouvel algorithme de contrôle de l’incertitude dépendant de l’instance pour la SFDA. Notre méthode est conçue pour quantifier et exploiter l’incertitude durant le processus d’adaptation, améliorant significativement la performance du modèle. Des expériences approfondies sur des ensembles de données de référence et des analyses empiriques confirment la validité de nos résultats théoriques et l’efficacité de la méthode proposée. Ce travail offre de nouvelles perspectives pour comprendre et faire progresser la performance de la SFDA.
William Wang, Jiachen Li, Weixi Feng, Wenhu Chen (membre du corps professoral de Vector)
La distillation de consistance latente (LCD) s’est imposée comme un paradigme prometteur pour une synthèse efficace texte-image. En distillant un modèle de cohérence latente (LCM) à partir d’un modèle de diffusion latente (LDM) pré-formé, l’LCD facilite la génération d’images haute fidélité en seulement 2 à 4 étapes d’inférence. Cependant, l’inférence efficace du MCL est obtenue au détriment de la qualité de l’échantillon. Dans cet article, nous proposons de compenser la perte de qualité en alignant la production du LCM avec la préférence humaine pendant la formation. Plus précisément, nous introduisons le LCD guidé par la récompense (RG-LCD), qui intègre la rétroaction d’un modèle de récompense (RM) dans le processus de l’écran LCD en augmentant la perte initiale de l’écran LCD dans le but de maximiser la récompense associée à la génération en une seule étape de la LCM. Comme validé par l’évaluation humaine, lorsqu’ils sont entraînés avec la rétroaction d’un bon RM, les générations en 2 étapes de notre RG-LCM sont préférées par les humains par rapport aux échantillons DDIM en 50 étapes du LDM enseignant, représentant une accélération d’inférence de 25 temps sans perte de qualité.
Comme l’optimisation directe vers des RM différentiables peut souffrir d’une sur-optimisation, nous faisons le premier pas pour surmonter cette difficulté en proposant l’utilisation d’un RM proxy latent (LRM). Ce composant novateur sert d’intermédiaire, reliant notre LCM au RM. Empiriquement, nous démontrons que l’intégration du LRM dans notre RG-LCD évite avec succès le bruit à haute fréquence dans les images générées, contribuant à l’amélioration de la distance d’initiation de Fréchet (FID) sur MS-COCO et à un score HPSv2.1 plus élevé sur l’ensemble de tests HPSv2, dépassant ceux atteints par le LCM de base.
Page du projet : https://rg-lcd.github.io/
Jing Peng, Meiqi Yang, Qiong Zhang, Xiaoxiao Li (membre du corps professoral de Vector)
Les données de séries temporelles multivariées sont essentielles à de nombreuses applications réelles, notamment la finance, la santé et la météorologie, où une prévision précise est primordiale pour une prise de décision éclairée et des mesures proactives. Cependant, la présence de données manquantes pose des défis importants, ce qui compromet souvent la performance des modèles prédictifs. Les approches traditionnelles en deux étapes qui introduisent d’abord des valeurs manquantes puis effectuent des prévisions tendent à accumuler des erreurs, particulièrement dans des contextes multivariés complexes avec des ratios manquants élevés et des structures de dépendances complexes. Dans ce travail, nous présentons S4M, un cadre de prévision des séries temporelles de bout en bout qui intègre de manière fluide la gestion des données manquantes dans l’architecture du modèle Structured State Space Sequence (S4). Contrairement aux méthodes conventionnelles qui traitent l’imputation comme une étape de prétraitement distincte, S4M exploite l’espace latent des modèles S4 pour reconnaître et représenter directement les motifs de données manquants, capturant ainsi plus efficacement les dépendances temporelles et multivariées sous-jacentes. Notre approche comprend deux modules clés : l’Adaptive Temporal Prototype Mapper (ATPM) et le Missing-Aware Dual Stream S4 (MDS-S4). L’ATPM utilise une banque prototype pour dériver des représentations robustes et informatives à partir de schémas de données historiques, tandis que le MDS-S4 traite ces représentations avec des masques de manque comme des flux d’entrée doubles pour effectuer des prévisions précises. Des évaluations empiriques approfondies sur divers ensembles de données réels démontrent que S4M atteint constamment des performances à la fine pointe, validant l’efficacité de notre approche intégrée dans le traitement des données manquantes, soulignant sa robustesse et sa supériorité par rapport aux méthodes traditionnelles basées sur l’imputation. Ces résultats soulignent le potentiel de notre méthode pour faire progresser une prévision fiable des séries temporelles dans des applications pratiques.
Nazanin Sepahvand, Eleni Triantafillou, Hugo Larochelle, Doina Precup, Jim Clark, Dan Roy (membre du corps professoral de Vector), Gintare Karolina Dziugaite
Lors du déploiement de modèles d’apprentissage automatique dans le monde réel, nous faisons souvent face au défi de « désapprendre » certains points de données ou sous-ensembles après l’entraînement. Inspirés par l’entraînement domaine-adversarial des réseaux neuronaux (DANN), nous proposons un nouvel algorithme, SURE, pour le désapprentissage ciblé. SURE considère le processus comme un problème d’adaptation de domaine, où l'« ensemble oublié » (données à retirer) et un ensemble de validation provenant d’une même distribution forment deux domaines distincts. Nous entraînons un classificateur de domaine pour distinguer les représentations des ensembles d’oubli et de validation. En utilisant une stratégie d’inversion de gradient similaire à DANN, nous effectuons des mises à jour de gradient des représentations pour « tromper » le classificateur de domaine et ainsi obscurcir les représentations appartenant à l’ensemble d’oubli. Simultanément, la descente de gradient est appliquée à l’ensemble de maintien (données d’entraînement originales moins l’ensemble oublié) afin de préserver sa performance de classification. Contrairement à d’autres approches de désapprentissage dont les objectifs de formation sont basés sur les résultats du modèle, SURE manipule directement leurs présentations. C’est essentiel pour assurer la robustesse face à un ensemble d’attaques plus puissantes que celles actuellement considérées dans la littérature, qui visent à détecter quels exemples n’ont pas été appris grâce à l’accès aux embeddings appris. Nos expériences approfondies révèlent que SURE offre un meilleur compromis entre désapprentissage et utilité comparativement à d’autres techniques standards de désapprentissage pour les réseaux de neurones profonds.
Koichi Namekata, Sherwin Bahmani, Ziyi Wu, Yash Kant, Igor Gilitschenski (affilié à la faculté Vector), David Lindell (affilié à la faculté Vector)
Les méthodes de génération image-vidéo ont atteint une qualité impressionnante et photoréaliste. Cependant, ajuster des éléments spécifiques dans les vidéos générées, comme le mouvement d’objet ou de caméra, est souvent un processus fastidieux d’essais et d’erreurs, par exemple impliquant la régénération de vidéos avec différentes graines aléatoires. Des techniques récentes répondent à ce problème en ajustant finement un modèle pré-entraîné pour suivre les signaux de conditionnement, comme les boîtes englobantes ou les trajectoires de points. Cependant, cette procédure d’ajustement fin peut être coûteuse en calcul et nécessite des ensembles de données avec des mouvements d’objets annotés, ce qui peut être difficile à obtenir. Dans ce travail, nous introduisons SG-I2V, un cadre pour la génération contrôlable d’image-vidéo auto-guidée — offrant un contrôle zéro plan en s’appuyant uniquement sur les connaissances présentes dans un modèle de diffusion image-vidéo pré-entraîné, sans avoir besoin d’ajustements finis ou de connaissances externes. Notre méthode zéro-shot surpasse les références non supervisées tout en réduisant considérablement l’écart de performance avec les modèles supervisés en termes de qualité visuelle et de fidélité des mouvements. Des détails supplémentaires et des résultats vidéo sont disponibles sur notre page de projet : https://sgi2v-paper.github.io
Yang Zhou, Hao Shao, Letian Wang, Steven Waslander (affilié de la faculté Vector), Hongsheng Li, Yu Liu
Prédire le mouvement futur des agents environnants est essentiel pour que les véhicules autonomes (AV) fonctionnent en toute sécurité dans des environnements dynamiques mixtes entre humains et robots. Cependant, la rareté de jeux de données de conduite à grande échelle a freiné le développement de modèles robustes et généralisables de prédiction de mouvement, limitant leur capacité à capturer des interactions complexes et des géométries routières. Inspiré par les avancées récentes en traitement du langage naturel (NLP) et en vision par ordinateur (CV), l’apprentissage auto-supervisé (SSL) a attiré une attention significative dans la communauté de la prédiction de mouvement pour l’apprentissage de représentations de scènes riches et transférables. Néanmoins, les méthodes existantes de pré-entraînement pour la prédiction de mouvement se sont largement concentrées sur des architectures de modèles spécifiques et un ensemble de données unique, limitant leur scalabilité et leur généralisation. Pour relever ces défis, nous proposons SmartPretrain, un cadre SSL général et évolutif pour la prédiction de mouvement, à la fois indépendant du modèle et du jeu de données. Notre approche intègre SSL contrastive et reconstructive, tirant parti des forces des paradigmes génératifs et discriminatifs pour représenter efficacement l’évolution et les interactions spatiotemporelles sans imposer de contraintes architecturales. De plus, SmartPretrain utilise une stratégie d’échantillonnage de scénarios indépendante du jeu de données qui intègre plusieurs ensembles de données, améliorant le volume, la diversité et la robustesse des données. Des expériences approfondies sur plusieurs ensembles de données démontrent que SmartPretrain améliore constamment la performance des modèles prédictifs de pointe à travers les ensembles de données, les divisions de données et les principales métriques. Par exemple, SmartPretrain réduit significativement le taux d’échec des prévisions (MAE) de 10,6%. Ces résultats soulignent l’efficacité de SmartPretrain en tant que solution unifiée et évolutive pour la prédiction des mouvements, s’affranchissant des limites du régime des petites données.
Haokun Liu, Muqeeth Mohammed, Colin Raffel (membre du corps professoral de Vector)
Les réseaux de neurones qui apprennent à acheminer leurs entrées à travers différents sous-réseaux « experts » offrent une forme de modularité que les modèles denses standards n’ont pas. Malgré leurs avantages potentiels, les modèles modulaires avec routage appris sous-performent souvent en dessous de leurs homologues denses appariés par paramètres, ainsi que des modèles utilisant des stratégies heuristiques non apprises. Dans cet article, nous émettons l’hypothèse que ces lacunes proviennent des techniques d’estimation du gradient utilisées pour entraîner des modèles modulaires qui utilisent des décisions de routage discret non différentiables. Pour résoudre ce problème, nous introduisons $\textbf{S}$oft $\textbf{M}$erging de $\textbf{E}$xperts avec $\textbf{A}$daptive $\textbf{R}$outing (SMEAR), ce qui évite le routage discret en utilisant un seul expert « fusionné » construit à partir d’une moyenne pondérée de tous les paramètres des experts. En acheminant les activations via un seul expert fusionné, SMEAR n’entraîne pas une augmentation significative des coûts de calcul et permet une formation standard basée sur le gradient. Nous validons empiriquement que les modèles utilisant SMEAR surpassent ceux qui routent selon des métadonnées ou apprennent le routage par estimation du gradient. De plus, nous fournissons des analyses qualitatives démontrant que les experts appris via SMEAR présentent une spécialisation significative.
Fangyu Lei, Jixuan Chen, Yuxiao Ye, Ruisheng Cao, Dongchan Shin, Hongjin SU, Zhaoqing Suo, Hongcheng Gao, Wenjing Hu, Pengcheng Yin, Victor Zhong (membre du corps professoral de Vector), Caiming Xiong, Ruoxi Sun, Qian Liu, Sida Wang, Tao Yu
Les flux de travail de texte en SQL d’entreprise impliquent souvent des données complexes dans le nuage ou locales à travers divers systèmes de bases de données, plusieurs requêtes SQL dans différents dialectes, et des opérations variées, allant de la transformation des données à l’analytique. Nous introduisons Spider 2.0, un cadre d’évaluation comprenant des problèmes réels de flux de travail texte-vers-SQL à 595 $ dérivés de cas d’utilisation de bases de données au niveau des entreprises. Les bases de données de Spider 2.0 proviennent d’applications de données réelles, contenant souvent plus de 1 000 colonnes et stockées dans des systèmes de bases de données locaux ou infonuagiques tels que BigQuery et Snowflake. Nous montrons que résoudre les problèmes dans Spider 2.0 nécessite fréquemment de comprendre et de rechercher dans les métadonnées de bases de données, la documentation dialectale, et même les bases de code au niveau du projet. Ce défi exige que les modèles interagissent avec des environnements de flux de travail SQL complexes, traitent des contextes extrêmement longs, effectuent un raisonnement complexe et génèrent plusieurs requêtes SQL avec des opérations variées, souvent dépassant 100 $ de lignes, ce qui va bien au-delà des défis traditionnels du texte-vers-SQL. Nos évaluations indiquent que, selon o1-preview, notre cadre d’agent de code ne résout avec succès que 15,1% des tâches, comparativement à 91,2% sur Spider 1.0 et 73,0% sur BIRD. Nos résultats sur Spider 2.0 montrent que, bien que les modèles de langage aient démontré des performances remarquables en génération de code — surtout dans les benchmarks text-to-SQL précédents — ils nécessitent des améliorations significatives afin d’atteindre une performance adéquate pour une utilisation réelle en entreprise. Les progrès sur Spider 2.0 représentent des étapes cruciales vers le développement d’agents de code intelligents et autonomes pour les environnements d’entreprise réels.
Austin Cheng, Alston Lo, Kin Long Kelvin Lee, Santiago Miret, Alán Aspuru-Guzik (membre du corps professoral de Vector)
L’élucidation de la structure moléculaire est une étape cruciale pour comprendre les phénomènes chimiques, avec des applications pour identifier les molécules dans les produits naturels, les synthèses en laboratoire, les échantillons médico-légaux et le milieu interstellaire. Nous considérons la tâche d’élucider la structure 3D d’une molécule uniquement à partir de sa formule moléculaire et de ses moments d’inertie, motivée par la capacité de la spectroscopie rotationnelle à mesurer précisément ces moments. Bien que les modèles génératifs existants puissent échantillonner conditionnellement des structures 3D avec des moments approximativement corrects, ce conditionnement doux ne parvient pas à exploiter les nombreux chiffres de précision offerts par la spectroscopie rotationnelle expérimentale. Pour y remédier, on montre d’abord que l’espace des nuages ponctuels de $n$-atomes avec un ensemble fixe de moments d’inertie est plongé dans la variété de Stiefel $\textrm{St}(n, 4)$. Nous proposons ensuite l’appariement de flux de Stiefel comme modèle génératif pour élucider la structure 3D sous contraintes de moment exact. De plus, on apprend des écoulements plus simples et plus courts en trouvant des solutions approximatives pour un transport optimal sur la variété de Stiefel. Empiriquement, l’appariement de flux de Stiefel atteint des taux de succès plus élevés et un échantillonnage plus rapide que les modèles de diffusion euclidienne, même sur des variétés de haute dimension correspondant à de grandes molécules dans l’ensemble de données GEOM.
Yongxing Zhang, Donglin Yang, Renjie Liao (membre du corps professoral de Vector)
Le groupe des permutations $S_n$, aussi appelé groupes symétriques finis, est essentiel dans des domaines tels que la combinatoire, la physique et la chimie. Cependant, apprendre une distribution de probabilité sur $S_n$ pose des défis importants en raison de sa taille inflexible et de sa nature discrète. Dans cet article, nous introduisons *SymmetricDiffusers*, un modèle novateur de diffusion discrète qui simplifie la tâche d’apprendre une distribution complexe sur $S_n$ en la décomposant en l’apprentissage de transitions plus simples de la diffusion inverse à l’aide de réseaux neuronaux profonds. Nous identifions le mélange de riffle comme une transition efficace vers l’avant et fournissons des lignes directrices empiriques pour sélectionner la longueur de diffusion selon la théorie des marches aléatoires sur des groupes finis. De plus, nous proposons une distribution généralisée de Plackett-Luce (PL) pour la transition inverse, qui est démontrablement plus expressive que la distribution PL. Nous introduisons en outre un « calendrier de débruit » théoriquement fondé afin d’améliorer l’efficacité de l’échantillonnage et de l’apprentissage. Des expériences approfondies démontrent que notre modèle atteint des performances de pointe ou comparables pour résoudre des tâches, y compris le tri d’images MNIST à 4 chiffres, des casse-têtes et des problèmes de représentant voyageurs.
Jiachen Li, Qian Long, Jian (Skyler) Zheng, Xiaofeng Gao, Robinson Piramuthu, Wenhu Chen (membre du corps professoral vectoriel), William Wang
Dans cet article, nous nous concentrons sur l’amélioration d’un modèle de texte en vidéo (T2V) basé sur la diffusion durant la phase post-entraînement en distillant un modèle de cohérence hautement performant à partir d’un modèle T2V préentraîné. Notre méthode proposée, T2V-Turbo-v2, introduit une avancée significative en intégrant divers signaux de supervision, incluant des données d’entraînement de haute qualité, des rétroactions sur le modèle de récompense et des directives conditionnelles, dans le processus de distillation de la cohérence. À travers des études complètes d’ablation, nous soulignons l’importance cruciale d’adapter les ensembles de données aux objectifs d’apprentissage spécifiques et l’efficacité de l’apprentissage à partir de divers modèles de récompense pour améliorer à la fois la qualité visuelle et l’alignement texte-vidéo. De plus, nous mettons en lumière l’immense espace de conception des stratégies de guidage conditionnel, qui se concentre sur la conception d’une fonction énergétique efficace pour compléter le solveur d’EDO de l’enseignant. Nous démontrons le potentiel de cette approche en extrayant les guides de mouvement des ensembles de données d’entraînement et en les intégrant dans le solveur ODE, démontrant son efficacité pour améliorer la qualité du mouvement des vidéos générées grâce aux métriques améliorées liées au mouvement de VBench et T2V-CompBench. Empiriquement, notre T2V-Turbo-v2 établit un nouveau résultat ultramoderne sur VBench, **avec un score total de 85,13**, dépassant les systèmes propriétaires tels que Gen-3 et Kling.
Younwoo Choi, Muhammad Adil Asif, Ziwen Han, John Willes (personnel professionnel de Vector), Rahul G. Krishnan (membre du corps professoral de Vector)
Inciter les grands modèles de langage (LLM), ou fournir un contexte sur le modèle de fonctionnement attendu, est une façon efficace de diriger les résultats de ces modèles pour satisfaire les désirs humains après leur entraînement. Mais dans les domaines en évolution rapide, il est souvent nécessaire d’affiner les LLM pour améliorer soit le type de connaissances dans leur mémoire, soit leur capacité à effectuer un raisonnement ouvert dans de nouveaux domaines. Quand les humains apprennent de nouveaux concepts, nous le faisons souvent en reliant le nouveau matériel que nous étudions à des concepts déjà appris. À cette fin, nous demandons : « Le prompting peut-il nous aider à enseigner aux LLM comment apprendre? » Dans ce travail, nous étudions une généralisation novatrice de l’ajustement des instructions, appelée ajustement fin contextuel, pour affiner les LLM. Notre méthode utilise des consignes pédagogiques conçues pour imiter les stratégies cognitives humaines en apprentissage et résolution de problèmes afin de guider le processus d’apprentissage pendant la formation, visant à améliorer l’interprétation et la compréhension des connaissances spécifiques au domaine par le modèle. Nous démontrons empiriquement que cette modification simple mais efficace améliore la capacité des LLM à être ajustés rapidement sur de nouveaux ensembles de données, tant dans le domaine médical que financier.
Tudor Cebere, Aurélien Bellet, Nicolas Papernot (membre du corps professoral Vector)
Les modèles d’apprentissage automatique peuvent être entraînés avec des garanties formelles de confidentialité via des optimiseurs différemment privés tels que DP-SGD. Dans ce travail, nous nous concentrons sur un modèle de menace où l’adversaire n’a accès qu’au modèle final, sans visibilité sur les mises à jour intermédiaires. Dans la littérature, ce modèle de menace « état caché » présente un écart significatif entre la borne inférieure de l’audit empirique de la vie privée et la borne supérieure théorique fournie par la comptabilité de la vie privée. Pour remédier à cet écart, nous proposons d’auditer ce modèle de menace avec des adversaires qui élaborent une séquence de gradient conçue pour maximiser la perte de confidentialité du modèle final sans dépendre de mises à jour intermédiaires. Nos expériences démontrent que cette approche surpasse systématiquement les tentatives précédentes d’audit du modèle d’état caché. De plus, nos résultats favorisent la compréhension des garanties de confidentialité réalisables dans ce modèle de risque. Plus précisément, lorsque le gradient créé est inséré à chaque étape d’optimisation, nous montrons que dissimuler les mises à jour intermédiaires du modèle dans DP-SGD n’amplifie pas la confidentialité. La situation est plus complexe lorsque le gradient créé n’est pas inséré à chaque étape : notre limite inférieure d’audit ne correspond à la limite supérieure de la confidentialité que pour un paysage de pertes choisi par l’adversaire et une taille de lot suffisamment grande. Cela suggère que les limites supérieures existantes de la vie privée peuvent être améliorées dans certains régimes.
Murdock Aubry, Haoming Meng, Anton Sugolov, Vardan Papyan (affilié de la faculté Vector)
Les grands modèles de langage (LLM) ont réalisé des progrès significatifs dans le traitement du langage naturel, et une compréhension précise des mécanismes internes à l’origine de leur succès est essentielle. Dans ce travail, nous retraçons les trajectoires des jetons individuels lorsqu’ils traversent les blocs transformateurs, et linéarisons le système le long de ces trajectoires à travers leurs matrices jacobiennes. En examinant les relations entre ces jacobiens, nous découvrons un phénomène de couplage par blocs transformateurs dans une variété de LLM, caractérisé par le couplage de leurs vecteurs singuliers supérieurs à travers les jetons et la profondeur. Nos résultats révèlent que le couplage est positivement corrélé à la performance du modèle, et que cette relation est plus forte qu’avec d’autres hyperparamètres, à savoir le budget des paramètres, la profondeur du modèle et la dimension d’immersion. Nous étudions également l’émergence de ces propriétés par l’entraînement, en notant le développement du couplage ainsi qu’une augmentation de la linéarité et une croissance exponentielle couche par couche des trajectoires des jetons. Ces perspectives collectives offrent une perspective novatrice sur les interactions entre les embeddings de jetons et incitent à d’autres approches pour étudier la formation et la généralisation dans les LLM.
Mete Kemertas, Amir-massoud Farahmand (affilié de la faculté Vector), Allan Jepson
Le développement d’un solveur de transport optimal (OT) contemporain nécessite de naviguer entre des compromis entre plusieurs exigences critiques : parallélisation du GPU, scalabilité à des problèmes de grande dimension, garanties théoriques de convergence, performance empirique en termes de précision par rapport au temps d’exécution, et stabilité numérique en pratique. Avec ces défis en tête, nous introduisons un algorithme de Newton tronqué spécialisé pour l’OT régularisée entropique. En plus de démontrer que la convergence localement quadratique est possible sans supposer une hessienne de Lipschitz, nous fournissons des stratégies pour exploiter au maximum le taux élevé de convergence locale en pratique. Notre algorithme GPU-parallèle affiche des performances d’exécution exceptionnellement favorables, atteignant une grande précision des ordres de grandeur plus rapidement que plusieurs alternatives existantes. Cela est démontré par des expériences temporelles murales sur le MNIST à dimension 4096 et les problèmes de transfert de couleur. La scalabilité de l’algorithme est mise en valeur sur un problème OT extrêmement vaste avec $n \environ 10^6$, résolu approximativement sous une régularisation entoprique faible.
Bo Yue, Shufan Wang, Ashish Gaurav, Jian Li, Pascal Poupart (membre du corps professoral de Vector), Guiliang Liu
Dans les applications pratiques, la connaissance sous-jacente des contraintes est souvent inconnue et difficile à spécifier. Pour répondre à ce problème, les avancées récentes en apprentissage par renforcement contraint inverse (ICRL) se sont concentrées sur l’inférence de ces contraintes à partir de démonstrations d’experts. Cependant, l’approche ICRL caractérise généralement l’apprentissage par contraintes comme un problème d’optimisation à trois niveaux, qui est intrinsèquement complexe en raison de ses variables interdépendantes et de ses multiples couches d’optimisation. Compte tenu de ces défis, une question cruciale se pose : *Peut-on implicitement intégrer des signaux de contrainte dans les fonctions de récompense et résoudre efficacement ce problème à l’aide d’un algorithme classique d’inférence de récompense?* La méthode résultante, connue sous le nom de Correction inverse de la récompense (IRC), mérite d’être étudiée. Dans ce travail, nous réalisons une analyse théorique comparant la complexité des échantillons des deux solveurs. Nos résultats confirment que le solveur IRC atteint une complexité d’échantillon plus faible que son homologue ICRL. Néanmoins, cette réduction de la complexité se fait au détriment de la généralisabilité. Plus précisément, dans l’environnement cible, les conditions de correction de la récompense peuvent ne pas garantir la sécurité de la politique résultante, tandis que ce problème peut être efficacement atténué en transférant les contraintes via le solveur ICRL. Pour faire avancer notre enquête, nous étudions les conditions dans lesquelles le solveur ICRL assure l’optimalité $\epsilon$ lors du transfert vers de nouveaux environnements. Les résultats empiriques dans divers environnements valident nos conclusions théoriques, soulignant les compromis nuancés entre la réduction de la complexité et la généralisabilité dans les applications critiques pour la sécurité.
Sheng-Chieh Lin, Chankyu Lee, Mohammad Shoeybi, Jimmy Lin (affilié du corps professoral Vector), Bryan Catanzaro, Wei Ping
Les modèles de récupération à la fine pointe de la technologie traitent généralement un scénario de recherche simple, où les tâches de récupération sont fixes (par exemple, trouver un passage pour répondre à une question spécifique) et où une seule modalité est prise en charge à la fois pour les requêtes et les résultats récupérés. Cet article présente des techniques pour faire progresser la récupération d’information avec des grands modèles de langage multimodaux (MLLM), permettant un scénario de recherche plus large, appelé récupération multimodale universelle, où plusieurs modalités et diverses tâches de récupération sont accommodées. À cette fin, nous étudions d’abord l’ajustement fin d’un MLLM comme récupérateur bi-encodeur sur 10 ensembles de données avec 16 tâches de récupération. Nos résultats empiriques montrent que le récupérateur MLLM affiné est capable de comprendre les requêtes complexes, composées à la fois de texte et d’image, mais qu’il sous-performe un récupérateur CLIP plus petit dans les tâches de récupération intermodale en raison du biais de modalité des MLLM. Pour répondre à ce problème, nous proposons un minage négatif dur conscient de la modalité afin d’atténuer le biais de modalité manifesté par les récupérateurs MLLM. Deuxièmement, nous proposons d’affiner continuellement le récupérateur multimodal universel afin d’améliorer sa capacité de recherche de texte tout en maintenant cette capacité multimodale. En conséquence, notre modèle, UniEmb, atteint des performances de pointe sur le benchmark de récupération multimodal M-BEIR, qui couvre plusieurs domaines et tâches, tout en surpassant le modèle de recherche de texte de pointe, NV-Embed-v1, sur le benchmark de récupération MTEB. Enfin, nous explorons pour inciter les MLLM prêts à l’emploi comme le reclasseur zéro tir afin d’affiner le classement des candidats à partir du récupérateur multimodal. Nous constatons que grâce à la demande et au reclassement, les MLLM peuvent encore améliorer la récupération multimodale lorsque les requêtes des utilisateurs (par exemple, les requêtes composées par image texte) sont plus complexes et difficiles à comprendre. Ces résultats ouvrent également la voie à la promotion de la récupération multimodale universelle à l’avenir.
Ziyan Jiang, Rui Meng, Xinyi Yang, Semih Yavuz, Yingbo Zhou, Wenhu Chen (membre du corps professoral de Vector)
Les modèles d’intégration ont été cruciaux pour permettre diverses tâches en aval telles que la similarité sémantique, la recherche d’information et le regroupement. Récemment, l’intérêt pour le développement de modèles universels d’intégration de texte peut se généraliser à plusieurs tâches (par exemple, MTEB). Cependant, les progrès dans l’apprentissage des modèles universels d’intégration multimodale ont été relativement lents malgré leur importance. Dans ce travail, nous visons à explorer le potentiel de construire des embeddings universels capables de gérer un large éventail de tâches en aval. Nos contributions sont doubles : (1) MMEB (Massive Multimodal Embedding Benchmark), qui couvre 4 métatâches et 36 ensembles de données, dont 20 jeux d’entraînement et 16 d’évaluation, et (2) VLM2VEC (Vision-Language Model → Vector), un cadre d’entraînement contrastif qui convertit tout modèle vision-langage à la fine pointe de la technologie en un modèle d’embarquement. Contrairement aux modèles précédents comme CLIP et BLIP, VLM2VEC peut traiter n’importe quelle combinaison d’images et de texte pour générer un vecteur de dimension fixe basé sur des instructions de tâche. Nous construisons une série de modèles VLM2VEC sur Phi-3.5-V et les évaluons sur MMEB. Nos résultats montrent que VLM2VEC réalise une amélioration moyenne absolue de 10% à 20% par rapport aux modèles d’intégration multimodale existants, tant sur les ensembles de données en distribution qu’hors distribution dans le MMEB.
Article de mise en lumière
Weronika Ormaniec, Felix Dangel (chercheur postdoctoral distingué Vector), Sidak Pal Singh
L’architecture Transformer a indéniablement révolutionné l’apprentissage profond, supplantant les architectures classiques comme les perceptrons multicouches (MLP) et les réseaux neuronaux convolutionnels (CNN). Au fond, le bloc d’attention diffère en forme et en fonctionnalité de la plupart des autres composants architecturaux en apprentissage profond – au point que les Transformers sont souvent accompagnés d’optimiseurs adaptatifs, de la normalisation des couches, du réchauffement du taux d’apprentissage, et plus encore, comparativement aux MLP/CNN. Les causes profondes derrière ces manifestations extérieures, ainsi que les mécanismes précis qui les gouvernent, restent mal comprises. Dans ce travail, nous comblons ce fossé en fournissant une compréhension fondamentale de ce qui distingue le Transformer des autres architectures – fondée sur une comparaison théorique du Hessois (de perte). Concrètement, pour une seule couche d’auto-attention, (a) on dérive d’abord entièrement le Sessien du Transformer et on l’exprime en dérivées matricielles; (b) nous la caractérisons ensuite en termes de données, de poids et de dépendances aux moments d’attention; et (c) en mettant ainsi en lumière davantage les différences structurelles importantes par rapport au hessois des réseaux classiques. Nos résultats suggèrent que divers choix architecturaux et d’optimisation courants dans les Transformers peuvent être retracés jusqu’à leurs dépendances hautement non linéaires aux matrices de données et de poids, qui varient de façon hétérogène selon les paramètres. En fin de compte, nos résultats offrent une compréhension plus approfondie du paysage unique d’optimisation du Transformer et des défis qu’il pose.
Jiahong Chen, Kuangen Zhang, Clarence Silva, Jing Wang, Leonid Sigal (membre du corps professoral de Vector), Wonho Bae
L’adaptation de domaine sans source (SFDA) consiste à adapter un modèle initialement entraîné à l’aide d’un ensemble de données identifié (domaine source) pour fonctionner efficacement sur un ensemble de données non étiqueté (domaine cible) sans dépendre d’aucune donnée source lors de l’adaptation. Cette adaptation est particulièrement cruciale lorsque des disparités importantes dans la distribution des données existent entre les deux domaines et lorsqu’il existe des préoccupations concernant la confidentialité des données d’entraînement du modèle source. L’absence d’accès aux données sources lors de l’adaptation rend difficile l’estimation analytique de l’écart de domaine. Pour remédier à ce problème, diverses techniques ont été proposées, telles que le regroupement non supervisé, l’apprentissage contrastif et l’apprentissage continu. Dans cet article, nous menons d’abord une analyse théorique approfondie de la SFDA basée sur l’apprentissage contrastif, principalement parce qu’elle a démontré des performances supérieures à d’autres techniques. Motivés par les connaissances obtenues, nous introduisons ensuite une méthode d’augmentation latente simple mais très efficace, adaptée à la SFDA contrastive. Cette méthode d’augmentation exploite la dispersion des caractéristiques latentes dans le voisinage de l’échantillon de requête, guidée par le modèle pré-entraîné source, afin d’améliorer l’information des clés positives. Notre approche, basée sur une seule perte contrastive basée sur InfoNCE, surpasse les méthodes SFDA de pointe sur des ensembles de données de référence largement reconnus.
Article de mise en lumière
Bill Yuchen Lin, Yuntian Deng (affilié de la faculté Vector), Khyathi Chandu, Abhilasha Ravichander, Valentina Pyatkin, Nouha Dziri, Ronan Le Bras, Yejin Choi
Nous lançons WildBench, un cadre d’évaluation automatisé conçu pour évaluer les grands modèles de langage (LLM) en utilisant des requêtes utilisateur réelles et complexes. WildBench comprend 1 024 tâches soigneusement sélectionnées parmi plus d’un million de journaux de conversation entre humains et chatbots. Pour l’évaluation automatisée avec WildBench, nous avons développé deux métriques, WB-Reward et WB-Score, qui sont calculables à l’aide de LLM avancés comme GPT-4-turbo. L’évaluation WildBench utilise des listes de vérification spécifiques à chaque tâche pour évaluer systématiquement les résultats du modèle et fournit des explications structurées qui justifient les scores et les comparaisons, ce qui donne des jugements automatiques plus fiables et interprétables. WB-Récompense utilise des comparaisons fines par paires entre les réponses des modèles, générant cinq résultats potentiels : beaucoup meilleur, légèrement meilleur, légèrement pire, beaucoup pire ou une égalité. Contrairement aux évaluations précédentes qui utilisaient un modèle de référence unique, nous avons sélectionné trois modèles de référence à différents niveaux de performance afin d’assurer une évaluation complète par paires. De plus, nous proposons une méthode simple pour atténuer le biais de longueur, en convertissant les résultats de « légèrement meilleur/pire » en « égalité » si la réponse gagnante dépasse le perdant d’un de plus de K caractères. WB-Score évalue individuellement la qualité des résultats du modèle, ce qui en fait une métrique d’évaluation rapide et économique. Les résultats de WildBench démontrent une forte corrélation avec les évaluations Elo votées par des humains de Chatbot Arena pour les tâches difficiles. Plus précisément, WB-Reward atteint une corrélation Pearson de 0,98 avec les modèles les mieux classés. De plus, WB-Score atteint 0,95, dépassant à la fois le 0,91 d’ArenaHard et le 0,89 d’AlpacaEval2.0 pour les taux de victoire contrôlés par longueur, ainsi que le 0,87 des taux de victoire réguliers.
Qiuhao Zeng, Jierui Huang, Peng Lu, Gezheng Xu, Boxing Chen, Charles Ling (affilié à la faculté Vector), Boyu Wang (affilié à la faculté Vector)
Au cours des dernières années, le Transformer est devenu un élément fondamental pour les architectures de modélisation de séquences. Pourtant, au cœur de cette histoire se trouve l’utilisation de l’auto-attention, dont le coût en mémoire et en calcul augmente quadratiquement avec la longueur de la séquence $N$, ce qui la rend prohibitivement coûteuse pour les longues séquences. Une approche prometteuse est l’attention du $k$ supérieur, qui sélectionne uniquement les jetons $k$ les plus pertinents et atteint une performance comparable à l’auto-attention vanilla tout en réduisant significativement l’espace et les besoins computationnels. Cependant, les masques causaux exigent que le jeton de requête actuel ne s’occupe que des jetons passés, empêchant ainsi les méthodes d’attention existantes à $k$ de rechercher efficacement en parallèle les jetons les plus pertinents, limitant ainsi l’efficacité de l’entraînement. Dans ce travail, nous proposons ZETA, exploitant les courbes d’ordre Z pour une attention Top-k efficace, afin de permettre l’interrogation parallèle des jetons passés pour des séquences entières. Nous montrons d’abord théoriquement que le choix des dimensions clés et de requêtes implique un compromis entre la malédiction de la dimensionnalité et la préservation des distances relatives après projection. À la lumière de cette idée, nous proposons de réduire la dimensionnalité des clés et des requêtes par rapport aux valeurs, et d’exploiter davantage les courbes d’ordre Z pour mapper les clés et requêtes de faible dimension dans un espace unidimensionnel, ce qui permet le tri parallèle, améliorant ainsi grandement l’efficacité de la sélection de jetons en $k$ supérieurs. Les résultats expérimentaux démontrent que ZETA~ égale la performance de l’attention standard sur les tâches synthétiques Rappel associatif et surpasse l’attention ainsi que ses variantes sur la modélisation linguistique Long-Range Arena et WikiText-103.