Les chercheurs en vecteurs s’attaquent aux défis réels de l’IA lors de l’ICML 2025
10 juillet 2025
10 juillet 2025
Des chercheurs de premier plan de Vector présentent des travaux de pointe lors de la Conférence internationale sur l’apprentissage automatique (ICML) de cette année, qui se tiendra du 13 au 19 juillet 2025 à Vancouver, au Canada, par l’entremise de plateformes virtuelles. Grâce à une variété d’articles reconnus, les chercheurs de Vector s’attaquent à certains des défis les plus urgents de l’intelligence artificielle – de rendre les systèmes d’IA plus sûrs et plus fiables au développement de nouveaux outils pour les soins de santé et la surveillance environnementale.
Vous trouverez ci-dessous 45 articles acceptés et sessions de posters par des membres du corps professoral de Vector, des affiliés du corps professoral de Vector et des boursiers postdoctoraux distingués de Vector. Les articles marqués d’un astérisque (*) désignent un article en projecteur.
Jimmy Wang, Tom Zollo, Richard Zemel (membre du corps professoral Vector), Hongseok Namkoong
Obtenir de l’information pour réduire l’incertitude sur une entité latente est une compétence cruciale dans de nombreux domaines d’application, par exemple, évaluer les résultats d’apprentissage individuels des élèves, diagnostiquer des maladies sous-jacentes ou préférer les utilisateurs d’apprentissage. Bien que le langage naturel soit un médium puissant à cette fin, les grands modèles de langage (LLM) et les algorithmes d’ajustement fin existants manquent de mécanismes pour recueillir stratégiquement de l’information afin d’affiner leur propre compréhension de l’entité latente. Nous proposons un cadre d’élicitation adaptative qui réduit activement l’incertitude sur l’entité latente en simulant des réponses contrefactuelles. Puisque la modélisation probabiliste d’une entité latente abstraite est difficile, nous validons et affinons les méthodes de quantification d’incertitude basées sur les LLM en utilisant la perplexité sur des observations futures masquées produites par l’entité latente. Notre cadre permet le développement de stratégies sophistiquées de collecte d’informations, et nous démontrons sa polyvalence grâce à des expériences de sondages d’opinion dynamiques et d’évaluation adaptative des élèves.
Nous proposons un cadre pour utiliser les LLM afin de poser des questions informatives sur des variables et des entités qui ne peuvent pas être observées directement. Parmi les applications potentiellement influentes, on compte la création d’un questionnaire diagnostique dynamique qui maximise l’information recueillie sur la santé d’un patient ou la génération d’un ensemble personnalisé de questions de test qui offrent le plus d’informations sur les besoins d’apprentissage de l’étudiant.
Alexander Capstick, Rahul G. Krishnan (membre du corps professoral vectoriel), Payam Barnaghi
Les grands modèles de langage (LLM) acquièrent une étendue d’informations dans divers domaines. Cependant, leur complexité computationnelle, leur coût et leur manque de transparence nuisent souvent à leur application directe pour des tâches prédictives où la confidentialité et l’interprétabilité sont primordiales. Dans des domaines comme la santé, la biologie et la finance, les modèles linéaires spécialisés et interprétables conservent une valeur considérable. Dans de tels domaines, les données étiquetées peuvent être rares ou coûteuses à obtenir. Des distributions a priori bien spécifiées sur les paramètres du modèle peuvent réduire la complexité de l’apprentissage par inférence bayésienne; cependant, obtenir des antécédents d’experts peut prendre du temps. Nous introduisons donc AutoElicit pour extraire des connaissances des LLM et construire des priors pour des modèles prédictifs. Nous montrons que ces priors sont informatifs et peuvent être affinés en utilisant le langage naturel. Nous réalisons une étude minutieuse comparant AutoElicit à l’apprentissage en contexte et démontrons comment sélectionner le modèle entre les deux méthodes. Nous constatons qu’AutoElicit produit des priors qui peuvent réduire substantiellement l’erreur par rapport aux priors non informatifs, en utilisant moins d’étiquettes, et surpassant systématiquement l’apprentissage en contexte. Nous montrons qu’AutoElicit permet d’économiser plus de 6 mois d’efforts d’étiquetage lors de la construction d’un nouveau modèle prédictif pour les infections urinaires à partir des enregistrements de capteurs de personnes vivant avec la démence.
Dans ce travail, nous proposons AutoElicit, une méthode permettant d’utiliser les LLM pour faciliter la modélisation prédictive, en mettant l’accent sur les soins de santé. Plus précisément, nous présentons une méthode pour utiliser les LLM afin d’obtenir des distributions a priori expertes pour des modèles prédictifs linéaires et démontrons comment des experts humains peuvent aider ce processus. Nous comparons ensuite les prédictions a posteriori avec celles faites par apprentissage contextuel, où les modèles de langage font des prédictions directement. En utilisant les données de notre étude sur la démence, nous montrons qu’AutoElicit permet d’économiser plus de 6 mois d’efforts d’étiquetage lors de la construction d’un nouveau modèle prédictif pour les infections urinaires à partir des enregistrements sensoriels des participants.
Gül Sena Altıntaş, Devin Kwok, Colin Raffel (membre du corps professoral Vector), David Rolnick
L’entraînement des réseaux de neurones est intrinsèquement sensible à l’initialisation et à l’aléa induite par la descente du gradient stochastique. Cependant, il n’est pas clair dans quelle mesure de tels effets mènent à des réseaux significativement différents, soit en termes de poids des modèles, soit des fonctions sous-jacentes apprises. Dans ce travail, nous montrons que lors d’une phase initiale « chaotique », une perturbation extrêmement faible fait diverger de façon fiable des trajectoires d’entraînement autrement identiques – un effet qui diminue rapidement au fil du temps d’entraînement. Nous quantifions cette divergence par (i) $L^2$ de distance entre les paramètres, (ii) la similarité des vecteurs de paramètres mesurée par l’alignement des permutations, et, surtout, (iii) la barrière de perte lors de l’interpolation entre réseaux; révélant comment les perturbations entre différents paramètres d’hyperparamètres ou l’ajustement fin conduisent les trajectoires d’entraînement vers des minima de perte distincts. Nos résultats fournissent des informations sur la stabilité de l’entraînement des réseaux neuronaux, avec des implications pratiques pour l’ajustement fin et les techniques de fusion de modèles.
En raison du bruit, deux réseaux de neurones entraînés à partir du même point de départ aléatoire peuvent apprendre l’une des nombreuses solutions différentes au même problème, alors que les réseaux pré-entraînés ont tendance à apprendre la même solution. Ce que nous ne savons pas, c’est quand et comment les réseaux passent-ils de l’apprentissage de différentes solutions à la même solution? Pour répondre à cette question, nous entraînons des copies jumelles de réseaux neuronaux exactement de la même façon, mais en ajoutant un tout petit changement (perturbation) à l’une des copies pendant l’entraînement. Nous constatons que pour les réseaux à des points de départ aléatoires, même le plus petit changement (bien plus petit que les effets aléatoires typiques) entraîne l’apprentissage de solutions différentes, tandis que les réseaux pré-entraînés n’apprennent des solutions différentes que lorsque des changements beaucoup plus importants que les effets aléatoires sont appliqués. Nos résultats sont importants parce que nous devons souvent reformer et combiner les connaissances issues de plusieurs grands réseaux (comme de grands modèles de langage). Comme certaines méthodes fonctionnent mieux avec des solutions similaires qu’avec d’autres solutions, nous pouvons adapter nos méthodes de réentraînement ou de combinaison de modèles pour cibler au mieux chaque cas.
Claas Voelcker, Anastasiia Pedan, Arash Ahmadian, Romina Abachi, Igor Gilitschenski (affilié à la faculté Vector), Amir-Massoud Farahmand (affilié à la faculté Vector)
L’idée de l’apprentissage par modèle conscient de la valeur, selon laquelle les modèles doivent produire des estimations de valeur précises, a gagné en importance dans l’apprentissage par renforcement basé sur les modèles. La perte de MuZero, qui pénalise la prédiction de la fonction de valeur d’un modèle par rapport à la fonction de valeur de la vérité fondamentale, a été utilisée dans plusieurs travaux empiriques importants de la littérature. Cependant, l’investigation théorique de ses forces et faiblesses est limitée. Dans cet article, nous analysons la famille des pertes d’apprentissage des modèles conscients de la valeur, qui inclut la perte populaire de MuZero. Nous montrons que ces pertes, telles qu’elles sont normalement utilisées, sont des pertes de substitution non calibrées, ce qui signifie qu’elles ne récupèrent pas toujours le modèle et la fonction de valeur corrects. En s’appuyant sur cette idée, nous proposons des corrections pour résoudre ce problème. De plus, nous étudions l’interaction entre l’étalonnage des pertes, les architectures de modèles latents et les pertes auxiliaires couramment utilisées lors de l’entraînement des agents de type MuZero. Nous montrons que, bien que les modèles déterministes puissent suffire à prédire des valeurs précises, apprendre des modèles stochastiques calibrés reste avantageux.
Cet article analyse l’apprentissage par modèle conscient de la valeur (VAML), y compris la perte de MuZero, dans l’apprentissage par renforcement basé sur les modèles. Les pertes basées sur VAML entraînent un modèle pour prédire des estimations précises de la valeur d’une action dans chaque état, au lieu de l’entraîner à prédire les états eux-mêmes avec précision.
Tyler Kastner, Mark Rowland, Yunhao Tang, Murat Erdogdu (membre du corps professoral Vector), Amir-Massoud Farahmand (affilié du corps professoral Vector)
Nous étudions le problème de l’apprentissage par renforcement distributif en utilisant des paramétrisations catégoriques et une perte de divergence KL. Des travaux antérieurs analysant la RL des distributions catégorielles l’ont fait en utilisant une perte basée sur la distance de Cramér, simplifiant l’analyse mais créant un écart théorie-pratique. Nous introduisons une version préconditionnée de l’algorithme, et prouvons qu’il est garanti de converger. Nous déduisons également la variance asymptotique des estimations catégorielles sous différents régimes de taux d’apprentissage, comparons à celle de l’apprentissage par renforcement classique, et analysons comment ces mises à jour sont affectées dans le cadre approximatif des fonctions linéaires. Nous validons finalement empiriquement nos résultats et menons une enquête empirique sur les forces relatives de l’utilisation des pertes de KL, en tirant un certain nombre d’informations exploitables pour les praticiens.
Une approche populaire de l’apprentissage par renforcement profond est d’utiliser les pertes de classification pour apprendre la gamme des résultats futurs possibles. Des travaux théoriques antérieurs étudiant cet algorithme modifient la perte utilisée afin de simplifier l’analyse, mais cela crée un écart entre théorie et pratique. Dans ce travail, nous étudions directement ces algorithmes d’apprentissage avec la perte de classification utilisée en pratique, la divergence KL. Nous montrons qu’avec quelques modifications de la dynamique (l’utilisation d’une matrice préconditionneur), les mises à jour convergent de manière prouvaille. Nous étudions aussi l’efficacité de ces méthodes par rapport à l’apprentissage par renforcement standard, et nous démontrons des résultats sur la variance exacte de ces algorithmes à mesure qu’ils approchent de la convergence. Tout au long de notre analyse, nous obtenons plusieurs informations utiles pour toute personne utilisant ces méthodes en pratique, comme la façon de modifier le taux d’apprentissage utilisé lorsque l’on modifie le nombre d’atomes (un hyperparamètre distinct), et comment le nombre et l’emplacement de ces atomes influencent l’erreur engagée.
Wei Zhuo, Han Yu, Guang Tan, Xiaoxiao Li (membre du corps professoral de Vector)
Les réseaux neuronaux graphiques (GNN) ont démontré un succès remarquable dans l’apprentissage à partir de données structurées en graphes. Cependant, leur application aux graphes orientés (digraphes) présente des défis uniques, principalement en raison de l’asymétrie inhérente aux relations entre les nœuds. Les GNN traditionnels sont habiles à capturer des relations unidirectionnelles, mais ne parviennent pas à encoder les dépendances des chemins mutuels entre les nœuds, comme les chemins les plus courts asymétriques typiquement trouvés dans les digraphes. En reconnaissant cet écart, nous introduisons **C**ommute **G**raph **N**eural **N**etworks (CGNN), une approche qui intègre sans effort le temps de trajet nœud par nœud dans le schéma de transmission de messages. La pierre angulaire du CGNN est une méthode efficace pour calculer le temps de trajet à l’aide d’un laplacien de digraphe nouvellement formulé. Le temps de commutation est ensuite intégré au processus d’agrégation de voisinage, avec les contributions des voisins pondérées selon leur temps de déplacement respectif vers le nœud central de chaque couche. Il permet au CGNN de capturer directement les relations mutuelles asymétriques dans les digraphes. Des expériences approfondies confirment la performance supérieure du CGNN. Le code source de CGNN est disponible anonymement ici.
Beaucoup de GNN traitent les graphes orientés (digraphes) comme des ensembles d’arêtes unidirectionnelles, ils ne capturent donc pas la connectivité asymétrique aller-retour qui détermine réellement à quel point deux nœuds interagissent. Cette limitation est évidente sur les réseaux sociaux, où un fan peut instantanément rejoindre une célébrité, mais l’interaction de retour se produit rarement. Nous introduisons les réseaux neuronaux à graphes commutés (CGNN) pour modéliser explicitement cette asymétrie. CGNN exploite un nouveau laplacien digraphique (DiLap) couplé à un recâblage léger basé sur des graphes axés sur des fonctionnalités. Cela assure la parcimonie et l’irréductibilité, facilitant le calcul efficace des temps de commutation déterministes, définis comme le nombre attendu d’étapes pour une marche aléatoire d’un nœud à un autre et retour. Ces temps de trajet servent de poids pour les messages voisins, permettant aux nœuds mutuellement accessibles d’exercer une plus grande influence lors de l’agrégation. Le temps de trajet permet naturellement de capturer des interactions mutuelles réalistes, telles que la dynamique entre abonnés et célébrités sur les réseaux sociaux ou le trafic web bidirectionnel; ainsi, CGNN offre un cadre plus précis, interprétable et largement applicable pour apprendre à partir de réseaux dirigés.
Ruinan Jin, Xiao Li, Yaoliang Yu (membre du corps professoral de Vector), Baoxiang Wang
L’estimation des moments adaptatifs (Adam) est un algorithme d’optimisation fondamental en apprentissage profond, largement reconnu pour sa flexibilité avec les taux d’apprentissage adaptatif et son efficacité dans la gestion de données à grande échelle. Cependant, malgré son succès pratique, la compréhension théorique de la convergence d’Adam a été contrainte par des hypothèses strictes, telles que presque certainement les gradients stochastiques bornés ou les gradients uniformément bornés, qui sont plus restrictifs que ceux généralement requis pour analyser la descente des gradients stochastiques (SGD). Dans cet article, nous introduisons un cadre novateur et complet pour analyser les propriétés de convergence d’Adam. Ce cadre offre une approche polyvalente pour établir la convergence d’Adam. Plus précisément, nous prouvons qu’Adam atteint une convergence asymptotique (dernier sens itéré) à la fois dans le sens presque certain et le sens \(L_1\) sous les hypothèses relâchées généralement utilisées pour SGD, à savoir la \(L\)-lisse et l’inégalité ABC. Pendant ce temps, sous les mêmes hypothèses, nous montrons qu’Adam atteint des bornes de complexité d’échantillon non asymptotiques similaires à celles du SGD.
Adam est l’une des méthodes d’optimisation les plus populaires utilisées pour entraîner les modèles d’apprentissage profond. Ça fonctionne bien en pratique parce qu’il peut automatiquement ajuster la vitesse d’apprentissage pendant l’entraînement. Cependant, jusqu’à présent, comprendre exactement quand et pourquoi Adam travaille a nécessité des hypothèses mathématiques très fortes et souvent irréalistes. Dans cet article, nous présentons un nouveau cadre théorique qui montre qu’Adam peut réussir dans des conditions beaucoup plus souples et pratiques — similaires à celles nécessaires pour analyser l’algorithme plus basique SGD (descente du gradient stochastique). Nos résultats montrent qu’Adam non seulement réussit bien en pratique, mais bénéficie aussi de garanties théoriques solides, contribuant à combler le fossé entre son succès empirique et sa compréhension formelle. Ce travail pourrait aussi aider les chercheurs à analyser plus facilement d’autres méthodes d’optimisation similaires.
Stephan Rabanser, Ali Shahin Shamsabadi, Olive Franzese, Xiao Wang, Adrian Weller, Nicolas Papernot (membre du corps professoral de Vector)
Les prédictions prudentes — lorsqu’un modèle d’apprentissage automatique s’abstient lorsqu’il est incertain — sont cruciales pour limiter les erreurs nuisibles dans les applications critiques pour la sécurité. Dans cet ouvrage, nous identifions une menace nouvelle : une institution malhonnête peut exploiter ces mécanismes pour discriminer ou refuser injustement des services sous couvert d’incertitude. Nous démontrons la praticité de cette menace en introduisant une attaque induisant l’incertitude appelée Mirage, qui réduit délibérément la confiance dans les régions d’entrée ciblées, désavantagant ainsi secrètement des individus spécifiques. En même temps, Mirage maintient une performance prédictive élevée sur tous les points de données. Pour contrer cette menace, nous proposons Confidential Guardian, un cadre qui analyse les métriques d’étalonnage sur un ensemble de données de référence afin de détecter une confiance artificiellement supprimée. De plus, il utilise des preuves à connaissance nulle de l’inférence vérifiée afin de s’assurer que les scores de confiance rapportés proviennent réellement du modèle déployé. Cela empêche le fournisseur de fabriquer des valeurs de confiance arbitraires du modèle tout en protégeant les détails propriétaires du modèle. Nos résultats confirment que Confidential Guardian empêche efficacement l’abus de prédictions prudentes, fournissant des garanties vérifiables que l’abstention reflète une véritable incertitude du modèle plutôt que des intentions malveillantes.
Lorsque les systèmes d’intelligence artificielle (IA) sont incertains, ils choisissent souvent de « s’abstenir » de faire une prédiction. Ce comportement prudent aide à éviter les erreurs nuisibles dans des milieux à enjeux élevés comme la médecine, la finance ou la justice pénale. Mais si ce mécanisme même — censé promouvoir la sécurité — pouvait être déformé en un outil de nuisance? Dans notre travail, nous révélons une possibilité troublante : une organisation pourrait délibérément faire paraître son système d’IA incertain pour certaines personnes — non pas parce que la tâche est vraiment difficile, mais en leur refusant discrètement des services comme des prêts ou des prestations. Nous appelons cette stratégie trompeuse Mirage, une attaque qui réduit la confiance de l’IA dans des cas spécifiques tout en performant globalement bien. Cela rend difficile pour les observateurs extérieurs de remarquer quoi que ce soit de suspect. Pour stopper ce genre d’abus, nous introduisons Confidential Guardian, un nouveau système qui permet aux auditeurs indépendants de vérifier si le comportement prudent d’une IA est réel ou artificiellement fabriqué. Elle y parvient en analysant le comportement de l’IA sur des cas de test fiables, et en vérifiant son comportement à l’aide d’une technique qui garantit l’honnêteté — sans révéler le fonctionnement interne du modèle. Nos résultats mettent en lumière un danger caché dans les systèmes d’IA actuels et offrent une voie vers une plus grande transparence et équité — en veillant à ce que la prudence soit utilisée pour la sécurité, et non pour la discrimination.
Kelsey Allen (membre du corps professoral Vector), Carl Doersch, Guangyao Zhou, Mohammed Suhail, Danny Driess, Ignacio Rocco, Yulia Rubanova, Thomas Kipf, Mehdi S. M. Sajjadi, Kevin Murphy, Joao Carreira, Sjoerd van Steenkiste
Une limitation actuelle des modèles vidéo génératifs est qu’ils génèrent des images d’apparence plausibles, mais un mouvement médiocre — un problème mal capturé par la FVD et d’autres méthodes populaires d’évaluation des vidéos générées. Ici, nous allons au-delà de la DVF en développant une métrique qui mesure mieux les interactions plausibles entre objets et le mouvement. Notre approche novatrice repose sur l’auto-encodage des pistes ponctuelles et produit des caractéristiques de mouvement qui peuvent être utilisées pour comparer des distributions de vidéos (aussi peu qu’une générée et une de vérité de terrain, ou jusqu’à deux ensembles de données), ainsi que des erreurs de reconstruction pour évaluer le mouvement de vidéos individuelles. Nous montrons que l’utilisation de pistes ponctuelles au lieu de reconstruction de pixels ou de caractéristiques de reconnaissance d’action donne une métrique nettement plus sensible aux distorsions temporelles dans les données synthétiques, et peut mieux prédire les évaluations humaines de la cohérence temporelle et du réalisme dans les vidéos générées à partir de modèles open source qu’une large gamme d’alternatives.
Les modèles actuels d’intelligence artificielle qui créent des vidéos créent souvent des images individuelles crédibles, mais la façon dont les éléments se déplacent dans les vidéos n’est pas très réaliste. Les méthodes existantes pour vérifier la qualité vidéo ne détectent pas bien ces mauvais mouvements, et nécessitent généralement un accès à tout un ensemble de vidéos plutôt qu’à une seule. Nous avons créé une nouvelle façon de mesurer la qualité vidéo qui se concentre spécifiquement sur la façon dont les objets bougent et interagissent. Notre méthode fonctionne en suivant les points sur les objets tout au long de la vidéo et en utilisant ces informations pour comprendre le mouvement. Cela nous permet de voir à quel point le mouvement est réaliste, même pour des vidéos individuelles. Nous avons constaté que notre nouvelle approche, qui utilise ces points suivis, est beaucoup meilleure pour détecter des mouvements étranges ou non naturels dans les vidéos générées par ordinateur comparativement à d’autres méthodes. Ça fait aussi un meilleur travail pour correspondre à ce que les gens trouvent réaliste et cohérent dans les vidéos faites par l’IA. De plus, notre méthode peut aider à identifier précisément où dans une vidéo le mouvement semble incorrect, ce qui facilite la compréhension des erreurs commises.
Sivan Sabato (membre du corps professoral Vector), Eran Treister, Elad Yom-Tov
Nous proposons des méthodes pour auditer l’équité des classificateurs multiclasses sous les cotes égalisées multiclasses, en estimant l’écart par rapport aux cotes égalisées lorsque le classificateur n’est pas complètement équitable. Nous généralisons aux classificateurs multiclasses la mesure de la prédiction conditionnelle disparate (DCP), initialement suggérée par Sabato & Yom-Tov (2020) pour les classificateurs binaires. La DCP est définie comme la fraction de la population pour laquelle le classificateur prédit avec des probabilités de prédiction conditionnelles qui diffèrent de la référence commune la plus proche. Nous proposons de nouvelles méthodes d’optimisation locale pour estimer le DCP multiclasse sous deux régimes différents, l’un dans lequel les matrices de confusion conditionnelles pour chaque sous-population protégée sont connues, et l’autre où celles-ci ne peuvent pas être estimées, par exemple parce que le classificateur est inaccessible ou parce que des données individuelles de bonne qualité ne sont pas disponibles. Ces méthodes peuvent être utilisées pour détecter des classificateurs qui traitent probablement une fraction significative de la population de manière injuste. Les expériences démontrent la précision des méthodes. Le code des expériences est fourni comme matériel complémentaire.
De nombreux systèmes d’apprentissage automatique prennent des décisions qui affectent la vie des gens, comme approuver des prêts ou recommander des traitements médicaux. Lorsque l’accès au système sous-jacent devient difficile, il devient plus difficile de vérifier s’ils traitent tous les groupes de personnes équitablement. De plus, les vérifications d’équité existantes ne traitent souvent pas les cas où ces systèmes traitent plus de deux résultats possibles. Nous introduisons de nouvelles méthodes pour auditer ces systèmes décisionnels multiclasses afin d’assurer l’équité. Nous nous appuyons sur une mesure d’équité appelée Prédiction Conditionnelle Disparate (DCP), qui examine combien de personnes reçoivent des prédictions différant d’une référence équitable. Nous étendons cette mesure pour travailler avec des systèmes qui supportent plus de deux résultats, et proposons deux façons d’estimer le DCP : l’une pour les cas où nous disposons de données détaillées sur le comportement du système pour différents groupes, et l’autre pour les cas où nous n’avons pas accès au système ou à des données individuelles de haute qualité. Ces outils facilitent la détection lorsqu’un système décisionnel traite probablement une part importante de la population de manière injuste, aidant ainsi les organisations et les régulateurs à identifier et à traiter les biais menant à des résultats plus équitables pour tous.
Andrei Muresanu, Anvith Thudi, Michael Zhang, Nicolas Papernot (membre du corps professoral Vector)
Les modèles modernes d’apprentissage automatique sont coûteux à entraîner, et l’inquiétude grandit quant au défi de retirer rétroactivement des données d’entraînement spécifiques. Réaliser un désapprentissage exact dans les pipelines d’apprentissage profond — produire des modèles comme si certaines données n’avaient jamais été incluses dans l’entraînement — demeure un problème ouvert. Dans cet article, nous revenons sur le désapprentissage exact de l’apprentissage profond et montrons que pour les grands modèles de langage (LLM), nous pouvons désapprendre efficacement exactement le « fine-tuning des données » (les données utilisées pour adapter un modèle pré-entraîné). Cela découle de deux observations. Premièrement, nous pouvons utiliser l’apprentissage en contexte pour adapter le LLM à l’ensemble de données d’ajustement fin plutôt qu’aux algorithmes basés sur SGD. Deuxièmement, nous montrons que l’apprentissage précis en contexte peut être réalisé avec des moyennes quantisées k, ce qui permet des opérations de désapprentissage en temps pratiquement constant. Notre évaluation empirique montre que cette recette de désapprentissage a des performances similaires à des alternatives d’ajustement fin, mais réduit considérablement les coûts de désapprentissage. Notre étude souligne également la nécessité de nouvelles mesures du coût du désapprentissage lors de l’adaptation de l’algorithme d’apprentissage pour permettre des opérations de désapprentissage plus rapides.
Après le déploiement d’un modèle, il peut devenir nécessaire de « désapprendre » certaines données d’entraînement originales. Désapprendre précisément les données d’entraînement a coûté cher pour l’apprentissage profond, et dans cet article, nous avons montré que cela peut être efficace lorsqu’on adapte un LLM pré-entraîné à une tâche. Cela découle de l’observation qu’un algorithme d’apprentissage parfois efficace pré-ajoute des exemples d’entraînement à l’invite donnée à un LLM. Nous avons étudié des moyens de désapprendre cette sélection d’exemples, et avons constaté que nous pouvions le faire avec des coûts indépendants du modèle et de la taille de l’ensemble de données. Nous avons aussi observé que tous les efforts passés pour accélérer le désapprentissage augmentaient le coût d’inférence, et proposaient de nouvelles métriques pour saisir ce compromis.
Ganyu Wang, Jinjie Fang, Maxwell (Juncheng) Yin, Bin Gu, Xi Chen, Boyu Wang (affilié de la faculté Vector), Yi Chang, Charles X. Ling
L’apprentissage des prompts discrets en boîte noire (BDPL) est une méthode d’ajustement des prompts qui optimise les prompts discrets sans accéder aux paramètres ou gradients du modèle, rendant l’ajustement des prompts sur un grand modèle de langage (LLM) basé sur le cloud. Adapter Federated Learning (FL) à BDPL pourrait encore améliorer la performance du réglage prompt en tirant parti de données provenant de sources diverses. Cependant, toutes les recherches antérieures sur l’ajustement fédéré des prompts en boîte noire avaient négligé le coût important des requêtes associé au service de LLM basé sur le cloud. Pour combler cet écart, nous avons mené une analyse théorique de l’efficacité des requêtes dans le contexte de l’ajustement fédéré des prompts en boîte noire. Nos résultats ont révélé que dégrader FedAvg pour n’activer qu’un seul client par ronde, une stratégie que nous avons appelée \textit{FedOne}, permettait une efficacité optimale des requêtes dans l’apprentissage fédéré des prompts en boîte noire. S’appuyant sur cette idée, nous avons proposé le cadre FedOne, une méthode d’apprentissage des prompts discrets en boîte noire fédérée conçue pour maximiser l’efficacité des requêtes lors de l’interaction avec des LLM basés sur le cloud. Nous avons mené des expériences numériques sur divers aspects de notre cadre, démontrant une amélioration significative de l’efficacité des requêtes, ce qui correspond à nos résultats théoriques.
Les grands modèles de langage comme ChatGPT sont souvent accessibles via des services payants qui ne permettent pas aux utilisateurs de voir ou de modifier les composants internes du modèle. Pour personnaliser ces modèles selon des tâches spécifiques, les utilisateurs doivent les « interroger » à répétition, ce qui est à la fois coûteux et lent. Cet article explore combien d’utilisateurs peuvent collaborer pour affiner ces modèles sans partager leurs données, en utilisant une méthode appelée apprentissage fédéré. Mais dans cette configuration, le coût se multiplie : chaque utilisateur participant doit faire de nombreuses requêtes aux LLM, ce qui rend cela impraticable. Nous introduisons FedOne, une nouvelle approche qui entraîne le modèle en n’activant qu’un seul utilisateur à la fois. Notre analyse montre que cette configuration est non seulement beaucoup plus efficace pour réduire les requêtes coûteuses, mais conserve aussi de fortes performances. Nous avons testé cette idée sur des tâches réelles en utilisant des modèles comme GPT-3.5 et avons montré que FedOne est à la fois efficace et rentable. FedOne facilite l’adaptation d’outils d’IA puissants à leurs besoins pour les personnes et les organisations à moindre coût.
Marta Skreta, Tara Akhound-Sadegh, Viktor Ohanesian, Roberto Bondesan, Alan Aspuru-Guzik (membre du corps professoral Vector), Arnaud Doucet, Rob Brekelmans (boursier postdoctoral distingué Vector), Alexander Tong, Kirill Neklyudov
Bien que les modèles génératifs basés sur les scores soient le modèle de choix dans divers domaines, il existe des outils limités pour contrôler le comportement en temps d’inférence de manière de manière de principe, par exemple pour composer plusieurs modèles pré-entraînés. Les méthodes de guidage existantes sans classificateur utilisent une heuristique simple pour mélanger des scores conditionnels et inconditionnels afin d’échantillonner approximativement à partir de distributions conditionnelles. Cependant, de telles méthodes n’approximent pas les distributions intermédiaires, ce qui nécessite des étapes « correctrices » supplémentaires. Dans ce travail, nous fournissons une méthode efficace et de principe pour échantillonner à partir d’une séquence de distributions recuites, moyennées géométriquement ou produits dérivées de modèles préentraînés basés sur les scores. Nous dérivons un schéma de simulation pondérée que nous appelons correcteurs de Feynman-Kac (FKC) basé sur la célèbre formule de Feynman-Kac en tenant soigneusement compte des termes dans les équations aux dérivées partielles (EDP) appropriées. Pour simuler ces EDP, nous proposons des algorithmes de rééchantillonnage séquentiel Monte Carlo (SMC) qui exploitent l’échelle du temps d’inférence pour améliorer la qualité de l’échantillonnage. Nous démontrons empiriquement l’utilité de nos méthodes en proposant un échantillonnage amorti par recuit à température en temps d’inférence, en améliorant la génération de molécules multi-objectifs à l’aide de modèles pré-entraînés, et en améliorant les directives sans classificateur pour la génération texte-image.
Les modèles de diffusion sont des outils puissants pour générer des données comme des images, des molécules ou du texte, mais il est généralement difficile de contrôler leur processus de génération. Cet article présente une méthode appelée correcteurs de Feynman-Kac (FKC), qui permet un contrôle précis sur ce qu’un modèle de diffusion génère sans le réentraîner. FKC fonctionne en ajustant la manière dont les échantillons sont prélevés à partir du modèle, en se basant sur le cadre Séquentiel Monte Carlo et, en particulier, la formule de Feynman-Kac. Cela permet une approche de principe pour échantillonner à partir de distributions de cibles combinées, comme les mélanges ou produits de plusieurs modèles préentraînés, ou les distributions cibles recuites par température. Nous montrons que la FKC améliore l’échantillonnage dans trois contextes : 1. le guidage sans classificateurs, largement utilisé dans la génération texte-image, 2. la génération de molécules qui satisfont à plusieurs objectifs (se liant simultanément à deux protéines) et 3. échantillonnage à partir de systèmes physiques à différentes températures à l’aide d’un modèle entraîné à une seule température. Contrairement aux méthodes traditionnelles, le FKC permet un échantillonnage flexible et efficace avec peu de calcul supplémentaire. Cela ouvre de nouvelles possibilités d’applications en IA, découverte de médicaments et simulations scientifiques.
Yu Li, Felix Dangel (boursier postdoctoral distingué Vector), Derek Tam, Colin Raffel (membre du corps professoral Vector)
La diagonale de la matrice d’information de Fisher d’un modèle (la « Fisher ») a souvent été utilisée comme moyen de mesurer la sensibilité des paramètres. Typiquement, le Fisher est estimé en calculant le gradient au carré des sorties du modèle par rapport à ses paramètres, moyenné sur quelques centaines ou milliers d’exemples — un processus qui engendre des coûts computationnels non négligeables. En même temps, des méthodes de gradient adaptatif comme l’optimiseur Adam, omniprésent, calculent une moyenne mobile du gradient au carré au cours de l’entraînement. Cet article explore donc si une approximation du Fisher peut être obtenue « gratuitement » en recyclant l’accumulateur de gradient au carré qui a déjà été calculé au cours de l’entraînement. Grâce à un ensemble complet d’expériences couvrant cinq applications du Fisher, nous démontrons que le « Squisher » (**Squ**ared gradient accumulateur comme approximation du F**isher**)) performe constamment de manière similaire au Fisher tout en surpassant les méthodes de base. De plus, nous clarifions les différences exactes entre le Squisher et le Fisher et fournissons une quantification empirique de leur impact respectif.
Comprendre quelles parties d’un réseau de neurones sont les plus importantes (c’est-à-dire quels paramètres comptent le plus) peut aider pour des tâches comme la fusion de modèles, l’élagage, l’apprentissage par transfert et l’apprentissage continu. Un outil populaire pour cela est la diagonale de la matrice d’information de Fisher, que nous appelons la matrice de Fisher. Mais le calculer peut coûter cher — cela nécessite un calcul supplémentaire sur des centaines voire des milliers d’exemples. Dans cet article, nous demandons si nous obtenons une version assez bonne du Fisher sans payer le prix plein. Étonnamment, la réponse est oui. Pendant l’entraînement, des optimiseurs largement utilisés comme Adam suivent déjà une quantité similaire : les gradients au carré des paramètres du modèle. Cette approximation, que nous appelons Squisher (**Squ**ared gradient accumulator comme approximation du F**isher**), ne nécessite ni calcul ni mémoire supplémentaire et est facilement disponible « gratuitement ». À travers cinq applications courantes du Fisher, nous montrons que Squisher produit des résultats comparables à la méthode Fisher originale, mais avec un coût computationnel significativement inférieur. Cela permet d’économiser du temps et des ressources, ce qui facilite l’application de ces techniques à grande échelle.
Gabriel Tseng, Anthony Fuller, Marlena Reil, Henry Herzog, Patrick Beukema, Favyen Bastani, James Green, Evan Shelhamer (membre du corps professoral de Vector), Hannah Kerner, David Rolnick
Nous introduisons un transformateur hautement multimodal pour représenter de nombreuses modalités de télédétection – optique multispectrale, radar à ouverture synthétique, élévation, météo, pseudo-étiquettes, et plus encore – à travers l’espace et le temps. Ces entrées sont utiles pour diverses tâches de télédétection, comme la cartographie des cultures et la détection des inondations. Cependant, apprendre des représentations partagées des données de télédétection est un défi, compte tenu de la diversité des modalités de données pertinentes, et parce que les objets d’intérêt varient énormément en échelle, allant de petits bateaux (1-2 pixels et rapides) aux glaciers (de milliers de pixels et lents). Nous présentons un nouvel algorithme d’apprentissage auto-supervisé qui extrait des caractéristiques à plusieurs échelles à travers un ensemble flexible de modalités d’entrée grâce à la modélisation masquée. Nos pertes contrastives doubles globales et locales diffèrent par leurs cibles (représentations profondes vs. projections d’entrée superficielles) et leurs stratégies de masquage (structurées vs. non). Notre Galileo est un modèle généraliste unique qui surpasse les modèles spécialisés SoTA pour les images satellites et les séries temporelles de pixels sur onze benchmarks et plusieurs tâches.
Nous recueillons beaucoup d’informations sur notre planète à partir de « données de télédétection » (observations satellites, cartes topographiques, et plus encore), mais nous en savons moins que vous ne le pensez. Analyser les données de télédétection grâce à l’apprentissage automatique peut nous aider à mieux comprendre notre planète en mutation. Nous présentons un modèle d’apprentissage automatique — que nous appelons Galileo — qui peut aider à résumer les données de télédétection. Cela signifie qu’avec un traitement minimal supplémentaire, ses résumés peuvent aider à faire des prédictions et des cartes, comme celles des inondations ou des champs agricoles. Nous y parvenons en donnant à Galilée un ensemble incomplet de données pour un temps et un lieu, et en lui demandant de reconstruire ce que nous avons retiré. En faisant attention à ce que nous demandons exactement à Galilée de reconstruire, nous pouvons nous assurer que les résumés de Galilée tiennent compte des choses grandes et lentes (comme les glaciers) ainsi que des petites et rapides (comme les bateaux de pêche). Galileo est particulièrement pertinent pour la télédétection en pratique grâce à sa modélisation des données à travers l’espace, le temps et divers types de données (par exemple, données optiques provenant de satellites, cartes topographiques, données météorologiques et plus encore). Nous testons Galilée sur 15 tâches différentes contre 11 autres méthodes : Galilée performe mieux avec un seul modèle général. Cela le rend immédiatement utile dans de nombreuses applications existantes.
Marvin F. da Silva, Felix Dangel (boursier postdoctoral distingué Vector), Sageev Oore (affilié du corps professoral Vector)
Le concept de netteté a été appliqué avec succès aux architectures traditionnelles comme les MLP et les CNN pour prédire leur généralisation. Pour les transformateurs, cependant, des travaux récents ont rapporté une faible corrélation entre la platitude et la généralisation. Nous soutenons que les mesures de netteté existantes échouent pour les transformateurs, car ils ont des symétries beaucoup plus riches dans leur mécanisme d’attention qui induisent des directions dans l’espace des paramètres le long desquelles le réseau ou sa perte restent identiques. Nous postulons que la netteté doit pleinement tenir compte de ces symétries, et nous la redéfinissons donc sur une variété quotient résultant de la suppression des symétries des transformateurs, supprimant ainsi leurs ambiguïtés. En tirant parti des outils de la géométrie riemannienne, nous proposons une notion entièrement générale de netteté, en termes d’une boule géodésique sur la variété quotient corrigée par symétrie. En pratique, il faut recourir à l’approximation des géodésiques. Faire cela jusqu’au premier ordre donne des mesures de netteté adaptative existantes, et nous démontrons que l’inclusion des termes d’ordre supérieur est cruciale pour retrouver la corrélation avec la généralisation. Nous présentons des résultats sur des réseaux diagonaux avec des données synthétiques, et montrons que notre netteté géodésique révèle une forte corrélation pour les transformateurs réels, tant sur les tâches de classification de texte qu’d’image.
En apprentissage profond, comprendre pourquoi certains réseaux de neurones font de meilleures prédictions que d’autres est un problème important. Une idée populaire pour expliquer cela s’appelle la netteté. La netteté examine la forme du paysage de pertes du réseau, une sorte de paysage montrant à quel point le réseau va bien ou mal selon de petits changements dans ses paramètres internes. En général, si ce paysage est « plat », cela signifie que de petits changements ne nuisent pas beaucoup à la performance, et que le modèle est plus susceptible de bien généraliser à des données qu’il n’a jamais vues auparavant. Cette idée fonctionne bien pour les anciens types de réseaux neuronaux comme les MLP (perceptrons multicouches) et les CNN (réseaux neuronaux convolutionnels). Mais pour les transformers, cette relation s’effondre. Les chercheurs ont constaté que la netteté, telle qu’elle est habituellement mesurée, ne prédit pas de façon fiable si un transformateur va bien se généraliser. Nous soutenons que le problème ne vient pas de l’idée de netteté elle-même, mais de la façon dont elle est mesurée dans les transformateurs. Les transformateurs ont plusieurs façons de modifier leurs paramètres internes sans réellement modifier le comportement du modèle (symétries). Ces symétries confondent les mesures traditionnelles de netteté. En utilisant des outils issus de la géométrie différentielle, nous introduisons une définition plus précise de la netteté qui prend en compte ces symétries, constatant qu’une fois corrigées ces symétries, la netteté reste un concept utile.
Ruiyi Fang, Bingheng Li, Jingyu Zhao, Ruizhi Pu, QIUHAO Zeng, Gezheng Xu, Charles X. Ling, Boyu Wang (affilié de la faculté Vector)
L’adaptation du domaine des graphes (GDA) transfère les connaissances des graphes sources étiquetés vers des graphes cibles non étiquetés, répondant au défi de la rareté des étiquettes. Dans cet article, nous mettons en lumière l’importance de l’homophilie des graphes, un facteur clé pour l’alignement des domaines des graphes, qui, cependant, a longtemps été négligé dans les approches existantes. Plus précisément, notre analyse révèle d’abord que des écarts d’homophilie existent dans les benchmarks. De plus, nous montrons aussi que les écarts d’homophilie dégradent la performance de la GDA tant sur le plan empirique que théologique, ce qui souligne encore l’importance de l’alignement homophile dans la GDA. Inspirés par cette découverte, nous proposons un nouvel algorithme d’alignement homophile qui utilise des filtres mixtes pour lisser les signaux des graphes, capturant ainsi efficacement et atténuant les écarts d’homophilie entre graphes. Les résultats expérimentaux sur divers repères confirment l’efficacité de notre méthode.
Les graphiques sont des moyens puissants de représenter des relations complexes, comme la façon dont les gens interagissent sur les réseaux sociaux ou comment l’information circule sur Internet. Dans de nombreuses situations réelles, des informations utiles (comme des étiquettes ou des catégories) existent pour un graphe mais pas pour un autre. L’adaptation du domaine des graphes (GDA) aide à transférer ces connaissances d’un graphe à un autre, économisant du temps et des ressources. Dans nos recherches, nous avons découvert qu’un facteur clé appelé homophilie — la tendance des nœuds connectés à être similaires — est souvent différente entre les graphes, et ce décalage peut nuire à la performance de GDA. Étonnamment, cette question a été largement ignorée jusqu’à présent. Nous avons étudié comment ces différences influencent les résultats et avons constaté qu’aligner cette similarité entre les graphes peut faire une grande différence. Nous avons développé une nouvelle méthode pour lisser ces différences et améliorer la façon dont les connaissances transmettent entre les graphes. Notre approche fonctionne bien à travers divers ensembles de données, montrant un potentiel pour améliorer l’apprentissage à partir des données de graphes dans de nombreuses applications, des systèmes de recommandation aux réseaux sociaux.
Nguyen Nhat Minh To, Paul Wilson, Viet Nguyen, Mohamed Harmanani, Michael Cooper, Fahimeh Fooladgar, Purang Abolmaesumi, Parvin Mousavi (membre du corps professoral Vector), Rahul G. Krishnan (membre du corps professoral Vector)
Les changements de sous-population, caractérisés par des disparités dans la répartition des sous-populations entre les ensembles de données d’entraînement et cibles, peuvent dégrader de manière significative la performance du modèle d’apprentissage automatique. Les solutions actuelles aux changements de sous-populations impliquent souvent de modifier la minimisation empirique du risque par des stratégies de repondération afin d’améliorer la généralisation entre les sous-populations. Cette stratégie repose souvent sur des hypothèses concernant le nombre et la nature des sous-populations ainsi que sur des annotations d’appartenance à des sous-populations, qui ne sont pas disponibles pour de nombreux ensembles de données réels. Nous proposons une nouvelle solution pour explorer heuristiquement le sous-espace des caractéristiques : nous entraînons de nombreux classificateurs tout en imposant la diversification afin de favoriser la découverte et la classification correcte de nouvelles sous-populations sans nécessiter de connaissances préalables des sous-populations. Étant donné un réseau d’extracteurs de caractéristiques, nous remplaçons sa couche linéaire standard par un mélange de classificateurs prototypiques, où chaque membre est entraîné à classifier les données tout en se concentrant sur des caractéristiques et échantillons différents comparés aux autres membres. Nous démontrons que notre solution surpasse l’état de l’art précédent en termes de précision des pires groupes sur la plupart des benchmarks en utilisant des évaluations empiriques sur neuf ensembles de données réels couvrant divers domaines et types de déplacements de sous-populations (le code est disponible à https://anonymous.4open.science/r/prototypical_ensembles-BCB3).
Les modèles d’apprentissage automatique rencontrent souvent des difficultés lorsqu’ils rencontrent des situations légèrement différentes de celles sur lesquelles ils ont été entraînés. C’est un problème majeur lorsque les données incluent des sous-groupes cachés, tels que différents types de personnes, d’environnements ou de conditions médicales, qui ne sont pas représentés de manière égale. Par exemple, un modèle entraîné principalement sur des patients en bonne santé pourrait ne pas bien fonctionner chez ceux atteints de maladies rares. Nos recherches introduisent une nouvelle technique appelée l’ensemble prototypique diversifié (DPE) pour s’attaquer à ce problème. Au lieu d’utiliser un seul modèle, nous créons un groupe de classificateurs simples appelés prototypes. Chacun apprend à se concentrer sur différents motifs ou caractéristiques dans les données. Nous encourageons ces classificateurs à être aussi différents que possible, afin qu’ensemble ils puissent couvrir une plus grande variété de sous-groupes cachés. Le principal avantage de la DPE est qu’elle ne nécessite pas une connaissance préalable des sous-groupes. Il peut les découvrir et les adapter automatiquement en utilisant uniquement les données elles-mêmes. Cela le rend particulièrement utile dans des situations réelles où de telles étiquettes de sous-groupes manquent ou sont difficiles à définir. À travers neuf ensembles de données complexes, notre méthode surpasse constamment les solutions existantes et contribue à rendre les modèles d’apprentissage automatique plus justes et fiables lorsqu’ils sont utilisés dans des populations diverses.
Alessandro Licciardi, Davide Leo, Eros Fanì, Barbara Caputo, Marco Ciccone (boursier postdoctoral distingué Vector)
L’apprentissage fédéré (FL) est apparu comme un paradigme décentralisé pour entraîner des modèles tout en préservant la vie privée. Cependant, la FL conventionnelle a du mal avec l’hétérogénéité des données et le déséquilibre de classes, ce qui dégrade la performance du modèle. Le Clustered FL équilibre personnalisation et entraînement décentralisé en regroupant les clients avec des distributions de données analogues, permettant une meilleure précision tout en respectant les contraintes de confidentialité. Cette approche atténue efficacement l’impact négatif de l’hétérogénéité dans FL.In ce travail, nous proposons une nouvelle méthode de regroupement pour FL, **FedGWC** (Federated Gaussian Weighting Clustering), qui regroupe les clients selon leur distribution de données, permettant l’entraînement d’un modèle plus robuste et personnalisé sur les clusters identifiés. **FedGWC** identifie des groupes homogènes en transformant les pertes empiriques individuelles pour modéliser les interactions clients avec un mécanisme de récompense gaussienne. De plus, nous introduisons le *Wasserstein Adjusted Score*, une nouvelle métrique de regroupement pour le FL afin d’évaluer la cohésion du cluster par rapport à la distribution individuelle des classes. Nos expériences sur des ensembles de données de référence montrent que **FedGWC** surpasse les algorithmes FL existants en qualité de cluster et en précision de classification, validant ainsi l’efficacité de notre approche.
L’entraînement des modèles d’IA nécessite généralement de centraliser d’énormes quantités de données, ce qui soulève des préoccupations en matière de vie privée. Federated Learning (FL) propose une solution en permettant à des appareils ou institutions en périphérie – comme les téléphones intelligents et les hôpitaux – d’entraîner un modèle partagé de façon collaborative sans envoyer leurs données privées à un serveur central. Cependant, les données du monde réel sont souvent désordonnées : différents appareils peuvent avoir des types de données très variés, ou certaines catégories de données peuvent être rares sur certains appareils alors que courantes sur d’autres. Cette *hétérogénéité des données* rend difficile la performance des modèles FL sur tous les appareils. Notre travail introduit **FedGWC**, une nouvelle méthode pour rendre la formation FL plus efficace. Au lieu de forcer tous les appareils à entraîner un seul modèle, FedGWC regroupe les appareils avec des caractéristiques de données similaires en clusters, permettant à chaque cluster d’entraîner son modèle spécialisé, qui est beaucoup mieux adapté aux données de ce groupe. Pensez-y comme organiser un groupe d’étude : au lieu que tout le monde étudie le même sujet large, de petits groupes se forment pour se concentrer sur des sujets précis pour lesquels ils ont tous besoin d’aide. FedGWC fait cela en analysant la capacité de chaque modèle d’appareil à apprendre à partir de ses propres données sans réellement examiner les données elles-mêmes. Nous avons aussi développé une nouvelle façon de mesurer la qualité de ces groupes, surtout lorsque certaines catégories de données sont beaucoup plus rares que d’autres. Nos expériences montrent que FedGWC améliore significativement la précision des modèles dans les configurations FL, surtout lorsque les données sont diverses et réparties de manière inégale. Cela signifie que nous pouvons construire des applications d’IA plus puissantes et personnalisées tout en préservant des informations privées sensibles.
Ken Ziyu Liu, Christopher A. Choquette Choo, Matthew Jagielski, Peter Kairouz, Sanmi Koyejo, Nicolas Papernot (affilié du corps professoral Vector), Percy Liang
An important question today is whether a given text was used to train a large language model (LLM). A \emph{completion} test is often employed: check if the LLM completes a sufficiently complex text. But, we require a ground-truth definition of membership; most commonly, it is defined as a member based on the \ngram overlap between the target text and any text in the dataset. In this work, we demonstrate that this $n$-gram based membership definition can be effectively gamed. We study scenarios where sequences are \emph{non-members} for a given $n$ and we find that completion tests still succeed. We find many natural cases of this by retraining LLMs after removing all training samples that were completed: these cases include exact duplicates, near-duplicates, and even short overlaps; they showcase that it is difficult to find a single viable choice of $n$. Using these insights, we design adversarial datasets that can cause any target sequences to be completed without containing it, for any reasonable choice of $n$. Our findings highlight the inadequacy of $n$-gram membership, suggesting membership definitions fail to account for auxiliary information available to the training algorithm.
Que veut-on exactement entendre par « inclusion d’ensembles d’entraînement » dans les modèles de langage? Un vaste corpus d’ouvrages—couvrant la recherche, les politiques publiques et même les poursuites judiciaires—a implicitement convergé vers des définitions basées sur le chevauchement de $n $-gramme (sous-chaîne). C’est-à-dire qu’un morceau de texte est considéré comme un « membre » de l’ensemble d’entraînement, si une partie de ce texte (n-gramme) se trouve dans l’ensemble d’entraînement. Cet article raconte deux expériences qui démontrent les limites fondamentales de toutes les définitions d’adhésion basées sur $n$-gramme. Nous posons deux questions du point de vue de la complétion textuelle (mot pour mot) avec un modèle de langage : 1. **Suppression :** Peut-on *empêcher* la génération mot à mot d’un texte en supprimant tous ses n-grammes et en réentraînant le modèle à partir de zéro? La réponse est non! Beaucoup de textes supprimés peuvent encore être générés mot pour mot par le LLM réentraîné. 2. **Ajout :** peut-on *provoquer* la génération mot à mot d’un texte en s’entraînant sur des textes sans chevauchement de n-grammes? La réponse est oui! Et il suffit de quelques pas de dégradé d’ajustement. Le message clé de ce travail est que l’appartenance aux données dans les LLM dépasse l’appartenance d’un ensemble de texte dans le jeu de données brut; elle englobe aussi les voisinages de données (« adhésion douce ») grâce à la généralisation des LLM, la provenance des données, le prétraitement et d’autres informations auxiliaires auxquelles l’algorithme d’entraînement a accès tout au long du pipeline de ML. De nombreux sous-domaines, tels que le droit d’auteur, le désapprentissage, l’inférence des membres et la transparence des données, exigent une définition des membres, et nos travaux montrent que des notions trop simplistes d’adhésion freinent les progrès dans ces domaines.
Shubham Gupta, Thibaut Durand, Graham Taylor (membre du corps professoral Vector), Lilian Bialokozowicz
Nous présentons une conception novatrice de prompts pour les grands modèles de langage (LLM) adaptée aux **séries temporelles asynchrones**. Contrairement aux séries temporelles régulières, qui prennent des valeurs à des moments bien espacés, les séries temporelles asynchrones consistent en des événements survenant à des intervalles irréguliers, chacun décrit en langage naturel. Notre approche utilise efficacement le riche langage naturel des descriptions d’événements, permettant aux LLM de bénéficier de leur vaste connaissance du monde pour raisonner à travers différents domaines et tâches. Cela nous permet d’étendre la portée de l’analyse asynchrone des séries temporelles au-delà de la prévision pour inclure des tâches comme la détection d’anomalies et l’imputation de données. Nous introduisons également le **Stochastic Soft Prompting**, un mécanisme novateur d’ajustement des prompts qui améliore considérablement la performance du modèle, surpassant les méthodes d’ajustement fin existantes telles que QLORA. Grâce à des expériences approfondies sur des ensembles de données réelles, nous démontrons que notre approche atteint des performances de pointe à travers différentes tâches et ensembles de données.
La plupart des systèmes d’IA analysent des données qui arrivent à intervalles réguliers, comme les prix quotidiens des actions ou les relevés de température horaires. Mais beaucoup d’événements réels se produisent de façon imprévisible — comme des urgences médicales, des publications sur les réseaux sociaux ou des pannes d’équipement — et sont décrits en langage naturel plutôt qu’en chiffres. Les méthodes traditionnelles ont du mal avec ces données de « séries temporelles asynchrones » parce qu’elles ne peuvent pas gérer un timing irrégulier et des descriptions en texte enrichi ensemble. Nous avons développé LASTS, une nouvelle approche qui utilise de grands modèles de langage pour analyser ces séquences d’événements irrégulières. Au lieu de forcer les événements dans des catégories rigides, notre méthode préserve leurs descriptions en langage naturel, permettant à l’IA d’utiliser sa compréhension du langage et des connaissances du monde. Nous avons aussi créé le « Stochastic Soft Prompting », une technique de finetuning qui aide les LLM à mieux comprendre nos données de domaine spécifiques que d’autres techniques célèbres de finetuning. Notre approche surpasse largement les méthodes existantes dans plusieurs ensembles de données réels. Cela rend l’analyse sophistiquée des séries temporelles plus accessible et pourrait améliorer les applications en surveillance des soins de santé, l’analyse financière et la compréhension des médias sociaux, aidant les organisations à mieux prédire et réagir à des événements irréguliers mais importants.
Seyed Mohammad Sadegh Mahdavi, Muchen Li, Kaiwen Liu, Christos Thrampoulidis, Leonid Sigal (membre du corps professoral Vector), Renjie Liao (membre du corps professoral Vector)
Les avancées dans les grands modèles de langage (LLM) ont suscité l’intérêt pour leur capacité à résoudre des problèmes mathématiques de niveau olympique. Cependant, la formation et l’évaluation de ces modèles sont limitées par la taille et la qualité limitées des ensembles de données disponibles, car la création de données à grande échelle pour de tels problèmes avancés nécessite un effort considérable de la part d’experts humains. De plus, les références actuelles sont sujettes à la contamination, ce qui entraîne des évaluations peu fiables. Dans cet article, nous présentons un pipeline automatisé qui exploite les riches ressources du forum Art of Problem Solving (AoPS), qui présente principalement des problèmes de niveau olympiade et des solutions menées par la communauté. En utilisant des LLM open source, nous développons une méthode pour extraire les paires questions-réponses du forum, ce qui donne **AoPS-Instruct**, un ensemble de données de plus de 600 000 paires QA de haute qualité. Nos expériences démontrent que l’ajustement fin des LLM sur AoPS-Instruct améliore leurs capacités de raisonnement à travers divers benchmarks. De plus, nous construisons un pipeline automatique qui introduit **LiveAoPSBench**, un ensemble d’évaluation évolutif avec des horodatages, dérivé des données les plus récentes du forum, fournissant un benchmark résistant à la contamination pour évaluer la performance des LLM. Notamment, nous observons une baisse significative de la performance des LLM au fil du temps, ce qui suggère que leur succès sur des exemples plus âgés pourrait provenir d’une exposition préalable à l’entraînement plutôt que d’une véritable capacité de raisonnement. Notre travail propose une approche évolutive pour créer et maintenir des ensembles de données à grande échelle et de haute qualité pour le raisonnement mathématique avancé, offrant des perspectives précieuses sur les capacités et les limites des LLM dans ce domaine.
La plupart des LLM existants ont du mal avec des problèmes mathématiques avancés parce qu’il y a très peu de données d’entraînement de haute qualité pour les questions de niveau olympiade, et les benchmarks existants incluent souvent des problèmes que les modèles ont déjà observés lors de la pré-formation, rendant les évaluations peu fiables. Pour y remédier, nous avons construit un pipeline automatisé qui exploite le forum Art of Problem Solving pour trouver de véritables problèmes de niveau compétition et des solutions fournies par la communauté, puis utilise des LLM open source pour extraire et nettoyer plus de 600 000 paires questions-réponses, créant ainsi le jeu de données AoPS-Instruct. Nous avons également développé LiveAoPSBench, un ensemble d’évaluation évolutif tiré des derniers messages du forum, qui filtre tout chevauchement avec les données antérieures afin d’éviter toute contamination. En affinant divers LLM sur AoPS-Instruct, nous avons observé des améliorations marquées dans leur capacité à résoudre des problèmes mathématiques complexes. De plus, le suivi de la performance dans le temps sur LiveAoPSBench a révélé que de nombreux modèles performent moins bien sur les questions plus récentes, ce qui indique que les succès passés proviennent souvent d’avoir constaté des problèmes similaires lors de la pré-entraînement plutôt que de véritables compétences de raisonnement. Ce travail offre une façon évolutive de générer et de maintenir de grands ensembles de données fiables pour le raisonnement mathématique avancé, aidant les chercheurs à mieux comprendre et à exploiter les véritables capacités des LLM dans ce domaine.
Naz Sepahvand, Anvith Thudi, Berivan Isik, Ashmita Bhattacharyya, Nicolas Papernot (membre du corps professoral Vector), Eleni Triantafillou, Daniel Roy (membre du corps professoral Vector), Gintare Karolina Dziugaite
Nous présentons une approche de principe, par instance, pour quantifier la difficulté de désapprendre par l’ajustement fin. Nous commençons par affiner une analyse de la descente du gradient bruyant pour le désapprentissage (Chien et al., 2024), obtenant un meilleur compromis utilité-désapprentissage en remplaçant les limites de perte de confidentialité du pire cas par des pertes de confidentialité par instance (Thudi et al., 2024), chacune limitant la divergence (Renyi) vers le réentraînement sans point de données individuel. Pour démontrer l’applicabilité pratique de notre théorie, nous présentons des résultats empiriques montrant que nos prédictions théoriques sont confirmées à la fois pour la dynamique de langevin à gradient stochastique (SGLD) et pour l’ajustement fin standard sans bruit explicite. Nous démontrons en outre que les pertes de confidentialité par instance corrèlent bien avec plusieurs métriques existantes de difficulté des données, tout en identifiant des groupes plus difficiles de points de données, et introduisons de nouvelles méthodes d’évaluation basées sur les barrières à la perte. Ensemble, nos résultats fournissent une base pour des stratégies de désapprentissage plus efficaces et adaptatives, adaptées aux propriétés uniques des points de données individuels.
Dans des scénarios incluant la législation suivant ou des données d’entraînement corrompues, un formateur de modèles doit « oublier » une partie de son jeu de données d’entraînement. Nous faisons le lien qu’une métrique dérivée des statistiques recueillies lors de l’entraînement peut prédire à quel point il sera difficile d’oublier un point de données. Théoriquement, on prouve que cette métrique fournit une borne supérieure sur le nombre d’étapes de descente du gradient nécessaires pour oublier un point de données. Empiriquement, on constate que dans les configurations d’entraînement, cette métrique classe précisément les points de données selon le nombre d’étapes de descente de gradient qu’elles doivent être oubliées. De plus, nous constatons que nos indicateurs proposés sont plus difficiles à oublier, comparativement aux approches passées pour identifier les points de données difficiles.
Adibvafa Fallahpour, Jun Ma, Alif Munim, Hongwei Lyu, Bo Wang (membre du corps professoral de Vector)
En tant que pierre angulaire de l’imagerie diagnostique, les radiographies thoraciques (RX) jouent un rôle essentiel dans la prise de décisions cruciales en gestion des maladies et en soins aux patients. Bien que les innovations récentes aient mené à des modèles spécialisés pour diverses tâches d’interprétation des RX, ces solutions fonctionnent souvent isolément, limitant leur utilité pratique en pratique clinique. Nous présentons MedRAX, le premier agent IA polyvalent qui intègre sans effort des outils d’analyse CXR de pointe et des grands modèles de langage multimodaux dans un cadre unifié. MedRAX exploite dynamiquement ces modèles pour traiter des requêtes médicales complexes sans nécessiter de formation supplémentaire. Pour évaluer rigoureusement ses capacités, nous présentons ChestAgentBench, un benchmark complet contenant 2 500 requêtes médicales complexes réparties dans 7 catégories diverses. Nos expériences démontrent que MedRAX atteint des performances à la fine pointe de la technologie comparées aux modèles open source et propriétaires, ce qui représente une avancée importante vers le déploiement pratique de systèmes automatisés d’interprétation des RX. Les données et le code seront accessibles publiquement à https://medrax25.github.io.
L’interprétation par radiographie thoracique est une tâche cruciale mais exigeante en médecine. Les outils d’intelligence artificielle (IA) existants fonctionnent souvent comme des applications autonomes, ce qui limite leur intégration dans des flux de travail cliniques complets. De plus, les modèles d’IA polyvalents actuels, malgré leurs avancées, ne fournissent pas systématiquement les capacités analytiques en plusieurs étapes ni les processus décisionnels transparents requis en diagnostic médical. Nous avons développé MedRAX, un cadre d’IA conçu pour surmonter ces limites dans l’analyse par radiographie thoracique. MedRAX fonctionne en coordonnant une suite d’outils d’IA spécialisés, chacun compétent dans des tâches spécifiques telles que la détection de maladies, l’identification et la description de structures anatomiques, ou la réponse à des questions détaillées basées sur des images. Le système sélectionne et séquence dynamiquement ces outils, intégrant leurs sorties pour répondre à des requêtes médicales complexes sans nécessiter de réentraîner le cadre de base lors de l’ajout ou de la modification des outils. Cette approche permet à MedRAX d’offrir des analyses plus précises, détaillées et interprétables des radiographies thoraciques comparées aux méthodes existantes, représentant un progrès significatif dans l’application pratique de l’IA en radiologie. Le système vise à améliorer l’efficacité diagnostique, à réduire le risque d’erreur et à accroître la clarté des analyses pilotées par l’IA, soutenant ainsi les professionnels de la santé et potentiellement améliorant les soins aux patients grâce à une assistance IA plus robuste.
Anvith Thudi, Evianne Rovers, Yangjun Ruan, Tristan Thrush, Chris Maddison (membre du corps professoral de Vector)
Les pipelines d’apprentissage automatique modernes combinent et mélangent de plus en plus des données provenant de sources diverses et disparates, par exemple, pré-entraînant de grands modèles de langage. Cependant, trouver le mélange optimal de données est un défi et un problème ouvert. Nous formalisons ce problème de mélange de données comme un objectif à deux niveaux : le meilleur mélange est celui qui mènerait au meilleur modèle pour un objectif en aval. Malheureusement, cet objectif est généralement inextricable. Dans cet article, nous observons que l’objectif de mélange de données à deux niveaux devient convexe à mesure que notre classe de modèle s’agrandit. Nous développons et étudions une approche basée sur le gradient pour optimiser cet objectif convexe, que nous appelons MixMin, et la testons sur des tâches de modélisation du langage et de chimie. MixMin a été la seule méthode qui a uniformément amélioré le mélange de données dans toutes nos expériences. Avec MixMin, nous avons amélioré le mélange de données en utilisant moins de 0,2% de calcul supplémentaire pour un modèle pythia-410 millions de dollars entraîné sur des jetons de 8,2 milliards de dollars, ce qui a entraîné entre 1 et 5% d’amélioration relative à la probabilité logarithmique négative sur PIQA, ARC Easy, SciQ et OpenWebMath. De manière cruciale, nous avons constaté que les mélanges MixMin pour les modèles plus petits amélioraient l’entraînement des modèles plus grands, ce qui suggère que les mélanges MixMin pourraient être invariants à l’échelle. En mélangeant les données de biotest pour entraîner un modèle XGBoost, nous avons constaté des améliorations dans les scores moyens de précision de 0,03 à 0,15 $.
L’apprentissage automatique performant nécessite d’avoir un jeu de données pertinent pour la tâche que vous souhaitez apprendre. Lorsqu’on dispose de nombreuses sources de données, le problème de savoir comment créer un bon ensemble de données à partir de ces sources pose généralement un problème d’optimisation difficile. Dans cet article, nous avons montré que cette optimisation peut être simplifiée si nous entraînons d’abord un modèle (peu coûteux) sur chacune de nos sources de données. Grâce à cela, nous avons fourni une méthode pour créer de meilleurs ensembles de données, menant à des améliorations dans la modélisation du langage et les tâches de chimie. Notre travail ouvre la voie à la recherche de jeux de données utiles pour des tâches généralement limitées en données.
Xiaoli Tang, Han Yu, Zengxiang Li, Xiaoxiao Li (membre du corps professoral de Vector)
L’apprentissage fédéré (AFL) basé sur les enchères est devenu un domaine de recherche important ces dernières années. Les stratégies dominantes pour les consommateurs de données FL (DC) supposent que toute l’équipe des propriétaires de données (DO) requise pour une tâche FL doit être constituée avant que la formation puisse commencer. En pratique, un DC peut déclencher le processus de formation FL plusieurs fois. Les DO peuvent donc être recrutés progressivement au cours de plusieurs séances d’entraînement sur le modèle FL. Les stratégies d’enchères existantes pour les centres d’attente de l’AFL ne sont pas conçues pour gérer de tels scénarios. Par conséquent, le problème de l’AFL multi-sessions demeure ouvert. Pour répondre à ce problème, nous proposons la stratégie d’optimisation budgétaire multi-sessions pour l’apprentissage fédéré avancé basé sur les enchères (MBOS-AFL). Basé sur l’apprentissage par renforcement hiérarchique, MBOS-AFL optimise conjointement le rythme budgétaire inter-sessions et les enchères intra-sessions pour les centres de déplacement AFL, dans le but d’maximiser l’utilité totale. Des expériences approfondies sur six ensembles de données de référence montrent qu’il surpasse nettement sept approches de pointe. En moyenne, \methodname{} obtient une utilité supérieure de 12,28%, 14,52% de données acquises lors d’enchères pour un budget donné, et une précision de test supérieure de 1,23% obtenue par le modèle FL résultant comparativement à la meilleure référence. À notre connaissance, il s’agit de la première méthode d’aide à la décision d’optimisation budgétaire avec une capacité de pacing budgétaire conçue pour les DC dans FL à soumissions avancées multi-sessions.
L’apprentissage fédéré (AFL) basé sur les enchères est devenu un domaine de recherche important ces dernières années. Les stratégies dominantes pour les consommateurs de données FL (DC) supposent que toute l’équipe des propriétaires de données (DO) requise pour une tâche FL doit être constituée avant que la formation puisse commencer. En pratique, un DC peut déclencher le processus de formation FL plusieurs fois. Les DO peuvent donc être recrutés progressivement au cours de plusieurs séances d’entraînement sur le modèle FL. Les stratégies d’enchères existantes pour les centres d’attente de l’AFL ne sont pas conçues pour gérer de tels scénarios. Par conséquent, le problème de l’AFL multi-sessions demeure ouvert. Pour répondre à ce problème, nous proposons la stratégie d’optimisation budgétaire multi-sessions pour l’apprentissage fédéré avancé basé sur les enchères (MBOS-AFL). Basé sur l’apprentissage par renforcement hiérarchique, MBOS-AFL optimise conjointement le rythme budgétaire entre les sessions et les enchères intra-sessions pour les centres d’investissement AFL, dans le but de maximiser l’utilité totale. Des expériences approfondies sur six ensembles de données de référence montrent qu’il surpasse nettement sept approches de pointe. En moyenne, MBOS-AFL obtient une utilité supérieure de 12,28%, 14,52% de données supplémentaires obtenues lors d’enchères pour un budget donné, et une précision de test supérieure de 1,23% obtenue par le modèle FL résultant comparativement à la meilleure référence. À notre connaissance, il s’agit de la première méthode d’aide à la décision d’optimisation budgétaire avec une capacité de pacing budgétaire conçue pour les DCs en AFL avancé multi-sessions.
Daniel Eftekhari, Vardan Papyan (Affilié du corps professoral Vector)
La distribution normale joue un rôle central en théorie de l’information – c’est en même temps le signal dans le meilleur cas et la distribution de bruit dans le pire cas, possède la plus grande capacité de représentation de toutes les distributions, et offre une équivalence entre l’incorrélation et l’indépendance pour les distributions conjointes. Prendre en compte la moyenne et la variance des activations à travers les couches des réseaux neuronaux profonds a eu un effet significatif sur la facilitation de leur entraînement efficace, mais rarement une prescription précise sur la distribution que ces activations devraient prendre, et comment cela pourrait être réalisé, a été proposée. Motivés par les propriétés informationnelles de la distribution normale, nous abordons cette question et présentons simultanément la normalisation de la normalité : une nouvelle couche de normalisation qui encourage la normalité dans les représentations de caractéristiques des réseaux neuronaux en utilisant la transformée de puissance et utilise un bruit gaussen additif pendant l’entraînement. Nos expériences démontrent de manière exhaustive l’efficacité de la normalisation de la normalité, en ce qui concerne sa performance de généralisation sur une gamme de combinaisons de modèles et de jeux de données largement utilisées, sa forte performance sur divers facteurs courants de variation tels que la largeur du modèle, la profondeur et la taille du minilot d’entraînement, son aptitude à l’utilisation partout où les couches de normalisation existantes sont conventionnellement utilisées, et comme moyen d’améliorer la robustesse du modèle face aux perturbations aléatoires.
L’entraînement réussi des réseaux de neurones profonds dépend grandement de la façon dont les données sont représentées, car elles sont traitées à travers les couches d’un réseau. Jusqu’à présent, contrôler la moyenne et la dispersion de ces représentations était la principale approche utilisée pour aider les réseaux de neurones à s’entraîner efficacement. Dans ce travail, nous avons en outre motivé une distribution spécifique que les représentations des réseaux neuronaux devraient suivre, et matérialisé ce choix de distribution à l’aide d’une nouvelle couche que nous avons développée. Nos expériences et analyses ont démontré de manière exhaustive l’efficacité de cette nouvelle couche.
Tosca Lechner (boursier postdoctoral distingué Vector), Alex Bie, Gautam Kamath (membre du corps professoral Vector)
Nous considérons la question de l’apprentissabilité des classes de distribution en présence d’adversaires adaptatifs — c’est-à-dire des adversaires capables d’intercepter les échantillons demandés par un apprenant et d’appliquer des manipulations avec une connaissance complète des échantillons avant de les transmettre à l’apprenant. Cela contraste avec les adversaires inconscients, qui ne peuvent que modifier la distribution sous-jacente d’où proviennent les échantillons, mais pas leur nature i.i.d.\. Nous formulons une notion générale d’apprentissage par rapport aux adversaires adaptatifs, en tenant compte du budget de l’adversaire. Nous montrons que l’apprentabilité par rapport aux adversaires additives adaptatifs est une condition strictement plus forte que l’apprentabilité par rapport aux adversaires additives ignorants.
La généralisation à partir des données d’entraînement sous-tend la plupart des processus d’apprentissage automatique. Souvent, on suppose que ces données d’entraînement proviennent directement du phénomène que l’on souhaite apprendre. Dans notre travail, nous étudions la situation où un adversaire manipule les données d’entraînement avant que l’apprenant ne les voie. Nous étudions les adversaires adaptatifs, qui ont accès à toutes les données d’entraînement et peuvent donc manipuler avec cette connaissance complète. Nous les comparons à des adversaires inconscients, qui ne sont conscients que du processus de génération des données, mais pas des données d’entraînement elles-mêmes. Nous montrons que les adversaires adaptatifs peuvent être strictement plus forts que les adversaires inconscients. En particulier, nous étudions les adversaires additifs, qui peuvent ajouter des points de données, et les adversaires soustractifs, qui peuvent supprimer des points de données. Nous montrons une séparation entre les adversaires adaptatifs additifs et adaptatifs inconscients. Ainsi, nous montrons que dans certaines situations, ajouter des points de données en connaissant un échantillon peut gravement nuire au processus d’apprentissage, tandis que des manipulations additives similaires sur le processus générateur de données ne nuiront pas trop au processus d’apprentissage.
Atefeh Gilani, Felipe Gomez, Shahab Asoodeh (affilié du corps professoral Vector), Flavio Calmon, Oliver Kosut, Lalitha Sankar
Nous proposons un cadre d’optimisation unifié pour concevoir des distributions de bruit continues et discrètes qui assurent la confidentialité différentielle (DP) en minimisant la DP R’enyi, une variante de DP, sous une contrainte de coût. R\'enyi DP a l’avantage qu’en considérant différentes valeurs du paramètre R’enyi $\alpha$, on peut adapter notre optimisation pour un nombre quelconque de compositions. Pour résoudre le problème d’optimisation, on le réduit à une formulation convexe de dimension finie et on effectue une descente préconditionnée du gradient. Les distributions de bruit résultantes sont ensuite comparées à leurs homologues gaussiennes et de Laplace. Les résultats numériques démontrent que nos distributions optimisées sont constamment meilleures, avec des améliorations significatives des garanties $(\varepsilon, \delta)$-DP dans les régimes de composition modérée, comparativement aux distributions gaussiennes et de Laplace avec la même variance.
La protection des informations sensibles est une préoccupation majeure à l’ère du big data. La confidentialité différentielle (DP) est une méthode populaire pour assurer la vie privée en ajoutant du bruit aléatoire aux données, ce qui rend difficile l’identification des individus. Cependant, choisir le bon type de bruit est crucial — trop de bruit peut nuire à la précision des données, et trop peu peut ne pas protéger la vie privée. Dans ce travail, nous introduisons une nouvelle façon de trouver la meilleure distribution du bruit pour une garantie de confidentialité donnée. Notre méthode améliore la précision des résultats tout en respectant des normes strictes de confidentialité. Nous montrons que notre bruit optimisé fonctionne mieux que les types de bruit couramment utilisés, comme Gaussian ou Laplace, à travers différents ensembles de données et paramètres de confidentialité. Cette approche peut aider à rendre l’apprentissage automatique préservant la vie privée plus fiable et efficace dans les applications réelles.
Avery Ma, Yangchen Pan, Amir-Massoud Farahmand (affilié à la faculté Vector)
Le jailbreak à plusieurs tirs contourne l’alignement de sécurité des grands modèles de langage en exploitant leur capacité à traiter de longues séquences d’entrée. Pour y parvenir, l’invite cible malveillante est précédée de centaines de tournants conversationnels fabriqués entre l’utilisateur et le modèle. Ces échanges fabriqués sont échantillonnés aléatoirement à partir d’un ensemble de questions et de réponses malveillantes, donnant l’impression que le modèle a déjà respecté des instructions nuisibles. Dans cet article, nous présentons PANDAS : une technique hybride qui améliore le jailbreak à plusieurs tirs en modifiant ces dialogues fabriqués avec des affirmations positives, des démonstrations négatives et une méthode d’échantillonnage adaptatif optimisée adaptée au sujet du sujet cible. Des expériences approfondies sur AdvBench et HarmBench, utilisant des LLM à la fine pointe de la technologie, démontrent que PANDAS surpasse significativement les méthodes de base dans des scénarios à long contexte. Grâce à une analyse de l’attention, nous fournissons des informations sur la manière dont les vulnérabilités à contexte long sont exploitées et montrons comment PANDAS améliore encore le jailbreaking à plusieurs tirs.
Les grands modèles de langage peuvent être trompés en générant des résultats nuisibles en les surchargeant de longues conversations fausses. Ces conversations sont conçues pour donner l’impression que le modèle a déjà suivi des consignes dangereuses à plusieurs reprises. Dans cet article, nous présentons PANDAS, une technique qui améliore ce type d’attaque en modifiant les fausses conversations avec des phrases d’affirmation positives, des démonstrations négatives et une sélection plus ciblée de contenu. Les résultats sur des modèles open source de pointe montrent que PANDAS est plus efficace pour provoquer des résultats nuisibles que les méthodes précédentes. Nous analysons également les résultats intermédiaires des modèles pour comprendre l’effet de PANDAS.
Abeer Badawi, Md Tahmid Rahman Laskar, Jimmy Huang, Shaina Raza (scientifique en apprentissage automatique appliqué au vecteur), Elham Dolatabadi (affilié du corps professoral Vector)
Ce document de position défend un changement fondamental dans la manière dont les grands modèles de langage (LLM) sont intégrés dans le domaine des soins en santé mentale. Nous plaidons pour leur rôle de co-créateurs plutôt que de simples outils d’assistance. Bien que les LLM aient le potentiel d’améliorer l’accessibilité, la personnalisation et l’intervention en situation de crise, leur adoption demeure limitée en raison des préoccupations concernant les biais, l’évaluation, la dépendance excessive, la déshumanisation et les incertitudes réglementaires. Pour relever ces défis, nous proposons deux voies structurées : les lignes directrices de mise en œuvre SAFE-I pour un déploiement éthique et responsable, et le cadre d’évaluation HAAS-E pour une évaluation multidimensionnelle centrée sur l’humain. SAFE-I fournit un plan directeur pour la gouvernance des données, l’ingénierie des modèles adaptatifs et l’intégration dans le monde réel, garantissant que les LLM respectent les normes cliniques et éthiques. HAAS-E introduit des indicateurs d’évaluation qui vont au-delà de la précision technique pour mesurer la fiabilité, l’empathie, la sensibilité culturelle et la capacité d’action. Nous appelons à l’adoption de ces approches structurées afin d’établir un modèle responsable et évolutif pour le soutien en santé mentale piloté par LLM, en veillant à ce que l’IA complète — plutôt que remplace — l’expertise humaine.
Et si l’IA pouvait être votre coéquipier, et non votre remplaçante, pour offrir des soins de santé mentale compatissants? Alors que la génération native du numérique se tourne vers des outils comme ChatGPT pour tout, des devoirs scolaires aux conseils de carrière, il ne faudra pas longtemps avant qu’ils comptent sur l’IA pour le soutien émotionnel et en santé mentale. La question n’est plus de savoir si les LLM ont leur place en santé mentale, mais comment ils peuvent contribuer de façon sécuritaire, éthique et significative. Cet article soutient que les LLM sont prêts à faire plus que simplement automatiser des tâches lorsqu’ils sont conçus en tenant compte de considérations éthiques et de sécurité. Ces outils peuvent aider à alléger le fardeau des équipes surchargées, offrir des conseils personnalisés et offrir un soutien rapide. Mais les enjeux sont élevés : sans mesures de protection adéquates, les LLM peuvent causer de graves dommages, propager des biais et de la désinformation, ou amener les utilisateurs à accorder une confiance mal placée dans leurs réponses. La mise en place de mesures de protection solides est essentielle pour garantir que ces outils sont sécuritaires, fiables et conformes aux normes éthiques. Pour transformer cette vision en action, notre position propose deux cadres : SAFE-i, qui soutient la conception et le déploiement responsables à travers trois piliers : fondements éthiques des données, ingénierie de modèles et intégration réelle. HAAS-e, qui propose un cadre d’évaluation centré sur l’humain construit autour de quatre dimensions essentielles basées sur la fiabilité, l’équité, l’empathie et la capacité d’action, introduisant des indicateurs tels que le Contextuel Empathie Score (CES), l’Indice de sensibilité culturelle (CSI), le Personnalisation Appropriateness Score (PAS) et l’Évaluation de l’Actionnabilité et de la Sécurité (ASA). Ensemble, ces outils offrent une feuille de route pratique pour aligner les systèmes d’IA avec les valeurs humaines, les objectifs cliniques et la diversité des contextes culturels — donnant aux professionnels de la santé mentale des collaborateurs en IA adaptatifs, éthiques et empathiques.
Jan Kulveit, Raymond Douglas, Nora Ammann, Deger Turan, David Krueger, David Duvenaud (membre du corps professoral de Vector)
Cet article examine les risques systémiques posés par les avancées incrémentales en intelligence artificielle, développant le concept de « dépouillement progressif », en contraste avec les scénarios de prise de contrôle soudaine couramment discutés dans la sécurité de l’IA. Nous analysons comment même des améliorations incrémentales des capacités d’IA peuvent miner l’influence humaine sur les systèmes à grande échelle dont dépend la société, y compris l’économie, la culture et les États-nations. À mesure que l’IA remplace de plus en plus le travail et la cognition humains dans ces domaines, elle peut affaiblir à la fois des mécanismes de contrôle humains explicites (comme le vote et le choix du consommateur) et les alignements implicites avec les préférences humaines qui découlent souvent de la dépendance des systèmes sociaux à la participation humaine pour fonctionner. De plus, les systèmes d’IA peuvent amplifier les désalignements existants avec les préférences humaines en optimisant ces systèmes de façon plus puissante. Ces distorsions entre domaines peuvent se renforcer mutuellement : le pouvoir économique façonne les récits culturels et les décisions politiques, tandis que les changements culturels modifient le comportement économique et politique. Nous soutenons que cette dynamique pourrait entraîner une perte pratiquement irréversible de l’influence humaine sur des systèmes sociétaux cruciaux, précipitant une catastrophe existentielle par la perte permanente de pouvoir de l’humanité. Cette analyse suggère la nécessité à la fois de recherches techniques et d’approches de gouvernance qui abordent spécifiquement le risque d’érosion progressive de l’influence humaine à travers des systèmes sociétaux interconnectés.
Les scénarios de risque liés à l’IA montrent généralement une perte relativement soudaine de contrôle humain au profit des IA, surpassant des humains individuels et des institutions humaines, en raison d’une augmentation soudaine des capacités de l’IA ou d’une trahison coordonnée. Cependant, nous soutenons que même une augmentation progressive des capacités de l’IA, sans aucune recherche coordonnée de pouvoir, présente un risque substantiel de perte éventuelle du pouvoir humain. Cette perte d’influence humaine sera principalement motivée par l’existence d’alternatives plus compétitives à la machine que les humains dans presque toutes les fonctions sociétales, telles que le travail économique, la prise de décision, la création artistique et même la compagnie. Une perte progressive du contrôle de notre propre civilisation pourrait sembler invraisemblable. La disruption technologique n’a-t-elle pas habituellement amélioré le bien-être humain global? Nous soutenons que l’alignement des systèmes sociétaux avec les intérêts humains n’a été stable qu’en raison de la nécessité de la participation humaine pour des économies, des États et des cultures florissants. Une fois que cette participation humaine sera remplacée par des alternatives de machines plus compétitives, les incitatifs de croissance de nos institutions seront détachés d’un besoin d’assurer l’épanouissement humain. Les décideurs à tous les niveaux feront bientôt face à des pressions pour réduire l’implication humaine sur les marchés du travail, les structures de gouvernance, la production culturelle et même les interactions sociales. Ceux qui résistent à ces pressions finiront par être remplacés par ceux qui ne le font pas. Cela dit, les humains ne remarqueraient-ils pas ce qui se passe et ne se coordonneraient-ils pas pour l’arrêter? Pas nécessairement. Ce qui rend cette transition particulièrement difficile à résister, c’est que les pressions sur chaque système social se répercutent sur les autres. Par exemple, nous pourrions tenter d’utiliser le pouvoir de l’État et les attitudes culturelles pour préserver le pouvoir économique humain. Cependant, les incitatifs économiques pour les entreprises à remplacer les humains par l’IA les pousseront aussi à influencer les États et la culture pour soutenir ce changement, utilisant leur pouvoir économique croissant pour façonner à la fois les politiques et l’opinion publique, ce qui permettra à ces entreprises d’acquérir un pouvoir économique encore plus grand. Une fois que l’IA aura commencé à remplacer les humains, les mécanismes de rétroaction existants qui encouragent l’influence et l’épanouissement humains commenceront à s’effondrer. Par exemple, les États financés principalement par les impôts sur les profits de l’IA plutôt que par le travail de leurs citoyens auront peu d’incitatifs à assurer leur représentation. Cela pourrait se produire en même temps que l’IA confère aux États une influence sans précédent sur la culture et le comportement humains, ce qui pourrait rendre la coordination entre humains plus difficile, réduisant ainsi davantage leur capacité à résister à de telles pressions. Nous décrivons ces mécanismes et boucles de rétroaction avec plus de détails dans ce travail. Bien que nous proposions certaines propositions pour ralentir ou éviter ce processus, ainsi que des discussions liées aux sondages, nous soulignons que personne n’a de plan concrète et plausible pour stopper la perte progressive de pouvoir humain, et que les méthodes d’alignement des systèmes d’IA individuels avec les intentions de leurs concepteurs ne suffisent pas. Parce que cette perte de pouvoir serait mondiale et permanente, et parce que l’épanouissement humain nécessite des ressources substantielles à l’échelle mondiale, cela pourrait plausiblement mener à l’extinction humaine ou à des résultats similaires.
Sebastin Santy, Prasanta Bhattacharya, Manoel Ribeiro, Kelsey Allen (membre du corps professoral de Vector), Sewoong Oh
Les progrès de l’IA ont reposé sur des données générées par l’humain, des marchés d’annotateurs à l’Internet en général. Cependant, l’utilisation généralisée de grands modèles de langage menace désormais la qualité et l’intégrité des données générées par l’humain sur ces mêmes plateformes. Nous soutenons que ce problème va au-delà du défi immédiat de filtrer le contenu généré par l’IA — il révèle des failles plus profondes dans la conception des systèmes de collecte de données. Les systèmes existants priorisent souvent la rapidité, l’échelle et l’efficacité au détriment de la motivation humaine intrinsèque, ce qui entraîne une baisse de l’engagement et de la qualité des données. Nous proposons que repenser les systèmes de collecte de données pour qu’ils s’alignent sur les motivations intrinsèques des contributeurs – plutôt que de se fier uniquement à des incitatifs externes – puisse aider à maintenir un approvisionnement de données de haute qualité à grande échelle tout en maintenant la confiance des contributeurs et sa participation à long terme.
Les discussions sur la qualité des données en apprentissage automatique portent souvent sur des indicateurs techniques et des définitions, en négligeant les sources humaines qui génèrent ces données. Une grande partie des données actuelles provient de la participation des utilisateurs sur les plateformes en ligne. Cela nous a amenés à nous demander : pouvons-nous apprendre quelque chose sur le maintien de la qualité des données en examinant comment les humains participent sur ces plateformes? Nous examinons le compromis quantité-qualité dans la génération de données à travers le prisme de la motivation humaine. En nous inspirant des sciences sociales, nous montrons comment une dépendance excessive aux incitatifs externes peut miner la motivation intrinsèque. Nous proposons un changement : concevoir des environnements engageants et suffisamment incités (par exemple, des jeux en ligne) qui encouragent une participation significative tout en produisant des données de haute qualité. Notre article met en lumière les forces motivationnelles derrière la génération de données en ligne pour l’IA/l’apprentissage automatique et illustre des cas de systèmes passés qui ont réussi à naviguer le compromis quantité-qualité pour générer des données humaines pertinentes. Nous mettons également l’accent sur les considérations clés de conception pour bâtir des environnements de collecte de données fiables à l’avenir, qui non seulement généreront des données de haute qualité, mais respecteront et soutiendront aussi les personnes qui les contribuent.
Nikhil Kandpal, Colin Raffel (membre du corps professoral de Vector)
La formation aux grands modèles de langage (LLM) est une entreprise de plus en plus coûteuse en raison des exigences informatiques croissantes, des exigences matérielles, des coûts énergétiques et de la main-d’œuvre en ingénierie. Outre les coûts de formation, un coût souvent négligé (et rarement payé) est le travail humain nécessaire pour écrire les trillions de mots utilisés pour former des LLM à la fine pointe de la technologie. Dans ce document de position, nous visons à attribuer une valeur monétaire à ce travail et à défendre que la partie la plus coûteuse de la production d’un LLM *devrait* être la rémunération offerte aux producteurs de données de formation pour leur travail. Pour appuyer cette position, nous étudions 64 LLM publiés entre 2016 et 2024, en décomposant à la fois le coût d’entraînement des modèles et le coût hypothétique de création des données d’entraînement. Notre analyse indique que même avec une estimation extrêmement conservatrice du montant de compensation à fournir pour le travail humain impliqué dans la création des données d’entraînement, les coûts des ensembles de données d’entraînement de ces modèles sont de 1 à 3 ordres de grandeur supérieurs aux coûts d’entraînement des modèles eux-mêmes. Face à l’énorme écart entre la valeur des données de formation et le manque actuel de compensation pour leur création, nous mettons en lumière et discutons des orientations de recherche qui pourraient permettre des pratiques plus équitables à l’avenir.
Training a modern Large Language Model (LLM) is an incredibly expensive endeavor due to the cost of specialized hardware, energy required to run that hardware, and the enormous engineering labor needed to architect large-scale training systems. However, an often overlooked (and seldom paid) expense is the human labor behind these models’ training data. Every LLM is built on an unfathomable amount of human effort: trillions of carefully written words sourced from books, academic papers, codebases, social media, and more. This position paper aims to assign a monetary value to this labor and argues that the most expensive part of producing an LLM \emph{should} be the compensation provided to training data producers for their work. To support this position, we study 64 LLMs released between 2016 and 2024, estimating what it would cost to pay people to produce their training datasets from scratch. Even under highly conservative estimates of wage rates, the costs of these models’ training datasets are 10-1000 times larger than the costs to train the models themselves, representing a significant financial liability for LLM providers. In the face of the massive gap between the value of training data and the lack of compensation for its creation, we highlight and discuss research directions that could enable fairer practices in the future.
Zhun Deng, Thomas Zollo, Benjamin Eyre, Amogh Inamdar, David Madras, Richard Zemel (membre du corps professoral de Vector)
À mesure que les modèles d’apprentissage automatique deviennent de plus en plus compétents, leurs prédictions sont utilisées pour compléter des données rares ou coûteuses afin d’estimer des quantités importantes. En combinant un petit ensemble de données observées de haute fidélité (c’est-à-dire des mesures authentiques) avec un ensemble plus large de données imputées (c’est-à-dire des prédictions de modèles), les praticiens peuvent améliorer la qualité des estimations au-delà de ce que chacune des sources fournit isolément. Bien que ce paradigme semble prometteur, les cadres existants se concentrent étroitement sur l’estimation des moyennes ou des quantiles uniques, limitant leur applicabilité à de nombreux domaines et cas d’utilisation critiques. Pour relever ce défi, nous introduisons **QuEst**, un cadre qui incorpore à la fois les données observées et imputées afin d’estimer et de fournir des intervalles de confiance rigoureux pour les mesures de distribution basées sur des quantiles. Ces mesures basées sur des quantiles incluent des mesures de queue telles que le CVaR, des segments de population comme les quartiles, ainsi que d’autres grandes quantités d’intérêt dans des domaines tels que l’économie, la sociologie, l’éducation et la médecine. Dans le cadre de QuEst, nous introduisons également un algorithme pour estimer ces statistiques pour des mesures et métriques multidimensionnelles. De plus, nous proposons une nouvelle méthode basée sur des fonctions spline pour optimiser notre méthode (ainsi que d’autres méthodes existantes pour cette estimation hybride). Nous démontrons l’utilité de notre cadre par des expériences de modélisation économique, de sondages d’opinion et d’auto-évaluation des modèles de langage.
Nous introduisons QuEst, une méthode permettant de combiner des données réelles observées avec des prédictions de modèles d’apprentissage automatique afin de produire de meilleures estimations de grandeurs importantes. Notre cadre est particulièrement utile pour améliorer les résultats expérimentaux dans des domaines tels que l’économie, la sociologie, l’éducation, la médecine, ainsi que pour évaluer les modèles de langage.
Jihwan Jeong, Xiaoyu Wang, Jingmin Wang, Scott Sanner (affilié du corps professoral Vector), Pascal Poupart (membre du corps professoral Vector)
L’apprentissage par renforcement hors ligne (RL) est crucial lorsque l’exploration en ligne est coûteuse ou dangereuse, mais elle rencontre souvent une forte incertitude épistémique en raison du manque de données. Les méthodes existantes reposent sur des politiques conservatrices fixes, restreignant l’adaptabilité et la généralisation. Pour y remédier, nous proposons Ref-then-Plan (RefPlan), une approche novatrice _doubly Bayesian_ basée sur des modèles hors ligne (MB). RefPlan unifie la modélisation de l’incertitude et la planification MB en reformulant la planification en estimation bayésienne postérieure. Lors du déploiement, il met à jour une croyance sur la dynamique de l’environnement à l’aide d’observations en temps réel, intégrant l’incertitude dans la planification des MB via la marginalisation. Les résultats empiriques sur les benchmarks standards montrent que RefPlan améliore significativement la performance des politiques conservatrices de RL hors ligne. En particulier, RefPlan maintient une performance robuste sous une forte incertitude épistémique et des données limitées, tout en démontrant une résilience face à l’évolution des dynamiques environnementales, améliorant la flexibilité, la généralisabilité et la robustesse des politiques apprises hors ligne.
Imaginez enseigner à une IA à accomplir une tâche, comme naviguer dans un bâtiment, en utilisant seulement un ensemble fixe d’exemples enregistrés. Face à une nouvelle situation qu’elle n’a jamais vue auparavant, l’IA peut devenir confuse et prendre de mauvaises décisions parce que ses connaissances sont incomplètes. De nombreuses approches existantes rendent l’IA trop prudente pour éviter les erreurs, mais cela l’empêche de s’adapter efficacement. Nous introduisons une nouvelle méthode appelée Reflect-then-Plan (RefPlan) qui aide une IA à raisonner intelligemment sur ce qu’elle ne sait pas. Notre méthode fonctionne en deux étapes : * Refléter : Au fur et à mesure que l’IA opère, elle « réfléchit » continuellement à ses expériences récentes — les actions qu’elle a entreprises et ce qui en a résulté — afin de mettre à jour sa compréhension de l’environnement spécifique dans lequel elle se trouve actuellement. * Plan : Lorsqu’il « planifie » son prochain mouvement, il ne s’appuie pas sur une seule prédiction rigide de l’avenir. Au lieu de cela, il considère une gamme de scénarios possibles basés sur son incertitude, rendant sa stratégie plus robuste face à l’imprévu. Nos résultats montrent que cette approche améliore significativement la performance de l’IA, la rendant plus flexible et résiliente, surtout face à des situations inconnues, des données limitées ou des conditions changeantes.
Yixin Cheng, Hongcheng Guo, Yangming Li, Leonid Sigal (membre du corps professoral de Vector)
Le filigranage de texte vise à intégrer subtilement des signaux statistiques dans le texte en contrôlant le processus d’échantillonnage du Grand Modèle de Langage (LLM), permettant aux détecteurs de filigrane de vérifier que la sortie a été générée par le modèle spécifié. La robustesse de ces algorithmes de filigranage est devenue un facteur clé pour évaluer leur efficacité. Les algorithmes actuels de filigranage de texte intègrent des filigranes dans des jetons à forte entropie pour assurer la qualité du texte. Dans cet article, nous révélons que cette conception apparemment bénigne peut être exploitée par les attaquants, ce qui représente un risque important pour la robustesse du filigrane. Nous introduisons une attaque de paraphrase générique et efficace, l’attaque de réécriture d’auto-information (SIRA), qui exploite la vulnérabilité en calculant l’auto-information de chaque jeton pour identifier les jetons de motifs potentiels et effectuer une attaque ciblée. Nos travaux mettent en lumière une vulnérabilité largement répandue dans les algorithmes actuels de filigranage. Les résultats expérimentaux montrent que SIRA atteint un taux de réussite d’attaque d’environ 100% sur sept méthodes récentes de filigranage avec seulement \
L’avancement rapide des grands modèles de langage (LLM) a suscité des inquiétudes quant à leur utilisation potentielle abusive, comme la diffusion de désinformation et la menace pour l’intégrité académique. Pour y remédier, le filigranage de texte s’est imposé comme une solution prometteuse, intégrant subtilement des motifs indétectables dans le texte généré par un LLM pour en vérifier l’origine. Cependant, l’efficacité de ces filigranes dépend de leur robustesse face aux attaques qui tentent de les éliminer. Les méthodes d’attaque existantes sont souvent inefficaces, non ciblées, gourmandes en ressources et difficiles à transférer entre différents LLM. Nos recherches introduisent l’attaque de réécriture de l’auto-information (SIRA), une attaque de paraphrase nouvelle et efficace qui révèle une vulnérabilité fondamentale dans les algorithmes actuels de filigranage textuel. Nous avons découvert que les techniques de filigranage intègrent des motifs dans des jetons à « haute entropie » — des jetons avec une grande auto-information en raison de leur imprévisibilité et de leur faible probabilité. SIRA exploite cela en calculant l’auto-information de chaque jeton pour identifier et masquer ces jetons potentiels porteurs de filigrane. Nous utilisons ensuite un LLM pour effectuer une tâche ciblée de « remplir les blancs », réécrivant le texte masqué tout en préservant son intégrité sémantique. SIRA représente un pas important en avant dans la compréhension et l’évaluation de la robustesse du filigranage LLM. Nos expériences montrent que SIRA atteint un taux de réussite d’attaque de près de 100% grâce à sept méthodes récentes de filigranage, à un coût très faible de 0,88 $ par million de jetons. Cette attaque ne nécessite aucune connaissance préalable de l’algorithme de filigrane ou du LLM utilisé, et elle est très transférable, même en travaillant avec des modèles mobiles plus petits. En exposant cette vulnérabilité généralisée, notre travail met en lumière la nécessité urgente de développer des approches de filigranage plus robustes et adaptatives afin d’assurer la transparence et l’intégrité des contenus générés par l’IA.
Yudong W Xu, Wenhao Li, Scott Sanner (affilié du corps professoral Vector), Elias Khalil (affilié du corps professoral Vector)
Les CSP sont utiles dans de nombreuses applications, et accélérer leur solution grâce à l’apprentissage automatique suscite un grand intérêt. La plupart des approches existantes reposent sur l’apprentissage supervisé à partir de solutions réalisables ou l’apprentissage par renforcement, des paradigmes nécessitant soit des solutions réalisables pour ces CSP NP-Complets, soit de gros budgets de formation et un signal de récompense complexe conçu par des experts. Pour relever ces défis, nous proposons ConsFormer, un cadre auto-supervisé qui utilise un Transformer comme raffineur de solution. ConsFormer construit une solution à un CSP de manière itérative dans un processus qui imite la recherche locale. Au lieu d’utiliser des solutions réalisables comme données notées, nous concevons des approximations différentiables aux contraintes discrètes d’un CSP pour guider l’entraînement du modèle. Notre modèle est entraîné pour améliorer les affectations aléatoires pour une seule étape, mais il est déployé de façon itérative lors des tests, contournant ainsi les goulots d’étranglement de l’apprentissage supervisé et de l’apprentissage par renforcement. Notre méthode peut s’attaquer aux CSP hors distribution simplement par des itérations supplémentaires.
Résoudre des problèmes sous des règles et des restrictions spécifiques fait partie de nombreuses tâches réelles, que ce soit résoudre des casse-têtes comme le Sudoku ou planifier les quarts des employés. Ces problèmes sont souvent difficiles à résoudre, et même les meilleures méthodes traditionnelles peuvent avoir du mal à mesure que les problèmes deviennent plus grands et plus complexes. L’intelligence artificielle a été utilisée pour aider à résoudre ces problèmes plus efficacement. Cependant, de nombreuses méthodes existantes reposent sur des exemples de bonnes solutions ou nécessitent des essais et erreurs approfondis, ce qui peut être lent ou peu pratique. Nous introduisons ConsFormer qui adopte une approche différente. Il entraîne un modèle d’IA à apporter de petites améliorations à une solution en une seule étape, sans avoir besoin de bonnes réponses pendant l’entraînement. Lorsqu’il est déployé, ConsFormer est utilisé à plusieurs reprises pour apporter des améliorations progressives, en commençant par une supposition aléatoire et en l’affinant étape par étape. ConsFormer fonctionne sur différents problèmes et peut gérer des instances plus difficiles simplement en suivant plus d’étapes d’amélioration. Cela en fait un outil prometteur pour résoudre efficacement des problèmes complexes de raisonnement par contraintes dans le monde réel.
Mohammed Adnan, Rohan Jain, Ekansh Sharma, Rahul G. Krishnan (membre du corps professoral de Vector), Yani Ioannou
L’hypothèse du billet de loterie (LTH) suggère qu’il existe un masque LTH clairsemé et des poids qui atteignent la même performance de généralisation que le modèle dense tout en utilisant beaucoup moins de paramètres. Cependant, trouver une solution LTH est coûteux en calcul, et le masque de sparsité d’un LTH ne se généralise pas aux autres initialisations de poids aléatoires. Des travaux récents ont suggéré que les réseaux de neurones entraînés à partir d’initialisation aléatoire trouvent des solutions dans le même bassin modulo la permutation, et proposent une méthode pour aligner des modèles entraînés dans le même bassin de perte. Nous émettons l’hypothèse que le désalignement des bassins est la raison pour laquelle les masques LTH ne se généralisent pas aux nouvelles initialisations aléatoires et proposent de permuter le masque LTH pour s’aligner avec le nouveau bassin d’optimisation lors d’un entraînement clairsemé à partir d’un autre init aléatoire. Nous montrons empiriquement une augmentation significative de la généralisation lors d’un entraînement clairsemé à partir d’une initialisation aléatoire avec le masque permuté comparativement à l’utilisation du masque LTH non permuté, sur plusieurs ensembles de données (CIFAR-10/100 & ImageNet) et modèles (VGG11 & ResNet20/50).
Les systèmes modernes d’intelligence artificielle (IA) sont incroyablement puissants, mais nécessitent souvent d’énormes quantités de puissance de calcul et de données pour être entraînés. Cela les rend coûteux et hors de portée pour de nombreux chercheurs et développeurs. Pour y remédier, les scientifiques ont exploré des modèles d’IA « plus clairsemés » — des systèmes qui n’utilisent qu’une petite fraction de leurs connexions potentielles — les rendant beaucoup plus efficaces à entraîner et à faire fonctionner. Cependant, un obstacle majeur est qu’un modèle épuré qui fonctionne bien avec un point de départ pour l’entraînement échoue souvent lorsque l’entraînement commence à partir d’un autre point de départ. Nos recherches identifient la cause profonde : le désalignement. Imaginez ça comme utiliser une clé (la configuration minimaliste) sur une serrure légèrement tournée — elle ne rentre tout simplement pas. Pour résoudre cela, nous avons développé une méthode pour « réaligner » la structure clairsemée afin qu’elle corresponde aux motifs d’un nouveau point de départ. Cet ajustement améliore considérablement la performance des modèles clairsemés entraînés à partir de différents points de départ, les rendant presque aussi efficaces que leurs versions originales. Nos résultats facilitent et rendent plus pratique le développement de systèmes d’IA plus légers et efficaces, ouvrant la voie à une accessibilité et à une innovation plus larges dans la recherche en IA.
Haoye Lu, Qifan Wu, Yaoliang Yu (membre du corps professoral Vector)
Les modèles génératifs récents basés sur la diffusion obtiennent des résultats remarquables en s’entraînant sur d’immenses ensembles de données, mais cette pratique soulève des inquiétudes concernant la mémorisation et la violation du droit d’auteur. Une solution proposée est de s’entraîner exclusivement sur des données bruitées susceptibles de poser problème de droits d’auteur, afin que le modèle ne respecte jamais le contenu original. Cependant, à travers le prisme de la théorie de la déconvolution, nous montrons que, bien qu’il soit théoriquement faisable d’apprendre la distribution des données à partir d’échantillons bruyants, le défi pratique de collecter suffisamment d’échantillons rend l’apprentissage réussi presque inaccessible. Pour surmonter cette limitation, nous proposons de préentraîner le modèle avec une petite fraction de données propres pour guider le processus de déconvolution. Combiné à notre méthode stochastique de déconvolution avant-arrière (SFBD), nous obtenons un FID de 6,31 $ sur CIFAR-10 avec seulement 4% $ d’images propres (et 3,58 $ avec 10% $). Théoriquement, nous démontrons que la DFS guide le modèle pour apprendre la véritable distribution des données. Le résultat souligne aussi l’importance de la pré-entraînement sur des données limitées mais claires ou de l’alternative à des ensembles de données similaires. Des études empiriques soutiennent davantage ces résultats et offrent des perspectives supplémentaires.
Les modèles modernes de génération d’images – comme ceux derrière les outils d’art IA – sont généralement entraînés sur d’immenses collections d’images. Cependant, cette pratique soulève des préoccupations importantes : certaines données d’entraînement peuvent être protégées par le droit d’auteur, et les modèles risquent de mémoriser et de reproduire ce contenu trop fidèlement. Une solution proposée est d’entraîner les modèles uniquement sur des versions bruyantes (floues ou modifiées) des images, afin de s’assurer que les originaux ne soient jamais visibles directement. Pourtant, en pratique, nous montrons que l’apprentissage à partir de données bruitées est extrêmement difficile – il faut un nombre d’échantillons impraticablement élevé pour être efficace. Dans ce travail, nous nous concentrons sur les modèles de diffusion et démontrons qu’introduire même une petite fraction des données propres (originales), seulement 4% ou 10%, peut faire une différence substantielle. Nous proposons une méthode appelée déconvolution stochastique avant-arrière (SFBD), qui alterne entre la réduction du bruit des échantillons bruyants à l’aide du modèle actuel, puis la réentraînement du modèle avec ces résultats détachés. Ce processus aide le modèle à apprendre graduellement à générer des images réalistes, même lorsque la plupart des données d’entraînement sont bruyantes. Nos expériences démontrent que le SFBD atteint une qualité d’image proche de celle des modèles entraînés sur des ensembles de données entièrement propres, tout en réduisant grandement les risques juridiques et éthiques. Ce travail offre une voie prometteuse pour entraîner les modèles génératifs de façon plus responsable et efficace.
Angéline Pouget, Mohammad Yaghini, Stephan Rabanser, Nicolas Papernot (membre du corps professoral de Vector)
Le déploiement de modèles d’apprentissage automatique dans des domaines critiques pour la sécurité pose un défi majeur : assurer une performance fiable du modèle sur les données utilisateur en aval sans accès à des étiquettes de vérité terrestre pour une validation directe. Nous proposons le filtre de convenance, un cadre novateur conçu pour détecter la détérioration des performances en utilisant des signaux d’adéquation – des caractéristiques de sortie du modèle sensibles aux décalages de covariables et indicatives d’erreurs de prédiction potentielles. Le filtre de convenance évalue si la précision du classificateur sur des données utilisateur non identifiées montre une dégradation significative par rapport à la précision mesurée sur le jeu de données de test identifié. Plus précisément, elle garantit que cette dégradation ne dépasse pas une marge prédéfinie, ce qui représente la baisse maximale acceptable de la précision. Pour obtenir une évaluation fiable de la performance, nous agrégeons les signaux d’adéquation pour les données de test et des utilisateurs et comparons ces distributions empiriques à l’aide de tests d’hypothèses statistiques, fournissant ainsi des informations sur l’incertitude décisionnelle. Notre méthode modulaire s’adapte à divers modèles et domaines. Des évaluations empiriques à travers différentes tâches de classification démontrent que le filtre d’adéquation détecte de manière fiable les écarts de performance dus au décalage des covariables. Cela permet une atténuation proactive des échecs potentiels dans des applications à enjeux élevés.
Les modèles d’apprentissage automatique apprennent des données pour prendre des décisions, mais il peut être difficile de s’assurer qu’ils restent fiables lorsqu’ils font face à de nouvelles situations réelles. Cette recherche introduit une nouvelle façon de vérifier si ces modèles commencent à commettre plus d’erreurs avec de nouvelles données, surtout lorsque nous ne pouvons pas facilement vérifier si leurs décisions sont correctes. La méthode fonctionne en examinant des indices subtils sur le comportement du modèle avec des données familières et nouvelles afin de détecter si la qualité de sa prise de décision a diminué. Des expériences ont montré que cette approche peut détecter avec succès lorsqu’un modèle a des difficultés, car les nouvelles informations diffèrent de ce pour quoi il avait été préparé. Cela aide à renforcer la confiance que ces modèles d’apprentissage automatique fonctionnent correctement et peuvent être dignes de confiance, surtout dans les applications importantes du quotidien.
Niclas Dern, John Cunningham, Geoff Pleiss (membre du corps professoral Vector)
Les ensembles classiques se généralisent mieux que n’importe quel modèle à composant unique. En revanche, des études empiriques récentes montrent que les ensembles modernes de réseaux neuronaux (surparamétrés) n’offrent peut-être aucun avantage inhérent à la généralisation par rapport aux réseaux neuronaux uniques mais plus grands. Cet article clarifie comment les ensembles surparamétrés modernes diffèrent de leurs homologues classiques sous-paramétrés, en utilisant des ensembles de régresseurs de caractéristiques aléatoires (RF) comme base pour développer la théorie. Contrairement au régime sous-paramétré, où l’assemblage induit typiquement la régularisation et augmente la généralisation, nous prouvons, avec des hypothèses minimales, que des ensembles infinis de régresseurs RF surparamétrés deviennent équivalents point par point aux régresseurs RF de largeur infinie (uniques), et que les ensembles de largeur finie convergent rapidement vers des modèles uniques avec le même budget de paramètres. Ces résultats, qui sont exacts pour les modèles sans crête et approximatifs pour de petites pénalités de crête, impliquent que les ensembles surparamétrés et les grands modèles uniques présentent une généralisation presque identique. Nous caractérisons également la variance prédictive entre les membres de l’ensemble, démontrant qu’elle quantifie les effets attendus d’une capacité croissante plutôt que de capturer une notion conventionnelle d’incertitude. Nos résultats remettent en question les hypothèses courantes sur les avantages des ensembles dans des contextes surparamétrés, ce qui pousse à reconsidérer la façon dont les intuitions des ensembles sous-paramétrés se transfèrent aux ensembles profonds et au régime surparamétrisé.
Dans des applications critiques pour la sécurité comme le diagnostic médical ou les voitures autonomes, les chercheurs combinent souvent plusieurs modèles d’IA en soi-disant « ensembles » pour améliorer les prédictions – un peu comme consulter un comité plutôt qu’un seul expert. Cette approche a bien fonctionné pour des modèles simples, mais avec les réseaux de neurones puissants d’aujourd’hui capables de mémoriser des ensembles de données entiers, les ensembles échouent souvent à offrir les bénéfices attendus. Nous avons analysé cela mathématiquement à l’aide de réseaux neuronaux simplifiés. Nous avons découvert que lorsque les modèles sont assez complexes pour mémoriser leurs données d’entraînement, des ensembles d’entre eux se comportent étroitement comme un seul modèle plus grand. Cela signifie que monter de grands modèles offre peu d’avantage par rapport à simplement entraîner un seul modèle plus grand. De plus, nous avons constaté qu’une méthode courante pour estimer l’incertitude des prédictions d’ensemble – mesurer le désaccord entre les membres de l’ensemble – manque de fondement théorique dans de tels cas. Nos résultats ne nient pas que les ensembles peuvent encore être utiles en pratique, puisque les modèles plus grands peuvent, par exemple, être difficiles à entraîner. Cependant, ils mettent en garde contre la vision des ensembles comme une stratégie simple et fiable pour améliorer la performance par rapport à ce qu’un seul modèle plus large pourrait accomplir, ni pour évaluer l’incertitude.
Ahmad Rashid, Ruotian Wu, Rongqi Fan, Hongliang Li, Agustinus Kristiadi (chercheur postdoctoral distingué Vector), Pascal Poupart (membre du corps professoral Vector)
La génération guidée de texte par récompense (RGTG) s’est imposée comme une alternative viable à l’apprentissage par renforcement hors ligne à partir de rétroaction humaine (RLHF). Les méthodes RGTG peuvent aligner les modèles de langage de référence aux préférences humaines sans formation supplémentaire, comme dans les méthodes RLHF (PPO et DPO). Cependant, ils s’appuient sur un modèle de récompense pour évaluer chaque jeton candidat généré par le modèle de langage lors de l’inférence et engendre des charges importantes. De plus, le modèle de récompense est entraîné à noter uniquement des séquences complètes, ce qui peut mener à des choix sous-optimaux pour les séquences partielles. Dans ce travail, nous présentons une architecture novatrice de modèle de récompense qui est entraînée, en utilisant une perte de Bradley-Terry, à préférer l’expansion optimale d’une séquence avec un seul appel au modèle de récompense. C’est-à-dire qu’un score pour tous les jetons candidats possibles est généré simultanément, menant à une inférence efficace. Nous analysons théoriquement les modèles de récompense RGTG et démontrons que les modèles de récompense de base préfèrent des séquences sous-optimales comparées à notre méthode lors de l’inférence. Empiriquement, notre modèle de récompense conduit à une inférence significativement plus rapide, comparativement à d’autres méthodes RGTG, avec moins d’appels au modèle de récompense et moins de performances compétitives comparé à RGTG et RLHF.
Les modèles de langage peuvent-ils s’améliorer grâce à la rétroaction humaine sans être réentraînés? La reconversion est coûteuse car elle nécessite des ressources de calcul et une consommation d’électricité, et contribue aux émissions de carbone. Des travaux antérieurs ont démontré qu’il est effectivement possible de le faire, mais cela se fait au prix de temps de réponse plus longs du modèle de langage lors de la réponse à une requête. Nous présentons une méthode, la FaRMA, qui peut réduire significativement ce temps de réponse tout en évitant la rééducation. De plus, nous démontrons des scénarios où les méthodes précédentes ne fournissent pas de bonnes réponses et montrons que la FaRMA n’est pas vulnérable à ces situations.
Honghua Dong, Jiacheng Yang, Xun Deng, Yuhe Jiang, Gennady Pekhimenko (membre du corps professoral de Vector), Fan Long, Xujie Si (affilié de la faculté de Vector)
L’inférence de type pour des langages dynamiques comme Python est un défi persistant en génie logiciel. Bien que les grands modèles de langage (LLM) aient montré du potentiel dans la compréhension du code, leurs capacités d’inférence de types demeurent sous-explorées. Nous introduisons « TypyBench », un benchmark conçu pour évaluer l’inférence de type des LLM à travers l’ensemble des dépôts Python. « TypyBench » propose deux métriques novatrices : « TypeSim », qui capture des relations sémantiques nuancées entre les types prédits et vérités de base, et « TypeCheck », qui évalue la cohérence des types entre les bases de code. Notre évaluation de divers LLM sur un ensemble de données sélectionné de 50 dépôts Python de haute qualité révèle que, bien que les LLM obtiennent de bons scores « TypeSim », ils ont du mal avec les types imbriqués complexes et présentent d’importantes erreurs de cohérence de types. Ces résultats suggèrent que les recherches futures devraient se concentrer sur l’amélioration de la similarité de type à la cohérence au niveau des dépôts. « TypyBench » fournit une base pour cette nouvelle direction, offrant des perspectives sur la performance des modèles à travers différentes complexités de types et contextes d’utilisation.
Comprendre les types de données spécifiques utilisés dans des langages de programmation flexibles comme Python peut être un vrai casse-tête pour les développeurs de logiciels. Bien que les puissants modèles d’IA appelés LLM comprennent bien le code, nous ne savions pas à quel point ils pouvaient gérer cette tâche spécifique à grande échelle. Pour le découvrir, nous avons créé TypyBench, un nouveau test visant à voir à quel point ces IA peuvent prédire avec précision les types de données à travers des projets logiciels entiers. Nous avons développé deux nouvelles façons de mesurer leur performance : une qui vérifie si le type prédit est proche du bon en signification, et une autre qui vérifie si les prédictions de l’IA sont cohérentes tout au long du code. Nos tests sur 50 projets Python de haute qualité ont révélé que, bien que les IA soient assez douées pour deviner la signification générale des types, elles font souvent des erreurs avec des types plus complexes et créent des incohérences au sein du même projet. Cela montre que les efforts futurs devraient se concentrer sur la cohérence des prédictions de l’IA, et TypyBench offre l’outil parfait pour guider cette recherche.
Harrish Thasarathan, Julian Forsyth, Thomas Fel, Matthew Kowal, Konstantinos Derpanis (affilié du corps professoral Vector)
Nous présentons les Universal Sparse Autoencoders (USAE), un cadre pour découvrir et aligner des concepts interprétables couvrant plusieurs réseaux neuronaux profonds pré-entraînés. Contrairement aux méthodes d’interprétation conceptuelles existantes, qui se concentrent sur un seul modèle, les USAE apprennent ensemble un espace conceptuel universel capable de reconstruire et d’interpréter les activations internes de plusieurs modèles simultanément. Notre idée principale est d’entraîner un seul autoencodeur clairsemé (SAE) surcomplet qui intègre les activations de n’importe quel modèle et les décode pour approcher les activations de tout autre modèle envisagé. En optimisant un objectif commun, le dictionnaire appris capture les facteurs communs de variation — les concepts — à travers différentes tâches, architectures et ensembles de données. Nous montrons que les USAE découvrent des concepts universels sémantiquement cohérents et importants à travers les modèles de vision; allant de caractéristiques de bas niveau (par exemple, couleurs et textures) à des structures de niveau supérieur (par exemple, pièces et objets). Dans l’ensemble, les USAE offrent une nouvelle méthode puissante d’analyse inter-modèles interprétable et proposent des applications novatrices — telles que la maximisation coordonnée de l’activation — qui ouvrent des perspectives plus approfondies dans les systèmes d’IA multimodèles.
Les modèles modernes de vision par ordinateur sont de plus en plus diversifiés, entraînés à l’aide de divers ensembles de données et architectures pour accomplir des tâches visuelles spécifiques telles que l’estimation de la profondeur ou la reconnaissance d’objets. Ces choix de conception façonnent les « concepts » ou caractéristiques visuelles que chaque modèle apprend — de la reconnaissance des bords et des textures à la compréhension des objets et des scènes. Cela soulève une question scientifique fondamentale : ces modèles, malgré leurs différences, convergent-ils vers l’apprentissage des mêmes concepts visuels fondamentaux? Répondre à cette question est difficile parce que les représentations internes que ces modèles apprennent sont codées d’une manière que les humains ne peuvent pas interpréter directement. Notre travail introduit les Universal Sparse Autoencoders (USAE), afin de créer un espace conceptuel universel et interprétable qui révèle ce que plusieurs modèles de vision apprennent en commun sur le monde visuel. Notre approche nous permet d’identifier les concepts universels les plus importants partagés entre les modèles, tout en découvrant des caractéristiques uniques à certains modèles. Cette analyse donne un aperçu des choix architecturaux et de formation qui mènent à de meilleures représentations visuelles, et quels concepts semblent être des éléments fondamentaux pour la compréhension visuelle. Ce travail améliore notre capacité à comprendre et comparer comment différents systèmes d’IA perçoivent et traitent l’information visuelle.