Les chercheurs de Vector ont présenté plus de 50 articles à l'ICML 2024

23 juillet 2024

2024 Recherche Recherche 2024

Les chercheurs de Vector ont présenté plus de 50 articles à la 2024 International Conference on Machine Learning (ICML). 35 articles co-écrits par des membres de la faculté Vecteur ont été acceptés à la conférence, et 15 autres ont été présentés par des affiliés de la faculté Vecteur. Cette année, la conférence s'est tenue à Vienne, en Autriche, du 21 au 27 juillet. 

Parmi les 50 articles, quatre ont été récompensés par le prix du meilleur article :

Vous trouverez ci-dessous des résumés simplifiés des communications acceptées et des sessions d'affichage des membres de la faculté Vector. 

Les descriptions des articles sont rédigées par AI et éditées par les co-auteurs de l'article.

Critique d'acteur à horizon adaptatif pour l'apprentissage de politiques dans une simulation différentiable riche en contacts

Critique d'acteur à horizon adaptatif pour l'apprentissage de politiques dans une simulation différentiable riche en contacts

Ignat Georgiev, Krishnan Srinivasan, Jie Xu, Eric Heiden, Animesh Garg
Session de posters 4

Cet article présente une nouvelle approche de l'apprentissage par renforcement appelée Adaptive Horizon Actor-Critic (AHAC). Les chercheurs ont cherché à améliorer la façon dont les robots apprennent des tâches de mouvement complexes, comme la marche ou la course.

Les méthodes traditionnelles ont souvent du mal à accomplir ces tâches en raison de la complexité des interactions physiques, en particulier lorsque les objets entrent en contact. AHAC résout ce problème en adaptant son horizon décisionnel, en se concentrant sur des mouvements plus fluides et en évitant les collisions problématiques. L'équipe a testé AHAC sur diverses simulations de robots, y compris des robots sauteurs simples et des figures humanoïdes complexes. Elle a constaté que l'AHAC était plus performant que les méthodes existantes, obtenant des résultats supérieurs de 40 % pour les différentes tâches. L'AHAC s'est avéré particulièrement efficace pour les robots plus complexes comportant de nombreuses pièces mobiles. L'une des principales innovations est que la méthode AHAC peut ajuster son horizon de planification au cours du processus d'apprentissage, ce qui lui permet d'éviter les difficultés liées aux prédictions à long terme dans les interactions physiques complexes.

Cette recherche représente une avancée significative dans l'apprentissage des robots à effectuer des tâches physiques complexes de manière plus efficace et efficiente. Elle pourrait déboucher sur des robots plus performants et plus adaptables dans diverses applications du monde réel.

Alignez vos pas : Optimisation des plans d'échantillonnage dans les modèles de diffusion

Alignez vos pas : Optimisation des plans d'échantillonnage dans les modèles de diffusion

Amirmojtaba Sabour, Sanja Fidler, Karsten Kreis
Session de posters 1

Cet article présente "Align Your Steps" (AYS), une nouvelle méthode pour améliorer le processus d'échantillonnage dans les modèles de diffusion, qui sont un type d'IA utilisé pour générer des images et des vidéos. Les modèles de diffusion fonctionnent en éliminant progressivement le bruit des données aléatoires, mais ce processus peut être lent et produire des résultats de moindre qualité lorsqu'il est effectué rapidement. Les chercheurs ont mis au point un cadre mathématique permettant d'optimiser le "plan d'échantillonnage", c'est-à-dire les étapes suivies par le modèle lors de la génération d'images. Ils ont constaté qu'en ajustant soigneusement ces étapes, ils pouvaient améliorer de manière significative la qualité du contenu généré, en particulier en utilisant moins d'étapes. L'équipe a testé sa méthode sur diverses tâches, notamment la génération de formes 2D, d'images et de vidéos. Dans presque tous les cas, AYS a surpassé les méthodes existantes, produisant des résultats de meilleure qualité avec les mêmes ressources informatiques. Par exemple, dans les tâches de génération d'images, AYS a obtenu des résultats jusqu'à 40 % supérieurs à ceux des méthodes précédentes.

Cette recherche est importante car elle rend les modèles de diffusion plus efficaces, ce qui pourrait conduire à un contenu généré par l'IA plus rapide et de meilleure qualité dans diverses applications, de la création artistique à la synthèse vidéo.

Asymétrie dans les adaptateurs de faible rang des modèles de fondation

Asymétrie dans les adaptateurs de faible rang des modèles de fondation

Jiacheng Zhu, Kristjan Greenewald, Kimia Nadjahi, Haitz Sáez de Ocáriz Borde, Rickard Gabrielsson, Leshem Choshen, Marzyeh Ghassemi, Mikhail Yurochkin, Justin Solomon
Session d'affiches 6

Cet article étudie l'asymétrie dans l'adaptation à faible rang (LoRA), une méthode populaire pour affiner les grands modèles de langage. LoRA adapte les modèles en ajoutant un produit de deux matrices, A et B, aux poids du modèle original. Les chercheurs ont découvert que ces matrices jouent des rôles différents : A extrait les caractéristiques de l'entrée, tandis que B utilise ces caractéristiques pour créer le résultat souhaité.

L'étude montre, à la fois théoriquement et empiriquement, que le réglage fin de la matrice B est plus efficace que le réglage fin de la matrice A. De manière surprenante, l'utilisation d'une matrice A aléatoire, non entraînée, donne des résultats presque aussi bons qu'une matrice réglée avec précision. Cette constatation suggère que l'optimisation de B seul peut permettre d'obtenir des performances similaires à celles de la LoRA complète tout en utilisant moins de paramètres.

Les chercheurs ont testé leur approche sur différentes tâches et modèles, notamment RoBERTa, BART, LLaMA-2 et Vision Transformers. Dans la plupart des cas, leur méthode a été plus performante que la méthode LoRA standard et que d'autres méthodes de référence, en particulier lorsqu'elle utilise moins d'étapes d'apprentissage.

Ce travail est important car il offre un moyen plus efficace d'affiner les grands modèles de langage, ce qui pourrait réduire les coûts de calcul et améliorer la généralisation. Ils permettent également de mieux comprendre comment ces modèles s'adaptent à de nouvelles tâches.

Audit de la prédiction privée

Audit de la prédiction privée

Karan Chadha, Matthew Jagielski, Nicolas Papernot, Christopher A. Choquette Choo, Milad Nasresfahani
Session de posters 3

Cet article présente le premier cadre d'audit des algorithmes de prédiction privés dans le domaine de l'apprentissage automatique. Alors que la protection différentielle de la vie privée fournit des limites supérieures théoriques à la fuite de la vie privée, ce travail établit des limites inférieures pratiques par le biais d'un audit empirique. Les chercheurs se concentrent sur quatre algorithmes : PATE, CaPC, PromptPATE et Private-kNN.

Le cadre utilise des adversaires dont les capacités d'empoisonnement et d'interrogation varient pour évaluer l'atteinte à la vie privée. De nouvelles techniques sont développées pour évaluer les fuites en termes de DP de Renyi.

Les principales conclusions sont les suivantes :

  1. Les analyses actuelles de la confidentialité des prédictions privées peuvent être améliorées.
  2. Les algorithmes les plus sensibles à l'empoisonnement présentent des fuites de confidentialité plus importantes.
  3. Les adversaires qui ne contrôlent pas les requêtes provoquent moins de fuites de confidentialité que ceux qui les contrôlent totalement.

Ce travail est important car il fournit un cadre d'audit complet pour les algorithmes de prédiction privée, complétant les garanties théoriques par des limites inférieures pratiques. Il aide les chercheurs et les praticiens à mieux comprendre et à améliorer les garanties de confidentialité des modèles d'apprentissage automatique pendant l'inférence.

Peut-on supprimer la racine carrée dans les méthodes adaptatives de gradient ? Une perspective de second ordre

Peut-on supprimer la racine carrée dans les méthodes adaptatives de gradient ? Une perspective de second ordre

Wu Lin, Felix Dangel, Runa Eschenhagen, Juhan Bae, Richard E Turner, Alireza Makhzani
Session de posters 6

Cet article examine si l'opération de racine carrée peut être supprimée des méthodes adaptatives de gradient dans l'apprentissage automatique, en particulier pour la formation de grands modèles de langage. Les méthodes adaptatives comme Adam sont populaires pour la formation des transformateurs, mais leurs performances sont souvent inférieures à celles de la descente de gradient stochastique (SGD) sur les réseaux neuronaux convolutionnels (CNN).

Les chercheurs proposent un cadre théorique appelé "Align Your Steps" (AYS) pour optimiser les plans d'échantillonnage dans les modèles de diffusion sans utiliser de racines carrées. Ils analysent la méthode du point de vue de l'optimisation du second ordre et démontrent son efficacité dans divers modèles et ensembles de données.

Les principales conclusions sont les suivantes :

  1. AYS comble l'écart de généralisation entre les méthodes adaptatives et SGD sur les CNN.
  2. Elle maintient ses performances sur les modèles de transformateurs par rapport aux méthodes basées sur la racine carrée.
  3. L'AYS permet un entraînement de faible précision pour les méthodes adaptatives matricielles, ce qui améliore l'efficacité.

L'étude fournit de nouvelles informations sur les méthodes d'optimisation adaptatives, en remettant en question la nécessité de l'opération de la racine carrée. Elle suggère que l'adaptativité, plutôt que les mises à jour basées sur le signe, joue un rôle crucial dans le succès de ces méthodes. Ce travail ouvre de nouvelles voies pour le développement d'algorithmes d'optimisation plus efficaces pour l'apprentissage profond.

Bandits causaux : La frontière optimale de Pareto de l'adaptabilité, une réduction aux bandits linéaires, et les limites autour des marges inconnues.

Bandits causaux : La frontière optimale de Pareto de l'adaptabilité, une réduction aux bandits linéaires, et les limites autour des marges inconnues.

Ziyi Liu, Daniel Roy, Idan Attias
Session de posters 1

Cet article explore le défi que représente l'adaptation aux structures causales dans les problèmes de bandits à plusieurs bras, un type de scénario de prise de décision. Les chercheurs étudient la manière de concevoir des algorithmes qui peuvent être performants à la fois lorsqu'il existe des informations causales utiles et lorsqu'il n'y en a pas.

L'étude introduit le concept de "frontière de regret de Pareto", qui représente les meilleurs compromis possibles entre les performances dans différents types d'environnements. Elle prouve qu'il est impossible d'obtenir des performances optimales dans tous les scénarios simultanément, mais elle développe un algorithme qui s'approche des meilleurs compromis possibles.

Les chercheurs montrent également comment réduire les problèmes de bandits causaux en problèmes de bandits linéaires, ce qui permet d'obtenir des solutions plus efficaces dans certains cas. Ils fournissent les premières limites de regret dépendantes de l'instance pour les bandits causaux, ce qui peut conduire à de meilleures performances dans des scénarios spécifiques.

Enfin, le document examine l'hypothèse courante selon laquelle les algorithmes ont une connaissance parfaite de certaines distributions de probabilités. Il montre que cette hypothèse est nécessaire pour obtenir de meilleures performances, mais qu'un certain niveau de connaissance imparfaite peut encore être utile.

Cette recherche fait progresser notre compréhension de l'inférence causale dans les problèmes de prise de décision et fournit de nouveaux outils pour la conception d'algorithmes adaptatifs.

Un cadre informatique pour la résolution des écoulements lagrangiens de Wasserstein

Un cadre informatique pour la résolution des écoulements lagrangiens de Wasserstein

Kirill Neklyudov, Rob Brekelmans, Alexander Tong, Lazar Atanackovic, qiang liu, Alireza Makhzani
Session de posters 4

Cet article présente un cadre informatique unifié pour la résolution des "flux lagrangiens de Wasserstein", qui sont des problèmes d'optimisation dans l'espace des distributions de probabilités qui minimisent une action lagrangienne donnée ou un "coût". Grâce au choix du lagrangien, les flux lagrangiens de Wasserstein englobent les problèmes de transport optimal et leurs variantes, y compris les ponts de Schrödinger, le transport sous contrainte physique et le transport optimal déséquilibré.  

Les auteurs se concentrent sur les applications en biologie de la cellule unique, qui cherchent à comprendre l'évolution des populations de cellules. Le choix du Lagrangien peut être utilisé pour incorporer une connaissance préalable de la dynamique réelle, de sorte que la solution optimale minimisant les coûts corresponde mieux aux données données. Après apprentissage, un modèle de réseau neuronal de la dynamique peut être utilisé pour simuler les trajectoires du processus sous-jacent, ce qui peut correspondre à la prédiction des effets d'un traitement ou à la compréhension de la différenciation cellulaire ou des processus de développement.

Apprentissage par renforcement contraint inversé tenant compte de la confiance

Apprentissage par renforcement contraint inversé tenant compte de la confiance

Sriram Ganapathi Subramanian, Guiliang Liu, Mohammed Elmahgiubi, Kasra Rezaee, Pascal Poupart
Session de posters 4

Cet article présente le Confidence Aware Inverse Constrained Reinforcement Learning (CA-ICRL), une nouvelle approche dans le domaine de l'apprentissage par renforcement. La méthode aborde un problème crucial dans les applications du monde réel : l'apprentissage de contraintes à partir de démonstrations d'experts lorsque ces contraintes sont trop nombreuses ou trop complexes pour être entièrement spécifiées.

CA-ICRL améliore les méthodes existantes d'apprentissage par renforcement des contraintes inverses en incorporant une mesure de confiance dans les contraintes apprises. Cela permet aux utilisateurs de spécifier un niveau de confiance souhaité, et l'algorithme apprend des contraintes qui sont au moins aussi restrictives que les vraies contraintes sous-jacentes avec ce niveau de confiance.

L'une des principales innovations de CA-ICRL est sa capacité à déterminer si les démonstrations d'experts disponibles sont suffisantes pour apprendre les contraintes avec les niveaux de confiance et de performance souhaités. Cette fonction peut guider les utilisateurs dans la collecte de données d'experts supplémentaires si nécessaire.

Les auteurs démontrent l'efficacité de CA-ICRL par des expériences dans divers environnements simulés et un scénario réaliste de conduite autonome. La méthode surpasse systématiquement les approches existantes en termes de taux de violation des contraintes et de récompenses obtenues.

Dans l'ensemble, CA-ICRL fournit une approche plus souple et plus informative de l'apprentissage des contraintes à partir de démonstrations, ce qui pourrait améliorer la sécurité et l'efficacité de l'apprentissage par renforcement dans les applications complexes du monde réel.

Post-traitement différentiellement privé pour une régression équitable

Post-traitement différentiellement privé pour une régression équitable

Ruicheng Xian, Qiaobo Li, Gautam Kamath, Han Zhao
Session de posters 5

Cet article présente un algorithme de post-traitement différentiellement privé pour l'apprentissage de régresseurs équitables qui satisfont à la parité statistique. La méthode répond à la fois aux préoccupations de confidentialité dans le traitement des données sensibles et aux questions d'équité dans les modèles d'apprentissage automatique.

L'algorithme se compose de trois étapes principales :

  1. Estimation privée des distributions de sortie à l'aide de l'estimation de la densité de l'histogramme et du mécanisme de Laplace
  2. Calcul du barycentre de Wasserstein de ces distributions
  3. Utilisation de transports optimaux vers le barycentre pour le post-traitement afin d'assurer l'équité

Les auteurs fournissent une analyse théorique de la complexité d'échantillonnage de l'algorithme et des garanties d'équité. Ils révèlent un compromis entre le biais statistique et la variance induit par le choix du nombre de bins dans l'histogramme. L'utilisation d'un nombre réduit de bacs améliore toujours l'équité au prix d'une erreur plus élevée.

La méthode peut être appliquée au post-traitement de n'importe quel régresseur donné afin d'améliorer l'équité en remettant en correspondance ses sorties. Les expériences menées sur les ensembles de données Law School et Communities & Crime démontrent l'efficacité de l'algorithme dans l'équilibre entre la protection de la vie privée, l'équité et la précision.

Ce travail contribue au domaine croissant de l'apprentissage automatique équitable préservant la vie privée, en proposant une approche flexible qui permet aux praticiens d'ajuster le compromis vie privée-équité-précision en fonction de leurs besoins spécifiques.

Violation déguisée du droit d'auteur pour les modèles de diffusion latente

Violation déguisée du droit d'auteur pour les modèles de diffusion latente

Yiwei Lu, Matthew Yang, Zuoqiu Liu, Gautam Kamath, Yaoliang Yu
Session de posters 5

Cet article présente le concept de violation "déguisée" des droits d'auteur dans les modèles de diffusion latente (MLD), remettant en question la compréhension actuelle de ce qui constitue l'accès à du matériel protégé par des droits d'auteur. Les auteurs démontrent qu'il est possible de créer des "déguisements", c'est-à-dire des images visuellement différentes du contenu protégé par le droit d'auteur, mais qui partagent des informations latentes similaires lorsqu'elles sont traitées par les MLD.

L'article présente un algorithme permettant de générer ces déguisements et montre comment ils peuvent être utilisés pour entraîner des modèles basés sur le MLD (comme l'inversion textuelle et DreamBooth) à reproduire des contenus protégés par le droit d'auteur sans inclure directement les images originales dans l'ensemble d'entraînement. Cela soulève des inquiétudes quant aux méthodes actuelles de détection des violations de droits d'auteur dans les données d'apprentissage de l'IA.

Pour y remédier, les auteurs proposent une notion plus large de "reconnaissance" et introduisent des méthodes de détection, notamment la recherche de similitudes entre les caractéristiques et l'examen du codeur-décodeur. Ces outils pourraient renforcer les pratiques d'audit existantes pour les données d'entraînement à l'IA.

L'étude a des implications importantes pour le droit d'auteur, la gouvernance de l'IA et le débat en cours sur l'utilisation de matériel protégé par le droit d'auteur pour la formation de modèles génératifs d'IA. Elle appelle à une compréhension plus nuancée de l'"accès" dans le contexte de la violation du droit d'auteur pour les systèmes d'IA.

Les experts ne trichent pas : Apprendre ce que vous ne savez pas en prédisant les paires

Les experts ne trichent pas : Apprendre ce que vous ne savez pas en prédisant les paires

Daniel D. Johnson, Daniel Tarlow, David Duvenaud, Chris Maddison
Session de posters 4

Cet article présente une nouvelle approche de la quantification de l'incertitude dans les modèles génératifs, en relevant le défi de la distinction entre l'incertitude aléatoire (hasard inhérent) et l'incertitude épistémique (manque de connaissance) dans les prédictions probabilistes. Les auteurs proposent de former des modèles pour prédire des paires de réponses indépendantes tirées de la vraie distribution, en permettant au modèle de "tricher" en observant une réponse tout en prédisant l'autre.

L'idée clé est que le degré de "tricherie" révèle l'incertitude épistémique du modèle. L'article prouve que cette stratégie incite les modèles à devenir calibrés au second ordre, ce qui permet une estimation précise des écarts entre les prédictions du modèle et la vraie distribution. Les auteurs introduisent une mesure de "confiance épistémique corrigée de la tricherie" qui peut être utilisée pour filtrer les échantillons potentiellement hallucinés.

Des garanties théoriques sont fournies pour la détection des hallucinations statistiques, et l'approche est démontrée sur des tâches synthétiques, y compris la description des chiffres de π et une tâche d'apprentissage par renforcement partiellement observable. La méthode est plus performante que les techniques de filtrage existantes dans ces scénarios.

Ce travail contribue au domaine de la quantification de l'incertitude dans l'apprentissage automatique, en offrant une nouvelle perspective sur la façon d'identifier ce qu'un modèle ne sait pas, avec des applications potentielles dans l'amélioration de la sécurité et de la fiabilité des systèmes génératifs d'intelligence artificielle.

FedCal : Calibrage local et global dans l'apprentissage fédéré via l'échelle paramétrée agrégée

FedCal : Calibrage local et global dans l'apprentissage fédéré via l'échelle paramétrée agrégée

Hongyi Peng, Han Yu, Xiaoli Tang, Xiaoxiao Li
Session de posters 6

Cet article présente FedCal, une nouvelle approche de l'étalonnage des modèles dans les environnements d'apprentissage fédéré (AF). Les auteurs constatent que l'hétérogénéité des données dans le cadre de l'apprentissage fédéré pose des problèmes importants pour l'étalonnage des modèles, car elle affecte les performances locales et globales. FedCal vise à réaliser un étalonnage local et global sans dépendre d'un ensemble de données de validation global, ce qui est souvent peu pratique dans les scénarios d'apprentissage fédéré.

La méthode proposée utilise des scalers spécifiques au client pour le calibrage local, qui sont ensuite agrégés pour former un scaler global. Cette approche corrige efficacement le désalignement de la sortie sans sacrifier la précision de la prédiction. Les auteurs fournissent une analyse théorique montrant que malgré la contrainte de variance dans les distributions d'étiquettes des clients, l'erreur d'étalonnage globale est toujours asymptotiquement inférieure.

Des expériences approfondies sur quatre ensembles de données de référence démontrent que FedCal surpasse de manière significative les lignes de base existantes, réduisant l'erreur d'étalonnage globale de 47,66 % en moyenne. La méthode s'avère robuste face à des niveaux croissants d'hétérogénéité des données et peut être intégrée dans les cadres FL existants.

FedCal introduit également le concept de "reconnaissance" pour traiter l'accès indirect au matériel protégé par des droits d'auteur dans FL, élargissant ainsi la compréhension de l'utilisation des données dans les environnements d'apprentissage collaboratif.

Les limites fondamentales de l'apprentissage par le moindre privilège

Les limites fondamentales de l'apprentissage par le moindre privilège

Theresa Stadler, Bogdan Kulynych, Michael Gastpar, Nicolas Papernot, Carmela Troncoso
Session de posters 4

Cet article examine les limites fondamentales de l'apprentissage par le moindre privilège dans l'apprentissage automatique, en particulier dans les contextes où les représentations de données sont partagées au lieu des données brutes afin d'éviter les abus. Les auteurs donnent la première définition formelle du principe du moindre privilège pour l'apprentissage automatique, en le définissant comme une limite au gain d'inférence sur les données au-delà de ce qui est déjà révélé par la fuite fondamentale d'une tâche.

La recherche met en évidence un compromis crucial : dans le cadre d'hypothèses réalistes sur la distribution des données, toute représentation utile pour une tâche donnée doit inévitablement divulguer des informations au-delà de ce qui est nécessaire pour cette tâche. Cette découverte remet en question l'idée qu'il est possible de créer des représentations utiles pour une tâche spécifique tout en ne révélant rien d'autre sur les données sous-jacentes.

Grâce à une analyse théorique et à des expériences approfondies portant sur différents ensembles de données, architectures de modèles et techniques d'apprentissage, les auteurs démontrent que ce compromis est fondamental et ne peut être contourné par des méthodes existantes telles que la censure d'attributs ou la confidentialité différentielle.

Les conclusions de l'article ont des implications significatives pour l'apprentissage automatique préservant la vie privée, suggérant que les approches actuelles visant à limiter l'accès aux données par le biais de représentations de caractéristiques peuvent ne pas fournir le niveau de protection de la vie privée souvent supposé. Ils appellent à une réévaluation des attentes en matière de protection de la vie privée dans les scénarios d'apprentissage collaboratif et de partitionnement des modèles.

Genie : Environnements interactifs génératifs

Genie : Environnements interactifs génératifs

Jake Bruce, Michael Dennis, Ashley Edwards, Jack Parker-Holder, Yuge Shi, Edward Hughes, Matthew Lai, Aditi Mavalankar, Richie Steigerwald, Chris Apps, Yusuf Aytar, Sarah Bechtle, Feryal Behbahani, Stephanie Chan, Nicolas Heess, Lucy Gonzalez, Simon Osindero, Sherjil Ozair, Scott Reed, Jingwei Zhang, Konrad Zolna, Jeff Clune, Nando de Freitas, Satinder Singh, Tim Rocktäschel
Oral 1x Video

Genie est un nouveau modèle d'IA générative qui crée des environnements virtuels interactifs et contrôlables par l'action à partir de vidéos Internet non étiquetées. Entraîné sur plus de 200 000 heures de jeux vidéo accessibles au public, ce modèle à 11 paramètres peut générer divers mondes jouables à partir d'invites textuelles, d'images synthétiques, de photographies et même d'esquisses dessinées à la main.

Le modèle comprend trois éléments clés : un tokenizer vidéo spatiotemporel, un modèle dynamique autorégressif et un modèle d'action latent. Cette architecture permet un contrôle image par image sans nécessiter d'étiquettes d'action de vérité au sol pendant l'apprentissage. Genie démontre des avantages en termes d'évolutivité avec l'augmentation de la taille du modèle et de la taille du lot, ce qui suggère un potentiel d'amélioration avec des ressources informatiques supplémentaires.

Les capacités de Genie vont au-delà des environnements de jeu. Entraîné sur des ensembles de données robotiques, il apprend avec succès des actions distinctes et cohérentes, ce qui laisse entrevoir des applications potentielles dans la simulation et le contrôle robotiques.

Il est important de noter que Genie est prometteur pour la formation d'agents généralistes. Les actions latentes qu'il a apprises peuvent être utilisées pour déduire des politiques à partir de vidéos sans action, ce qui pourrait permettre de débloquer de vastes quantités de données pour l'apprentissage futur de l'IA.

Malgré certaines limites, telles que des hallucinations occasionnelles et une mémoire limitée, Genie représente une étape importante dans la création d'environnements virtuels diversifiés et interactifs et dans la formation d'agents d'intelligence artificielle plus performants.

Complexité de l'information de l'optimisation convexe stochastique : Applications à la généralisation et à la mémorisation

Complexité de l'information de l'optimisation convexe stochastique : Applications à la généralisation et à la mémorisation

Idan Attias, Gintare Karolina Dziugaite, Mahdi Haghifam, Roi Livni, Daniel Roy
Oral 5x Optimization 2

Cet article explore la relation entre la mémorisation et l'apprentissage dans l'optimisation convexe stochastique (OCS). Les auteurs quantifient la mémorisation à l'aide de l'information mutuelle conditionnelle (IMC), qui mesure l'information qu'un algorithme d'apprentissage révèle sur ses données d'apprentissage. Ils établissent un compromis fondamental entre la précision d'un algorithme d'apprentissage et son CMI.

Pour les SCO à limites Lipschitz, les auteurs prouvent que chaque ε-learner a un CMI limité par Ω(1/ε²). Pour les SCO fortement convexes, cette limite est Ω(1/ε). Ces résultats sont valables malgré une complexité d'échantillonnage optimale, ce qui indique qu'un apprentissage précis nécessite une mémorisation importante.

L'article démontre la nécessité de la mémorisation en concevant un adversaire capable d'identifier une fraction significative des échantillons de formation dans des problèmes SCO spécifiques. Cette découverte remet en question l'intuition selon laquelle les algorithmes d'apprentissage idéaux devraient éviter de mémoriser des informations non pertinentes.

Les auteurs examinent plusieurs implications de leurs résultats, notamment les limites des bornes de généralisation basées sur le CMI pour le SCO et l'impossibilité des schémas de compression d'échantillons de taille constante. Ces résultats contribuent à notre compréhension du rôle de la mémorisation dans l'apprentissage et ont des implications pour la confidentialité et la généralisation dans l'apprentissage automatique.

Injustice intersectionnelle Découverte

Injustice intersectionnelle Découverte

Gezheng Xu, Qi Chen, Charles X. Ling, Boyu Wang, Changjian Shui
Session de posters 4

Cet article présente le réseau génératif guidé par les biais (BGGN), une nouvelle approche pour la découverte de l'injustice intersectionnelle dans les systèmes d'intelligence artificielle. Contrairement aux méthodes traditionnelles qui se concentrent sur des attributs sensibles uniques ou qui s'appuient sur des techniques d'énumération et de recherche, le BGGN formule le processus de découverte comme une tâche générative. Cela permet une génération efficace et diversifiée d'attributs sensibles intersectionnels à fort biais.

Les chercheurs démontrent l'efficacité du BGGN sur des ensembles de données réelles de textes (Toxic) et d'images (CelebA). Le modèle ne découvre pas seulement des biais connus, mais génère également des attributs intersectionnels inédits et pourtant potentiellement porteurs de biais importants. Pour valider ces découvertes, les auteurs utilisent des modèles d'IA générative modernes tels que LLaMA et Midjourney pour produire de nouveaux textes et images basés sur les attributs découverts.

Le BGGN surpasse les algorithmes de recherche conventionnels et les modèles génératifs dans l'identification de sous-groupes diversifiés et fortement biaisés. Il fournit également des indications sur l'iniquité potentielle des systèmes d'IA générative populaires, car le contenu généré présente souvent des préjugés.

Ce travail contribue à la compréhension de l'équité intersectionnelle dans l'IA et offre une méthode évolutive pour découvrir de manière proactive les injustices qui peuvent être présentes mais inaperçues dans les systèmes complexes avec de multiples attributs sensibles.

Layerwise Proximal Replay : Une méthode de point proximal pour l'apprentissage continu en ligne

Layerwise Proximal Replay : Une méthode de point proximal pour l'apprentissage continu en ligne

Jinsoo Yoo, Yunpeng Liu, Frank Wood, Geoff Pleiss
Session de posters 5

Cet article présente le Layerwise Proximal Replay (LPR), une nouvelle approche de l'apprentissage continu en ligne qui combine le rejeu d'expérience avec une méthode de point proximal. Les auteurs identifient une limitation dans les méthodes actuelles basées sur la relecture : des trajectoires d'optimisation instables qui nuisent à la précision globale. La méthode LPR résout ce problème en modifiant la géométrie d'optimisation afin d'équilibrer l'apprentissage à partir de nouvelles données et de données rejouées, tout en ne permettant que des changements graduels dans les activations cachées des données antérieures.

La méthode est évaluée de manière approfondie dans de multiples contextes de problèmes et ensembles de données, démontrant constamment une amélioration des performances par rapport aux méthodes existantes basées sur le rejeu. Notamment, la méthode LPR présente des avantages même avec une mémoire illimitée, ce qui suggère que ses améliorations vont au-delà de la simple prévention des oublis catastrophiques.

Le cadre de LPR implique un préconditionneur en couches appliqué aux gradients de perte, conçu pour promouvoir un apprentissage continu tout en limitant la dégradation soudaine des performances sur les données antérieures. Les auteurs fournissent une formulation mathématique détaillée et une analyse des effets de la méthode sur les représentations internes et la stabilité de l'optimisation.

Les comparaisons avec les méthodes les plus récentes montrent la supériorité de la LPR pour différentes mesures et différents problèmes. L'article aborde également la relation entre LPR et les méthodes de projection de gradient existantes, en soulignant les différences clés qui rendent LPR plus adapté à l'apprentissage continu en ligne avec des tampons de relecture.

Apprendre les relations de haut niveau entre les régions du cerveau

Apprendre les relations de haut niveau entre les régions du cerveau

Weikang Qiu, Huangrui Chu, Selena Wang, Haolan Zuo, Xiaoxiao Li, Yize Zhao, ZHITAO YING
Session de posters 5

Cet article présente HyBRiD, une nouvelle méthode d'identification des relations de haut niveau entre les régions cérébrales à partir de données d'IRMf. Les auteurs proposent que ces relations soient maximalement informatives et minimalement redondantes (MIMR) en ce qui concerne les résultats phénotypiques. HyBRiD représente les régions cérébrales comme des nœuds dans un hypergraphe, dont les bords représentent les relations de haut niveau.

La méthode utilise un Constructeur pour identifier les structures d'hypercordes et un Pondérateur pour calculer les poids des hypercordes. Un cadre de goulot d'étranglement à têtes multiples est introduit pour atteindre l'objectif MIMR, avec des garanties théoriques. HyBRiD évite la recherche dans un espace exponentiel en apprenant des masques pour identifier les hyperbordures, ce qui garantit l'efficacité et la cohérence entre les sujets.

Les expériences menées sur les ensembles de données ABIDE et ABCD montrent que HyBRiD surpasse les modèles prédictifs de pointe de 11,2 % en moyenne. Les résultats montrent que les hyper-angles de degré supérieur sont plus significatifs pour prédire les résultats cognitifs, ce qui souligne l'importance des relations d'ordre supérieur dans les fonctions cérébrales.

Les auteurs fournissent une analyse qualitative des crêtes les plus significatives, révélant les interactions coordonnées de plusieurs régions cérébrales dans les tâches cognitives. Ce travail contribue à la compréhension des fonctions cérébrales complexes et peut être utile aux études cliniques et aux outils de diagnostic en neurologie.

Apprentissage des structures latentes dans les jeux en réseau via des autoencodeurs variationnels de graphes Gated-Prior dépendants des données

Apprentissage des structures latentes dans les jeux en réseau via des autoencodeurs variationnels de graphes Gated-Prior dépendants des données

Xue Yu, Muchen Li, Yan Leng, Renjie Liao
Session de posters 5

Cet article présente GPGVAE, un modèle d'apprentissage non supervisé permettant de déduire les types d'interaction latents et les structures de réseau dans les jeux en réseau. Le modèle relève le défi de révéler les relations cachées entre les individus sur la base de leurs actions observées, sans connaissance préalable des fonctions d'utilité ou des connexions partielles du réseau.

GPGVAE utilise un encodeur spectral basé sur GNN pour prédire les types d'interaction (complément stratégique vs. substitut) et un préalable gated dépendant des données pour modéliser les structures du réseau. Il comporte également un mélange de Bernoulli basé sur Transformer pour les structures de réseau et un décodeur basé sur GNN pour les actions de jeu.

Les auteurs proposent une stratégie de formation par étapes et étudient diverses méthodes d'estimation du gradient de Monte Carlo. Ils démontrent que GPGVAE est plus performant que les modèles de pointe sur des ensembles de données synthétiques et réelles, avec une amélioration moyenne de 11,2 % dans l'inférence des structures de réseau.

Le modèle capture efficacement les interactions stratégiques de complément et de substitution, ce qui permet de mieux comprendre l'importance des relations de haut niveau dans les structures de réseau. Les auteurs mènent également des études approfondies sur l'ablation et analysent les performances du modèle dans différents contextes de jeu.

Ce travail contribue à la compréhension de la dynamique des réseaux complexes et peut avoir des applications dans des domaines tels que l'analyse des réseaux sociaux, l'économie et l'élaboration des politiques.

Apprendre à s'orienter parmi des experts spécialisés pour une généralisation sans faille

Apprendre à s'orienter parmi des experts spécialisés pour une généralisation sans faille

Mohammed Muqeeth, Haokun Liu, Yufan Liu, Colin Raffel
Session de posters 2

Cet article présente PHATGOOSE, une nouvelle méthode permettant d'améliorer la généralisation à partir de zéro par l'acheminement entre des modèles experts spécialisés. Cette méthode permet de relever le défi du recyclage d'une vaste collection de modèles spécialisés afin d'améliorer les capacités d'un modèle linguistique de base sans nécessiter un accès simultané aux ensembles de données utilisés pour créer ces modèles.

PHATGOOSE apprend à faire le lien entre les modules spécialisés produits par le biais d'un réglage fin efficace des paramètres. Il permet un routage par jeton et par module, ce qui, selon l'hypothèse des auteurs, améliore la généralisation à partir de zéro en permettant l'utilisation de différentes capacités d'experts à différents stades et pour différents jetons.

La méthode est post-hoc et ne nécessite qu'une modeste quantité de calcul supplémentaire après l'apprentissage de chaque modèle expert. Lors d'expériences portant sur diverses collections de modèles spécialisés et sur des points de référence pour la généralisation zéro, PHATGOOSE a obtenu de meilleurs résultats que les méthodes antérieures de routage post hoc et, dans certains cas, a surpassé l'apprentissage multitâche explicite.

L'analyse qualitative confirme que les performances de PHATGOOSE découlent de sa capacité à effectuer un routage par token et par module. Les auteurs donnent un aperçu des stratégies de routage apprises par le modèle et discutent des pistes de travail potentielles dans ce domaine.

Ce travail jette les bases d'un nouveau cadre prometteur pour le développement décentralisé de systèmes d'intelligence artificielle généralistes.

MagicLens : Recherche d'images auto-supervisée avec des instructions ouvertes

MagicLens : Recherche d'images auto-supervisée avec des instructions ouvertes

Kai Zhang, Yi Luan, Hexiang Hu, Kenton Lee, Siyuan Qiao, Wenhu Chen, Yu Su, Ming-Wei Chang
Oral 4x Retrieval

MagicLens est une nouvelle approche de la recherche d'images auto-supervisée qui prend en charge les instructions ouvertes. La principale innovation réside dans son pipeline de construction de données, qui exploite des paires d'images naturelles provenant de pages web et utilise de grands modèles de langage pour générer diverses instructions ouvertes décrivant les relations entre ces images.

L'architecture du modèle MagicLens se compose d'un constructeur qui identifie les structures des hypercordes et d'un pondérateur qui calcule les poids des hypercordes. Elle utilise un cadre d'optimisation à plusieurs têtes de chute et goulots d'étranglement, garantissant que les représentations apprises sont maximales en termes d'information et minimales en termes de redondance.

Des expériences approfondies démontrent que MagicLens est plus performant que les méthodes les plus récentes sur de nombreux benchmarks de recherche d'images, y compris CIRCO, DTIN et GeneCIS. Notamment, il atteint cette performance avec beaucoup moins de paramètres que les méthodes précédentes, ce qui témoigne d'une grande efficacité en matière de paramètres.

L'un des principaux atouts de MagicLens est sa capacité à traiter des intentions de recherche complexes et au-delà du visuel, comme l'ont démontré des évaluations humaines sur un pool de recherche à grande échelle de 1,4 million d'images. Le modèle fait preuve d'une polyvalence remarquable pour comprendre et satisfaire diverses instructions de recherche, même celles qui nécessitent un raisonnement abstrait ou une compréhension du contexte.

Ce travail établit une nouvelle référence pour la recherche d'images avec des instructions ouvertes et ouvre la voie à des systèmes de recherche d'images plus flexibles et plus puissants.

Mesure de la complexité des données stochastiques à l'aide des fonctions d'influence de Boltzmann

Mesure de la complexité des données stochastiques à l'aide des fonctions d'influence de Boltzmann

Nathan Ng, Roger Grosse, Marzyeh Ghassemi
Session de posters 3

Cet article présente IF-COMP, une nouvelle méthode d'estimation de la complexité des données stochastiques dans les réseaux neuronaux profonds à l'aide de fonctions d'influence de Boltzmann (BIF) échelonnées en fonction de la température. L'approche vise à approximer la distribution du maximum de vraisemblance normalisé prédictif (pNML), en relevant le défi de l'estimation de l'incertitude dans les prédictions du modèle, en particulier pour les données hors distribution.

IF-COMP introduit un objectif de Bregman proximal échelonné en fonction de la température pour atténuer la courbure locale, ce qui permet une approximation plus précise des résultats optimaux à posteriori. En linéarisant le modèle, IF-COMP estime efficacement la distribution pNML sans étapes d'optimisation explicites, ce qui se traduit par une accélération de 7 à 15 fois par rapport aux méthodes existantes telles que ACNML.

La méthode se révèle très performante pour trois tâches clés : l'étalonnage de l'incertitude, la détection des erreurs d'étiquetage et la détection de l'absence de distribution. IF-COMP est notamment plus performant que diverses lignes de base, y compris les approches bayésiennes et de suivi par optimisation, souvent avec moins d'informations disponibles.

Des expériences approfondies valident la capacité d'IF-COMP à estimer avec précision la complexité du pNML de la vérité terrain et son efficacité sur différentes architectures de réseaux neuronaux et ensembles de données. Les résultats mettent en évidence le potentiel des approches basées sur la longueur de description minimale (MDL) pour améliorer les estimations de l'incertitude dans les réseaux neuronaux profonds, offrant une direction prometteuse pour améliorer la fiabilité et l'étalonnage des modèles en cas de changements de distribution.

Algorithme tenant compte du bruit pour l'apprentissage fédéré hétérogène différentiellement privé

Algorithme tenant compte du bruit pour l'apprentissage fédéré hétérogène différentiellement privé

Saber Malekmohammadi, Yaoliang Yu, Yang Cao
Session de posters 5

Cet article présente ROBUST-HDP, un nouvel algorithme pour les systèmes hétérogènes d'apprentissage fédéré différentiellement privé (DPFL). La méthode relève le défi de l'hétérogénéité des exigences de confidentialité des clients, de la taille des lots et de la taille des ensembles de données, ce qui peut entraîner des niveaux de bruit variables dans les mises à jour des modèles des clients.

ROBUST-HDP utilise une ACP robuste pour estimer efficacement le niveau de bruit réel dans les mises à jour des clients, ce qui permet une agrégation plus efficace des mises à jour du modèle. Cette approche améliore les méthodes existantes qui reposent sur des stratégies d'agrégation potentiellement sous-optimales ou vulnérables basées sur les paramètres de confidentialité déclarés par les clients.

Les auteurs fournissent une analyse théorique et des garanties de convergence pour ROBUST-HDP, démontrant son efficacité dans divers scénarios d'hétérogénéité. Des expériences approfondies sur plusieurs ensembles de données montrent que ROBUST-HDP surpasse les méthodes de pointe en termes d'utilité et de vitesse de convergence. Notamment, l'algorithme maintient une grande efficacité des paramètres avec une taille de modèle significativement plus petite par rapport aux approches précédentes. L'algorithme 

ROBUST-HDP démontre également sa robustesse face à la falsification potentielle des paramètres de confidentialité par les clients, ce qui le rend adapté à des environnements de serveurs non fiables. Les conclusions de l'article suggèrent que ROBUST-HDP offre une approche prometteuse pour améliorer les performances et la fiabilité des systèmes DPFL hétérogènes tout en maintenant de solides garanties en matière de respect de la vie privée.

Hors de l'ordinaire : Adaptation spectrale de la régression aux changements de covariables

Hors de l'ordinaire : Adaptation spectrale de la régression aux changements de covariables

Benjamin Eyre, Elliot Creager, David Madras, Vardan Papyan, Richard Zemel
Session de posters 1

Cet article présente le régresseur adapté spectral (SpAR), une nouvelle méthode pour améliorer les performances hors distribution (OOD) dans les tâches de régression. Les auteurs commencent par analyser la sensibilité de la régression par les moindres carrés ordinaires (MCO) au changement de covariable, en caractérisant le risque d'OOD en termes de décomposition de l'eigenspectre des données source et cible.

L'idée clé est le concept d'"inflation spectrale", selon lequel les sous-espaces présentant de faibles variations au cours de la formation voient leur variation augmenter au cours de l'évaluation. Cela motive SpAR, une méthode légère qui adapte les poids de la dernière couche d'un modèle de régression neuronale pré-entraîné en utilisant des données de test non étiquetées pour estimer les sous-espaces présentant une inflation spectrale et les projeter à l'extérieur.

SpAR utilise une ACP robuste pour identifier les sous-espaces dans lesquels la variance entre l'entraînement et le test diffère le plus. La méthode est fondée théoriquement et validée empiriquement sur des ensembles de données synthétiques et réelles, démontrant une amélioration des performances OOD par rapport aux approches existantes.

Les auteurs fournissent une analyse complète, y compris des preuves de théorèmes, des études d'ablation et des comparaisons avec les méthodes les plus récentes. SpAR s'avère prometteur pour relever le défi de la généralisation de l'OOD dans les tâches de régression, en offrant une approche de post-traitement efficace sur le plan du calcul qui peut être appliquée à divers modèles pré-entraînés.

Surmonter les hétérogénéités des données et des modèles dans l'apprentissage fédéré décentralisé via des ancres synthétiques

Surmonter les hétérogénéités des données et des modèles dans l'apprentissage fédéré décentralisé via des ancres synthétiques

Chun-Yin Huang, Kartik Srinivas, Xin Zhang, Xiaoxiao Li
Session de posters 1

Cet article présente DeSA, une nouvelle approche de l'apprentissage fédéré décentralisé qui tient compte de l'hétérogénéité des données et des modèles sans nécessiter de serveur central. La principale innovation réside dans l'utilisation de données d'ancrage synthétiques, générées par la mise en correspondance des distributions, pour faciliter le transfert mutuel de connaissances entre les clients.

DeSA intègre deux composantes principales : une perte REG qui régularise la distribution des encastrements latents des clients avec les ancres, et une perte KD qui permet aux clients d'apprendre les uns des autres. Les auteurs présentent une analyse théorique montrant comment ces composantes contribuent à améliorer les limites de généralisation.

Des expériences approfondies sur divers ensembles de données démontrent que DeSA surpasse les algorithmes d'apprentissage fédéré décentralisés existants, tant au niveau des performances entre clients qu'à l'intérieur de ceux-ci. La méthode se révèle robuste pour diverses tâches et distributions de données, même dans des scénarios avec d'importants changements de domaine.

L'un des principaux atouts de DeSA est sa capacité à gérer simultanément l'hétérogénéité des données et des modèles, un défi que les méthodes précédentes ont eu du mal à relever dans un environnement sans serveur. En synthétisant des ancres globales basées sur la distribution de données brutes, DeSA fournit une solution flexible et efficace pour l'apprentissage collaboratif dans des environnements décentralisés.

Position : Considérations relatives à l'apprentissage privé différentiel avec préapprentissage public à grande échelle

Position : Considérations relatives à l'apprentissage privé différentiel avec préapprentissage public à grande échelle

Florian Tramer, Gautam Kamath, Nicholas Carlini
Oral 1x Positions on How We Do Machine Learning Research

Cet article examine de manière critique la pratique consistant à utiliser des données publiques à grande échelle pour le pré-entraînement de modèles qui sont ensuite affinés avec une confidentialité différentielle sur des données sensibles. Les auteurs soulèvent trois questions principales :

  1. Confidentialité des données publiques : Les données récupérées sur le web et utilisées pour le pré-entraînement peuvent contenir des informations sensibles, ce qui peut compromettre la vie privée des individus, même lorsque les modèles sont étiquetés comme "préservant la vie privée".
  2. Limites des critères de référence : Les critères de référence actuels pour l'apprentissage privé peuvent surestimer la valeur du pré-entraînement public en utilisant des tâches qui ressemblent étroitement aux données de pré-entraînement, ce qui pourrait ne pas refléter les applications réelles sensibles à la protection de la vie privée.
  3. Exigences informatiques : Les grands modèles pré-entraînés nécessitent souvent que des données sensibles soient téléchargées vers des serveurs tiers puissants pour le réglage fin et l'inférence, ce qui peut introduire de nouveaux risques pour la vie privée.

Les auteurs estiment que ces questions peuvent donner une fausse impression de protection de la vie privée et appellent à un examen plus attentif de ce qui constitue des données "publiques", à l'élaboration de critères de référence plus appropriés pour l'apprentissage privé et à l'exploration de techniques de préservation de la vie privée qui n'exigent pas l'externalisation des calculs. Le document conclut en encourageant les chercheurs à relever ces défis et à développer des approches plus robustes de l'apprentissage automatique préservant la vie privée.

Prise de position : Repenser la censure du LLM comme un problème de sécurité

Prise de position : Repenser la censure du LLM comme un problème de sécurité

David Glukhov, Ilia Shumailov, Yarin Gal, Nicolas Papernot, Vardan Papyan
Session de posters 1

Ce document de synthèse examine de manière critique la pratique consistant à utiliser des données publiques à grande échelle pour le pré-entraînement de modèles d'apprentissage automatique qui sont ensuite affinés avec une confidentialité différentielle sur des données sensibles. Les auteurs soulèvent trois questions principales :

  1. Confidentialité des données publiques : Les données récupérées sur le web et utilisées pour le pré-entraînement peuvent contenir des informations sensibles, ce qui peut compromettre la vie privée des individus, même lorsque les modèles sont étiquetés comme "préservant la vie privée".
  2. Limites des critères de référence : Les critères de référence actuels pour l'apprentissage privé peuvent surestimer la valeur du pré-entraînement public en utilisant des tâches qui ressemblent étroitement aux données de pré-entraînement, ce qui pourrait ne pas refléter les applications réelles sensibles à la protection de la vie privée.
  3. Exigences informatiques : Les grands modèles pré-entraînés nécessitent souvent que des données sensibles soient téléchargées vers des serveurs tiers puissants pour le réglage fin et l'inférence, ce qui peut introduire de nouveaux risques pour la vie privée.

Les auteurs estiment que ces questions peuvent donner une fausse impression de protection de la vie privée. Ils appellent à un examen plus attentif de ce qui constitue des données "publiques", à l'élaboration de critères de référence plus appropriés pour l'apprentissage privé et à l'exploration de techniques de préservation de la vie privée qui ne nécessitent pas l'externalisation des calculs. L'article conclut en encourageant les chercheurs à relever ces défis et à développer des approches plus robustes de l'apprentissage automatique préservant la vie privée, tout en reconnaissant l'importance des travaux récents montrant que la confidentialité différentielle peut être préservée pour des problèmes complexes d'apprentissage automatique.

Inférence probabiliste dans les modèles de langage par Monte Carlo séquentiel torsadé

Inférence probabiliste dans les modèles de langage par Monte Carlo séquentiel torsadé

Stephen Zhao, Rob Brekelmans, Alireza Makhzani, Roger Grosse
Oral 3x Inférence probabiliste

Cet article présente une nouvelle approche appelée "twisted Sequential Monte Carlo" (SMC) pour améliorer les résultats des modèles linguistiques. L'objectif est de faire en sorte que les modèles linguistiques génèrent des textes qui répondent à des critères spécifiques, tels qu'un certain sentiment ou l'absence de contenu préjudiciable. Les chercheurs proposent d'utiliser le SMC, une méthode d'échantillonnage statistique, combinée à des "fonctions de torsion" qui guident le processus de génération de texte. Ils développent une nouvelle méthode d'apprentissage de ces fonctions de torsion appelée "apprentissage contrastif de torsion". L'article démontre que cette approche permet d'orienter efficacement les résultats du modèle linguistique vers les caractéristiques souhaitées tout en préservant la qualité du texte. Il introduit également de nouvelles méthodes d'évaluation de l'efficacité des différentes techniques de contrôle des résultats des modèles de langage. Les chercheurs testent leur approche sur des tâches telles que la génération de critiques positives ou négatives, le remplissage de texte manquant et la création d'histoires non toxiques. Ils montrent que leur méthode est souvent plus performante que les techniques existantes. Ce travail fournit un cadre flexible pour la génération de texte contrôlé, qui pourrait être utile pour diverses applications, notamment pour rendre les modèles de langage d'IA plus sûrs et plus fiables.

Diversité de la qualité grâce au retour d'information humain : un backend ouvert pour l'optimisation basée sur la diversité

Diversité de la qualité grâce au retour d'information humain : un backend ouvert pour l'optimisation basée sur la diversité

Li Ding, Jenny Zhang, Jeff Clune, Lee Spector, Joel Lehman
Session de posters 1

Ce document présente une nouvelle méthode appelée Quality Diversity through Human Feedback (QDHF) qui vise à améliorer les systèmes d'intelligence artificielle en les rendant plus aptes à générer des solutions diverses et de haute qualité. Les méthodes d'optimisation traditionnelles se concentrent sur la recherche de la meilleure solution unique ; cependant, de nombreuses tâches complexes bénéficient d'une variété de solutions.

La principale innovation de cette recherche est l'intégration du retour d'information humain directement dans les algorithmes de diversité qualitative (QD). Les algorithmes QD excellent dans la production de solutions diversifiées mais s'appuient souvent sur des mesures définies manuellement pour mesurer la diversité. Le QDHF améliore cette situation en apprenant ce que la diversité signifie pour les humains grâce à leurs commentaires, ce qui le rend plus adaptable et plus efficace pour les tâches qui requièrent de la créativité et de l'exploration.

Des études empiriques montrent que la méthode QDHF permet de générer des solutions diverses et de qualité supérieure à celles des méthodes existantes. Elle s'avère particulièrement efficace dans des tâches telles que la génération de texte à partir d'images, où elle améliore de manière significative la variété et la qualité des images générées.

En combinant des connaissances humaines avec des algorithmes avancés, QDHF offre une approche solide pour résoudre des problèmes ouverts et complexes.

Se souvenir d'être juste : L'équité non markovienne dans la prise de décision séquentielle

Se souvenir d'être juste : L'équité non markovienne dans la prise de décision séquentielle

Parand Alizadeh Alamdari, Toryn Q Klassen, Elliot Creager, Sheila McIlraith
Session d'affiches 4

La recherche explore l'équité dans la prise de décision séquentielle, affectant plusieurs parties prenantes au fil du temps. Les études traditionnelles sur l'équité se concentrent sur des décisions uniques et isolées, mais ce travail souligne que l'équité dans une séquence de décisions dépend de l'ensemble de l'historique de la décision, ce qui la rend intrinsèquement non markovienne (elle ne dépend pas uniquement de l'état actuel). L'étude souligne la nécessité d'évaluer l'équité tout au long du processus, et pas seulement à son terme.

Les principales contributions sont les suivantes :

  1. Introduction de l'équité non markovienne, prise en compte du contexte historique dans les décisions séquentielles.
  2. Identification de diverses propriétés d'équité telles que l'équité à long terme, à tout moment, périodique et limitée, qui offrent différentes manières de mesurer l'équité dans le temps.
  3. Examen de la manière dont la mémoire soutient l'élaboration de politiques équitables dans la prise de décision.
  4. Développement de FairQCM, un algorithme qui améliore l'apprentissage par renforcement en augmentant les données de formation afin d'améliorer la création de politiques équitables.

Cette enquête élargit la compréhension de l'équité dans les processus décisionnels, en soulignant l'importance du contexte historique et de l'évaluation continue de l'équité.

Un regard sobre sur les LLM pour la découverte de matériaux : Sont-ils vraiment bons pour l'optimisation bayésienne sur les molécules ?

Un regard sobre sur les LLM pour la découverte de matériaux : Sont-ils vraiment bons pour l'optimisation bayésienne sur les molécules ?

Agustinus Kristiadi, Felix Strieth-Kalthoff, Marta Skreta, Pascal Poupart, Alan Aspuru-Guzik, Geoff Pleiss
Session d'affiches 4

Le document de recherche examine l'utilisation de grands modèles de langage (LLM) comme ChatGPT pour l'optimisation bayésienne (BO) dans la découverte de matériaux, en se concentrant particulièrement sur les molécules. L'optimisation bayésienne est une technique utilisée pour optimiser des fonctions complexes avec des données limitées en tirant parti des connaissances antérieures. L'étude évalue si les LLM, qui se sont révélés prometteurs dans les tâches impliquant le traitement du langage naturel, sont efficaces pour aider ce processus d'optimisation dans le cadre de la chimie moléculaire.

Les principales conclusions sont les suivantes :

  1. Les LLM peuvent être utiles pour l'optimisation bayésienne s'ils sont pré-entraînés ou affinés avec des données spécifiques au domaine.
  2. L'utilisation directe de LLM polyvalents sans ajustements spécifiques au domaine donne souvent des résultats sous-optimaux.
  3. Des techniques telles que le réglage fin efficace des paramètres (PEFT) et les réseaux neuronaux bayésiens peuvent améliorer les performances des LLM dans ce contexte.
  4. La recherche fournit des idées et des outils logiciels pour exploiter les LLM dans la découverte scientifique, en favorisant l'efficacité des flux de travail de la découverte de matériaux tout en reconnaissant les limites et les orientations futures.

Cette étude met l'accent sur une approche équilibrée, fondée sur des preuves, de l'intégration des LLM dans des applications scientifiques spécialisées.

Descente structurée de gradient naturel sans inverse : KFAC efficace en mémoire et numériquement stable

Descente structurée de gradient naturel sans inverse : KFAC efficace en mémoire et numériquement stable

Wu Lin, Felix Dangel, Runa Eschenhagen, Kirill Neklyudov, Agustinus Kristiadi, Richard E Turner, Alireza Makhzani
Session d'affiches 5

Cet article présente la méthode Structured Inverse-Free Natural Gradient Descent (SINGD), une nouvelle méthode d'optimisation pour la formation des réseaux neuronaux. Les auteurs cherchent à résoudre deux problèmes majeurs posés par les méthodes de second ordre existantes, telles que KFAC : la consommation élevée de mémoire et l'instabilité numérique dans les contextes de faible précision.

SINGD s'appuie sur la méthode Inverse-Free Natural Gradient Descent (INGD), en l'étendant pour qu'elle soit plus efficace en termes de mémoire et plus stable sur le plan numérique. Les principales innovations sont les suivantes :

  1. Formulation d'une mise à jour KFAC sans inverse
  2. Imposer des structures aux facteurs de Kronecker pour réduire l'utilisation de la mémoire

Les auteurs démontrent que SINGD peut surpasser les méthodes de premier ordre comme AdamW sur diverses architectures de réseaux neuronaux (CNNs, Transformers, GNNs) tout en utilisant une mémoire similaire ou inférieure. Il est important de noter que la méthode SINGD reste stable dans les environnements de basse précision (demi précision) où la méthode KFAC devient instable.

Ce travail comble le fossé entre les méthodes d'optimisation de premier et de second ordre dans l'apprentissage moderne des réseaux neuronaux de faible précision, ce qui pourrait permettre d'améliorer l'efficacité de l'apprentissage des modèles à grande échelle.

Génération symbolique de musique avec diffusion guidée par des règles non différentiables

Génération symbolique de musique avec diffusion guidée par des règles non différentiables

Yujia Huang, Adishree Ghatare, Yuanzhe Liu, Ziniu Hu, Qinsheng Zhang, Chandramouli Shama Sastry, Siddharth Gururani, Sageev Oore, Yisong Yue
Oral 2x Musique et audio

Cet article présente une nouvelle méthode appelée guidage par contrôle stochastique (SCG) pour générer de la musique symbolique (comme des rouleaux de piano) à l'aide de modèles de diffusion tout en respectant des règles musicales non différentiables. Le principal défi réside dans le fait que de nombreuses règles musicales, telles que la densité des notes ou la progression des accords, ne sont pas différentiables, ce qui rend les méthodes de guidage traditionnelles inefficaces.

Les chercheurs abordent ce problème en le présentant comme un problème de contrôle stochastique. Ils développent SCG, qui peut fonctionner avec des modèles de diffusion pré-entraînés d'une manière prête à l'emploi, permettant un guidage sans entraînement même avec des règles non différentiables. SCG fonctionne en échantillonnant plusieurs étapes possibles à chaque itération et en sélectionnant celle qui suit le mieux les règles cibles.

En outre, l'article présente une architecture de diffusion latente pour la génération de musique symbolique à haute résolution. Combiné au SCG, ce cadre surpasse les générateurs actuels de pointe dans divers contextes, démontrant une qualité musicale améliorée et une contrôlabilité basée sur des règles.

L'intérêt de ce travail réside dans sa capacité à générer une musique symbolique de haute qualité, conforme aux règles, sans qu'il soit nécessaire de recycler les modèles pour chaque nouvelle règle, ce qui en fait potentiellement un outil précieux pour les compositeurs et les producteurs de musique.

Comprendre la capacité de raisonnement des modèles linguistiques du point de vue de l'agrégation des chemins de raisonnement

Comprendre la capacité de raisonnement des modèles linguistiques du point de vue de l'agrégation des chemins de raisonnement

Xinyi Wang, Alfonso Amayuelas, Kexun Zhang, Liangming Pan, Wenhu Chen, William Wang
Session de posters 3

Cet article étudie la manière dont les modèles de langage (ML) développent des capacités de raisonnement par le biais du pré-entraînement. Les auteurs proposent que les modèles de langage puissent agréger les voies de raisonnement indirectes observées lors du pré-entraînement, ce qui leur permet de tirer de nouvelles conclusions. Ils testent cette hypothèse dans deux scénarios : le raisonnement logique avec des graphes de connaissances et le raisonnement par chaîne de pensée pour des problèmes mathématiques.

Pour les graphes de connaissances, ils montrent que les LMs pré-entraînés sur les chemins de marche aléatoire peuvent déduire les relations manquantes. Pour les problèmes mathématiques, ils démontrent que l'entraînement sur des chemins de raisonnement de marche aléatoire non étiquetés améliore les performances sur plusieurs ensembles de données.

L'étude révèle que les LM peuvent utiliser efficacement des chemins de raisonnement non étiquetés et qu'il existe généralement une longueur de chemin optimale pour la formation. Ces résultats confirment l'hypothèse des auteurs et suggèrent des moyens d'améliorer le pré-entraînement des LM pour renforcer leurs capacités de raisonnement.

Ce travail permet de comprendre comment les LM acquièrent des compétences en matière de raisonnement et propose des stratégies potentielles pour améliorer leurs performances dans des tâches de raisonnement complexes.

En rapport :

2025
Ingénierie de l'IA
Recherche
Recherche 2025

Étude sur l'état de l'évaluation : L'Institut Vecteur apporte une nouvelle transparence dans l'évaluation comparative des modèles mondiaux d'IA

Sriram Ganapathi Subramanian headshot blog cover
2025
Recherche
Recherche 2025

Apprentissage par renforcement multi-agents dans le monde réel - Derniers développements et applications

2025
Ingénierie de l'IA
Actualités
Recherche
Recherche 2025

Les principes en action : Présentation du guide de l'Institut Vecteur pour un développement responsable des produits d'IA