ICLR 2021 : Les chercheurs adoptent des astuces pédagogiques pour entraîner les réseaux de neurones comme s’ils étaient des étudiants

23 avril 2021

2021Recherche sur les insightsen IA générative2021 IA fiable

23 avril 2021

Par Ian Gormely

Les membres de la communauté de recherche de Vector se préparent pour l’édition 2021 de la Conférence internationale sur les représentations de l’apprentissage (ICLR), l’une des principales conférences mondiales sur l’apprentissage profond. La conférence de cette année se tiendra virtuellement du 3 au 7 mai. 

Les membres du corps professoral de Vector ont vu plusieurs articles acceptés à la conférence. L’ICLR a reçu près de 3000 articles pour examen cette année, et n’en a accepté qu’un quart. 

Parmi les articles acceptés de la faculté Vector figure « Teaching With Commentaries », coécrit par Geoffrey Hinton, cofondateur et conseiller scientifique en chef de Vector, le professeur David Duvenaud et les chercheurs Aniruddh Raghu, Maithra Raghu et Simon Kornblith, qui imagine les réseaux neuronaux comme des étudiants.

« Les vrais enseignants doivent apprendre à enseigner », dit Duvenaud, « et on ne montre pas juste une tonne de données aux élèves sans offrir d’aide. » Tout comme les élèves ont besoin de contexte pour comprendre ce qu’on leur enseigne, « les réseaux de neurones peuvent bénéficier de commentaires adaptés à leur façon d’apprendre. » À cette fin, lui et ses coauteurs ont tenté de bâtir un système qui aide automatiquement les étudiants – les réseaux neuronaux – à mieux apprendre.

Ce faisant, les réseaux de neurones apprennent plus rapidement et font des prédictions plus précises (ce qu’on appelle réduction du surajustement), et les chercheurs peuvent mieux comprendre le fonctionnement des réseaux de neurones, ce qui leur permet de mieux comprendre la « boîte noire ». « Nous pensons que voir quels types de commentaires ont été utiles devrait éclaircir ce que le réseau de neurones retenait des données dans différentes circonstances. » 

Lors de la formation d’un classificateur, Duvenaud et ses coauteurs ont constaté qu’il était utile de mettre l’accent sur différentes données d’entraînement. Quand il y a peu de chevauchement entre eux, par exemple des photos de voitures et d’avions, où l’un a des roues et l’autre des ailes, il valait mieux se concentrer sur les exemples les plus stéréotypés de ce qui définit chacun. Mais lorsqu’il n’y a pas de distinction claire, comme une limite arbitraire entre les personnes grandes et petites, les classificateurs ont mieux réussi lorsque les exemples limites étaient mis en avant.

Vous trouverez ci-dessous des résumés et des résumés simplifiés de plusieurs des articles acceptés coécrits par les membres du corps professoral de Vector. 

Un repère d’inégalité pour évaluer la généralisation dans la démonstration de théorèmes

Yuhuai Wu, Albert Jiang, Jimmy Ba et Roger Grosse.

Les démonstrateurs interactifs de théorèmes offrent un moyen puissant de vérifier formellement les théorèmes mathématiques et les logiciels informatiques, mais il est notoirement difficile et long pour les humains d’écrire des démonstrations formelles. Si nous pouvions entraîner un agent d’apprentissage profond à compléter tout ou partie de la démonstration, cela élargirait considérablement la portée de ce qui peut être vérifié formellement. Nous avons développé un ensemble de données composé de problèmes d’inégalités mathématiques générés synthétiquement et utilisé cet ensemble pour évaluer la capacité des systèmes d’apprentissage profond à généraliser en énoncés théoriques, contrairement à ce qu’ils ont vu auparavant.

Une approche PAC-bayésienne des bornes de généralisation pour les réseaux neuronaux de graphes

Renjie Liao, Raquel Urtasun, Richard Zemel

Les réseaux neuronaux à graphes (GNN) sont récemment devenus populaires dans la gestion de données structurées en graphes, comme la génération de molécules pour la découverte de médicaments et la prédiction de liens dans les réseaux sociaux. Dans cet article, nous cherchons à comprendre pourquoi les GNN peuvent se généraliser des graphes d’entraînement vers des graphes de test invisibles. Premièrement, nous montrons les limites de généralisation pour les variantes populaires des GNN via une approche PAC-bayésienne. Notre résultat révèle que le degré maximal de nœuds des graphes et la norme spectrale des poids régissent les bornes de généralisation des GNN. De plus, notre borne PAC-Bayes s’améliore par rapport à la borne précédente basée sur la complexité de Rademacher, montrant une valeur plus serrée empiriquement, tant sur les ensembles de données synthétiques que réels.

Classification bayésienne en quelques tirs avec un contre chaque processus gaussiens polya-gamma augmentés

Jake Snell, Richard Zemel

Former un classificateur d’images profond est un processus coûteux et long. Nous aimerions entraîner un modèle une fois et le déployer, mais dans la réalité, un classificateur rencontrera des images difficiles à classer, y compris celles de classes qu’il n’a jamais vues auparavant. Nous avons développé une approche novatrice basée sur des processus gaussiens qui fait une moyenne sur un nombre infini de modèles, pondérés selon leur ajustement aux nouvelles données. Notre algorithme est mieux calibré (estimations améliorées de sa confiance dans ses prédictions) que les références précédentes tout en affichant une forte précision dans ce contexte difficile.

Apprentissage CaPC : apprentissage collaboratif confidentiel et privé

Christopher A. Choquette-Choo, Natalie Dullerud, Adam Dziedzic, Yunxiang Zhang, Somesh Jha, Nicolas Papernot, Xiao Wang

Le CaPC est un protocole d’apprentissage automatique collaboratif offrant de fortes garanties de confidentialité et de confidentialité. Les organisations qui ont entraîné des modèles localement peuvent maintenant collaborer et faire des prédictions conjointement sans se révéler les entrées sur lesquelles elles prédisent, leurs modèles ou leurs données d’entraînement. Le CaPC est indépendant du modèle – chacune des parties collaboratrices peut utiliser différents types d’architectures. Notre cadre améliore l’équité des modèles même lorsqu’il s’agit d’une distribution non uniforme des données, surtout lorsqu’ils sont combinés à l’apprentissage actif. Le CaPC offre une nouvelle façon de réaliser les exigences imposées par la législation sur la vie privée tout en apportant peu de modifications aux pipelines de ML existants.

C-Learning : Estimation cumulative de l’accessibilité consciente de l’horizon

Panteha Naderian, Gabriel Loaiza-Ganem, Harry J. Braviner, Anthony L. Caterini, Jesse C. Cresswell, Tong Li, Animesh Garg

L’apprentissage C est un algorithme novateur d’apprentissage par renforcement avec des applications en robotique et en planification de cheminement. L’objectif principal d’un agent C-learning est d’apprendre des chemins efficaces vers des objectifs prédéfinis. En entraînant la fonction valeur avec un paramètre supplémentaire, l’horizon, cette méthode corrige trois lacunes des travaux précédents : 1) Elle apprend des chemins plus courts et plus efficaces vers un objectif 2) Elle apprend les tâches avec moins d’expérience et de données d’entraînement 3) Elle trouve plusieurs façons d’atteindre un objectif. Ainsi, les utilisateurs peuvent choisir entre différents chemins selon leur préférence en termes de vitesse et de fiabilité.

Critiques conservateurs de la sécurité pour l’exploration

Homanga Bharadhwaj, Aviral Kumar, Nicholas Rhinehart, Sergey Levine, Florian Shkurti, Animesh Garg

Cet article présente une nouvelle approche de la sécurité dans le contexte de l’apprentissage par renforcement (RL) pour la robotique. Le RL est un paradigme d’apprentissage basé sur l’essai-erreur où un agent interagit avec l’environnement, est récompensé positivement pour un comportement souhaitable, et négativement pour un comportement indésirable, de sorte que ce comportement est renforcé avec le temps. Lors de l’entraînement des robots à résoudre une tâche particulière avec le RL, il est important d’éviter les comportements indésirables pouvant entraîner des défaillances catastrophiques, comme des dommages au robot. Cet article présente un algorithme pour entraîner les agents RL en limitant de manière démontrable la probabilité d’échecs catastrophiques et permettant ainsi l’entraînement sécuritaire des robots.

Inférence de jeu de données : résolution de propriété en apprentissage automatique 

Pratyush Maini, Mohammad Yaghini, Nicolas Papernot

Craignez-vous qu’un modèle ML soit une copie volée de votre modèle propriétaire? Nous faisons l’observation pessimiste mais réaliste qu’on ne peut empêcher le vol de modèles. Au lieu de cela, dans l’inférence de jeu de données, nous cherchons à détecter si un adversaire a volé le modèle après coup. Notre point de vue clé est que la propriété intellectuelle la plus précieuse du propriétaire du modèle est l’ensemble de données sur lequel il s’est entraîné. Ainsi, peu importe comment un adversaire tente de voler, son modèle contiendra des informations privées au jeu de données de la victime. L’inférence des ensembles de données utilise ces signaux pour distinguer le comportement des modèles suspects sur des échantillons des données d’entraînement et non vues, et déterminer si un adversaire a utilisé des connaissances privées.

Règles routières émergentes dans des environnements de conduite multi-agents

Avik Pal, Jonah Philion, Yuan-Hong Liao, Sanja Fidler

Pour partager la route en toute sécurité avec des conducteurs humains, les voitures autonomes doivent respecter les « règles de la route » que les conducteurs humains respectent. Les « règles de la route » incluent des règles d’application de la loi, comme l’obligation que les véhicules s’arrêtent aux feux rouges, ainsi que des règles sociales comme la désignation implicite des voies rapides. Nous montrons que dans des environnements de conduite simulés où les agents cherchent à atteindre rapidement leur destination, les agents développent des règles routières qui imitent les règles routières créées par les humains. Nos résultats suggèrent la faisabilité d’un nouveau paradigme pour la conduite autonome dans lequel des agents entièrement entraînés à la simulation pourraient être déployés dans le monde réel.

Planification des compétences latentes pour l’exploration et le transfert

Kevin Xie, Homanga Bharadhwaj, Danijar Hafner, Animesh Garg, Florian Shkurti

Cet article décrit une approche pour apprendre des compétences réutilisables afin de résoudre efficacement des tâches avec des robots. Nous avons laissé le robot interagir avec l’environnement et construire un modèle du monde de la façon dont l’environnement évolue en réponse aux actions du robot. En utilisant ce modèle de monde, le robot planifie une séquence de compétences de haut niveau requises pour résoudre une tâche particulière, par exemple marcher du point A au point B. L’idée clé de notre approche est d’apprendre ces compétences afin qu’elles puissent être réutilisées pour différentes tâches et environnements légèrement différents. C’est important pour minimiser le nombre d’interactions que le robot a avec l’environnement, qui sont souvent coûteuses et chronophages.

Pas de MCMC pour moi : Échantillonnage amorti pour un entraînement rapide et stable de modèles à base d’énergie

Will Grathwohl, Jacob Kelly, Milad Hashemi, Mohammad Norouzi, Kevin Swersky, David Duvenaud

Les classificateurs de réseaux neuronaux standards sont simplement une fonction qui prend une image et donne la probabilité que cette image appartienne à des classes différentes.  Il existe une méthode alternative prometteuse d’entraîner ces modèles, appelée modélisation générative, qui apprend aussi à produire des images réalistes en même temps.  Un des avantages de cette approche est qu’elle peut apprendre à partir de données principalement non étiquetées.  Cependant, entraîner ces modèles implique généralement une recherche coûteuse sur des images.  Nous montrons comment une machine peut apprendre à effectuer cette recherche plus rapidement pendant l’entraînement, ce qui nous permet d’adapter de grands modèles plus rapidement, à la fois sur de grandes images et sur les types de tables de données non structurées souvent observées dans les environnements d’affaires ou de santé.

Planification à partir de pixels à l’aide de modèles dynamiques inverses

Keiran Paster, Sheila A. McIlraith, Jimmy Ba

Apprendre automatiquement à modéliser les parties d’un environnement pertinentes pour la prise de décision est essentiel pour permettre aux agents d’apprentissage par renforcement profond (DRL) de résoudre des tâches complexes et réelles. Nous montrons que les modèles appris en prédisant des actions (dynamique inverse) plutôt qu’en prédisant les états futurs (dynamiques en avant) permettent une modélisation précise des dynamiques de l’environnement même dans des environnements visuels complexes et peuvent être utilisés pour aider l’agent à planifier plus efficacement. Notre nouvel algorithme DRL (GLAMOR) est une étape enthousiasmante pour permettre aux agents de modéliser et de planifier dans des environnements plus complexes.

Enseigner avec des commentaires

Aniruddh Raghu, Maithra Raghu, Simon Kornblith, David Duvenaud, Geoffrey Hinton

Comment les enseignants apprennent-ils à enseigner?  Une façon pour les enseignants d’aider les élèves est de fournir des commentaires sur des exemples qui leur sont montrés. Nous avons mis en place une idée similaire pour entraîner les réseaux neuronaux. La façon dont nos enseignants ont trouvé des commentaires utiles a été de simuler un réseau de neurones « étudiant » apprenant à partir de ses exemples et commentaires, puis d’ajuster les commentaires avec du backprop pour améliorer la performance de l’élève. L’analyse de ces commentaires éclaire la façon dont les élèves apprenaient et quelles parties des données étaient importantes pour différentes tâches, comme la classification des images médicales.

Limites théoriques sur l’erreur d’estimation pour le méta-apprentissage

James Lucas, Mengye Ren, Irene Raissa Kameni Kameni, Toniann Pitassi, Richard Zemel

Traditionnellement, on suppose que les modèles d’apprentissage automatique sont enseignés en utilisant la même distribution de données que celle que l’on s’attend à voir dans la nature. Mais ce n’est pas très réaliste. Par exemple, nous pourrions avoir des données de santé provenant de 5 hôpitaux et vouloir déployer notre modèle dans un nouvel hôpital où la démographie des patients et la formation médicale diffèrent considérablement. Nous étudions la difficulté fondamentale de ce problème et démontrons des limites inférieures à la meilleure performance possible de tout algorithme d’apprentissage automatique dans ce contexte.

Apprentissage non supervisé des représentations pour les séries temporelles avec codage de voisinage temporel

Sana Tonekaboni, Danny Eytan, Anna Goldenberg

Les données de séries temporelles sont souvent complexes et riches en informations, mais peu étiquetées et donc difficiles à modéliser. Dans cet article, nous proposons un cadre auto-supervisé pour apprendre des représentations généralisables pour des séries temporelles non stationnaires. Notre approche, appelée codage de voisinage temporel (TNC), tire parti de la fluidité locale du processus génératif d’un signal pour définir des voisinages dans le temps avec des propriétés stationnaires et apprend à distinguer les échantillons voisins à l’aide d’un objectif contrastif debiasé. Notre motivation vient du domaine médical, où la capacité à modéliser la nature dynamique des données de séries temporelles est particulièrement précieuse pour identifier, suivre et prédire l’état sous-jacent des patients dans des contextes où l’étiquetage des données est pratiquement impossible.

Errer dans un monde : apprentissage en ligne contextualisé en petits tirs

Mengye Ren, Michael L. Iuzzolino, Michael C. Mozer, Richard S. Zemel

Nous visons à combler le fossé entre les environnements humains typiques et ceux d’apprentissage automatique en étendant le cadre standard de l’apprentissage en quelques coups à un environnement en ligne et continu, qui imite l’expérience visuelle d’un agent errant dans un monde. Nous introduisons un nouvel ensemble de données basé sur des images intérieures à grande échelle, et proposons un nouveau modèle capable d’utiliser des informations contextuelles spatiotemporelles grâce à une combinaison de mémoire à court et à long terme.

Quand est-ce que le préconditionnement aide ou nuit à la généralisation?

Shun-ichi Amari, Jimmy Ba, Roger Grosse, Xuechen Li, Atsushi Nitanda, Taiji Suzuku, Denny Wu, Ji Xu

L’un des phénomènes les plus déroutants dans l’entraînement des réseaux neuronaux est que le choix de l’algorithme d’optimisation affecte non seulement la vitesse de convergence, mais aussi la capacité de généralisation de la solution convergente. Un choix d’optimisation important est le préconditionneur, qui détermine à quelle vitesse les paramètres se déplacent dans différentes directions. Nous analysons les propriétés de généralisation de divers préconditionneurs dans le contexte de la régression linéaire. Nous constatons que, contrairement à la croyance populaire selon laquelle les optimiseurs du second ordre généralisent moins bien que ceux du premier ordre, l’effet réel est beaucoup plus nuancé; Nous analysons diverses situations dans lesquelles le préconditionnement avec de l’information de second ordre peut aider ou nuire à la généralisation.

À lire aussi :

2026
Réflexions
Recherche
Recherche 2026

La nouvelle cartographie de l’invisible

Les femmes écrivent sur un tableau blanc. Il y a un homme à sa gauche qui regarde le tableau.
2025
Recherche
Recherche 2025

Les chercheurs en vecteurs font avancer les frontières de l’IA avec 80 articles au NeurIPS 2025

Logo vectoriel
2025
Réflexions

Une nouvelle étude révèle l’impact économique de 100 milliards de dollars de l’IA à travers le Canada, avec l’Ontario en tête