ICLR 2021 : Des chercheurs adoptent des astuces pédagogiques pour former des réseaux neuronaux comme s'ils étaient des étudiants
23 avril 2021
23 avril 2021
23 avril 2021
Par Ian Gormely
Les membres de la communauté des chercheurs de Vector se préparent à l'édition 2021 de l'International Conference on Learning Representations (ICLR), l'une des principales conférences sur l'apprentissage profond dans le monde. Cette année, la conférence se tiendra virtuellement du 3 au 7 mai.
Les membres de la faculté Vecteur ont eu un certain nombre d'articles acceptés à la conférence. L'ICLR a reçu près de 3 000 communications cette année et n'en a accepté qu'un quart.
Parmi les articles acceptés de la Faculté Vecteur, on trouve "Enseigner avec des commentaires," coécrit par Geoffrey Hinton, cofondateur de Vector et conseiller scientifique en chef, David Duvenaud, membre de la faculté, et les chercheurs Aniruddh Raghu, Maithra Raghu et Simon Kornblith, qui imagine les réseaux neuronaux comme des étudiants.
"Les vrais enseignants doivent apprendre à enseigner", explique M. Duvenaud, "et on ne se contente pas de montrer aux élèves un tas de données sans leur offrir de l'aide". Tout comme les étudiants ont besoin d'un contexte pour comprendre ce qu'on leur enseigne, les réseaux neuronaux peuvent bénéficier de commentaires adaptés à leur mode d'apprentissage, "les réseaux neuronaux peuvent bénéficier de commentaires adaptés à leur mode d'apprentissage". À cette fin, le chercheur et ses coauteurs ont tenté de construire un système qui aide automatiquement les étudiants - les réseaux neuronaux - à mieux apprendre.
Ce faisant, les réseaux neuronaux sont en mesure d'apprendre plus rapidement et de faire des prédictions plus précises (ce qui permet de réduire l'adaptation excessive) et les chercheurs sont en mesure de mieux comprendre le fonctionnement des réseaux neuronaux, ce qui leur permet de mieux comprendre la "boîte noire". "Nous pensons que le fait de voir quels types de commentaires étaient utiles devrait nous éclairer sur ce que le réseau neuronal a retenu des données dans différentes circonstances."
Lors de l'entraînement d'un classificateur, Duvenaud et ses coauteurs ont constaté qu'il était utile de mettre l'accent sur des données d'entraînement différentes. Lorsqu'il y a peu de chevauchement entre les deux, par exemple des images de voitures et d'avions, l'une ayant des roues et l'autre des ailes, il est préférable de se concentrer sur les exemples les plus stéréotypés de ce qui définit chacune des deux catégories. En revanche, lorsqu'il n'y a pas de distinction nette, comme un seuil arbitraire entre les personnes de grande taille et les personnes de petite taille, les classificateurs ont obtenu de meilleurs résultats en mettant l'accent sur les exemples limites.
Vous trouverez ci-dessous les résumés et les sommaires simplifiés de plusieurs des articles acceptés, cosignés par des membres de la faculté Vecteur.
Un test d'inégalité pour évaluer la généralisation dans la résolution de théorèmes
Yuhuai Wu, Albert Jiang, Jimmy Ba et Roger Grosse.
Les prouveurs de théorèmes interactifs constituent un moyen puissant de vérifier formellement les théorèmes mathématiques et les logiciels informatiques, mais il est notoirement difficile et fastidieux pour les humains d'écrire des preuves formelles. Si nous pouvions entraîner un agent d'apprentissage profond à réaliser tout ou partie de la preuve, cela élargirait considérablement la portée de ce qui peut être vérifié formellement. Nous avons développé un ensemble de données composé de problèmes d'inégalité mathématique générés synthétiquement et utilisé cet ensemble de données pour évaluer la capacité des systèmes d'apprentissage profond à se généraliser aux énoncés de théorèmes différents de ceux qu'ils ont vus auparavant.
Une approche PAC-Bayesienne des limites de généralisation pour les réseaux neuronaux graphiques
Renjie Liao, Raquel Urtasun, Richard Zemel
Les réseaux neuronaux graphiques (GNN) sont récemment devenus populaires dans le traitement des données structurées par des graphes, comme la génération de molécules pour la découverte de médicaments et la prédiction de liens dans les réseaux sociaux. Dans cet article, nous cherchons à comprendre pourquoi les réseaux neuronaux graphiques peuvent se généraliser à partir de graphes d'apprentissage vers des graphes de test inédits. Tout d'abord, nous montrons les limites de la généralisation pour les variantes populaires des GNN par le biais d'une approche PAC-Bayesian. Nos résultats révèlent que le degré de nœud maximal des graphes et la norme spectrale des poids régissent les limites de généralisation des GNN. De plus, notre limite PAC-Bayes améliore la limite précédente basée sur la complexité de Rademacher, en montrant une valeur plus serrée empiriquement sur des ensembles de données de graphes synthétiques et réels.
Jake Snell, Richard Zemel
L'entraînement d'un classificateur d'images profond est un processus long et coûteux. Nous aimerions entraîner un modèle une seule fois et le déployer, mais dans la vie réelle, un classificateur rencontrera des images difficiles à classer, y compris des images appartenant à des classes qu'il n'a jamais vues auparavant. Nous avons développé une nouvelle approche basée sur les processus gaussiens qui fait la moyenne d'un nombre infini de modèles, pondérés par leur adéquation aux nouvelles données. Notre algorithme est mieux calibré (meilleures estimations de la confiance qu'il accorde à ses prédictions) que les modèles de référence précédents, tout en faisant preuve d'une grande précision dans ce contexte difficile.
Apprentissage CaPC : Apprentissage collaboratif confidentiel et privé
Christopher A. Choquette-Choo, Natalie Dullerud, Adam Dziedzic, Yunxiang Zhang, Somesh Jha, Nicolas Papernot, Xiao Wang
CaPC est un protocole d'apprentissage automatique collaboratif offrant de solides garanties en matière de respect de la vie privée et de confidentialité. Les organisations qui ont formé des modèles localement peuvent désormais collaborer et faire des prédictions conjointement sans révéler aux autres les entrées sur lesquelles ils prédisent, leurs modèles ou leurs données d'apprentissage. CaPC est agnostique en matière de modèles - chacune des parties collaborant peut utiliser différents types d'architecture. Notre cadre améliore l'équité des modèles même en cas de distribution non uniforme des données, en particulier lorsqu'il est associé à l'apprentissage actif. CaPC offre une nouvelle façon de répondre aux exigences imposées par la législation sur la protection de la vie privée tout en apportant peu de changements aux pipelines de ML existants.
C-Learning : Estimation de l'accessibilité cumulative tenant compte de l'horizon
Panteha Naderian, Gabriel Loaiza-Ganem, Harry J. Braviner, Anthony L. Caterini, Jesse C. Cresswell, Tong Li, Animesh Garg
Le C-learning est un nouvel algorithme d'apprentissage par renforcement qui trouve des applications dans la robotique et la planification des chemins. L'objectif principal d'un agent C-learning est d'apprendre des chemins efficaces pour atteindre des objectifs prédéfinis. En entraînant la fonction de valeur à l'aide d'un paramètre supplémentaire, l'horizon, cette méthode remédie à trois lacunes des travaux antérieurs : 1) Elle apprend des chemins plus courts et plus efficaces pour atteindre un objectif. 2) Elle apprend les tâches avec moins d'expérience et de données de formation. 3) Elle trouve plusieurs façons d'atteindre un objectif. Par conséquent, les utilisateurs peuvent choisir entre différents chemins en fonction de leurs préférences en matière de vitesse et de fiabilité.
Critiques conservatrices de la sécurité pour l'exploration
Homanga Bharadhwaj, Aviral Kumar, Nicholas Rhinehart, Sergey Levine, Florian Shkurti, Animesh Garg
Cet article présente une nouvelle approche de la sécurité dans le contexte de l'apprentissage par renforcement (RL) pour la robotique. L'apprentissage par renforcement est un paradigme d'apprentissage basé sur l'essai et l'erreur dans lequel un agent interagit avec l'environnement, est récompensé positivement pour un comportement souhaitable et négativement pour un comportement indésirable, de sorte que son comportement souhaitable est renforcé au fil du temps. Lors de l'entraînement des robots à la résolution d'une tâche particulière à l'aide de la RL, il est important d'éviter les comportements indésirables susceptibles d'entraîner des défaillances catastrophiques, par exemple en endommageant le robot. Cet article présente un algorithme pour la formation d'agents RL en contraignant de manière prouvée la probabilité d'échecs catastrophiques et en permettant ainsi la formation de robots en toute sécurité.
Pratyush Maini, Mohammad Yaghini, Nicolas Papernot
Craignez-vous qu'un modèle de ML soit une copie volée de votre modèle propriétaire ? Nous faisons le constat pessimiste mais réaliste qu'il est impossible d'empêcher le vol de modèle. En revanche, dans Dataset Inference, nous cherchons à détecter si un adversaire a volé le modèle après coup. Notre principale idée est que la propriété intellectuelle la plus précieuse du propriétaire du modèle est l'ensemble de données sur lequel il s'est entraîné. Par conséquent, quelle que soit la manière dont un adversaire tente de voler, son modèle contiendra des informations privées sur l'ensemble de données de la victime. L'inférence de l'ensemble de données utilise ces signaux pour distinguer le comportement suspect du modèle sur des échantillons de données d'entraînement et de données non vues et pour déterminer si un adversaire a utilisé des connaissances privées.
Règles de conduite émergentes dans les environnements de conduite multi-agents
Avik Pal, Jonah Philion, Yuan-Hong Liao, Sanja Fidler
Pour partager la route en toute sécurité avec les conducteurs humains, les voitures auto-conduites doivent respecter les "règles routières" que les conducteurs humains suivent. Le "code de la route" comprend des règles imposées par la loi, comme l'obligation pour les véhicules de s'arrêter aux feux rouges, ainsi que des règles sociales comme la désignation implicite des voies rapides. Nous montrons que dans des environnements de conduite simulés dans lesquels les agents cherchent à atteindre leur destination rapidement, les agents développent des règles routières qui imitent les règles routières développées par les humains. Nos résultats suggèrent la faisabilité d'un nouveau paradigme pour la conduite autonome dans lequel des agents entièrement formés en simulation peuvent être déployés dans le monde réel.
Planification des compétences latentes pour l'exploration et le transfert
Kevin Xie, Homanga Bharadhwaj, Danijar Hafner, Animesh Garg, Florian Shkurti
Cet article décrit une approche de l'apprentissage de compétences réutilisables pour résoudre efficacement des tâches avec des robots. Nous laissons le robot interagir avec l'environnement et nous construisons un modèle du monde de la façon dont l'environnement change en réponse aux actions du robot. À l'aide de ce modèle, le robot planifie une séquence de compétences de haut niveau qui sont nécessaires pour résoudre une tâche particulière, par exemple marcher d'un point A à un point B. L'idée clé de notre approche est d'apprendre ces compétences de manière à ce qu'elles puissent être réutilisées pour des tâches différentes et dans des environnements légèrement différents. Ceci est important pour minimiser le nombre d'interactions du robot avec l'environnement, qui sont souvent coûteuses et prennent du temps.
Will Grathwohl, Jacob Kelly, Milad Hashemi, Mohammad Norouzi, Kevin Swersky, David Duvenaud
Les classificateurs de réseaux neuronaux standard sont simplement une fonction qui prend une image et produit la probabilité que cette image appartienne à différentes classes. Il existe une autre méthode prometteuse pour former ces modèles, appelée modélisation générative, qui permet également d'apprendre à produire des images réalistes. L'un des avantages de cette approche est qu'elle permet d'apprendre à partir de données généralement non étiquetées. Cependant, l'apprentissage de ces modèles implique généralement une recherche coûteuse d'images. Nous montrons comment une machine peut apprendre à effectuer cette recherche plus rapidement pendant l'entraînement, ce qui nous permet d'ajuster plus rapidement de grands modèles, à la fois sur de grandes images et sur les types de tableaux de données non structurés que l'on rencontre souvent dans les entreprises ou dans le domaine de la santé.
Planification à partir de pixels à l'aide de modèles de dynamique inverse
Keiran Paster, Sheila A. McIlraith, Jimmy Ba
Apprendre automatiquement à modéliser les parties d'un environnement qui sont pertinentes pour la prise de décision est essentiel pour permettre aux agents d'apprentissage par renforcement profond (DRL) de résoudre des tâches complexes dans le monde réel. Nous montrons que les modèles appris en prédisant les actions (dynamique inverse) plutôt qu'en prédisant les états futurs (dynamique directe) permettent une modélisation précise de la dynamique de l'environnement, même dans des environnements visuels compliqués, et peuvent être utilisés pour aider l'agent à planifier plus efficacement. Notre nouvel algorithme DRL (GLAMOR) est une étape passionnante pour permettre aux agents de modéliser et de planifier dans des environnements plus compliqués.
Enseigner avec des commentaires
Aniruddh Raghu, Maithra Raghu, Simon Kornblith, David Duvenaud, Geoffrey Hinton
Comment les enseignants apprennent-ils à enseigner ? Les enseignants aident notamment les élèves en commentant les exemples qui leur sont montrés. Nous avons mis en œuvre une idée similaire pour la formation des réseaux neuronaux. Nos enseignants ont trouvé des commentaires utiles en simulant un réseau neuronal "étudiant" apprenant à partir de leurs exemples et commentaires, et en ajustant les commentaires à l'aide de la rétro-propagation pour améliorer les performances de l'étudiant. L'examen de ces commentaires a permis de comprendre comment les étudiants apprenaient et quelles parties des données étaient importantes pour différentes tâches, telles que la classification d'images médicales.
Limites théoriques de l'erreur d'estimation pour le méta-apprentissage
James Lucas, Mengye Ren, Irene Raissa Kameni Kameni, Toniann Pitassi, Richard Zemel
Traditionnellement, nous supposons que les modèles d'apprentissage automatique sont enseignés en utilisant la même distribution de données que celle que nous nous attendons à voir dans la nature. Mais ce n'est pas très réaliste. Par exemple, nous pourrions disposer de données sur les soins de santé provenant de cinq hôpitaux et vouloir déployer notre modèle dans un nouvel hôpital où la démographie des patients et la formation médicale diffèrent considérablement. Nous étudions la difficulté fondamentale de ce problème et prouvons les limites inférieures de la meilleure performance possible de tout algorithme d'apprentissage automatique dans ce contexte.
Sana Tonekaboni, Danny Eytan, Anna Goldenberg
Les données de séries temporelles sont souvent complexes et riches en informations, mais peu étiquetées et donc difficiles à modéliser. Dans cet article, nous proposons un cadre auto-supervisé pour l'apprentissage de représentations généralisables pour les séries temporelles non stationnaires. Notre approche, appelée Temporal Neighborhood Coding (TNC), tire parti de la douceur locale du processus de génération d'un signal pour définir des voisinages dans le temps avec des propriétés stationnaires et apprend à distinguer les échantillons voisins à l'aide d'un objectif contrastif débiaisé. Notre motivation provient du domaine médical, où la capacité à modéliser la nature dynamique des données de séries temporelles est particulièrement précieuse pour identifier, suivre et prédire les états sous-jacents des patients dans des contextes où l'étiquetage des données est pratiquement impossible.
Se promener dans un monde : Apprentissage en ligne contextualisé à partir de quelques clichés
Mengye Ren, Michael L. Iuzzolino, Michael C. Mozer, Richard S. Zemel
Nous visons à combler le fossé entre les environnements typiques de l'apprentissage humain et de l'apprentissage automatique en étendant le cadre standard de l'apprentissage à partir de quelques images à un environnement continu en ligne, qui imite l'expérience visuelle d'un agent se déplaçant dans un monde. Nous introduisons un nouvel ensemble de données basé sur l'imagerie intérieure à grande échelle et proposons un nouveau modèle qui peut utiliser les informations contextuelles spatio-temporelles en combinant la mémoire à court terme et la mémoire à long terme.
Quand le préconditionnement aide-t-il ou nuit-il à la généralisation ?
Shun-ichi Amari, Jimmy Ba, Roger Grosse, Xuechen Li, Atsushi Nitanda, Taiji Suzuku, Denny Wu, Ji Xu
L'un des phénomènes les plus déroutants dans la formation des réseaux neuronaux est que le choix de l'algorithme d'optimisation affecte non seulement la vitesse de convergence, mais aussi la capacité de généralisation de la solution convergente. Un choix d'optimisation important est le préconditionneur, qui détermine la vitesse à laquelle les paramètres se déplacent dans différentes directions. Nous analysons les propriétés de généralisation de divers préconditionneurs dans le contexte de la régression linéaire. Nous constatons que, contrairement à la croyance populaire selon laquelle les optimiseurs du second ordre généralisent moins bien que ceux du premier ordre, l'effet réel est beaucoup plus nuancé ; nous analysons diverses situations dans lesquelles le préconditionnement avec des informations du second ordre peut aider ou nuire à la généralisation.