La communauté de la recherche vectorielle se prépare pour le NeurIPS 2020 virtuel

27 novembre 2020

Par Ian Gormely
27 novembre 2020

Les chercheurs du secteur vectoriel se préparent à nouveau à la principale conférence sur l'apprentissage automatique, la 34e conférence annuelle sur les systèmes de traitement de l'information neuronale (NeurIPS). Cette année, la conférence, qui devait initialement se tenir à Vancouver, en Colombie-Britannique, sera virtuelle et se déroulera du 6 au 12 décembre. Elle comprendra des conférences invitées, des démonstrations, des symposiums et des présentations orales et par affiches d'articles évalués par un comité de lecture. 

Vous trouverez ci-dessous les résumés et les sommaires simplifiés de nombreux articles et ateliers acceptés par les chercheurs affiliés à Vector. 

Pour en savoir plus sur le travail de Vector lors des conférences des années précédentes ici et ici.

La communauté des chercheurs de Vector continue de s'agrandir rapidement. Si vous êtes un chercheur affilié à Vector et que vos travaux ne sont pas représentés ici, veuillez contacter ian.gormely@vectorinstitute.ai.

Articles de conférence rédigés par des membres de la faculté Vector et des affiliés de la faculté :

Quantification adaptative du gradient pour le SGD parallèle aux données
Fartash Faghri (Université de Toronto/Institut Vecteur), Iman Tabrizian (Université de Toronto/Institut Vecteur), Ilia Markov (IST Autriche), Dan Alistarh (IST Autriche/Neural Magic Inc.), Daniel Roy (Université de Toronto/Institut Vecteur), Ali Ramezani-Kebrya (Institut Vecteur)
À mesure que l'apprentissage profond s'adapte à des modèles et des données plus importants, les chercheurs utilisent des algorithmes distribués et parallèles pour s'entraîner plus rapidement. Ce travail montre comment réduire la surcharge de communication de 70 %, ouvrant la possibilité d'un calcul à plus grande échelle.

Une approche d'apprentissage de fonction implicite pour la régression modale paramétrique
Yangchen Pan (Université de l'Alberta), Ehsan Imani (Université de l'Alberta), Martha White (Université de l'Alberta), Amir-massoud Farahmand (Institut Vecteur/Université de Toronto)
L'apprentissage de la relation entre l'entrée et la sortie à valeur réelle est un problème fondamental de l'apprentissage automatique, connu sous le nom de problème de régression. Les méthodes de régression conventionnelles apprennent la valeur moyenne d'une sortie en fonction de son entrée. Cette méthode est acceptable lorsque la sortie pour une entrée donnée est concentrée autour d'un seul mode (unimodale), mais elle ne l'est pas lorsque la sortie a plusieurs modes. Ce travail développe un nouvel algorithme évolutif pour apprendre une telle relation. Pour ce faire, nous utilisons le théorème de la fonction implicite, qui nous permet de convertir le problème de l'apprentissage d'une fonction à valeurs multiples, qui est difficile, en l'apprentissage d'une fonction à valeur unique, qui est plus facile.

Découverte causale dans les systèmes physiques à partir de vidéos
Yunzhu Li (Massachusettes Institute of Technology), Antonio Torralba (Massachusettes Institute of Technology), Anima Anandkumar (NVIDIA/CalTech), Dieter Fox (NVIDIA/Université de Washington), Animesh Garg (Université de Toronto/Vector Institute)
La découverte de causes est au cœur de la cognition humaine. Elle nous permet de raisonner sur l'environnement et de faire des prédictions contrefactuelles sur des scénarios inédits qui peuvent être très différents de nos expériences précédentes. Nous considérons la tâche de découverte causale à partir de vidéos de bout en bout sans supervision de la structure du graphe de vérité de base. En particulier, notre objectif est de découvrir les dépendances structurelles entre les variables de l'environnement et de l'objet : déduire le type et la force des interactions qui ont un effet causal sur le comportement du système dynamique. Notre modèle se compose (a) d'un module de perception qui extrait des images une représentation sémantiquement significative et temporellement cohérente des points clés, (b) d'un module d'inférence pour déterminer la distribution du graphe induit par les points clés détectés, et (c) d'un module de dynamique qui peut prédire l'avenir en conditionnant le graphe inféré. Nous supposons que nous avons accès à différentes configurations et conditions environnementales, c'est-à-dire à des données provenant d'interventions inconnues sur le système sous-jacent ; ainsi, nous pouvons espérer découvrir le graphe causal sous-jacent correct sans interventions explicites. Nous évaluons notre méthode dans un environnement planaire d'interaction multi-corps et dans des scénarios impliquant des tissus de différentes formes comme des chemises et des pantalons. Les expériences démontrent que notre modèle peut identifier correctement les interactions à partir d'une courte séquence d'images et faire des prédictions à long terme. La structure causale supposée par le modèle lui permet également de faire des prédictions contrefactuelles et d'extrapoler à des systèmes de graphes d'interaction non vus ou à des graphes de différentes tailles.

Augmentation des données contrefactuelles à l'aide de dynamiques localement factorisées
Silviu Pitis (Université de Toronto/Institut Vecteur), Elliot Creager (Université de Toronto/Institut Vecteur), Animesh Garg (Université de Toronto/Institut Vecteur)
Nous détectons et exploitons l'indépendance causale locale entre les objets et les caractéristiques de l'état du monde afin d'améliorer l'efficacité de l'échantillonnage des robots simulés dans le cadre de l'apprentissage par renforcement. Nous formalisons l'indépendance causale locale à l'aide d'un cadre de modélisation causale locale et l'utilisons dans le cadre de notre algorithme d'augmentation des données contrefactuelles pour générer de nouvelles données causalement valides sur lesquelles les modèles peuvent s'entraîner.

Curriculum par lissage
Samartha Sinha (Université de Toronto / Institut vectoriel), Animesh Garg (Université de Toronto / Institut vectoriel), Hugo Larochelle (Google Brain)
Les réseaux neuronaux convolutifs (CNN) ont montré des performances impressionnantes dans les tâches de vision artificielle telles que la classification, la détection et la segmentation d'images. En outre, des travaux récents sur les réseaux adversoriels génératifs (GAN) ont souligné l'importance de l'apprentissage en augmentant progressivement la difficulté d'une tâche d'apprentissage Kerras et al. Lors de l'apprentissage d'un réseau à partir de zéro, l'information propagée dans le réseau au cours des premières étapes de l'apprentissage peut contenir des artefacts de distorsion dus au bruit, ce qui peut être préjudiciable à l'apprentissage. Dans cet article, nous proposons un schéma élégant basé sur le curriculum qui lisse l'intégration des caractéristiques d'un CNN à l'aide d'un anticrénelage ou de filtres passe-bas. Nous proposons d'améliorer la formation des CNN en contrôlant la quantité d'informations à haute fréquence propagée dans les CNN au fur et à mesure que la formation progresse, en convoluant la sortie d'une carte de caractéristiques CNN de chaque couche avec un noyau gaussien. En diminuant la variance du noyau gaussien, nous augmentons progressivement la quantité d'informations à haute fréquence disponibles dans le réseau pour l'inférence. Au fur et à mesure que la quantité d'informations dans les cartes de caractéristiques augmente au cours de l'apprentissage, le réseau est capable d'apprendre progressivement de meilleures représentations des données. Le schéma d'apprentissage augmenté que nous proposons améliore de manière significative les performances des CNN sur diverses tâches de vision sans ajouter de paramètres d'apprentissage supplémentaires ou d'objectif de régularisation auxiliaire. La généralité de notre méthode est démontrée par des gains de performance empiriques dans les architectures CNN à travers quatre tâches différentes : l'apprentissage par transfert, l'apprentissage par transfert inter-tâches et les modèles génératifs.

Apprentissage en profondeur contre apprentissage par noyau : Étude empirique de la géométrie du paysage des pertes et de l'évolution du noyau neuronal tangent dépendant des données
Stanislav Fort (Université de Stanford/Google Research), Gintare Karolina Dziugaite (Element AI), Mansheej Paul (Université de Stanford), Sepideh Kharaghani (Element AI), Daniel Roy (Université de Toronto/Vector Institute), Surya Ganguli (Université de Stanford)
Nous comprenons aujourd'hui que l'apprentissage profond se forme dans certains régimes limites, où il se comporte comme des machines à noyau plus simples. Mais comment ces simplifications se rapportent-elles aux réseaux réels qui offrent des performances empiriques plus solides ? Dans ce travail, nous utilisons une étude empirique pour relier la géométrie de l'apprentissage à l'évolution temporelle du noyau.

Delta-STN : Optimisation efficace à deux niveaux des réseaux neuronaux à l'aide de jacobiens de réponse structurés
Juhan Bae (Université de Toronto/Institut vectoriel), Roger Grosse (Université de Toronto/Institut vectoriel)
La formation des réseaux neuronaux implique un grand nombre d'hyperparamètres, c'est-à-dire des boutons qui doivent être réglés afin d'obtenir de bonnes performances. Nous avons développé une approche permettant de régler automatiquement les hyperparamètres en ligne pendant l'entraînement d'un réseau (contrairement à la plupart des méthodes de réglage, qui nécessitent de nombreux essais d'entraînement). La clé consiste à apprendre le jacobien de la meilleure réponse, qui détermine comment l'optimum de l'objectif d'apprentissage change en réponse à de petites perturbations des hyperparamètres. Cela nous permet de déterminer approximativement comment les hyperparamètres doivent être modifiés pour améliorer l'erreur de généralisation.

Modèles hybrides pour l'apprentissage des ramifications
Prateek Gupta (Université d'Oxford), Maxime Gasse (Polytechnique Montréal), Elias Khalil (Université de Toronto/Vector Institute), Pawan K Mudigonda (Université d'Oxford), Andrea Lodi (École Polytechnique Montréal), Yoshua Bengio (Mila/Université de Montréal)
Une approche récente du réseau neuronal graphique (GNN) pour l'apprentissage des branchements a permis de réduire avec succès le temps d'exécution des algorithmes de branchement et de délimitation pour la programmation linéaire en nombres entiers mixtes (MILP). Alors que le GNN s'appuie sur un GPU pour l'inférence, les solveurs MILP sont purement basés sur le CPU. Cela limite considérablement son application, car de nombreux praticiens n'ont pas accès à des GPU haut de gamme. Dans ce travail, nous posons deux questions essentielles. Premièrement, dans un cadre plus réaliste où seul un CPU est disponible, le modèle GNN est-il toujours compétitif ? Deuxièmement, pouvons-nous concevoir un autre modèle peu coûteux en termes de calcul qui conserve le pouvoir prédictif de l'architecture GNN ? Nous répondons à la première question par la négative et à la seconde en proposant une nouvelle architecture hybride pour un branchement efficace sur les machines CPU. L'architecture proposée combine le pouvoir expressif des GNN avec des perceptrons multicouches (MLP) peu coûteux en termes de calcul pour le branchement. Nous évaluons nos méthodes sur quatre classes de problèmes MILP, et montrons qu'elles conduisent à une réduction de 26% du temps d'exécution du solveur par rapport aux méthodes de pointe sans GPU, tout en extrapolant à des problèmes plus difficiles que ceux sur lesquels il a été formé. Le code de ce projet est accessible au public à cette URL https.

VAEs pour la génération basée sur l'exemple et l'augmentation des données
Sajad Norouzi (Université de Toronto/Vector Institute), David J Fleet (Université de Toronto/Vector Institute), Mohammad Norouzi (Google Brain)
L'Exemplar VAE est un nouveau type de modèle génératif qui combine une architecture codeur-décodeur de réseau neuronal avec des techniques non paramétriques basées sur l'exemplarité. L'encodeur à réseau neuronal est utilisé pour transformer une image en un espace de caractéristiques qui détermine, pour une image donnée, quelles sont les autres images qui lui sont similaires. Les emplacements dans l'espace des caractéristiques qui sont proches des images naturelles (exemplaires) sont considérés comme représentant des images plausibles. Pour générer de nouvelles images selon le modèle, on choisit d'abord une image naturelle dans un large ensemble d'exemples. On la perturbe ensuite en modifiant aléatoirement sa position dans l'espace des caractéristiques, puis on transforme ce nouveau vecteur de caractéristiques en une image à l'aide du décodeur du réseau neuronal. Le modèle donne d'excellents résultats en matière d'estimation de la densité et s'avère utile pour l'apprentissage de la représentation. Une propriété remarquable du modèle est que les données générées aléatoirement peuvent être utilisées pour l'augmentation générative des données afin d'améliorer les classificateurs d'images.

Dimension de Hausdorff, queues lourdes et généralisation dans les réseaux neuronaux
Umut Simsekli (Institut Polytechnique de Paris/Université d'Oxford), Ozan Sener (Intel Labs), George Deligiannidis (Université d'Oxford), Murat Erdogdu (Université de Toronto/Vector Institute)
Cet article démontre les limites de généralisation pour les modèles d'apprentissage automatique formés avec SGD sous l'hypothèse que ses trajectoires peuvent être bien approchées par une diffusion à queue lourde. L'erreur de généralisation peut être contrôlée par la dimension de Hausdorff des trajectoires, qui est intimement liée au comportement de la queue de la diffusion d'entraînement. Nos résultats impliquent que les processus à queue lourde devraient permettre une meilleure généralisation ; par conséquent, l'indice de queue du processus peut être utilisé comme une notion de métrique de capacité.

À la recherche de mesures robustes de la généralisation
Gintare Karolina Dziugaite (Element AI), Alexandre Drouin (Element AI), Brady Neal (Mila), Nitarshan Rajkumar (Mila, Université de Montréal), Ethan Caballero (Mila), Linbo Wang (Université de Toronto/Institut Vecteur), Ioannis Mitliagkas (Mila/Université de Montréal), Daniel Roy (Université de Toronto/Institut Vecteur)
Comment devrions-nous évaluer les théories mathématiques de la généralisation dans l'apprentissage profond ? Des travaux récents proposent d'utiliser des études empiriques à grande échelle. Nous soutenons l'importance d'utiliser des mesures de robustesse afin que ces études ne nous induisent pas en erreur. Nous constatons qu'aucune théorie existante n'est robuste.

Sélection d'instances pour les GAN
Terrance DeVries (Université de Guelph/Vector Institute), Michal Drozdzal (FAIR), Graham W Taylor (Université de Guelph/Vector Institute)
La chute est que, contrairement au folklore du ML, "plus de données n'est pas toujours mieux". Nous montrons qu'en supprimant automatiquement les exemples de données provenant de parties éparses du manifeste de données, nous pouvons améliorer la qualité de l'échantillon des réseaux adversoriels génératifs, réduire leurs besoins en capacité et diminuer de manière significative le temps d'apprentissage. Par exemple, sur des images 128×128, notre modèle nécessite moins de quatre jours d'entraînement, alors que le modèle de référence requiert plus de deux semaines. Pour les images ImageNet 256 x 256, c'est la première fois que des images photoréalistes sont obtenues sans l'utilisation de matériel spécialisé (c'est-à-dire des centaines de TPU).

Apprendre des représentations d'agents pour le hockey sur glace
Guiliang Liu (Simon Fraser University) - Oliver Schulte (Simon Fraser University) - Pascal Poupart (University of Waterloo/RBC Borealis AI/Vector Institute) - Mike Rudd (University of Waterloo/Vector Institute) - Mehrsan Javan (SPORTLOGiQ)
Ce travail présente une nouvelle représentation des joueurs pour les sports d'équipe. La nouvelle technique de représentation est démontrée au hockey sur glace en obtenant des résultats de pointe pour identifier le joueur agissant, pour estimer les buts attendus et pour prédire la différence de score final.

Apprendre les équations différentielles rapides à résoudre
Jacob Kelly (Université de Toronto/Institut vectoriel), Jesse Bettencourt (Université de Toronto/Institut vectoriel), Matthew Johnson (Google Brain), David Duvenaud (Université de Toronto/Institut vectoriel)
Lorsque nous modélisons des systèmes physiques, certains modèles sont plus faciles à approximer et à prédire que d'autres. Parfois, différents modèles feront presque exactement les mêmes prédictions, mais l'un d'entre eux sera beaucoup plus facile à utiliser. Nous montrons comment encourager les modèles à être plus faciles à prédire tout en étant presque aussi en accord avec les données. Plus précisément, nous montrons comment procéder dans une classe générale de modèles de systèmes à évolution continue appelés équations différentielles ordinaires.

Apprentissage de maillages tétraédriques déformables pour la reconstruction 3D*
Jun Gao (Université de Toronto) - Wenzheng Chen (Université de Toronto) - Tommy Xiang (Université de Toronto) - Alec Jacobson (Université de Toronto) - Morgan McGuire (NVIDIA) - Sanja Fidler (Vector Institute/Université de Toronto/NVIDIA)
*Recherche effectuée pour NVIDIA
Les représentations de formes 3D qui s'adaptent à la reconstruction 3D basée sur l'apprentissage constituent un problème ouvert dans le domaine de l'apprentissage automatique et de l'infographie. Les travaux antérieurs sur la reconstruction 3D neuronale ont démontré les avantages, mais aussi les limites, des représentations de nuages de points, de voxels, de maillages de surface et de fonctions implicites. Nous présentons les maillages tétraédriques déformables (DEFTET) comme un paramétrage particulier qui utilise des maillages tétraédriques volumétriques pour le problème de la reconstruction. Contrairement aux approches volumétriques existantes, DEFTET optimise à la fois le placement et l'occupation des sommets, et est différentiable par rapport aux fonctions de perte de reconstruction 3D standard. Il est donc à la fois très précis, volumétrique et adapté aux architectures neuronales basées sur l'apprentissage. Nous montrons qu'elle peut représenter une topologie arbitraire et complexe, qu'elle est à la fois efficace en termes de mémoire et de calcul, et qu'elle peut produire des reconstructions de haute fidélité avec une taille de grille nettement inférieure à celle des approches volumétriques alternatives. Les surfaces prédites sont également définies de manière inhérente comme des maillages tétraédriques et ne nécessitent donc pas de post-traitement. Nous démontrons que DEFTET atteint ou dépasse à la fois la qualité des meilleures approches précédentes et la performance des plus rapides. Notre approche permet d'obtenir des maillages tétraédriques de haute qualité calculés directement à partir de nuages de points bruyants, et est la première à présenter des résultats de maillage tétraédrique 3D de haute qualité en utilisant une seule image comme entrée.

Apprentissage de graphes de croyance dynamiques pour généraliser les jeux basés sur du texte
Ashutosh Adhikari (Université de Waterloo) - Xingdi Yuan (Microsoft Research) - Marc-Alexandre Côté (Microsoft Research) - Mikuláš Zelinka (Université Charles, Faculté de mathématiques et de physique) - Marc-Antoine Rondeau (Microsoft Research) - Romain Laroche (Microsoft Research) - Pascal Poupart (Université de Waterloo/RBC Borealis AI/Vector Institute) - Jian Tang (Mila) - Adam Trischler (Microsoft) - Will Hamilton (McGill)
Jouer à des jeux textuels requiert des compétences en matière de traitement du langage naturel et de prise de décision séquentielle. Atteindre une performance de niveau humain sur des jeux basés sur du texte reste un défi ouvert, et la recherche antérieure s'est largement appuyée sur des représentations structurées et des heuristiques faites à la main. Dans ce travail, nous décrivons une nouvelle technique pour planifier et généraliser dans des jeux basés sur du texte en utilisant des représentations structurées en graphe apprises de bout en bout à partir de texte brut.

Apprentissage continu par gradient de politiques factorisées pour une formation plus rapide sans oubli Jorge Mendez (Université de Pennsylvanie), Boyu Wang (Université de Western Ontario/Vector Institute), Eric Eaton (Université de Pennsylvanie)
Les méthodes de gradient de politique ont fait leurs preuves dans l'apprentissage de politiques de contrôle pour les systèmes dynamiques de haute dimension. Leur principal inconvénient est la quantité d'exploration qu'elles requièrent avant de produire des politiques performantes. Dans un contexte d'apprentissage tout au long de la vie, dans lequel un agent est confronté à de multiples tâches consécutives au cours de sa vie, la réutilisation des informations issues des tâches précédentes peut accélérer considérablement l'apprentissage de nouvelles tâches. Nous proposons une nouvelle méthode d'apprentissage par gradient de politique tout au long de la vie qui forme des approximateurs de fonction tout au long de la vie directement via les gradients de politique, ce qui permet à l'agent de bénéficier des connaissances accumulées tout au long du processus d'apprentissage. Nous montrons empiriquement que notre algorithme apprend plus rapidement et converge vers de meilleures politiques que les lignes de base d'apprentissage à tâche unique et à vie, et qu'il évite complètement l'oubli catastrophique dans une variété de domaines difficiles.

LoCo : Apprentissage local de représentation contrastive*
Yuwen Xiong (Uber ATG/Université de Toronto), Mengye Ren (Université de Toronto/Uber ATG), Raquel Urtasun (Uber ATG/Vector Institute)
*Recherche effectuée pour Uber ATG
Les réseaux neuronaux profonds effectuent généralement une rétropropagation de bout en bout pour apprendre les poids, une procédure qui crée des contraintes de synchronisation dans l'étape de mise à jour des poids entre les couches et qui n'est pas biologiquement plausible. Les avancées récentes dans le domaine de l'apprentissage non supervisé de représentations contrastives soulèvent la question de savoir si un algorithme d'apprentissage peut également être rendu local, c'est-à-dire que les mises à jour des couches inférieures ne dépendent pas directement du calcul des couches supérieures. Alors que Greedy InfoMax apprend séparément chaque bloc avec un objectif local, nous avons constaté qu'il nuit systématiquement à la précision de la lecture dans les algorithmes d'apprentissage contrastif non supervisé les plus récents, peut-être en raison de l'objectif gourmand et de l'isolation du gradient. Dans ce travail, nous découvrons qu'en superposant les blocs locaux, nous augmentons efficacement la profondeur du décodeur et permettons aux blocs supérieurs d'envoyer implicitement des retours d'information aux blocs inférieurs. Cette conception simple comble pour la première fois l'écart de performance entre l'apprentissage local et les algorithmes d'apprentissage contrastif de bout en bout. Outre les expériences ImageNet standard, nous montrons également des résultats sur des tâches complexes en aval, telles que la détection d'objets et la segmentation d'instances, en utilisant directement les caractéristiques de lecture.

Modélisation de processus stochastiques continus à l'aide de flux de normalisation dynamiques
Ruizhi Deng (Université Simon Fraser), Bo Chang (Borealis AI), Marcus Brubaker (Borealis AI/Vector Institute), Greg Mori (Borealis AI), Andreas Lehrmann (Borealis AI)
Les flux de normalisation transforment une distribution de base simple en une distribution cible complexe et se sont révélés être des modèles puissants pour la génération de données et l'estimation de la densité. Dans ce travail, nous proposons un nouveau type de flux de normalisation piloté par une déformation différentielle du processus de Wiener. Nous obtenons ainsi un modèle de séries temporelles riche dont le processus observable hérite de nombreuses propriétés attrayantes de son processus de base, telles que le calcul efficace des vraisemblances et des marginales. En outre, notre traitement continu fournit un cadre naturel pour les séries temporelles irrégulières avec un processus d'arrivée indépendant, y compris une interpolation directe. Nous illustrons les propriétés souhaitables du modèle proposé sur des processus stochastiques populaires et démontrons sa flexibilité supérieure à celle des RNN variationnels et des ODE latentes de base dans une série d'expériences sur des données synthétiques et réelles.

MuSCLE : Compression multibalayage de LiDAR à l'aide de modèles d'entropie profonde*.
Sourav Biswas (Université de Waterloo), Jerry Liu (Uber ATG), Kelvin Wong (Université de Toronto), Shenlong Wang (Université de Toronto), Raquel Urtasun (Uber ATG/Vector Institute)
*Recherche effectuée pour Uber ATG
Nous présentons un nouvel algorithme de compression pour réduire le stockage des flux de données des capteurs LiDAR. Notre modèle exploite les relations spatio-temporelles entre plusieurs balayages LiDAR pour réduire le débit binaire des valeurs de géométrie et d'intensité. À cette fin, nous proposons un nouveau modèle d'entropie conditionnelle qui modélise les probabilités des symboles de l'octogone en tenant compte à la fois de la géométrie grossière et des informations géométriques et d'intensité des balayages précédents. Nous utilisons ensuite la probabilité apprise pour encoder le flux de données complet en un flux compact. Nos expériences démontrent que notre méthode réduit de manière significative le débit binaire conjoint de géométrie et d'intensité par rapport aux méthodes de compression LiDAR de pointe, avec une réduction de 7 à 17 % et de 15 à 35 % sur les ensembles de données UrbanCity et SemanticKITTI respectivement.

Ergodicité, biais et normalité asymptotique de la méthode d'échantillonnage à point médian aléatoire
Ye He (Université de Californie, Davis), Krishnakumar Balasubramanian (Université de Californie, Davis), Murat Erdogdu (Université de Toronto/Vector Institute)
La méthode du point médian aléatoire est apparue comme une procédure optimale pour l'échantillonnage basé sur la diffusion à partir d'une distribution de probabilité. Cet article analyse plusieurs propriétés probabilistes de cette méthode, en établissant la normalité asymptotique et en soulignant les avantages et les inconvénients relatifs par rapport à d'autres méthodes. Les résultats de cet article fournissent collectivement plusieurs aperçus du comportement de la méthode de discrétisation aléatoire du point médian, y compris l'obtention d'intervalles de confiance pour les intégrations numériques.

Les autoencodeurs linéaires régularisés récupèrent finalement les composantes principales
Xuchan Bao (Université de Toronto/Institut vectoriel), James Lucas (Université de Toronto/Institut vectoriel), Sushant Sachdeva (Université de Toronto/Institut vectoriel), Roger Grosse (Université de Toronto/Institut vectoriel)
On sait depuis longtemps que les autoencodeurs récupèrent le sous-espace des composantes principales (le sous-espace qui maximise la variance projetée des données). Nous montrons qu'avec un régularisateur particulier, ils récupèrent les composantes principales individuelles, et pas seulement le sous-espace. Cependant, ils le font très lentement ; nous analysons pourquoi c'est le cas et donnons une procédure d'apprentissage alternative qui récupère les composantes plus efficacement.

Limites de généralisation renforcées basées sur l'information mutuelle conditionnelle et application aux algorithmes itératifs bruyants
Mahdi Haghifam (Université de Toronto/Institut vectoriel), Jeffrey Negrea (Université de Toronto/Institut vectoriel), Ashish Khisti (Université de Toronto), Daniel Roy (Université de Toronto/Institut vectoriel), Gintare Karolina Dziugaite (Element AI)
Aucune théorie de généralisation existante pour l'algorithme de Langevin ne peut lier le comportement de l'algorithme dans le monde réel à une forte performance de généralisation. En nous appuyant sur de nouvelles notions d'information mutuelle conditionnelle, nous présentons de nouvelles bornes qui produisent des bornes de généralisation non-vacuantes, même pour CIFAR10.

Complétion variationnelle des objets amodaux*
Huan Ling (Université de Toronto, NVIDIA) - David Acuna (Université de Toronto, NVIDIA) - Karsten Kreis (NVIDIA) - Seung Wook Kim (Université de Toronto) - Sanja Fidler (Vector Institute/Université de Toronto/NVIDIA)
*Recherche effectuée pour NVIDIA
Dans les images de scènes complexes, les objets sont souvent masqués les uns par les autres, ce qui complique les tâches de perception telles que la détection et le suivi d'objets, ou les tâches de contrôle robotique telles que la planification. Pour faciliter les tâches en aval, il est donc important de raisonner sur l'étendue complète des objets, c'est-à-dire de voir derrière l'occlusion, ce que l'on appelle généralement la complétion d'instance amodale. Dans cet article, nous proposons un cadre générationnel variationnel pour la complétion amodale, appelé Amodal-VAE, qui ne nécessite pas d'étiquettes amodales au moment de l'apprentissage, car il est capable d'utiliser des masques d'instance d'objet largement disponibles. Nous présentons notre approche sur la tâche en aval de l'édition de scènes où l'utilisateur se voit présenter des outils interactifs pour compléter et effacer des objets dans des photographies. Des expériences sur des scènes de rue complexes démontrent une performance de pointe dans la complétion de masques amodaux, et présentent des résultats d'édition de scène de haute qualité. Il est intéressant de noter qu'une étude sur les utilisateurs montre que les humains préfèrent les compléments d'objets déduits par notre modèle aux compléments étiquetés par l'homme.

Wavelet Flow : Formation rapide de flux de normalisation à haute résolution
Jason Yu (Université York), Konstantinos Derpanis (Université Ryerson/Institut vectoriel), Marcus Brubaker (Université York/Institut vectoriel)
Les flux de normalisation ont traditionnellement été limités à la génération d'images à faible résolution en raison du coût de la formation. Nous présentons une nouvelle méthode basée sur les ondelettes qui permet un apprentissage efficace des images à haute résolution. Nous montrons qu'elle permet l'apprentissage d'images à haute résolution (par exemple, 1024×1024) et qu'elle est également capable d'accélérer de manière significative l'apprentissage sur des ensembles de données standard à faible résolution. En outre, il inclut automatiquement des modèles d'images à faible résolution et peut effectuer une super-résolution sans travail supplémentaire en raison de la nature multi-échelle de la représentation par ondelettes.

Qu'est-ce qui n'a pas fonctionné et quand ? Importance des caractéristiques par instance pour les modèles boîte noire de séries temporelles
Sana Tonekaboni (Université de Toronto/Institut Vector), Shalmali Joshi (Institut Vector), Kieran Campbell (Université de la Colombie-Britannique/Institut Vector), David Duvenaud (Université de Toronto/Institut Vector), Anna Goldenberg (Institut Vector/Hôpital pour enfants malades)
Les explications des prédictions des modèles sont importantes, en particulier dans les domaines complexes tels que le suivi des séries temporelles dans les soins aux patients. L'explicabilité des séries temporelles est un domaine relativement peu exploré jusqu'à présent dans la littérature sur l'apprentissage automatique. Nous avons proposé un nouveau cadre pour expliquer les modèles de boîte noire en attribuant de l'importance aux observations en fonction de leur influence sur la prédiction d'un modèle. Contrairement aux tentatives précédentes, notre approche tient compte de la dynamique temporelle. Il s'agit de l'un des premiers travaux à explorer l'attribution de caractéristiques et l'explicabilité des modèles de séries temporelles. Nous nous attendons à ce que cette approche soit très pertinente dans le domaine des soins de santé et nous explorons actuellement une variété d'applications.

Les chercheurs de l'Institut Vecteur organisent quatre ateliers

Les musulmans en ML est un atelier d'affinité organisé par Marzyeh Ghassemi et ses collaborateurs. Il se concentrera à la fois sur le potentiel de progrès et de préjudice pour les musulmans et ceux qui, dans les pays à majorité musulmane, s'identifient religieusement, s'associent culturellement ou sont classés par proximité comme "musulmans".

Apprentissage automatique pour la santé (ML4H) : faire progresser les soins de santé pour tousco-organisé par Anna Goldenberg, exposera les participants à de nouvelles questions en matière d'apprentissage automatique pour les soins de santé. les participants à de nouvelles questions sur l'apprentissage automatique pour les soins de santé et les incitera à réfléchir à la manière dont leur travail s'inscrit dans des systèmes de soins de santé plus vastes.

Apprentissage automatique et sciences physiques, organisé par Juan Carrasquilla, réunit des informaticiens, des mathématiciens et des physiciens qui s'intéressent à l'application de l'apprentissage automatique à divers problèmes physiques en suspens.

Parler à des étrangers : La communication émergente en mode "zéro" (Zero-Shot Emergent Communication) est un atelier interactif co-organisé par Jakob Foerster. Son objectif est de d'explorer les possibilités pour les agents artificiels de développer spontanément une communication ad hoc, en interagissant avec des inconnus.

Apprendre des représentations significatives de la vie (LMRL.org) co-organisé par Alán Aspuru-Guzik, est conçu pour réunir des stagiaires et des experts en apprentissage automatique avec ceux qui sont à l'avant-garde de la recherche biologique aujourd'hui, afin d'aider à à percer les secrets des systèmes biologiques.

En rapport :

Des protocoles normalisés sont essentiels pour un déploiement responsable des modèles linguistiques

Les inconnues connues : Geoff Pleiss, chercheur chez Vector, se penche sur l'incertitude pour rendre les modèles de ML plus précis.

Un homme regarde un tableau blanc sur lequel sont inscrites des formules en rouge.
Perspectives
Une IA digne de confiance

Comment mettre en œuvre des systèmes d'IA en toute sécurité