La communauté de la recherche vectorielle se prépare pour le NeurIPS 2020 virtuel

27 novembre 2020

2020 Blog Perspectives Actualités Programme Recherche Recherche 2020 L'IA digne de confiance

Par Ian Gormely
27 novembre 2020

Les chercheurs du secteur vectoriel se préparent à nouveau à la principale conférence sur l'apprentissage automatique, la 34e conférence annuelle sur les systèmes de traitement de l'information neuronale (NeurIPS). Cette année, la conférence, qui devait initialement se tenir à Vancouver, en Colombie-Britannique, sera virtuelle et se déroulera du 6 au 12 décembre. Elle comprendra des conférences invitées, des démonstrations, des symposiums et des présentations orales et par affiches d'articles évalués par un comité de lecture. 

Vous trouverez ci-dessous les résumés et les sommaires simplifiés de nombreux articles et ateliers acceptés par les chercheurs affiliés à Vector. 

Pour en savoir plus sur le travail de Vector lors des conférences des années précédentes ici et ici.

La communauté des chercheurs de Vector continue de s'agrandir rapidement. Si vous êtes un chercheur affilié à Vector et que vos travaux ne sont pas représentés ici, veuillez contacter ian.gormely@vectorinstitute.ai.

Articles de conférence rédigés par des membres de la faculté Vector et des affiliés de la faculté :

Quantification adaptative du gradient pour le SGD parallèle aux données

Fartash Faghri (Université de Toronto/Institut Vecteur), Iman Tabrizian (Université de Toronto/Institut Vecteur), Ilia Markov (IST Autriche), Dan Alistarh (IST Autriche/Neural Magic Inc.), Daniel Roy (Université de Toronto/Institut Vecteur), Ali Ramezani-Kebrya (Institut Vecteur)

Alors que l'apprentissage profond s'adapte à des modèles et des données plus importants, les chercheurs utilisent des algorithmes distribués et parallèles pour s'entraîner plus rapidement. Ce travail montre comment réduire la surcharge de communication de 70 %, ouvrant la possibilité d'un calcul à plus grande échelle encore.

Une approche d'apprentissage de fonction implicite pour la régression modale paramétrique

Yangchen Pan (Université de l'Alberta), Ehsan Imani (Université de l'Alberta), Martha White (Université de l'Alberta), Amir-massoud Farahmand (Institut Vector/Université de Toronto)

L'apprentissage de la relation entre l'entrée et la sortie à valeur réelle est un problème fondamental de l'apprentissage automatique, connu sous le nom de problème de régression. Les méthodes de régression conventionnelles apprennent la valeur moyenne d'une sortie en fonction de son entrée. Cette méthode est acceptable lorsque la sortie pour une entrée donnée est concentrée autour d'un seul mode (unimodale), mais elle ne l'est pas lorsque la sortie a plusieurs modes. Ce travail développe un nouvel algorithme évolutif pour apprendre une telle relation. Pour ce faire, nous utilisons le théorème de la fonction implicite, qui nous permet de convertir le problème de l'apprentissage d'une fonction à valeurs multiples, qui est difficile, en l'apprentissage d'une fonction à valeur unique, qui est plus facile.

Découverte causale dans les systèmes physiques à partir de vidéos

Yunzhu Li (Massachusettes Institute of Technology), Antonio Torralba (Massachusettes Institute of Technology), Anima Anandkumar (NVIDIA/CalTech), Dieter Fox (NVIDIA/Université de Washington), Animesh Garg (Université de Toronto/Vector Institute)

La découverte de causes est au cœur de la cognition humaine. Elle nous permet de raisonner sur l'environnement et de faire des prédictions contrefactuelles sur des scénarios inédits qui peuvent être très différents de nos expériences précédentes. Nous considérons la tâche de découverte causale à partir de vidéos de bout en bout, sans supervision de la structure du graphe de la vérité de base. En particulier, notre objectif est de découvrir les dépendances structurelles entre les variables de l'environnement et de l'objet : déduire le type et la force des interactions qui ont un effet causal sur le comportement du système dynamique. Notre modèle se compose (a) d'un module de perception qui extrait des images une représentation sémantiquement significative et temporellement cohérente des points clés, (b) d'un module d'inférence pour déterminer la distribution du graphe induit par les points clés détectés, et (c) d'un module de dynamique qui peut prédire l'avenir en conditionnant le graphe inféré. Nous supposons que nous avons accès à différentes configurations et conditions environnementales, c'est-à-dire à des données provenant d'interventions inconnues sur le système sous-jacent ; ainsi, nous pouvons espérer découvrir le graphe causal sous-jacent correct sans interventions explicites. Nous évaluons notre méthode dans un environnement planaire d'interaction multi-corps et dans des scénarios impliquant des tissus de différentes formes comme des chemises et des pantalons. Les expériences démontrent que notre modèle peut identifier correctement les interactions à partir d'une courte séquence d'images et faire des prédictions à long terme. La structure causale supposée par le modèle lui permet également de faire des prédictions contrefactuelles et d'extrapoler à des systèmes de graphes d'interaction non vus ou à des graphes de différentes tailles.

Augmentation des données contrefactuelles à l'aide de dynamiques localement factorisées

Silviu Pitis (Université de Toronto/Institut Vecteur), Elliot Creager (Université de Toronto/Institut Vecteur), Animesh Garg (Université de Toronto/Institut Vecteur)
Nous détectons et exploitons l'indépendance causale locale entre les objets et les caractéristiques de l'état du monde afin d'améliorer l'efficacité de l'échantillonnage des robots simulés dans le cadre de l'apprentissage par renforcement. Nous formalisons l'indépendance causale locale à l'aide d'un cadre de modélisation causale locale et l'utilisons dans le cadre de notre algorithme d'augmentation des données contrefactuelles pour générer de nouvelles données causalement valides sur lesquelles les modèles peuvent s'entraîner.

Curriculum par lissage

Samartha Sinha (Université de Toronto/Institut vectoriel), Animesh Garg (Université de Toronto/Institut vectoriel), Hugo Larochelle (Google Brain)

Les réseaux neuronaux convolutifs (CNN) ont montré des performances impressionnantes dans les tâches de vision artificielle telles que la classification, la détection et la segmentation d'images. En outre, des travaux récents sur les réseaux adversoriels génératifs (GAN) ont mis en évidence l'importance de l'apprentissage en augmentant progressivement la difficulté d'une tâche d'apprentissage Kerras et al. Lors de l'apprentissage d'un réseau à partir de zéro, l'information propagée dans le réseau au cours des premières étapes de la formation peut contenir des artefacts de distorsion dus au bruit, ce qui peut être préjudiciable à la formation. Dans cet article, nous proposons un schéma élégant basé sur le curriculum qui lisse l'intégration des caractéristiques d'un CNN à l'aide d'un anticrénelage ou de filtres passe-bas. Nous proposons d'améliorer la formation des CNN en contrôlant la quantité d'informations à haute fréquence propagée dans les CNN au fur et à mesure de la formation, en convoluant la sortie d'une carte de caractéristiques CNN de chaque couche avec un noyau gaussien. En diminuant la variance du noyau gaussien, nous augmentons progressivement la quantité d'informations à haute fréquence disponibles dans le réseau pour l'inférence. Au fur et à mesure que la quantité d'informations dans les cartes de caractéristiques augmente au cours de l'apprentissage, le réseau est capable d'apprendre progressivement de meilleures représentations des données. Le schéma d'apprentissage augmenté que nous proposons améliore de manière significative les performances des CNN sur diverses tâches de vision sans ajouter de paramètres d'apprentissage supplémentaires ou d'objectif de régularisation auxiliaire. La généralité de notre méthode est démontrée par des gains de performance empiriques dans les architectures CNN à travers quatre tâches différentes : l'apprentissage par transfert, l'apprentissage par transfert inter-tâches et les modèles génératifs.

Apprentissage en profondeur contre apprentissage par noyau : Une étude empirique de la géométrie du paysage des pertes et de l'évolution du noyau neuronal tangent dépendant des données

Stanislav Fort (Université de Stanford/Google Research), Gintare Karolina Dziugaite (Element AI), Mansheej Paul (Université de Stanford), Sepideh Kharaghani (Element AI), Daniel Roy (Université de Toronto/Vector Institute), Surya Ganguli (Université de Stanford)

Nous comprenons aujourd'hui que l'apprentissage profond s'exerce dans certains régimes limites, où il se comporte comme des machines à noyau plus simples. Mais comment ces simplifications se rapportent-elles aux réseaux réels qui offrent des performances empiriques plus fortes ? Dans ce travail, nous utilisons une étude empirique pour relier la géométrie de l'apprentissage à l'évolution temporelle du noyau.

Delta-STN : Optimisation efficace à deux niveaux des réseaux neuronaux à l'aide d'un jacobien de réponse structuré

Juhan Bae (Université de Toronto/Institut vectoriel), Roger Grosse (Université de Toronto/Institut vectoriel)

L'apprentissage des réseaux neuronaux implique un grand nombre d'hyperparamètres, c'est-à-dire de boutons qui doivent être réglés afin d'obtenir de bonnes performances. Nous avons mis au point une approche permettant de régler automatiquement les hyperparamètres en ligne pendant l'entraînement d'un réseau (contrairement à la plupart des méthodes de réglage, qui nécessitent de nombreux essais d'entraînement). La clé consiste à apprendre le jacobien de la meilleure réponse, qui détermine comment l'optimum de l'objectif d'apprentissage change en réponse à de petites perturbations des hyperparamètres. Cela nous permet de déterminer approximativement comment les hyperparamètres doivent être modifiés pour améliorer l'erreur de généralisation.

Modèles hybrides pour l'apprentissage de la ramification

Prateek Gupta (Université d'Oxford), Maxime Gasse (Polytechnique Montréal), Elias Khalil (Université de Toronto/Vector Institute), Pawan K Mudigonda (Université d'Oxford), Andrea Lodi (École Polytechnique Montréal), Yoshua Bengio (Mila/Université de Montréal)

Une approche récente du réseau neuronal graphique (GNN) pour l'apprentissage des branchements a permis de réduire avec succès le temps d'exécution des algorithmes de branchement et de délimitation pour la programmation linéaire mixte en nombres entiers (MILP). Alors que le GNN s'appuie sur un GPU pour l'inférence, les solveurs MILP sont purement basés sur le CPU. Cela limite considérablement son application, car de nombreux praticiens n'ont pas accès à des GPU haut de gamme. Dans ce travail, nous posons deux questions essentielles. Premièrement, dans un contexte plus réaliste où seul un processeur est disponible, le modèle GNN est-il toujours compétitif ? Deuxièmement, pouvons-nous concevoir un autre modèle peu coûteux en termes de calcul qui conserve le pouvoir prédictif de l'architecture GNN ? Nous répondons à la première question par la négative et à la seconde en proposant une nouvelle architecture hybride pour un branchement efficace sur les machines CPU. L'architecture proposée combine le pouvoir expressif des GNN avec des perceptrons multicouches (MLP) peu coûteux en termes de calcul pour le branchement. Nous évaluons nos méthodes sur quatre classes de problèmes MILP, et montrons qu'elles conduisent à une réduction de 26% du temps d'exécution du solveur par rapport aux méthodes de pointe sans GPU, tout en extrapolant à des problèmes plus difficiles que ceux sur lesquels il a été formé. Le code de ce projet est accessible au public à cette URL https.

VAE exemplaires pour la génération d'exemplaires et l'augmentation des données

Sajad Norouzi (Université de Toronto/Institut vectoriel), David J Fleet (Université de Toronto/Institut vectoriel), Mohammad Norouzi (Google Brain)

La VAE exemplaire est un nouveau type de modèle génératif qui combine une architecture codeur-décodeur de réseau neuronal avec des techniques non paramétriques basées sur l'exemplarité. L'encodeur à réseau neuronal est utilisé pour transformer une image en un espace de caractéristiques qui détermine, pour une image donnée, quelles sont les autres images qui lui sont similaires. Les emplacements dans l'espace des caractéristiques qui sont proches des images naturelles (exemplaires) sont considérés comme représentant des images plausibles. Pour générer de nouvelles images selon le modèle, on choisit d'abord une image naturelle dans un large ensemble d'exemples. On la perturbe ensuite en modifiant aléatoirement sa position dans l'espace des caractéristiques, puis on transforme ce nouveau vecteur de caractéristiques en une image à l'aide du décodeur du réseau neuronal. Le modèle donne d'excellents résultats en matière d'estimation de la densité et s'avère utile pour l'apprentissage de la représentation. Une propriété remarquable du modèle est que les données générées aléatoirement peuvent être utilisées pour l'augmentation générative des données afin d'améliorer les classificateurs d'images.

Dimension de Hausdorff, queues lourdes et généralisation dans les réseaux neuronaux

Umut Simsekli (Institut Polytechnique de Paris/Université d'Oxford), Ozan Sener (Intel Labs), George Deligiannidis (Université d'Oxford), Murat Erdogdu (Université de Toronto/Vector Institute)

Cet article prouve les limites de généralisation pour les modèles d'apprentissage automatique formés avec SGD sous l'hypothèse que ses trajectoires peuvent être bien approchées par une diffusion à queue lourde. L'erreur de généralisation peut être contrôlée par la dimension de Hausdorff des trajectoires, qui est intimement liée au comportement de la queue de la diffusion motrice. Nos résultats impliquent que les processus à queue lourde devraient permettre une meilleure généralisation ; par conséquent, l'indice de queue du processus peut être utilisé comme une notion de métrique de capacité.

À la recherche de mesures robustes de la généralisation

Gintare Karolina Dziugaite (Element AI), Alexandre Drouin (Element AI), Brady Neal (Mila), Nitarshan Rajkumar (Mila, Université de Montréal), Ethan Caballero (Mila), Linbo Wang (Université de Toronto/Vector Institute), Ioannis Mitliagkas (Mila/Université de Montréal), Daniel Roy (Université de Toronto/Vector Institute)

Comment évaluer les théories mathématiques de la généralisation dans l'apprentissage profond ? Des travaux récents proposent d'utiliser des études empiriques à grande échelle. Nous insistons sur l'importance d'utiliser des mesures de robustesse afin que ces études ne nous induisent pas en erreur. Nous constatons qu'aucune théorie existante n'est robuste.

Sélection d'instances pour les GAN

Terrance DeVries (Université de Guelph/Institut vectoriel), Michal Drozdzal (FAIR), Graham W Taylor (Université de Guelph/Institut vectoriel)

La chute est que, contrairement au folklore du ML, "plus de données n'est pas toujours mieux". Nous montrons qu'en supprimant automatiquement les exemples de données provenant de parties éparses du manifeste de données, nous pouvons améliorer la qualité de l'échantillon des réseaux adversoriels génératifs, diminuer leurs besoins en capacité et réduire de manière significative le temps de formation. Par exemple, sur des images 128×128, notre modèle nécessite moins de quatre jours d'entraînement, alors que le modèle de référence requiert plus de deux semaines. Pour les images ImageNet 256 x 256, c'est la première fois que des images photoréalistes sont obtenues sans l'utilisation de matériel spécialisé (c'est-à-dire des centaines de TPU).

Apprendre des représentations d'agents pour le hockey sur glace

Guiliang Liu (Simon Fraser University) - Oliver Schulte (Simon Fraser University) - Pascal Poupart (University of Waterloo/RBC Borealis AI/Vector Institute) - Mike Rudd (University of Waterloo/Vector Institute) - Mehrsan Javan (SPORTLOGiQ)

Ce travail présente une nouvelle représentation des joueurs pour les sports d'équipe. La nouvelle technique de représentation est démontrée au hockey sur glace en obtenant des résultats de pointe pour identifier le joueur agissant, estimer les buts attendus et prédire la différence de score final.

Apprendre les équations différentielles rapides à résoudre

Jacob Kelly (Université de Toronto/Institut vectoriel), Jesse Bettencourt (Université de Toronto/Institut vectoriel), Matthew Johnson (Google Brain), David Duvenaud (Université de Toronto/Institut vectoriel)

Lorsque nous modélisons des systèmes physiques, certains modèles sont plus faciles à approximer et à prédire que d'autres. Il arrive que différents modèles fassent presque exactement les mêmes prédictions, mais que l'un d'entre eux soit beaucoup plus facile à utiliser. Nous montrons comment encourager les modèles à être plus faciles à prédire tout en étant presque aussi en accord avec les données. Plus précisément, nous montrons comment procéder dans une classe générale de modèles de systèmes à évolution continue appelés équations différentielles ordinaires.

Apprentissage de maillages tétraédriques déformables pour la reconstruction 3D*

Jun Gao (Université de Toronto) - Wenzheng Chen (Université de Toronto) - Tommy Xiang (Université de Toronto) - Alec Jacobson (Université de Toronto) - Morgan McGuire (NVIDIA) - Sanja Fidler (Vector Institute/Université de Toronto/NVIDIA)
*Recherche effectuée pour NVIDIA

Les représentations de formes 3D qui s'adaptent à la reconstruction 3D basée sur l'apprentissage constituent un problème ouvert dans le domaine de l'apprentissage automatique et de l'infographie. Des travaux antérieurs sur la reconstruction 3D neuronale ont démontré les avantages, mais aussi les limites, des représentations de nuages de points, de voxels, de maillages de surface et de fonctions implicites. Nous présentons les maillages tétraédriques déformables (DEFTET) comme un paramétrage particulier qui utilise des maillages tétraédriques volumétriques pour le problème de la reconstruction. Contrairement aux approches volumétriques existantes, DEFTET optimise à la fois le placement et l'occupation des sommets, et est différentiable par rapport aux fonctions de perte de reconstruction 3D standard. Il est donc à la fois très précis, volumétrique et adapté aux architectures neuronales basées sur l'apprentissage. Nous montrons qu'elle peut représenter une topologie arbitraire et complexe, qu'elle est à la fois efficace en termes de mémoire et de calcul, et qu'elle peut produire des reconstructions de haute fidélité avec une taille de grille nettement inférieure à celle des approches volumétriques alternatives. Les surfaces prédites sont également définies de manière inhérente comme des maillages tétraédriques, et ne nécessitent donc pas de post-traitement. Nous démontrons que DEFTET atteint ou dépasse à la fois la qualité des meilleures approches précédentes et la performance des plus rapides. Notre approche permet d'obtenir des maillages tétraédriques de haute qualité calculés directement à partir de nuages de points bruyants, et est la première à présenter des résultats de maillage tétraédrique 3D de haute qualité en utilisant une seule image comme entrée.

Apprentissage de graphes de croyance dynamiques pour généraliser les jeux basés sur du texte

Ashutosh Adhikari (Université de Waterloo) - Xingdi Yuan (Microsoft Research) - Marc-Alexandre Côté (Microsoft Research) - Mikuláš Zelinka (Université Charles, Faculté de mathématiques et de physique) - Marc-Antoine Rondeau (Microsoft Research) - Romain Laroche (Microsoft Research) - Pascal Poupart (Université de Waterloo/RBC Borealis AI/Vector Institute) - Jian Tang (Mila) - Adam Trischler (Microsoft) - Will Hamilton (McGill)

Jouer à des jeux basés sur du texte requiert des compétences en matière de traitement du langage naturel et de prise de décision séquentielle. Atteindre des performances de niveau humain dans les jeux basés sur du texte reste un défi ouvert, et les recherches antérieures se sont largement appuyées sur des représentations structurées et des heuristiques élaborées à la main. Dans ce travail, nous décrivons une nouvelle technique pour planifier et généraliser dans les jeux basés sur du texte en utilisant des représentations structurées en graphe apprises de bout en bout à partir de texte brut.

Apprentissage continu par gradient de politiques factorisées pour une formation plus rapide sans oubli

Jorge Mendez (Université de Pennsylvanie), Boyu Wang (Université de Western Ontario/Vector Institute), Eric Eaton (Université de Pennsylvanie)

Les méthodes de gradient de politique ont fait leurs preuves dans l'apprentissage de politiques de contrôle pour les systèmes dynamiques à haute dimension. Leur principal inconvénient est la quantité d'exploration qu'elles requièrent avant de produire des politiques performantes. Dans un contexte d'apprentissage tout au long de la vie, dans lequel un agent est confronté à de multiples tâches consécutives au cours de sa vie, la réutilisation des informations issues des tâches précédentes peut accélérer considérablement l'apprentissage de nouvelles tâches. Nous proposons une nouvelle méthode d'apprentissage par gradient de politique tout au long de la vie qui forme des approximateurs de fonction tout au long de la vie directement via les gradients de politique, ce qui permet à l'agent de bénéficier des connaissances accumulées tout au long du processus d'apprentissage. Nous montrons empiriquement que notre algorithme apprend plus rapidement et converge vers de meilleures politiques que les lignes de base d'apprentissage à tâche unique et à vie, et qu'il évite complètement l'oubli catastrophique dans une variété de domaines difficiles.

LoCo : Apprentissage local de la représentation contrastive*

Yuwen Xiong (Uber ATG/Université de Toronto), Mengye Ren (Université de Toronto/Uber ATG), Raquel Urtasun (Uber ATG/Vector Institute)

*Recherche effectuée pour Uber ATG

Les réseaux neuronaux profonds effectuent généralement une rétropropagation de bout en bout pour apprendre les poids, une procédure qui crée des contraintes de synchronisation dans l'étape de mise à jour des poids entre les couches et qui n'est pas biologiquement plausible. Les avancées récentes dans le domaine de l'apprentissage non supervisé de représentations contrastives soulèvent la question de savoir si un algorithme d'apprentissage peut également être rendu local, c'est-à-dire que les mises à jour des couches inférieures ne dépendent pas directement du calcul des couches supérieures. Bien que Greedy InfoMax apprenne séparément chaque bloc avec un objectif local, nous avons constaté qu'il nuit systématiquement à la précision de lecture dans les algorithmes d'apprentissage contrastif non supervisé les plus récents, probablement en raison de l'objectif gourmand et de l'isolation du gradient. Dans ce travail, nous découvrons qu'en superposant les blocs locaux, nous augmentons efficacement la profondeur du décodeur et permettons aux blocs supérieurs d'envoyer implicitement des retours d'information aux blocs inférieurs. Cette conception simple comble pour la première fois l'écart de performance entre l'apprentissage local et les algorithmes d'apprentissage contrastif de bout en bout. Outre les expériences ImageNet standard, nous montrons également des résultats sur des tâches complexes en aval, telles que la détection d'objets et la segmentation d'instances, en utilisant directement les caractéristiques de lecture.

Modélisation de processus stochastiques continus avec des flux de normalisation dynamiques

Ruizhi Deng (Université Simon Fraser), Bo Chang (Borealis AI), Marcus Brubaker (Borealis AI/Vector Institute), Greg Mori (Borealis AI), Andreas Lehrmann (Borealis AI)

Les flux de normalisation transforment une distribution de base simple en une distribution cible complexe et se sont révélés être des modèles puissants pour la génération de données et l'estimation de la densité. Dans ce travail, nous proposons un nouveau type de flux de normalisation piloté par une déformation différentielle du processus de Wiener. Nous obtenons ainsi un modèle de séries temporelles riche dont le processus observable hérite de nombreuses propriétés attrayantes de son processus de base, telles que le calcul efficace des vraisemblances et des marginales. En outre, notre traitement continu fournit un cadre naturel pour les séries temporelles irrégulières avec un processus d'arrivée indépendant, y compris une interpolation directe. Nous illustrons les propriétés souhaitables du modèle proposé sur des processus stochastiques populaires et démontrons sa flexibilité supérieure à celle des RNN variationnels et des ODE latentes de base dans une série d'expériences sur des données synthétiques et réelles.

MuSCLE : Compression multibalayage de LiDAR à l'aide de modèles d'entropie profonde*.

Sourav Biswas (Université de Waterloo), Jerry Liu (Uber ATG), Kelvin Wong (Université de Toronto), Shenlong Wang (Université de Toronto), Raquel Urtasun (Uber ATG/Vector Institute)

*Recherche effectuée pour Uber ATG

Nous présentons un nouvel algorithme de compression pour réduire le stockage des flux de données des capteurs LiDAR. Notre modèle exploite les relations spatio-temporelles entre plusieurs balayages LiDAR pour réduire le débit binaire des valeurs de géométrie et d'intensité. À cette fin, nous proposons un nouveau modèle d'entropie conditionnelle qui modélise les probabilités des symboles de l'octogone en tenant compte à la fois de la géométrie grossière et des informations géométriques et d'intensité des balayages précédents. Nous utilisons ensuite la probabilité apprise pour coder le flux de données complet en un flux compact. Nos expériences démontrent que notre méthode réduit de manière significative le débit binaire conjoint de géométrie et d'intensité par rapport aux méthodes de compression LiDAR de pointe, avec une réduction de 7 à 17 % et de 15 à 35 % sur les ensembles de données UrbanCity et SemanticKITTI respectivement.

Ergodicité, biais et normalité asymptotique de la méthode d'échantillonnage à point médian aléatoire

Ye He (Université de Californie, Davis), Krishnakumar Balasubramanian (Université de Californie, Davis), Murat Erdogdu (Université de Toronto/Institut du vecteur)

La méthode du point médian aléatoire est apparue comme une procédure optimale pour l'échantillonnage basé sur la diffusion à partir d'une distribution de probabilité. Cet article analyse plusieurs propriétés probabilistes de cette méthode, en établissant la normalité asymptotique et en soulignant les avantages et les inconvénients relatifs par rapport à d'autres méthodes. Les résultats de cet article fournissent collectivement plusieurs aperçus du comportement de la méthode de discrétisation aléatoire du point médian, y compris l'obtention d'intervalles de confiance pour les intégrations numériques.

Les autoencodeurs linéaires régularisés récupèrent les composantes principales, éventuellement

Xuchan Bao (Université de Toronto/Institut vectoriel), James Lucas (Université de Toronto/Institut vectoriel), Sushant Sachdeva (Université de Toronto/Institut vectoriel), Roger Grosse (Université de Toronto/Institut vectoriel)

On sait depuis longtemps que les autoencodeurs récupèrent le sous-espace des composantes principales (le sous-espace qui maximise la variance projetée des données). Nous montrons qu'avec un régularisateur particulier, ils récupèrent les composantes principales individuelles, et pas seulement le sous-espace. Cependant, ils le font très lentement ; nous analysons pourquoi c'est le cas et donnons une procédure d'apprentissage alternative qui récupère les composantes plus efficacement.

Limites de généralisation renforcées basées sur l'information mutuelle conditionnelle et application aux algorithmes itératifs bruyants

Mahdi Haghifam (Université de Toronto/Institut vectoriel), Jeffrey Negrea (Université de Toronto/Institut vectoriel), Ashish Khisti (Université de Toronto), Daniel Roy (Université de Toronto/Institut vectoriel), Gintare Karolina Dziugaite (Element AI)

Aucune théorie de généralisation existante pour l'algorithme de Langevin ne peut lier le comportement de l'algorithme dans le monde réel à une performance de généralisation forte. En nous appuyant sur de nouvelles notions d'information mutuelle conditionnelle, nous présentons de nouvelles bornes qui produisent des bornes de généralisation non-vacuantes, même pour CIFAR10.

Complétion variationnelle des objets amodaux*

Huan Ling (Université de Toronto, NVIDIA) - David Acuna (Université de Toronto, NVIDIA) - Karsten Kreis (NVIDIA) - Seung Wook Kim (Université de Toronto) - Sanja Fidler (Vector Institute/Université de Toronto/NVIDIA)

*Recherche effectuée pour NVIDIA

Dans les images de scènes complexes, les objets sont souvent masqués les uns par les autres, ce qui complique les tâches de perception telles que la détection et le suivi d'objets, ou les tâches de contrôle robotique telles que la planification. Pour faciliter les tâches en aval, il est donc important de raisonner sur l'étendue complète des objets, c'est-à-dire de voir derrière l'occlusion, ce qui est généralement appelé la complétion d'instance amodale. Dans cet article, nous proposons un cadre générationnel variationnel pour la complétion amodale, appelé Amodal-VAE, qui ne nécessite pas d'étiquettes amodales au moment de l'apprentissage, car il est capable d'utiliser des masques d'instance d'objet largement disponibles. Nous présentons notre approche sur la tâche en aval de l'édition de scènes où l'utilisateur se voit présenter des outils interactifs pour compléter et effacer des objets dans des photographies. Des expériences sur des scènes de rue complexes démontrent une performance de pointe dans la complétion de masques amodaux, et présentent des résultats d'édition de scène de haute qualité. Il est intéressant de noter qu'une étude sur les utilisateurs montre que les humains préfèrent les compléments d'objets déduits par notre modèle aux compléments étiquetés par l'homme.

Flux d'ondelettes : formation rapide de flux de normalisation à haute résolution

Jason Yu (Université York), Konstantinos Derpanis (Université Ryerson/Institut vectoriel), Marcus Brubaker (Université York/Institut vectoriel)

Les flux de normalisation ont traditionnellement été limités à la génération d'images à faible résolution en raison du coût de la formation. Nous présentons une nouvelle méthode basée sur les ondelettes qui permet un apprentissage efficace des images à haute résolution. Nous montrons qu'elle permet l'apprentissage d'images à haute résolution (par exemple, 1024×1024) et qu'elle est également capable d'accélérer de manière significative l'apprentissage sur des ensembles de données standard à faible résolution. En outre, il inclut automatiquement des modèles d'images à faible résolution et peut effectuer une super-résolution sans travail supplémentaire en raison de la nature multi-échelle de la représentation par ondelettes.

Qu'est-ce qui n'a pas fonctionné et quand ? Importance des caractéristiques par instance pour les modèles à boîte noire de séries temporelles

Sana Tonekaboni (Université de Toronto/Institut Vector), Shalmali Joshi (Institut Vector), Kieran Campbell (Université de Colombie-Britannique/Institut Vector), David Duvenaud (Université de Toronto/Institut Vector), Anna Goldenberg (Institut Vector/Hôpital pour enfants malades)

Les explications des prédictions des modèles sont importantes, en particulier dans les domaines complexes tels que le suivi des séries temporelles dans les soins aux patients. L'explicabilité des séries temporelles est un domaine relativement peu exploré jusqu'à présent dans la littérature sur l'apprentissage automatique. Nous avons proposé un nouveau cadre pour expliquer les modèles de boîte noire en attribuant de l'importance aux observations en fonction de leur influence sur la prédiction d'un modèle. Contrairement aux tentatives précédentes, notre approche tient compte de la dynamique temporelle. Il s'agit de l'un des premiers travaux à explorer l'attribution de caractéristiques et l'explicabilité des modèles de séries temporelles. Nous nous attendons à ce qu'il soit très pertinent dans le domaine des soins de santé et nous explorons actuellement une variété d'applications.

Les chercheurs de l'Institut Vecteur organisent quatre ateliers

Musulmans en ML est un atelier d'affinité organisé par Marzyeh Ghassemi et ses collaborateurs. Il se concentrera à la fois sur le potentiel de progrès et de préjudice pour les musulmans et ceux qui, dans les pays à majorité musulmane, s'identifient religieusement, s'associent culturellement ou sont classés par proximité comme "musulmans".

Apprentissage automatique pour la santé (ML4H) : faire progresser les soins de santé pour tousco-organisé par Anna Goldenberg, exposera les participants à de nouvelles questions sur l'apprentissage automatique pour les soins de santé, et les incitera à réfléchir à la manière dont leur travail s'inscrit dans des systèmes de soins de santé plus vastes.

Apprentissage automatique et sciences physiques, organisée par Juan Carrasquilla, rassemble des informaticiens, des mathématiciens et des physiciens qui s'intéressent à l'application de l'apprentissage automatique à divers problèmes physiques en suspens.

Parler à des étrangers : La communication émergente en mode "zéro" (Zero-Shot Emergent Communication) est un atelier interactif co-organisé par Jakob Foerster. Son objectif est d'explorer les possibilités pour les agents artificiels d'évoluer spontanément vers une communication ad hoc, en interagissant avec des inconnus.

Apprendre des représentations significatives de la vie (LMRL.org) co-organisé par Alán Aspuru-Guzik, est conçu pour réunir des stagiaires et des experts en apprentissage automatique avec ceux qui sont à l'avant-garde de la recherche biologique aujourd'hui pour aider à percer les secrets des systèmes biologiques.

En rapport :

Des femmes écrivent sur un tableau blanc. Un homme à sa gauche regarde le tableau.
2025
Recherche
Recherche 2025

Les chercheurs de Vector se plongent dans l'apprentissage profond à l'occasion de l'ICLR 2025

2025
Ingénierie de l'IA
Actualités
Recherche
Recherche 2025

Quand l'IA rencontre l'humain : Évaluer les modèles multimodaux à travers une lentille centrée sur l'humain - Présentation de HumaniBench

2025
Perspectives
Partenariat
Histoires de réussite

Pourquoi le partenariat entre le leader des services bancaires d'IA, la CIBC, et l'Institut Vecteur continue de se développer