La communauté de recherche sur les vecteurs se prépare pour le NeurIPS virtuel 2020

27 novembre 2020

2020BlogueInsightsNouvelles Programmede rechercheRecherche 2020IA fiable

Par Ian Gormely
27 novembre 2020

Les chercheurs en vecteurs se préparent à nouveau pour la conférence de premier plan sur l’apprentissage automatique, la 34e conférence annuelle sur les systèmes de traitement de l’information neuronale (NeurIPS). La conférence de cette année, initialement prévue à Vancouver, en Colombie-Britannique, sera virtuelle et se déroulera du 6 au 12 décembre. Il comprendra des conférences invitées, des démonstrations, des symposiums, ainsi que des présentations orales et par affiches de communications évaluées par des pairs. 

Vous trouverez ci-dessous des résumés et des résumés simplifiés de nombreux articles et ateliers acceptés par des chercheurs affiliés à Vector. 

Vous pouvez en lire plus sur le travail de Vector lors des conférences des années précédentes ici et ici.

La communauté de recherche de Vector continue de croître rapidement. Si vous êtes un chercheur affilié à Vector et que vous ne voyez pas votre travail représenté ici, veuillez contacter ian.gormely@vectorinstitute.ai

Communications de conférence par les membres du corps professoral et les membres affiliés du corps professoral de Vector :

Quantification par gradient adaptatif pour le SGD parallèle aux données

Fartash Faghri (Université de Toronto/Vector Institute), Iman Tabrizian (Université de Toronto/Vector Institute), Ilia Markov (IST Autriche), Dan Alistarh (IST Autriche/Neural Magic Inc.), Daniel Roy (Université de Toronto/Vector Institute), Ali Ramezani-Kebrya (Vector Institute)

À mesure que l’apprentissage profond évolue vers des modèles plus grands et des données plus volumines, les chercheurs utilisent des algorithmes distribués et parallèles pour s’entraîner plus rapidement. Ce travail montre comment réduire la surcharge de communication de 70%, ouvrant ainsi la possibilité d’un calcul à plus grande échelle.

Une approche d’apprentissage implicite des fonctions pour la régression modale paramétrique

Yangchen Pan (Université de l’Alberta), Ehsan Imani (Université de l’Alberta), Martha White (Université de l’Alberta), Amir-Massoud Farahmand (Vector Institute/Université de Toronto)

Apprendre la relation entre l’entrée et la sortie réelle est un problème fondamental en apprentissage automatique, connu sous le nom de problème de régression. Les méthodes de régression conventionnelles apprennent la valeur moyenne d’une sortie à partir de son entrée. Cela est acceptable lorsque la sortie pour une entrée donnée est concentrée autour d’un seul mode (unimodal), mais ce n’est pas le cas lorsque la sortie comporte plusieurs modes. Ce travail développe un nouvel algorithme évolutif pour apprendre une telle relation. Cela est réalisé en utilisant le théorème de la fonction implicite, qui nous permet de convertir le problème d’apprendre une fonction multi-valeur, ce qui est difficile, en apprentissage d’une fonction à valeur unique, qui est plus facile.

Découverte causale dans les systèmes physiques à partir de vidéos

Yunzhu Li (Institut de technologie du Massachusetts), Antonio Torralba (Institut de technologie du Massachusetts), Anima Anandkumar (NVIDIA/CalTech), Dieter Fox (NVIDIA/Université de Washington), Animesh Garg (Université de Toronto/Institut Vector)

La découverte causale est au cœur de la cognition humaine. Cela nous permet de raisonner sur l’environnement et de faire des prédictions contrefactuelles sur des scénarios invisibles qui peuvent très différer de nos expériences précédentes. Nous considérons la tâche de la découverte causale à partir de vidéos de façon de bout en bout sans supervision sur la structure du graphe de la vérité sur le terrain. En particulier, notre objectif est de découvrir les dépendances structurelles entre les variables environnementales et d’objets : en inférant le type et la force des interactions qui ont un effet causal sur le comportement du système dynamique. Notre modèle comprend (a) un module de perception qui extrait une représentation de points clés sémantiquement significative et temporellement cohérente à partir d’images, (b) un module d’inférence pour déterminer la distribution des graphes induite par les points clés détectés, et (c) un module dynamique qui peut prédire l’avenir en conditionnant le graphe inféré. Nous supposons l’accès à différentes configurations et conditions environnementales, c’est-à-dire des données provenant d’interventions inconnues sur le système sous-jacent; Ainsi, nous pouvons espérer découvrir le graphe causal sous-jacent correct sans interventions explicites. Nous évaluons notre méthode dans un environnement d’interaction planaire multi-corps et dans des scénarios impliquant des tissus de différentes formes comme des chemises et des pantalons. Les expériences démontrent que notre modèle peut identifier correctement les interactions à partir d’une courte séquence d’images et faire des prédictions à long terme. La structure causale adoptée par le modèle lui permet aussi de faire des prédictions contrefactuelles et d’extrapoler à des systèmes de graphes d’interaction invisibles ou de graphes de tailles variées.

Augmentation des données contrefactuelles à l’aide de dynamiques factorisées localement

Silviu Pitis (Université de Toronto/Vector Institute), Elliot Creager (Université de Toronto/Vector Institute), Animesh Garg (Université de Toronto/Vector Institute)
Nous détectons et exploitons l’indépendance causale locale entre les objets et les caractéristiques de l’état du monde afin d’améliorer l’efficacité de l’échantillonnage des robots simulés dans le contexte de l’apprentissage par renforcement. Nous formalisons l’indépendance causale locale à l’aide d’un cadre de modélisation causale locale et l’utilisons dans notre algorithme d’augmentation des données contrefactuelles pour générer de nouvelles données causalement valides sur lesquelles les modèles s’entraînent.

Programme par lissage

Samartha Sinha (Université de Toronto/Vector Institute), (Animesh Garg (Université de Toronto/Vector Institute), Hugo Larochelle (Google Brain)

Les réseaux neuronaux convolutionnels (CNN) ont démontré des performances impressionnantes dans des tâches de vision par ordinateur telles que la classification, la détection et la segmentation d’images. De plus, des travaux récents sur les réseaux génératifs antagonistes (GAN) ont mis en lumière l’importance de l’apprentissage en augmentant progressivement la difficulté d’une tâche d’apprentissage Kerras et al. Lorsqu’on apprend un réseau à partir de zéro, l’information propagée à l’intérieur du réseau lors des premières étapes de l’entraînement peut contenir des artefacts de distorsion dus au bruit, ce qui peut nuire à l’entraînement. Dans cet article, nous proposons un schéma élégant basé sur un programme qui adoucit l’intégration de caractéristiques d’un CNN à l’aide de filtres anti-crénelage ou passe-bas. Nous proposons d’augmenter l’entraînement des CNN en contrôlant la quantité d’information à haute fréquence propagée à l’intérieur des CNN au fur et à mesure de l’entraînement, en convoluant la sortie d’une carte de caractéristiques CNN de chaque couche avec un noyau gaussienne. En diminuant la variance du noyau gaussienne, nous augmentons graduellement la quantité d’informations à haute fréquence disponibles dans le réseau pour l’inférence. À mesure que la quantité d’information dans les cartes de caractéristiques augmente pendant l’entraînement, le réseau peut apprendre progressivement de meilleures représentations des données. Notre schéma d’entraînement augmenté proposé améliore considérablement la performance des CNN sur diverses tâches de vision sans ajouter de paramètres entraînables supplémentaires ni d’objectif auxiliaire de régularisation. La généralité de notre méthode est démontrée par des gains empiriques de performance dans les architectures CNN à travers quatre tâches différentes : l’apprentissage par transfert, l’apprentissage par transfert inter-tâches et les modèles génératifs.

Apprentissage profond versus apprentissage par noyau : étude empirique de la géométrie du paysage de perte et de l’évolution du noyau tangential neuronal dépendant des données

Stanislav Fort (Université Stanford/Google Research), Gintare Karolina Dziugaite (Element AI), Mansheej Paul (Université Stanford), Sepideh Kharaghani (Element AI), Daniel Roy (Université de Toronto/Vector Institute), Surya Ganguli (Université Stanford)

Nous comprenons maintenant l’entraînement à l’apprentissage profond dans certains régimes limitants, où ils se comportent comme des machines à noyau plus simples. Mais comment ces simplifications se rapportent-elles aux réseaux réels qui offrent une performance empirique plus forte? Dans ce travail, nous utilisons une étude empirique pour relier la géométrie de l’entraînement à l’évolution temporelle du noyau.

Delta-STN : Optimisation efficace à deux niveaux des réseaux de neurones à l’aide d’un jacobien à réponse structurée

Juhan Bae (Université de Toronto/Vector Institute), Roger Grosse (Université de Toronto/Vector Institute)

L’entraînement par réseau neuronal implique beaucoup d’hyperparamètres, c’est-à-dire des boutons qu’il faut régler pour obtenir de bonnes performances. Nous avons développé une approche pour ajuster automatiquement les hyperparamètres en ligne pendant qu’un réseau s’entraîne (contrairement à la plupart des méthodes d’ajustement, qui nécessitent de nombreuses séances d’entraînement). L’essentiel est d’apprendre le jacobien à meilleure réponse, qui détermine comment l’optimum de l’objectif d’entraînement change en réponse à de petites perturbations des hyperparamètres. Cela nous permet de déterminer approximativement comment les hyperparamètres doivent être modifiés pour améliorer l’erreur de généralisation.

Modèles hybrides pour apprendre à ramifier

Prateek Gupta (Université d’Oxford), Maxime Gasse (Polytechnique Montréal), Elias Khalil (Université de Toronto/Vector Institute), Pawan K Mudigonda (Université d’Oxford), Andrea Lodi (École Polytechnique Montréal), Yoshua Bengio (Mila/Université de Montréal)

Une approche récente du réseau de neurones à graphes (GNN) pour apprendre à ramifier a démontré qu’elle réduit avec succès le temps d’exécution des algorithmes branch-et-bound pour la programmation linéaire entière mixte (MILP). Alors que le GNN dépend d’un GPU pour l’inférence, les solveurs MILP sont uniquement basés sur le CPU. Cela limite fortement son application, car de nombreux praticiens peuvent ne pas avoir accès à des GPU haut de gamme. Dans ce travail, nous posons deux questions clés. Premièrement, dans un contexte plus réaliste où seul un processeur est disponible, le modèle GNN est-il toujours compétitif? Deuxièmement, peut-on concevoir un modèle alternatif peu coûteux sur le plan informatique qui conserve le pouvoir prédictif de l’architecture GNN? Nous répondons négativement à la première question, et abordons la deuxième en proposant une nouvelle architecture hybride pour un branchement efficace sur les machines CPU. L’architecture proposée combine la puissance d’expression des GNN avec des perceptrons multicouches (MLP) à faible coût en calcul pour le branchement. Nous évaluons nos méthodes sur quatre classes de problèmes MILP, et montrons qu’elles conduisent à une réduction allant jusqu’à 26% du temps d’exécution du solveur par rapport aux méthodes de pointe sans GPU, tout en extrapolant vers des problèmes plus difficiles que ceux sur lesquels elles ont été entraînées. Le code de ce projet est accessible publiquement à cette URL https.

EVA exemplaires pour la génération basée sur des exemples et l’augmentation de données

Sajad Norouzi (Université de Toronto/Vector Institute), David J Fleet (Université de Toronto/Vector Institute), Mohammad Norouzi (Google Brain)

Exemplar VAE est un nouveau type de modèle génératif qui combine une architecture encodeur-décodeur de réseau de neurones avec des techniques non paramétriques basées sur des exemplaires.  L’encodeur de réseau de neurones est utilisé pour transformer une image en un espace de caractéristiques qui détermine, pour une image donnée, quelles autres images lui sont similaires. Les emplacements dans l’espace des caractéristiques proches des images naturelles (exemplaires) sont considérés comme représentant des images plausibles.  Pour générer de nouvelles images selon le modèle, on choisit d’abord une image naturelle parmi un grand ensemble d’exemplaires. On le perturbe ensuite en modifiant aléatoirement sa position dans l’espace des caractéristiques, puis on transforme ce nouveau vecteur de caractéristiques en image à l’aide du décodeur du réseau de neurones.  Le modèle fonctionne extrêmement bien dans l’estimation de la densité et il s’avère utile pour l’apprentissage des représentations.  Une propriété remarquable du modèle est que les données générées aléatoirement peuvent être utilisées pour l’augmentation générative de données afin d’améliorer les classificateurs d’images.

Dimension de Hausdorff, queues lourdes et généralisation dans les réseaux neuronaux

Umut Simsekli (Institut Polytechnique de Paris/Université d’Oxford), Ozan Sener (Intel Labs), George Deligiannidis (Université d’Oxford), Murat Erdogdu (Université de Toronto/Vector Institute)

Cet article démontre les limites de généralisation pour les modèles d’apprentissage automatique entraînés avec SGD sous l’hypothèse que ses trajectoires peuvent être bien approximées par une diffusion à queues lourdes. L’erreur de généralisation peut être contrôlée par la dimension de Hausdorff des trajectoires, qui est intimement liée au comportement de la queue de la diffusion motrice. Nos résultats impliquent que les processus à queue plus lourde devraient obtenir une meilleure généralisation; ainsi, l’indice de queue du procédé peut être utilisé comme notion de métrique de capacité.

À la recherche de mesures robustes de généralisation

Gintare Karolina Dziugaite (Element AI), Alexandre Drouin (Element AI), Brady Neal (Mila), Nitarshan Rajkumar (Mila, Université de Montréal), Ethan Caballero (Mila), Linbo Wang (Université de Toronto/Vector Institute), Ioannis Mitliagkas (Mila/Université de Montréal), Daniel Roy (Université de Toronto/Vector Institute)

Comment devrions-nous évaluer les théories mathématiques de la généralisation en apprentissage profond? Des travaux récents proposent d’utiliser des études empiriques à grande échelle. Nous soutenons l’importance d’utiliser des mesures de robustesse afin que ces études ne nous induisent pas en erreur. Nous constatons qu’aucune théorie existante n’est solide.

Sélection d’instances pour les GAN

Terrance DeVries (Université de Guelph/Vector Institute), Michal Drozdzal (FAIR), Graham W Taylor (Université de Guelph/Vector Institute)

La chute, c’est que contrairement au folklore du ML, « plus de données n’est pas toujours mieux ». Nous montrons qu’en retirant automatiquement des exemples de données provenant de parties clairsemées de la variété de données, nous pouvons améliorer la qualité des échantillons des réseaux adversaires génératifs, réduire leurs exigences de capacité et réduire significativement le temps d’entraînement. Par exemple, sur 128×128 images, notre modèle repose sur moins de quatre jours d’entraînement, alors que la base nécessite plus de deux semaines. Pour des images ImageNet de 256 x 256, c’est la première fois que des images photoréalistes sont obtenues sans l’utilisation de matériel spécialisé (c’est-à-dire des centaines de TPU).

Représentations d’agents d’apprentissage pour le hockey sur glace

Guiliang Liu (Université Simon Fraser) · Oliver Schulte (Université Simon Fraser) · Pascal Poupart (Université de Waterloo/RBC Borealis AI/Vector Institute) · Mike Rudd (Université de Waterloo/Vector Institute) · Mehrsan Javan (SPORTLOGiQ)

Cette œuvre présente une nouvelle représentation des joueurs pour les sports d’équipe.  La nouvelle technique de représentation est démontrée en hockey sur glace en obtenant des résultats de pointe pour identifier le joueur en jeu, estimer les buts attendus et prédire la différence de score finale.

Apprendre des équations différentielles rapides à résoudre

Jacob Kelly (Université de Toronto/Vector Institute), Jesse Bettencourt (Université de Toronto/Vector Institute), Matthew Johnson (Google Brain), David Duvenaud (Université de Toronto/Vector Institute)

Lorsque nous modélisons des systèmes physiques, certains modèles sont plus faciles à approcher et à faire des prédictions que d’autres. Parfois, différents modèles font presque exactement les mêmes prédictions, mais l’un d’eux sera beaucoup plus facile à utiliser. Nous montrons comment encourager les modèles à faire des prédictions plus faciles tout en étant presque aussi d’accord avec les données. Plus précisément, nous montrons comment faire cela dans une classe générale de modèles de systèmes en évolution continue appelées équations différentielles ordinaires.

Apprendre les mailles tétraédriques déformables pour la reconstruction 3D*

Jun Gao (Université de Toronto) · Wenzheng Chen (Université de Toronto) · Tommy Xiang (Université de Toronto) · Alec Jacobson (Université de Toronto) · Morgan McGuire (NVIDIA) · Sanja Fidler (Vector Institute/Université de Toronto/NVIDIA)
*Recherche réalisée pour NVIDIA

Les représentations de formes 3D qui permettent la reconstruction 3D basée sur l’apprentissage sont un problème ouvert en apprentissage automatique et en infographie. Des travaux antérieurs sur la reconstruction 3D neuronale ont démontré des bénéfices, mais aussi des limites, des représentations des nuages de points, des voxels, du maillage de surface et des fonctions implicites. Nous introduisons les maillages tétraédriques déformables (DEFTET) comme paramétrisation particulière qui utilise des maillages tétraédriques volumétriques pour le problème de reconstruction. Contrairement aux approches volumétriques existantes, DEFTET optimise à la fois pour le placement et l’occupation des sommets, et est différentiable par rapport aux fonctions de perte standard de reconstruction 3D. Il est donc simultanément de haute précision, volumique et adapté aux architectures neuronales basées sur l’apprentissage. Nous montrons qu’elle peut représenter une topologie complexe et arbitraire, qu’elle est à la fois efficace en mémoire et en calcul, et qu’elle peut produire des reconstructions haute fidélité avec une taille de grille significativement plus petite que les approches volumétriques alternatives. Les surfaces prédites sont aussi définies intrinsèquement comme des maillages tétraédriques, donc ne nécessitent pas de post-traitement. Nous démontrons que DEFTET égale ou dépasse à la fois la qualité des meilleures approches précédentes et la performance des plus rapides. Notre approche permet d’obtenir des maillages tétraédriques de haute qualité calculés directement à partir de nuages de points bruyants, et c’est la première à présenter des résultats de maillage 3D de haute qualité en utilisant une seule image en entrée.

Apprendre les graphes de croyances dynamiques à généraliser sur les jeux basés sur le texte

Ashutosh Adhikari (Université de Waterloo) · Xingdi Yuan (Microsoft Research) · Marc-Alexandre Côté (Microsoft Research) · Mikuláš Zelinka (Université Charles, Faculté de mathématiques et de physique) · Marc-Antoine Rondeau (Microsoft Research) · Romain Laroche (Microsoft Research) · Pascal Poupart (Université de Waterloo/RBC Borealis AI/Vector Institute) · Jian Tang (Mila) · Adam Trischler (Microsoft) · Will Hamilton (McGill)

Jouer à des jeux textuels exige des compétences en traitement du langage naturel et en prise de décision séquentielle. Atteindre des performances humaines dans les jeux textuels demeure un défi ouvert, et les recherches antérieures se sont largement appuyées sur des représentations structurées et heuristiques faites à la main. Dans ce travail, nous décrivons une nouvelle technique pour planifier et généraliser dans des jeux textuels en utilisant des représentations structurées en graphes apprises de bout en bout à partir du texte brut.

Apprentissage à vie du gradient de politique des politiques factorisées pour une formation plus rapide sans oublier

Jorge Mendez (Université de Pennsylvanie), Boyu Wang (Université de Western Ontario/Vector Institute), Eric Eaton (Université de Pennsylvanie)

Les méthodes de gradient de politique ont démontré leur efficacité dans l’apprentissage des politiques de contrôle pour les systèmes dynamiques de haute dimension. Leur plus grand inconvénient est la quantité d’exploration qu’ils nécessitent avant d’obtenir des politiques performantes. Dans un contexte d’apprentissage tout au long de la vie, où un agent est confronté à plusieurs tâches consécutives au cours de sa vie, la réutilisation d’informations issues de tâches déjà vues peut considérablement accélérer l’apprentissage de nouvelles tâches. Nous offrons une méthode novatrice pour l’apprentissage du gradient de politique tout au long de la vie, qui entraîne directement les approximateurs de fonctions à vie via les gradients de politique, permettant à l’agent de bénéficier des connaissances accumulées tout au long du processus de formation. Nous montrons empiriquement que notre algorithme apprend plus vite et converge vers de meilleures politiques que les bases d’apprentissage à tâche unique et tout au long de la vie, et évite complètement l’oubli catastrophique dans divers domaines difficiles.

LoCo : apprentissage de la représentation contrastive locale*

Yuwen Xiong (Uber ATG/Université de Toronto), Mengye Ren (Université de Toronto/Uber ATG), Raquel Urtasun (Uber ATG/Vector Institute)

*Recherche réalisée pour Uber ATG

Les réseaux neuronaux profonds effectuent généralement une rétropropagation de bout en bout pour apprendre les poids, une procédure qui crée des contraintes de synchronisation lors de l’étape de mise à jour des poids entre les couches et qui n’est pas biologiquement plausible. Les avancées récentes dans l’apprentissage par représentation contrastive non supervisée soulèvent la question de savoir si un algorithme d’apprentissage peut aussi être rendu local, c’est-à-dire que les mises à jour des couches inférieures ne dépendent pas directement du calcul des couches supérieures. Bien que Greedy InfoMax apprend séparément chaque bloc avec un objectif local, nous avons constaté que cela nuit systématiquement à la précision de lecture dans les algorithmes d’apprentissage contrastif non supervisé de pointe, possiblement à cause de l’objectif gourmand ainsi que de l’isolation du gradient. Dans ce travail, nous découvrons qu’en superposant des blocs locaux empilés les uns sur les autres, nous augmentons effectivement la profondeur du décodeur et permettons aux blocs supérieurs d’envoyer implicitement des rétroactions aux blocs inférieurs. Cette conception simple comble pour la première fois l’écart de performance entre l’apprentissage local et les algorithmes d’apprentissage contrastif de bout en bout. En plus des expériences standard sur ImageNet, nous montrons aussi des résultats sur des tâches complexes en aval comme la détection d’objets et la segmentation d’instances directement en utilisant des fonctions de lecture.

Modélisation des processus stochastiques continus avec des écoulements dynamiques de normalisation

Ruizhi Deng (Université Simon Fraser), Bo Chang (Borealis AI), Marcus Brubaker (Borealis AI/Vector Institute), Greg Mori (Borealis AI), Andreas Lehrmann (Borealis AI)

Les flux de normalisation transforment une distribution de base simple en une distribution cible complexe et se sont avérés être des modèles puissants pour la génération de données et l’estimation de la densité. Dans ce travail, nous proposons un nouveau type d’écoulement de normalisation entraîné par une déformation différentielle du processus de Wiener. En conséquence, nous obtenons un modèle riche de séries temporelles dont le processus observable hérite de nombreuses propriétés attrayantes de son processus de base, telles que le calcul efficace des probabilités et des marginaux. De plus, notre traitement continu offre un cadre naturel pour des séries temporelles irrégulières avec un processus d’arrivée indépendant, incluant une interpolation simple. Nous illustrons les propriétés souhaitables du modèle proposé sur des processus stochastiques populaires et démontrons sa flexibilité supérieure aux bases RNN variationnelles et ODE latentes dans une série d’expériences sur des données synthétiques et réelles.

MuSCLE : Compression multi-balayage du LiDAR à l’aide de modèles à entropie profonde*

Sourav Biswas (Université de Waterloo), Jerry Liu (Uber ATG), Kelvin Wong (Université de Toronto), Shenlong Wang (Université de Toronto), Raquel Urtasun (Uber ATG/Vector Institute)

*Recherche réalisée pour Uber ATG

Nous présentons un algorithme de compression novateur pour réduire le stockage des flux de données des capteurs LiDAR. Notre modèle exploite les relations spatio-temporelles à travers plusieurs balayages LiDAR pour réduire le débit binaire des valeurs géométriques et d’intensité. Dans ce but, nous proposons un nouveau modèle d’entropie conditionnelle qui modélise les probabilités des symboles octree en tenant compte à la fois de la géométrie grossière et des informations géométriques et d’intensité des balayages précédents. Nous utilisons ensuite la probabilité apprise pour encoder le flux de données complet en un flux compact. Nos expériences démontrent que notre méthode réduit significativement la géométrie des joints et le débit binaire d’intensité par rapport aux méthodes de compression LiDAR de pointe précédentes, avec une réduction de 7-17% et 15-35% sur les ensembles de données UrbanCity et SemanticKITTI respectivement.

Sur l’ergodicité, le biais et la normalité asymptotique de la méthode d’échantillonnage aléatoire au point médian

Ye He (Université de Californie, Davis), Krishnakumar Balasubramanian (Université de Californie, Davis), Murat Erdogdu (Université de Toronto/Vector Institute)

La méthode aléatoire du point médian est devenue une procédure optimale pour l’échantillonnage basé sur la diffusion à partir d’une distribution de probabilité. Cet article analyse plusieurs propriétés probabilistes de cette méthode, établissant la normalité asymptotique et mettant en lumière les avantages et inconvénients relatifs par rapport aux autres méthodes. Les résultats de cet article fournissent collectivement plusieurs perspectives sur le comportement de la méthode randomisée de discrétisation du point médian, y compris l’obtention d’intervalles de confiance pour les intégrations numériques.

Les encodeurs linéaires réguliers récupèrent les composantes principales, éventuellement

Xuchan Bao (Université de Toronto/Vector Institute), James Lucas (Université de Toronto/Vector Institute), Sushant Sachdeva (Université de Toronto/Vector Institute), Roger Grosse (Université de Toronto/Vector Institute)

On sait depuis longtemps que les autoencodeurs récupèrent le sous-espace de composante principale (le sous-espace qui maximise la variance projetée des données). Nous montrons qu’avec un régulariseur particulier, ils récupèrent les composantes principales individuelles, pas seulement le sous-espace. Cependant, ils le font très lentement; Nous analysons pourquoi c’est le cas et proposons une procédure d’entraînement alternative qui récupère les composants plus efficacement.

Limites de généralisation affinées basées sur l’information mutuelle conditionnelle et une application aux algorithmes itératifs et bruyants

Mahdi Haghifam (Université de Toronto/Vector Institute), Jeffrey Negrea (Université de Toronto/Vector Institute), Ashish Khisti (Université de Toronto), Daniel Roy (Université de Toronto/Vector Institute), Gintare Karolina Dziugaite (Element AI)

Aucune théorie de généralisation existante pour l’algorithme de Langevin ne peut lier le comportement réel de l’algorithme à une forte performance de généralisation. En s’appuyant sur de nouvelles notions d’information mutuelle conditionnelle, nous présentons de nouvelles bornes qui produisent des bornes de généralisation non vides, même pour CIFAR10.

Complétion variationnelle d’objets amodals*

Huan Ling (Université de Toronto, NVIDIA) · David Acuña (Université de Toronto, NVIDIA) · Karsten Kreis (NVIDIA) · Seung Wook Kim (Université de Toronto) · Sanja Fidler (Vector Institute/Université de Toronto/NVIDIA)

*Recherche réalisée pour NVIDIA

Dans les images de scènes complexes, les objets s’occultent souvent les uns les autres, ce qui rend les tâches de perception comme la détection et le suivi d’objets, ou les tâches de contrôle robotique comme la planification, difficiles. Pour faciliter les tâches en aval, il est donc important de raisonner sur l’étendue complète des objets, c’est-à-dire voir derrière l’occlusion, généralement appelé complétion d’instance amodale. Dans cet article, nous proposons un cadre génératif variationnel pour la complétion amodale, appelé Amodal-VAE, qui ne nécessite aucune étiquette amodale lors de l’entraînement, puisqu’il peut utiliser des masques d’instance d’objets largement disponibles. Nous présentons notre approche sur la tâche en aval du montage de scène, où l’utilisateur dispose d’outils interactifs pour compléter et effacer des objets dans les photographies. Des expériences sur des scènes de rue complexes démontrent des performances de pointe dans la complétion amodale des masques et mettent en valeur des résultats de montage de scènes de haute qualité. Fait intéressant, une étude d’utilisateurs montre que les humains préfèrent les complétions d’objets déduites par notre modèle à celles marquées par l’humain.

Écoulement en ondelettes : entraînement rapide des écoulements de normalisation haute résolution

Jason Yu (Université York), Konstantinos Derpanis (Université Ryerson/Institut Vector), Marcus Brubaker (Université York/Institut Vector)

La normalisation des flux s’est traditionnellement limitée à la génération d’images à faible résolution en raison du coût de l’entraînement.  Nous introduisons une nouvelle méthode basée sur les ondelettes qui permet un entraînement efficace des images haute résolution.  Nous démontrons qu’il permet l’entraînement d’images haute résolution (par exemple, 1024×1024) et qu’il peut aussi accélérer considérablement l’entraînement sur des ensembles de données standard à faible résolution.  De plus, il inclut automatiquement des modèles d’images de résolution inférieure et peut effectuer une super-résolution sans travail supplémentaire grâce à la nature multi-échelle de la représentation en ondelette.

Qu’est-ce qui a mal tourné et quand? Importance des caractéristiques par instance pour les modèles boîte noire à séries temporelles

Sana Tonekaboni (Université de Toronto/Institut Vector), Shalmali Joshi (Institut Vector), Kieran Campbell (Université de la Colombie-Britannique/Institut Vector), David Duvenaud (Université de Toronto/Institut Vector), Anna Goldenberg (Institut Vector/Hôpital pour enfants malades)

Les explications des prédictions des modèles sont importantes, particulièrement dans des domaines complexes tels que la surveillance des séries temporelles dans les soins aux patients. L’explicabilité des séries temporelles est un domaine relativement peu exploré dans la littérature sur l’apprentissage automatique (ML) jusqu’à présent. Nous avons proposé un nouveau cadre pour expliquer les modèles en boîte noire en attribuant l’importance aux observations en fonction de leur influence sur la prédiction du modèle. Contrairement aux tentatives précédentes, notre approche prend en compte les dynamiques temporelles. C’est l’un des premiers travaux à explorer l’attribution des caractéristiques et l’explicabilité des modèles de séries temporelles. Nous nous attendons à ce qu’elle soit très pertinente dans le domaine des soins de santé et explorons actuellement une variété d’applications.

Les chercheurs de l’Institut Vector organisent quatre ateliers

Muslims in ML est un atelier d’affinité organisé par Marzyeh Ghassemi et ses collaborateurs. Elle mettra l’accent à la fois sur le potentiel d’avancement et sur les préjudices pour les musulmans ainsi que pour ceux dans les pays à majorité musulmane qui s’identifient religieusement, s’associent culturellement ou sont classés par proximité comme « musulmans ».

Apprentissage automatique pour la santé (ML4H) : Faire progresser les soins de santé pour tous, coorganisé par Anna Goldenberg, exposera les participants à de nouvelles questions sur l’apprentissage automatique en soins de santé, et sera incité à réfléchir à la manière dont leur travail s’inscrit dans les grands systèmes de santé.

Machine Learning and the Physical Sciences, organisé par Juan Carrasquilla, réunit des informaticiens, des mathématiciens et des physiciens intéressés à appliquer l’apprentissage automatique à divers problèmes physiques majeurs.

Talking to Strangers : Zero-Shot Emergent Communication est un atelier interactif coorganisé par Jakob Foerster. Son objectif est d’explorer les possibilités pour les agents artificiels d’évolution spontanée d’une communication ad hoc, en interagissant avec des étrangers.

Learning Meaningful Representations of Life (LMRL.org), coorganisé par Alán Aspuru-Guzik, est conçu pour rassembler des stagiaires et des experts en apprentissage automatique avec ceux qui sont aujourd’hui à l’avant-garde de la recherche biologique afin d’aider à percer les secrets des systèmes biologiques.

À lire aussi :

2026
Réflexions
Recherche
Recherche 2026

La nouvelle cartographie de l’invisible

Les femmes écrivent sur un tableau blanc. Il y a un homme à sa gauche qui regarde le tableau.
2025
Recherche
Recherche 2025

Les chercheurs en vecteurs font avancer les frontières de l’IA avec 80 articles au NeurIPS 2025

Logo vectoriel
2025
Réflexions

Une nouvelle étude révèle l’impact économique de 100 milliards de dollars de l’IA à travers le Canada, avec l’Ontario en tête