Les chercheurs de Vector présentent un large éventail d'applications d'apprentissage automatique à CVPR 2021
14 juin 2021
14 juin 2021
Par Ian Gormely
14 juin 2021
Les chercheurs de Vector se préparent une fois de plus à une conférence très active sur la vision artificielle et la reconnaissance des formes, qui se tiendra virtuellement du 19 au 25 juin. Les travaux présentés par les chercheurs de Vector lors de la conférence de cette année illustrent les nombreuses applications de l'apprentissage automatique dans des domaines tels que la santé, la sécurité et même l'industrie de la beauté.
En "LOHO : Latent Optimization of Hairstyles via Orthogonalization," Graham Taylor, membre de la faculté Vector, Florian Shkurti, affilié à la faculté Vector, et leur équipe ont utilisé un modèle génératif pour modifier une photo et montrer à quoi ressemblerait une personne avec une coiffure ou une couleur différente. L'article, fruit d'une collaboration avec Modiface, une entreprise torontoise spécialisée dans la technologie de la beauté, a réutilisé un modèle StyleGANv2 entraîné pour modifier naturellement l'apparence d'une personne sans avoir à procéder à des changements physiques.
À l'autre bout du spectre, on trouve "Extraction de modèles sans données", dans laquelle Nicolas Papernot, membre de la faculté Vecteur, et son équipe dans lequel Nicolas Papernot, membre de la faculté Vecteur, et son équipe montrent comment quelqu'un peut voler un modèle d'apprentissage automatique dont les prédictions sont le seul aspect exposé au public. Si les API d'apprentissage automatique (où le calcul est effectué par le propriétaire du modèle) sont vulnérables à de telles attaques, les applications où les prédictions sont effectuées sur l'appareil de l'utilisateur, comme une application sur un smartphone, sont particulièrement vulnérables, même sans aucune connaissance des données utilisées pour l'entraînement. Les chercheurs ont proposé une défense potentielle contre ce type de cyberattaque dans un autre article, "Dataset Inference : Ownership Resolution in Machine Learning"qui a été présenté à l'ICLR en début d'année.
Vous trouverez ci-dessous les résumés et les sommaires simplifiés de plusieurs des articles acceptés, cosignés par des membres de la faculté Vecteur.
AdvSim : Génération de scénarios critiques pour la sécurité des véhicules à conduite autonome
Jingkang Wang, Ava Pun, James Tu, Sivabalan Manivasagam, Abbas Sadat, Sergio Casas, Mengye Ren, Raquel Urtasun
Au fur et à mesure que les systèmes de conduite autonome s'améliorent, il devient de plus en plus important de simuler des scénarios dans lesquels la pile d'autonomie peut échouer. Traditionnellement, ces scénarios sont générés pour quelques scènes par rapport au module de planification qui prend en compte les états réels des acteurs. Cette méthode n'est pas adaptée et ne permet pas d'identifier toutes les défaillances possibles de l'autonomie, telles que les défaillances de perception dues à l'occlusion. Dans cet article, nous proposons AdvSim, un cadre contradictoire permettant de générer des scénarios critiques pour la sécurité de tout système d'autonomie basé sur le LiDAR. À partir d'un scénario de trafic initial, AdvSim modifie les trajectoires des acteurs d'une manière physiquement plausible et met à jour les données des capteurs LiDAR pour qu'elles correspondent au monde perturbé. Il est important de noter qu'en simulant directement à partir des données des capteurs, nous obtenons des scénarios contradictoires qui sont critiques pour la sécurité de la pile d'autonomie complète. Nos expériences montrent que notre approche est générale et qu'elle peut identifier des milliers de scénarios sémantiquement significatifs pour un large éventail de systèmes modernes de conduite autonome. En outre, nous montrons que la robustesse et la sécurité de ces systèmes peuvent être améliorées en les entraînant avec des scénarios générés par AdvSim.
Extraction de modèles sans données
Jean-Baptiste Truong, Pratyush Maini, Robert J. Walls, Nicolas Papernot
Vous vous sentez à l'abri du vol de modèle parce que votre modèle de ML résout une tâche de niche et qu'aucune donnée pertinente n'est accessible au public ? Dans nos derniers travaux sur l'extraction de modèles sans données, nous montrons que des adversaires peuvent voler votre modèle avec une connaissance ZÉRO de vos données d'apprentissage, dans un contexte de boîte noire où vous n'exposez que les prédictions du modèle au public. Nous utilisons un générateur de données synthétiques qui maximise la disparité entre les prédictions de la victime et celles de la copie volée (perte L1) par le biais d'une approximation de gradient faible utilisant des différences directes. Bien que notre travail représente une menace pour le MLaaS, il représente une menace plus importante pour les systèmes ML sur appareil - où les attaquants peuvent généralement effectuer un nombre illimité de requêtes sans coût supplémentaire.
DatasetGAN : Usine de données étiquetées efficace avec un minimum d'effort humain
Yuxuan Zhang, Huan Ling, Jun Gao, Kangxue Yin, Jean-Francois Lafleche, Adela Barriuso, Antonio Torralba, Sanja Fidler
Nous présentons DatasetGAN : une procédure automatique pour générer des ensembles massifs de données d'images segmentées sémantiquement de haute qualité nécessitant un effort humain minimal. Les réseaux profonds actuels sont extrêmement gourmands en données, bénéficiant d'un entraînement sur des ensembles de données à grande échelle, dont l'annotation prend du temps. Notre méthode s'appuie sur la puissance des GAN récents pour générer des images réalistes. Nous montrons comment le code latent du GAN peut être décodé pour produire une segmentation sémantique de l'image. L'entraînement du décodeur ne nécessite que quelques exemples étiquetés pour se généraliser au reste de l'espace latent, ce qui permet de générer une infinité d'ensembles de données annotées ! Ces ensembles de données générés peuvent ensuite être utilisés pour l'apprentissage de n'importe quelle architecture de vision par ordinateur, tout comme le sont les ensembles de données réels. Étant donné que seules quelques images doivent être segmentées manuellement, il devient possible d'annoter les images de manière extrêmement détaillée et de générer des ensembles de données avec de riches segmentations d'objets et de pièces. Pour démontrer la puissance de notre approche, nous avons généré des ensembles de données pour 7 tâches de segmentation d'images qui comprennent des étiquettes au niveau du pixel pour 34 parties de visage humain et 32 parties de voiture. Notre approche surpasse de manière significative toutes les lignes de base semi-supervisées et se situe au même niveau que les méthodes entièrement supervisées qui, dans certains cas, requièrent jusqu'à 100 fois plus de données annotées que notre méthode.
Apprentissage multi-tâches profond pour la localisation, la perception et la prédiction conjointes
John Phillips, Julieta Martinez, Ioan Andrei Bârsan, Sergio Casas, Abbas Sadat, Raquel Urtasun
Au cours des dernières années, nous avons assisté à des progrès considérables dans de nombreuses tâches secondaires de la conduite autonome, notamment la perception, la prévision des mouvements et la planification des mouvements. Cependant, ces systèmes partent souvent du principe que la voiture est localisée avec précision par rapport à une carte haute définition. Dans cet article, nous remettons en question cette hypothèse et nous étudions les problèmes qui se posent dans les systèmes d'autonomie de pointe en cas d'erreur de localisation. Sur la base de nos observations, nous concevons un système qui réalise conjointement la perception, la prédiction et la localisation. Notre architecture est capable de réutiliser les calculs entre les deux tâches, et donc de corriger efficacement les erreurs de localisation. Nous présentons des expériences sur un ensemble de données d'autonomie à grande échelle, démontrant l'efficacité et la précision de l'approche proposée.
DriveGAN : vers une simulation neuronale contrôlable de haute qualité
Seung Wook Kim, Jonah Philion, Antonio Torralba, Sanja Fidler
Les simulateurs réalistes sont essentiels pour la formation et la vérification des systèmes robotiques. Alors que la plupart des simulateurs contemporains sont fabriqués à la main, une façon évolutive de construire des simulateurs consiste à utiliser l'apprentissage automatique pour apprendre comment l'environnement se comporte en réponse à une action, directement à partir des données. Dans ce travail, nous visons à apprendre à simuler un environnement dynamique directement dans l'espace-pixel, en regardant des séquences non annotées d'images et leurs paires d'actions associées. Nous présentons un nouveau simulateur neuronal de haute qualité, appelé DriveGAN, qui permet de contrôler l'environnement en démêlant les différents composants sans supervision. En plus des commandes de direction, il comprend également des commandes pour l'échantillonnage des caractéristiques d'une scène, telles que la météo, ainsi que l'emplacement des objets non joueurs. Comme DriveGAN est un simulateur entièrement différentiable, il permet en outre de re-simuler une séquence vidéo donnée, offrant à un agent la possibilité de conduire à nouveau à travers une scène enregistrée, en effectuant éventuellement des actions différentes. Nous entraînons DriveGAN sur plusieurs ensembles de données, dont 160 heures de données de conduite réelles. Nous démontrons que notre approche surpasse largement les performances des simulateurs précédents basés sur des données, et permet de nouvelles fonctionnalités qui n'avaient pas été explorées auparavant.
Apprentissage basé sur l'énergie pour la génération de graphes de scènes
Mohammed Suhail, Abhay Mittal, Behjat Siddiquie, Chris Broaddus, Jayan Eledath, Gerard Medioni, Leonid Sigal
La compréhension du contenu d'une scène à partir d'une image est fondamentale pour de nombreuses tâches autonomes. Les travaux actuels abordent cette question en produisant des représentations graphiques dont les nœuds correspondent à des instances d'objets (par exemple, "personne", "voiture") et les arêtes à des relations fonctionnelles/constituantes (par exemple, "conduite"). Le problème est que ces méthodes ne sont conçues que pour prendre en compte la qualité des prédictions pour chaque objet ou relation individuellement. Cela conduit à des représentations de la scène qui sont souvent incohérentes (par exemple, la même personne conduisant et marchant). Nous proposons une méthode générale qui peut apprendre à évaluer de manière holistique les représentations graphiques et produire des interprétations de scènes plus précises et plus cohérentes.
GeoSim : Simulation vidéo réaliste par composition tenant compte de la géométrie pour la conduite autonome
Yun Chen, Frieda Rong, Shivam Duggal, Shenlong Wang, Xinchen Yan, Sivabalan Manivasagam, Shangjie Xue, Ersin Yumer, Raquel Urtasun
La simulation évolutive de capteurs est un problème ouvert important mais difficile à résoudre pour les domaines critiques en matière de sécurité tels que la conduite autonome. Les travaux actuels en matière de simulation d'images ne sont pas photoréalistes ou ne modélisent pas l'environnement 3D et les objets dynamiques qui s'y trouvent, perdant ainsi le contrôle de haut niveau et le réalisme physique. Dans cet article, nous présentons GeoSim, un processus de composition d'images tenant compte de la géométrie, qui synthétise de nouveaux scénarios de conduite urbaine en augmentant les images existantes avec des objets dynamiques extraits d'autres scènes et rendus dans de nouvelles poses. Pour atteindre cet objectif, nous commençons par constituer une banque d'objets 3D variés, à la géométrie et à l'apparence réalistes, à partir de données de capteurs. Pendant la simulation, nous appliquons une nouvelle procédure de simulation par composition tenant compte de la géométrie qui 1) propose des placements d'objets plausibles et réalistes dans une scène donnée, 2) restitue de nouvelles vues d'objets dynamiques à partir de la banque d'actifs, et 3) compose et mélange les segments d'images restitués. Les images synthétiques qui en résultent sont réalistes, tiennent compte du trafic et sont géométriquement cohérentes, ce qui permet à notre approche de s'adapter à des cas d'utilisation complexes. Nous démontrons deux de ces applications importantes : la simulation vidéo réaliste à longue portée à travers plusieurs capteurs de caméra, et la génération de données synthétiques pour l'augmentation des données sur les tâches de segmentation en aval. Veuillez consulter le site https://tmux.top/publication/geosim/ pour obtenir des résultats vidéo en haute résolution.
LOHO : Optimisation latente des coiffures par orthogonalisation
Rohit Saha, Brendan Duke, Florian Shkurti, Graham W. Taylor, Parham Aarabi
Vous êtes-vous déjà demandé à quoi vous ressembleriez avec une nouvelle coiffure, avant d'aller chez le coiffeur ? Avec notre méthode, LOHO, vous n'avez pas besoin d'imaginer - LOHO utilise des réseaux adversaires génératifs inversés (GAN) pour synthétiser une photo de vous avec votre nouvelle coupe de cheveux. LOHO est une approche basée sur l'optimisation qui inverse un modèle StyleGANv2 entraîné pour transférer l'apparence et le style des cheveux à partir de coiffures de référence comme celles de votre célébrité ou influenceur préféré. En utilisant LOHO pour la manipulation de l'espace latent, les utilisateurs peuvent synthétiser de nouvelles images photoréalistes en manipulant les attributs des cheveux individuellement ou conjointement. Ce travail est le fruit d'une collaboration entre l'industrie torontoise (ModiFace, une filiale de L'Oréal) et le corps enseignant et les étudiants de Vector.
Estimation monoculaire de la pose de plusieurs personnes en 3D par l'intégration de réseaux descendants et ascendants
Yu Cheng, Bo Wang, Bo Yang, Robby T. Tan
Dans l'estimation de la pose de plusieurs personnes par vidéo monoculaire en 3D, l'occlusion entre les personnes et les interactions étroites peuvent rendre la détection humaine erronée et le regroupement des articulations humaines peu fiable. Les méthodes descendantes existantes reposent sur la détection humaine et souffrent donc de ces problèmes. Les méthodes ascendantes existantes n'utilisent pas la détection humaine, mais elles traitent toutes les personnes en même temps à la même échelle, ce qui les rend sensibles aux variations d'échelle des personnes multiples. Pour relever ces défis, nous proposons d'intégrer les approches descendantes et ascendantes afin d'exploiter leurs points forts. Notre réseau descendant estime les articulations humaines de toutes les personnes au lieu d'une seule dans un patch d'image, ce qui le rend robuste aux éventuelles boîtes de délimitation erronées. Notre réseau ascendant incorpore des cartes thermiques normalisées basées sur la détection humaine, ce qui permet au réseau d'être plus robuste dans la gestion des variations d'échelle. Enfin, les poses 3D estimées par les réseaux descendants et ascendants sont introduites dans notre réseau d'intégration pour obtenir les poses 3D finales. Outre l'intégration des réseaux descendants et ascendants, contrairement aux discriminateurs de pose existants qui sont conçus uniquement pour une seule personne et ne peuvent donc pas évaluer les interactions interpersonnelles naturelles, nous proposons un discriminateur de pose pour deux personnes qui renforce les interactions naturelles entre deux personnes. Enfin, nous appliquons également une méthode semi-supervisée pour surmonter la pénurie de données de vérité de terrain en 3D. Nos évaluations quantitatives et qualitatives montrent l'efficacité de notre méthode par rapport à l'état de l'art.
MP3 : Un modèle unifié pour cartographier, percevoir, prévoir et planifier
Sergio Casas, Abbas Sadat, Raquel Urtasun
Les cartes à haute définition (cartes HD) sont un élément clé de la plupart des systèmes modernes de conduite autonome en raison des informations sémantiques et géométriques précieuses qu'elles contiennent. Malheureusement, la construction de cartes HD s'est avérée difficile à mettre à l'échelle en raison de leur coût et des exigences qu'elles imposent au système de localisation qui doit fonctionner partout avec une précision de l'ordre du centimètre. La possibilité de conduire sans carte HD serait très utile pour faire évoluer les solutions de conduite autonome et pour augmenter la tolérance aux pannes des solutions existantes (par exemple, si la localisation échoue ou si la carte n'est pas à jour). Pour atteindre cet objectif, nous proposons MP3, une approche de bout en bout de la conduite sans carte où les données d'entrée sont des données brutes de capteurs et une commande de haut niveau (par exemple, tourner à gauche à l'intersection). MP3 prédit des représentations intermédiaires sous la forme d'une carte en ligne et de l'état actuel et futur d'agents dynamiques, et les exploite dans un nouveau planificateur de mouvement neuronal pour prendre des décisions interprétables en tenant compte de l'incertitude. Nous montrons que notre approche est significativement plus sûre, plus confortable, et qu'elle peut suivre les commandes mieux que les lignes de base dans des simulations difficiles en boucle fermée à long terme, ainsi que lorsqu'elle est comparée à un conducteur expert dans un ensemble de données à grande échelle dans le monde réel.
Niveau de détail géométrique neuronal : Rendu en temps réel avec des formes 3D implicites
Towaki Takikawa, Joey Litalien, Kangxue Yin, Karsten Kreis, Charles Loop, Derek Nowrouzezahrai, Alec Jacobson, Morgan McGuire, Sanja Fidler
Les fonctions de distance signées (SDF) neuronales apparaissent comme une représentation efficace des formes 3D. Les méthodes de pointe codent généralement la FSD avec un grand réseau neuronal de taille fixe afin d'approximer les formes complexes avec des surfaces implicites. Le rendu à l'aide de ces grands réseaux est toutefois coûteux en termes de calcul, car il nécessite de nombreux passages dans le réseau pour chaque pixel, ce qui rend ces représentations impraticables pour les graphiques en temps réel. Nous présentons une représentation neuronale efficace qui, pour la première fois, permet le rendu en temps réel de SDF neuronaux de haute fidélité, tout en offrant une qualité de reconstruction géométrique de pointe. Nous représentons les surfaces implicites à l'aide d'un volume de caractéristiques basé sur les octogones qui s'adapte de manière adaptative aux formes avec plusieurs niveaux de détail discrets (LOD) et permet un LOD continu avec l'interpolation SDF. Nous développons ensuite un algorithme efficace pour rendre directement notre nouvelle représentation neuronale SDF en temps réel en interrogeant uniquement les LOD nécessaires avec un parcours d'octree clairsemé. Nous montrons que notre représentation est 2 à 3 ordres de grandeur plus efficace en termes de vitesse de rendu par rapport aux travaux précédents. En outre, elle produit une qualité de reconstruction de pointe pour les formes complexes, à la fois pour les métriques géométriques 3D et les métriques de l'espace-image 2D.
Pièces neuronales : Apprentissage d'abstractions expressives de formes 3D à l'aide de réseaux neuronaux inversables
Despoina Paschalidou, Angelos Katharopoulos, Andreas Geiger, Sanja Fidler
Les progrès impressionnants réalisés dans le domaine de l'extraction de formes 3D ont conduit à des représentations capables de capturer les géométries des objets avec une grande fidélité. Parallèlement, les méthodes basées sur les primitives cherchent à représenter les objets comme des arrangements de pièces sémantiquement cohérents. Cependant, en raison de la simplicité des représentations primitives existantes, ces méthodes ne parviennent pas à reconstruire avec précision les formes 3D en utilisant un petit nombre de primitives/pièces. Nous abordons le compromis entre la qualité de la reconstruction et le nombre de pièces avec Neural Parts, une nouvelle représentation primitive 3D qui définit les primitives à l'aide d'un réseau neuronal inversible (INN) qui met en œuvre des correspondances homéomorphes entre une sphère et l'objet cible. Le RIN nous permet de calculer le mappage inverse de l'homéomorphisme, ce qui, à son tour, permet le calcul efficace de la fonction de surface implicite d'une primitive et de son maillage, sans aucun post-traitement supplémentaire. Notre modèle apprend à analyser les objets 3D en arrangements de pièces sémantiquement cohérents sans aucune supervision au niveau des pièces. Des évaluations sur ShapeNet, D-FAUST et FreiHAND démontrent que nos primitives peuvent capturer des géométries complexes et ainsi obtenir simultanément des reconstructions géométriquement précises et interprétables en utilisant un ordre de grandeur moins de primitives que les méthodes d'abstraction de forme les plus récentes.
Permute, Quantize, and Fine-Tune : Compression efficace des réseaux neuronaux
Julieta Martinez, Jashan Shewakramani, Ting Wei Liu, Ioan Andrei Bârsan, Wenyuan Zeng, Raquel Urtasun
La compression de réseaux neuronaux de grande taille est une étape importante pour leur déploiement dans des plates-formes informatiques aux ressources limitées. Dans ce contexte, la quantification vectorielle est un cadre attrayant qui exprime plusieurs paramètres à l'aide d'un seul code et qui a récemment permis d'obtenir une compression de réseau de pointe pour une série de tâches de traitement de la vision et du langage naturel. La clé du succès de la quantification vectorielle est de décider quels groupes de paramètres doivent être compressés ensemble. Les travaux antérieurs se sont appuyés sur des heuristiques qui regroupent la dimension spatiale des filtres convolutifs individuels, mais une solution générale n'a pas encore été trouvée. Cette solution est souhaitable pour les convolutions ponctuelles (qui dominent les architectures modernes), les couches linéaires (qui n'ont aucune notion de dimension spatiale) et les convolutions (lorsque plus d'un filtre est compressé dans le même mot de code). Dans cet article, nous observons que les poids de deux couches adjacentes peuvent être permutés tout en exprimant la même fonction. Nous établissons ensuite un lien avec la théorie de la distorsion de taux et recherchons des permutations qui permettent d'obtenir des réseaux plus faciles à comprimer. Enfin, nous nous appuyons sur un algorithme de quantification recuit pour mieux comprimer le réseau et obtenir une meilleure précision finale. Nous montrons des résultats sur la classification d'images, la détection d'objets et la segmentation, réduisant l'écart avec le modèle non compressé de 40 à 70 % par rapport à l'état actuel de la technique.
S3 : Champs neuronaux de forme, de squelette et d'épiderme pour la modélisation humaine en 3D
Ze Yang, Shenlong Wang, Sivabalan Manivasagam, Zeng Huang, Wei-Chiu Ma, Xinchen Yan, Ersin Yumer, Raquel Urtasun
La construction et l'animation d'êtres humains est une composante importante de la construction de mondes virtuels dans une grande variété d'applications telles que la réalité virtuelle ou les essais robotiques en simulation. Étant donné qu'il existe un nombre exponentiel de variantes d'êtres humains avec des formes, des poses et des vêtements différents, il est essentiel de développer des méthodes permettant de reconstruire et d'animer automatiquement des êtres humains à l'échelle à partir de données du monde réel. Pour atteindre cet objectif, nous représentons la forme, la pose et les poids d'habillage du piéton sous forme de fonctions neuronales implicites directement apprises à partir des données. Cette représentation nous permet de traiter une grande variété de formes et de poses de piétons sans avoir à adapter explicitement un modèle corporel paramétrique humain, ce qui nous permet de traiter une plus grande variété de géométries et de topologies humaines. Nous démontrons l'efficacité de notre approche sur différents ensembles de données et montrons que nos reconstructions sont plus performantes que les méthodes de pointe existantes. En outre, nos expériences de réanimation montrent que nous pouvons générer des animations humaines en 3D à l'échelle à partir d'une seule image RVB (et/ou d'un balayage LiDAR optionnel).
Traduction d'images guidée par la saillance
Lai Jiang, Xiaofei Wang, Mai Xu, Leonid. Sigal
La génération d'images est l'une des tâches fondamentales de la vision. Nous proposons une nouvelle forme de cette tâche dont l'objectif est de produire une variante minimalement modifiée d'une image existante dans laquelle l'œil humain n'est attiré que par une ou plusieurs régions spécifiques, contrôlées par l'utilisateur. Prenons l'exemple d'une personne prise en photo à l'extérieur. Outre la personne, l'image peut contenir d'autres objets d'arrière-plan ou de premier plan (par exemple, des voitures, des motos) qui détournent l'attention de l'observateur. L'approche proposée, compte tenu d'une entrée spécifiant qu'une personne doit être un objet focal, apprendrait diverses stratégies de manipulation d'image (par exemple, suppression, flou, atténuation des couleurs) afin de rendre les autres régions destructrices moins distinctives.
SceneGen : Apprendre à générer des scènes de trafic réalistes
Shuhan Tan, Kelvin Wong, Shenlong Wang, Sivabalan Manivasagam, Mengye Ren, Raquel Urtasun
Nous nous penchons sur le problème de la génération automatique de scènes de trafic réalistes. Les méthodes existantes insèrent généralement des acteurs dans la scène en fonction d'un ensemble d'heuristiques élaborées à la main et sont limitées dans leur capacité à modéliser la complexité et la diversité réelles des scènes de trafic, ce qui induit un écart de contenu entre les scènes de trafic synthétisées et les scènes réelles. Par conséquent, les simulateurs existants n'ont pas la fidélité nécessaire pour former et tester les véhicules autonomes. Pour remédier à cette limitation, nous présentons SceneGen, un modèle neuronal autorégressif de scènes de trafic qui évite de recourir à des règles et à des heuristiques. En particulier, étant donné l'état de l'ego-véhicule et une carte haute définition de la zone environnante, SceneGen insère des acteurs de différentes classes dans la scène et synthétise leurs tailles, orientations et vitesses. Nous démontrons sur deux ensembles de données à grande échelle la capacité de SceneGen à modéliser fidèlement les distributions de scènes de trafic réelles. En outre, nous montrons que SceneGen, couplé à la simulation de capteurs, peut être utilisé pour former des modèles de perception qui se généralisent au monde réel.
Prédiction auto-supervisée simultanée et multi-étapes de la dynamique routière et de la carte des coûts
Elmira Amirloo, Mohsen Rohani, Ershad Banijamali, Jun Luo, Pascal Poupart
Alors que l'apprentissage supervisé est largement utilisé pour les modules de perception dans les solutions conventionnelles de conduite autonome, l'évolutivité est entravée par l'énorme quantité de données à étiqueter. En revanche, si les architectures de bout en bout ne nécessitent pas de données étiquetées et sont potentiellement plus évolutives, l'interprétabilité est sacrifiée. Nous présentons une nouvelle architecture qui est entraînée de manière entièrement autosupervisée pour la prédiction simultanée en plusieurs étapes de la carte des coûts spatio-temporels et de la dynamique de la route.
Segmentation sémantique avec des modèles génératifs : Apprentissage semi-supervisé et forte généralisation hors domaine
Daiqing Li, Junlin Yang, Karsten Kreis, Antonio Torralba, Sanja Fidler
La formation de réseaux profonds avec un nombre limité de données étiquetées tout en obtenant une forte capacité de généralisation est essentielle pour réduire les efforts d'annotation humaine. C'est l'objectif de l'apprentissage semi-supervisé, qui exploite des données non étiquetées plus largement disponibles pour compléter de petits ensembles de données étiquetées. Dans cet article, nous proposons un nouveau cadre pour les tâches discriminatoires au niveau du pixel en utilisant un modèle génératif des images et des étiquettes. Concrètement, nous apprenons un réseau accusatoire génératif qui capture la distribution conjointe des images et des étiquettes et qui est entraîné efficacement en utilisant un grand ensemble d'images non étiquetées complété par seulement quelques images étiquetées. Nous construisons notre architecture sur StyleGAN2, augmentée d'une branche de synthèse d'étiquettes. L'étiquetage des images au moment du test est réalisé en intégrant d'abord l'image cible dans l'espace latent commun via un réseau d'encodeurs et une optimisation au moment du test, puis en générant l'étiquette à partir de l'intégration déduite. Nous évaluons notre approche dans deux domaines importants : la segmentation d'images médicales et la segmentation de visages basée sur les parties. Nous démontrons une forte performance dans le domaine par rapport à plusieurs lignes de base, et nous sommes les premiers à montrer une généralisation extrême hors domaine, comme le transfert du CT à l'IRM dans l'imagerie médicale, et des photographies de visages réels aux peintures, sculptures, et même aux dessins animés et aux visages d'animaux. Page du projet.
SSTVOS : Transformateurs spatiotemporels épars pour la segmentation d'objets vidéo
Brendan Duke, Abdalla Ahmed, Christian Wolf, Parham Aarabi, Graham W. Taylor
Comment un algorithme d'apprentissage automatique peut-il suivre des objets dans l'espace et le temps ? SSTVOS peut suivre chaque objet d'une scène en avant et en arrière dans le temps en prédisant une silhouette de chaque objet appelée "masque". Ces masques sont utiles dans des applications telles que la rotoscopie pour les effets visuels dans les longs métrages, le résumé vidéo et la compression vidéo HD. SSTVOS inspecte chaque pixel d'une vidéo et recherche des pixels similaires dans le reste de la vidéo à l'aide d'un processus appelé "attention". L'attention produit un ensemble de scores qui indiquent le degré de similitude de chaque pixel avec les autres pixels de la vidéo. SSTVOS agrège ensuite les scores d'attention obtenus pour prédire le mouvement de chaque objet dans le temps. Ce travail est le fruit d'une collaboration internationale entre des chercheurs canadiens (Institut Vector, Université de Guelph) et français (Institut national des sciences appliquées de Lyon) et un partenaire industriel, ModiFace (filiale de L'Oréal).
Vers de bonnes pratiques pour l'annotation efficace d'ensembles de données de classification d'images à grande échelle
Yuan-Hong Liao, Amlan Kar, Sanja Fidler
Les données sont le moteur de la vision par ordinateur moderne, ce qui nécessite la collecte d'ensembles de données à grande échelle. Cela coûte cher et garantir la qualité des étiquettes est un défi majeur. Dans cet article, nous étudions des stratégies d'annotation efficaces pour collecter des étiquettes de classification multi-classes pour une grande collection d'images. Bien qu'il existe des méthodes qui exploitent des modèles appris pour l'étiquetage, une approche étonnamment répandue consiste à demander aux humains un nombre fixe d'étiquettes par donnée et à les agréger, ce qui est coûteux. En s'appuyant sur des travaux antérieurs sur la modélisation probabiliste conjointe en ligne des annotations humaines et des croyances générées par la machine, nous proposons des modifications et des meilleures pratiques visant à minimiser l'effort d'étiquetage humain. Plus précisément, nous utilisons les progrès de l'apprentissage auto-supervisé, nous considérons l'annotation comme un problème d'apprentissage semi-supervisé, nous identifions et atténuons les pièges et nous supprimons plusieurs choix de conception clés afin de proposer des lignes directrices efficaces pour l'étiquetage. Notre analyse est effectuée dans une simulation plus réaliste qui implique l'interrogation d'étiqueteurs humains, ce qui met en évidence les problèmes liés à l'évaluation à l'aide des méthodes de simulation de travailleurs existantes. Des expériences simulées sur un sous-ensemble de 125 000 images de l'ImageNet100 montrent qu'il peut être annoté avec une précision top-1 de 80 % avec 0,35 annotations par image en moyenne, soit une amélioration de 2,7x et 6,7x par rapport aux travaux antérieurs et à l'annotation manuelle, respectivement. Page du projet : cette URL https
Vers un modèle de classification robuste par la génération de données contrefactuelles et invariantes
Chun-Hao Chang, George Alexandru Adam, Anna Goldenberg
Qu'est-ce qui fait qu'une image est étiquetée comme étant un chat ? Qu'est-ce qui fait qu'un médecin pense qu'il y a une tumeur dans un scanner ? Ces questions sont intrinsèquement causales, mais les modèles typiques d'apprentissage automatique s'appuient sur des associations plutôt que sur des liens de causalité. C'est pourquoi des problèmes tels que l'équité, le manque de robustesse et la discrimination se posent dans de nombreux domaines de l'apprentissage automatique. Dans cet article, nous avons incorporé des connaissances causales humaines dans les modèles d'apprentissage automatique et montré que nos modèles conservent une grande précision lorsque l'environnement change. Cet aspect est crucial pour que les modèles puissent être transférés dans des environnements différents, par exemple dans différents sites hospitaliers pour les applications médicales.
TrafficSim : Apprendre à simuler des comportements multi-agents réalistes
Simon Suo, Sebastian Regalado, Sergio Casas, Raquel Urtasun
La simulation a le potentiel d'évaluer massivement les systèmes de conduite autonome, permettant un développement rapide ainsi qu'un déploiement sûr. Pour combler le fossé entre la simulation et le monde réel, nous devons simuler des comportements multi-agents réalistes. Les environnements de simulation existants reposent sur des modèles heuristiques qui encodent directement les règles de circulation, ce qui ne permet pas d'appréhender les manœuvres irrégulières (par exemple, les coups de coude, les demi-tours) et les interactions complexes (par exemple, céder le passage, fusionner). En revanche, nous tirons parti des données du monde réel pour apprendre directement à partir de démonstrations humaines et saisir ainsi un ensemble plus diversifié de comportements d'acteurs. À cette fin, nous proposons TrafficSim, un modèle de comportement multi-agents pour la simulation réaliste du trafic. En particulier, nous nous appuyons sur un modèle de variable latente implicite pour paramétrer une politique d'acteur conjointe qui génère des plans socialement cohérents pour tous les acteurs de la scène conjointement. Pour apprendre une politique robuste adaptée à la simulation à long terme, nous déroulons la politique lors de l'apprentissage et l'optimisons par le biais de la simulation entièrement différentiable dans le temps. Notre objectif d'apprentissage intègre à la fois les démonstrations humaines et le bon sens. Nous montrons que TrafficSim génère des scénarios de trafic significativement plus réalistes et diversifiés par rapport à un ensemble varié de lignes de base. Notamment, nous pouvons exploiter les trajectoires générées par TrafficSim comme une augmentation efficace des données pour la formation d'un meilleur planificateur de mouvement.
UniT : Unified Knowledge Transfer for Any-shot Object Detection and Segmentation (Transfert de connaissances unifié pour la détection et la segmentation d'objets à tout moment)
Siddhesh Khandelwal, Raghav Goyal, Leonid Sigal
L'identification d'objets dans une image nécessite souvent l'accès à d'abondantes données étiquetées, dont l'obtention est longue et coûteuse. Il est donc souhaitable de détecter et de segmenter des objets à partir d'images peu ou pas étiquetées. Nous avons développé une approche intuitive qui transfère les connaissances des objets avec de nombreuses données étiquetées vers les objets peu étiquetés. Pour ce faire, nous tirons parti des similitudes linguistiques et visuelles entre ces types d'objets. Par exemple, si l'objet "oiseau" est peu étiqueté, il est détecté en utilisant la capacité d'un réseau neuronal à identifier les objets abondamment étiquetés "chat" (linguistiquement similaire ; animaux) et "avion" (visuellement similaire).