Vector Researchers présente des applications d’apprentissage automatique variées lors du CVPR 2021
14 juin 2021
14 juin 2021
Par Ian Gormely
14 juin 2021
Les chercheurs en vecteurs se préparent à nouveau pour une conférence très chargée sur la vision par ordinateur et la reconnaissance de motifs, qui se tiendra virtuellement du 19 au 25 juin. Les travaux présentés par les chercheurs de Vector lors de la conférence de cette année mettent en lumière les applications étendues de l’apprentissage automatique dans des domaines tels que la santé, la sécurité et même l’industrie de la beauté.
Dans « LOHO : Latent Optimization of Hairstyles via Orthogonalization », Graham Taylor, membre du corps professoral de Vector, Florian Shkurti, affilié à Vector et leur équipe ont utilisé un modèle génératif pour modifier une photo et montrer à quoi ressemblerait quelqu’un avec une coiffure ou une couleur différente. Le journal, fruit d’une collaboration avec la société torontoise de technologie de beauté Modiface, a réutilisé un modèle StyleGANv2 entraîné pour changer naturellement l’apparence d’une personne sans avoir à effectuer de changements physiques.
À l’autre extrémité du spectre se trouve « Data-Free Model Extraction », dans laquelle le professeur de Vector Nicolas Papernot et son équipe montrent comment quelqu’un peut voler un modèle d’apprentissage automatique dont les prédictions sont le seul aspect exposé au public. Alors que les API d’apprentissage automatique (où le calcul est effectué du côté du propriétaire du modèle) sont vulnérables à de telles attaques, les applications où les prédictions sont effectuées sur l’appareil de l’utilisateur, comme une application sur un téléphone intelligent, sont particulièrement vulnérables, même sans connaissance des données utilisées pour l’entraîner. Les chercheurs ont proposé une défense potentielle contre ce type de cyberattaque dans un autre article, « Dataset Inference : Ownership Resolution in Machine Learning », présenté à l’ICLR plus tôt cette année.
Vous trouverez ci-dessous des résumés et des résumés simplifiés de plusieurs des articles acceptés coécrits par les membres du corps professoral de Vector.
AdvSim : Génération de scénarios critiques pour la sécurité des véhicules autonomes
Jingkang Wang, Ava Pun, James Tu, Sivabalan Manivasagam, Abbas Sadat, Sergio Casas, Mengye Ren, Raquel Urtasun
À mesure que les systèmes de conduite autonome s’améliorent, simuler des scénarios où la pile d’autonomie pourrait échouer devient plus important. Traditionnellement, ces scénarios sont générés pour quelques scènes par rapport au module de planification qui prend en entrée des états d’acteur basés sur le terrain. Cela ne s’étend pas et ne peut pas identifier toutes les défaillances possibles d’autonomie, comme les défaillances de perception dues à l’occlusion. Dans cet article, nous proposons AdvSim, un cadre adversarial pour générer des scénarios critiques pour la sécurité de tout système d’autonomie basé sur le LiDAR. Étant donné un scénario initial de trafic, AdvSim modifie les trajectoires des acteurs de manière physiquement plausible et met à jour les données du capteur LiDAR pour correspondre au monde perturbé. Il est important de souligner qu’en simulant directement à partir de données de capteurs, nous obtenons des scénarios adversaires critiques pour la sécurité de la pile d’autonomie complète. Nos expériences démontrent que notre approche est générale et peut identifier des milliers de scénarios critiques pour la sécurité sémantiquement significatifs pour une large gamme de systèmes modernes de conduite autonome. De plus, nous démontrons que la robustesse et la sécurité de ces systèmes peuvent être encore améliorées en les entraînant avec des scénarios générés par AdvSim.
Extraction de modèles sans données
Jean-Baptiste Truong, Pratyush Maini, Robert J. Walls, Nicolas Papernot
Vous vous sentez en sécurité contre le vol de modèle parce que votre modèle d’apprentissage automatique résout une tâche de niche et qu’aucune donnée pertinente n’est accessible publiquement? Dans nos travaux les plus récents sur « Extraction de modèles sans données », nous montrons que les adversaires peuvent voler votre modèle sans AUCUNE connaissance de vos données d’entraînement, dans un contexte boîte noire où vous n’exposez que les prédictions du modèle au public. Nous utilisons un générateur de données synthétiques qui maximise l’écart entre les prédictions de la victime et de la copie volée (perte L1) via une approximation de gradient faible à partir de différences directes. Bien que notre travail représente une menace pour MLaaS, il représente une menace plus grande pour les systèmes de ML embarqués — où les attaquants peuvent généralement effectuer un nombre illimité de requêtes sans coût supplémentaire.
DatasetGAN : Usine de données étiquetées efficaces avec un minimum d’effort humain
Yuxuan Zhang, Huan Ling, Jun Gao, Kangxue Yin, Jean-François Lafleche, Adela Barriuso, Antonio Torralba, Sanja Fidler
Nous introduisons DatasetGAN : une procédure automatique pour générer d’énormes ensembles de données d’images segmentées sémantiquement de haute qualité, nécessitant un effort humain minimal. Les réseaux profonds actuels sont extrêmement gourmands en données, bénéficiant de l’entraînement sur des ensembles de données à grande échelle, qui prennent du temps à annoter. Notre méthode repose sur la puissance des GAN récents pour générer des images réalistes. Nous montrons comment le code latent GAN peut être décodé pour produire une segmentation sémantique de l’image. L’entraînement du décodeur ne nécessite que quelques exemples identifiés pour généraliser au reste de l’espace latent, ce qui donne un générateur de jeux de données annoté infini! Ces ensembles de données générés peuvent ensuite être utilisés pour entraîner n’importe quelle architecture de vision par ordinateur, tout comme les jeux de données réels. Comme seules quelques images doivent être segmentées manuellement, il devient possible d’annoter des images en détail extrême et de générer des ensembles de données avec des segmentations riches d’objets et de pièces. Pour démontrer la puissance de notre approche, nous avons généré des ensembles de données pour 7 tâches de segmentation d’images, incluant des labels au niveau des pixels pour 34 parties du visage humain et 32 pièces de voiture. Notre approche surpasse largement toutes les références semi-supervisées et est comparable à celle des méthodes entièrement supervisées, qui dans certains cas nécessitent jusqu’à 100 fois plus de données annotées que notre méthode.
Apprentissage multitâche profond pour la localisation, la perception et la prédiction conjointes
John Phillips, Julieta Martinez, Ioan Andrei Bârsan, Sergio Casas, Abbas Sadat, Raquel Urtasun
Au cours des dernières années, nous avons constaté d’énormes progrès dans de nombreuses sous-tâches de la conduite autonome, notamment la perception, la prévision des mouvements et la planification des mouvements. Cependant, ces systèmes supposent souvent que la voiture est précisément localisée par rapport à une carte haute définition. Dans cet article, nous remettons en question cette hypothèse et étudions les problèmes qui surviennent dans les stacks d’autonomie à la fine pointe de la technologie en cas d’erreur de localisation. Sur la base de nos observations, nous concevons un système qui effectue conjointement la perception, la prédiction et la localisation. Notre architecture est capable de réutiliser le calcul entre les deux tâches, ce qui permet de corriger efficacement les erreurs de localisation. Nous présentons des expériences sur un ensemble de données d’autonomie à grande échelle, démontrant l’efficacité et la précision de notre approche proposée.
DriveGAN : Vers une simulation neuronale de haute qualité contrôlable
Seung Wook Kim, Jonah Philion, Antonio Torralba, Sanja Fidler
Les simulateurs réalistes sont essentiels pour l’entraînement et la vérification des systèmes robotiques. Bien que la plupart des simulateurs contemporains soient faits à la main, une façon évolutive de construire des simulateurs est d’utiliser l’apprentissage automatique pour apprendre comment l’environnement se comporte en réponse à une action, directement à partir des données. Dans ce travail, nous visons à apprendre à simuler un environnement dynamique directement dans l’espace des pixels, en observant des séquences non annotées de trames et leurs paires d’actions associées. Nous introduisons un simulateur neuronal de haute qualité inédit appelé DriveGAN, qui atteint la contrôlabilité en démêlant différents composants sans supervision. En plus des commandes de direction, il inclut aussi des contrôles pour échantillonner des éléments d’une scène, comme la météo ainsi que l’emplacement des objets non joueurs. Puisque DriveGAN est un simulateur entièrement différenciable, il permet en plus de re-simuler une séquence vidéo donnée, offrant à un agent de parcourir à nouveau une scène enregistrée, possiblement en effectuant différentes actions. Nous entraînons DriveGAN sur plusieurs ensembles de données, incluant 160 heures de données de conduite réelles. Nous démontrons que notre approche surpasse largement les performances des simulateurs axés sur les données précédents et permet de nouvelles fonctionnalités jamais explorées auparavant.
Apprentissage basé sur l’énergie pour la génération de graphes de scène
Mohammed Suhail, Abhay Mittal, Behjat Siddiquie, Chris Broaddus, Jayan Eledath, Gerard Medioni, Leonid Sigal
Comprendre le contenu de la scène à partir d’une image est fondamental pour de nombreuses tâches autonomes. Les travaux actuels abordent cela en produisant des représentations de graphes avec des nœuds correspondant aux instances d’objets (par exemple, « personne », « voiture ») et des arêtes aux relations fonctionnelles/constituants (par exemple, « conduite »). Le problème, c’est que ces méthodes ne sont conçues que pour considérer à quel point les prédictions sont faites individuellement pour chaque objet ou relation. Cela mène à des représentations de scènes souvent incohérentes (par exemple, la même personne conduisant et marchant). Nous proposons une méthode générale qui permet d’apprendre à évaluer globalement les représentations de graphes et à produire des interprétations de scènes plus précises et cohérentes.
GeoSim : Simulation vidéo réaliste via composition géométrique pour conduite autonome
Yun Chen, Frieda Rong, Shivam Duggal, Shenlong Wang, Xinchen Yan, Sivabalan Manivasagam, Shangjie Xue, Ersin Yumer, Raquel Urtasun
La simulation évolutive des capteurs est un problème ouvert important mais complexe pour des domaines critiques pour la sécurité, comme la conduite autonome. Les travaux actuels en simulation d’images ne sont soit pas photoréalistes, soit ne modélisent pas l’environnement 3D et les objets dynamiques à l’intérieur, perdant ainsi un contrôle de haut niveau et un réalisme physique. Dans cet article, nous présentons GeoSim, un processus de composition d’images conscient de la géométrie qui synthétise de nouveaux scénarios de conduite urbaine en complétant les images existantes avec des objets dynamiques extraits d’autres scènes et rendus dans des poses inédites. Dans ce but, nous construisons d’abord une banque diversifiée d’objets 3D avec une géométrie et une apparence réalistes à partir des données de capteurs. Pendant la simulation, nous réalisons une nouvelle procédure de simulation par composition consciente de la géométrie qui 1) propose des placements d’objets plausibles et réalistes dans une scène donnée, 2) rend de nouvelles vues d’objets dynamiques à partir de la banque d’actifs, et 3) compose et mélange les segments d’image rendus. Les images synthétiques résultantes sont réalistes, conscientes du trafic et géométriquement cohérentes, ce qui permet à notre approche d’adapter à des cas d’usage complexes. Nous démontrons deux applications importantes : la simulation vidéo réaliste à longue portée à travers plusieurs capteurs de caméra, et la génération de données synthétiques pour l’augmentation des données lors des tâches de segmentation en aval. Veuillez vérifier https://tmux.top/publication/geosim/ pour les résultats vidéo en haute résolution.
LOHO : Optimisation latente des coiffures via orthogonalisation
Rohit Saha, Brendan Duke, Florian Shkurti, Graham W. Taylor, Parham Aarabi
Vous êtes-vous déjà demandé à quoi vous ressembleriez avec une nouvelle coiffure avant d’aller au salon de coiffure? Avec notre méthode, LOHO, vous n’avez pas à imaginer — LOHO utilise des réseaux antagonistes génératifs inversés (GAN) pour synthétiser une photo de vous avec votre nouvelle coupe de cheveux. LOHO est une approche basée sur l’optimisation qui inverse un modèle StyleGANv2 entraîné pour transférer l’apparence et le style des cheveux à partir de coiffures de référence comme celles de votre célébrité ou influenceuse préférée. En utilisant LOHO pour la manipulation de l’espace latent, les utilisateurs peuvent synthétiser de nouvelles images photoréalistes en manipulant les attributs des cheveux, individuellement ou conjointement. Ce travail est une collaboration entre une industrie basée à Toronto (ModiFace, une filiale de L’Oréal) et des professeurs et étudiants de Vector.
Estimation monoculaire 3D de la pose multi-personne en intégrant des réseaux descendants et ascendants
Yu Cheng, Bo Wang, Bo Yang, Robby T. Tan
Dans la vidéo monoculaire, l’estimation 3D de la pose multi-personne, l’occlusion inter-personne et les interactions rapprochées peuvent rendre la détection humaine erronée et le regroupement articulaire humain-humain peu fiable. Les méthodes descendantes existantes reposent sur la détection humaine et souffrent donc de ces problèmes. Les méthodes ascendantes existantes n’utilisent pas la détection humaine, mais elles traitent toutes les personnes simultanément à la même échelle, ce qui les rend sensibles aux variations d’échelle entre plusieurs personnes. Pour relever ces défis, nous proposons l’intégration des approches descendantes et ascendantes afin d’exploiter leurs forces. Notre réseau descendant estime les articulations humaines de toutes les personnes au lieu d’une seule dans un patch d’image, ce qui le rend robuste face à d’éventuelles boîtes englobantes erronées. Notre réseau ascendant intègre des cartes thermiques normalisées basées sur la détection humaine, ce qui permet au réseau d’être plus robuste dans la gestion des variations d’échelle. Enfin, les poses 3D estimées des réseaux descendants et ascendants sont intégrées à notre réseau d’intégration pour les poses 3D finales. Outre l’intégration des réseaux descendants et ascendants, contrairement aux discriminateurs de posture existants conçus uniquement pour une seule personne et qui ne peuvent donc pas évaluer les interactions interpersonnelles naturelles, nous proposons un discriminateur de pose à deux personnes qui impose des interactions naturelles à deux. Enfin, nous appliquons aussi une méthode semi-supervisée pour surmonter la rareté des données 3D sur le terrain. Nos évaluations quantitatives et qualitatives démontrent l’efficacité de notre méthode comparée aux références de pointe.
MP3 : Un modèle unifié pour cartographier, percevoir, prédire et planifier
Sergio Casas, Abbas Sadat, Raquel Urtasun
Les cartes haute définition (cartes HD) sont un élément clé de la plupart des systèmes modernes de conduite autonome en raison de leur précieuse information sémantique et géométrique. Malheureusement, la création de cartes HD s’est avérée difficile à mettre à l’échelle en raison de leur coût ainsi que des exigences imposées dans le système de localisation, qui doit fonctionner partout avec une précision au niveau du centimètre. Pouvoir conduire sans carte HD serait très bénéfique pour mettre à l’échelle des solutions autonomes ainsi que pour augmenter la tolérance aux pannes des solutions existantes (par exemple, si la localisation échoue ou si la carte n’est pas à jour). Dans ce but, nous proposons MP3, une approche de bout en bout pour la conduite sans carte où l’entrée est constituée de données brutes du capteur et d’une commande de haut niveau (par exemple, tournez à gauche à l’intersection). MP3 prédit des représentations intermédiaires sous forme de carte en ligne ainsi que l’état actuel et futur des agents dynamiques, et les exploite dans un nouveau planificateur de mouvement neuronal pour prendre des décisions interprétables en tenant compte de l’incertitude. Nous démontrons que notre approche est nettement plus sûre, plus confortable, et que nous pouvons mieux suivre les commandes que les lignes de base dans des simulations complexes à long terme en boucle fermée, ainsi qu’en comparaison avec un pilote expert dans un ensemble de données réelle à grande échelle.
Niveau de détail géométrique neuronal : rendu en temps réel avec des formes 3D implicites
Towaki Takikawa, Joey Litalien, Kangxue Yin, Karsten Kreis, Charles Loop, Derek Nowrouzezahrai, Alec Jacobson, Morgan McGuire, Sanja Fidler
Les fonctions de distance signées neuronales (SDF) émergent comme une représentation efficace des formes 3D. Les méthodes de pointe encodent généralement la SDF avec un grand réseau neuronal de taille fixe pour approximer des formes complexes avec des surfaces implicites. Le rendu avec ces grands réseaux est cependant coûteux en calcul, car il nécessite de nombreux passages avant à travers le réseau pour chaque pixel, ce qui rend ces représentations peu pratiques pour les graphiques en temps réel. Nous introduisons une représentation neuronale efficace qui, pour la première fois, permet le rendu en temps réel de SDF neuronaux haute fidélité, tout en offrant une qualité de reconstruction géométrique à la fine pointe de la technologie. Nous représentons des surfaces implicites à l’aide d’un volume de caractéristiques basé sur octree, qui ajuste de façon adaptative des formes avec plusieurs niveaux de détail discrets (LOD), et permet un LOD continu avec interpolation SDF. Nous développons également un algorithme efficace pour rendre directement notre nouvelle représentation neuronale SDF en temps réel en interrogeant uniquement les LOD nécessaires avec une traversée octree clairsemée. Nous montrons que notre représentation est 2 à 3 ordres de grandeur plus efficace en termes de vitesse de rendu comparée aux travaux précédents. De plus, il produit une qualité de reconstruction de pointe pour des formes complexes sous des métriques géométriques 3D et 2D en espace image.
Parties neuronales : apprendre des abstractions expressives de formes 3D avec des réseaux neuronaux inversibles
Despoina Paschalidou, Angelos Katharopoulos, Andreas Geiger, Sanja Fidler
Des progrès impressionnants dans l’extraction de formes 3D ont conduit à des représentations capables de capturer la géométrie des objets avec une grande fidélité. Parallèlement, les méthodes basées sur les primitives cherchent à représenter les objets comme des arrangements de parties sémantiquement cohérents. Cependant, en raison de la simplicité des représentations primitives existantes, ces méthodes ne parviennent pas à reconstruire avec précision les formes 3D en utilisant un petit nombre de primitives/parties. Nous abordons le compromis entre la qualité de la reconstruction et le nombre de parties avec Neural Parts, une nouvelle représentation primitive 3D qui définit des primitives à l’aide d’un réseau neuronal inversible (INN) qui implémente des applications homéomorphes entre une sphère et l’objet cible. L’INN nous permet de calculer l’application inverse de l’homéomorphisme, ce qui, à son tour, permet le calcul efficace à la fois de la fonction de surface implicite d’une primitive et de son maillé, sans aucun post-traitement supplémentaire. Notre modèle apprend à analyser des objets 3D en agencements sémantiquement cohérents des pièces, sans aucune supervision au niveau des pièces. Des évaluations sur ShapeNet, D-FAUST et FreiHAND démontrent que nos primitives peuvent capturer des géométries complexes et ainsi obtenir simultanément des reconstructions géométriquement précises ainsi que interprétables en utilisant un ordre de grandeur moins de primitives que les méthodes d’abstraction de forme à la fine pointe.
Permuter, quantifier et ajuster finement : Compression efficace des réseaux de neurones
Julieta Martinez, Jashan Shewakramani, Ting Wei Liu, Ioan Andrei Bârsan, Wenyuan Zeng, Raquel Urtasun
La compression de grands réseaux neuronaux est une étape importante pour leur déploiement sur des plateformes de calcul à ressources limitées. Dans ce contexte, la quantification vectorielle est un cadre attrayant qui exprime plusieurs paramètres à l’aide d’un seul code, et qui a récemment atteint une compression réseau de pointe sur une gamme de tâches de vision centrale et de traitement du langage naturel. La clé du succès de la quantification vectorielle est de décider quels groupes de paramètres doivent être compressés ensemble. Des travaux antérieurs se sont appuyés sur des heuristiques qui regroupent la dimension spatiale des filtres convolutionnels individuels, mais une solution générale reste non abordée. Cela est souhaitable pour les convolutions ponctuelles (qui dominent les architectures modernes), les couches linéaires (qui n’ont pas de notion de dimension spatiale) et les convolutions (lorsque plusieurs filtres sont compressés dans le même mot-code). Dans cet article, nous faisons l’observation que les poids de deux couches adjacentes peuvent être permutés tout en exprimant la même fonction. Nous établissons ensuite un lien avec la théorie de la distorsion du taux et recherchons des permutations qui aboutissent à des réseaux plus faciles à compresser. Enfin, nous nous appuyons sur un algorithme de quantification recuit pour mieux comprimer le réseau et obtenir une précision finale plus élevée. Nous présentons des résultats sur la classification des images, la détection d’objets et la segmentation, réduisant l’écart avec le modèle non compressé de 40 à 70% par rapport à l’état actuel de l’art.
S3 : Formes neuronales, champs de squelette et de skinning pour la modélisation humaine 3D
Ze Yang, Shenlong Wang, Sivabalan Manivasagam, Zeng Huang, Wei-Chiu Ma, Xinchen Yan, Ersin Yumer, Raquel Urtasun
Construire et animer des humains est un élément important pour bâtir des mondes virtuels dans une grande variété d’applications telles que la réalité virtuelle ou les tests robotiques en simulation. Comme il existe de nombreuses variations d’humains avec différentes formes, postures et vêtements, il est crucial de développer des méthodes capables de reconstruire et d’animer automatiquement des humains à grande échelle à partir de données réelles. Dans ce but, nous représentons la forme, la posture et les poids de skinning du piéton comme des fonctions neuronales implicites qui sont directement apprises à partir des données. Cette représentation nous permet de manipuler une grande variété de formes et de poses de piétons sans avoir à ajuster explicitement un modèle de corps paramétrique humain, ce qui nous permet de gérer une gamme plus large de géométries et de topologies humaines. Nous démontrons l’efficacité de notre approche sur divers ensembles de données et démontrons que nos reconstructions surpassent les méthodes de pointe existantes. De plus, nos expériences de réanimation montrent que nous pouvons générer des animations humaines 3D à grande échelle à partir d’une seule image RVB (et/ou d’un balayage LiDAR optionnel) en entrée.
Traduction d’images guidée par la saillance
Lai Jiang, Xiaofei Wang, Mai Xu, Leonid. Sigal
Générer des images est l’une des tâches fondamentales de la vision. Nous proposons une nouvelle forme de cette tâche où l’objectif est de produire une variante minimalement modifiée d’une image existante, dans laquelle l’œil humain est attiré uniquement par une ou plusieurs régions spécifiques, contrôlées par l’utilisateur. Envisagez de prendre une photo d’une personne à l’extérieur. En plus de la personne, l’image peut contenir d’autres objets en arrière-plan ou au premier plan (par exemple, des voitures, des motos) qui détournent l’attention du spectateur. L’approche proposée, avec un input précisant qu’une personne doit être un objet focal, apprendrait diverses stratégies de manipulation d’image (par exemple, suppression, flouage, fondu des couleurs) pour rendre les régions destructrices restantes moins distinctives.
SceneGen : Apprendre à générer des scènes de circulation réalistes
Shuhan Tan, Kelvin Wong, Shenlong Wang, Sivabalan Manivasagam, Mengye Ren, Raquel Urtasun
Nous considérons le problème de générer automatiquement des scènes de circulation réalistes. Les méthodes existantes insèrent généralement des acteurs dans la scène selon un ensemble d’heuristiques élaborées à la main et sont limitées dans leur capacité à modéliser la véritable complexité et diversité des scènes de circulation réelles, induisant ainsi un écart de contenu entre les scènes de circulation synthétisées et les scènes réelles. En conséquence, les simulateurs existants manquent de la fidélité nécessaire pour entraîner et tester les véhicules autonomes. Pour remédier à cette limitation, nous présentons SceneGen, un modèle autorégressif neural des scènes de circulation qui évite le besoin de règles et d’heuristiques. En particulier, étant donné l’état ego-véhicule et une carte haute définition de la zone environnante, SceneGen insère des acteurs de différentes classes dans la scène et synthétise leurs tailles, orientations et vitesses. Nous démontrons, sur deux ensembles de données à grande échelle, la capacité de SceneGen à modéliser fidèlement les distributions de scènes de circulation réelles. De plus, nous montrons que SceneGen, couplé à la simulation des capteurs, peut être utilisé pour entraîner des modèles de perception qui se généralisent au monde réel.
Prédiction simultanée auto-supervisée en plusieurs étapes de la dynamique routière et de la carte des coûts
Elmira Amirloo, Mohsen Rohani, Ershad Banijamali, Jun Luo, Pascal Poupart
Bien que l’apprentissage supervisé soit largement utilisé pour les modules de perception dans les solutions de conduite autonome conventionnelles, la scalabilité est limitée par la grande quantité d’étiquetage des données nécessaire. En revanche, bien que les architectures de bout en bout ne nécessitent pas de données étiquetées et soient potentiellement plus évolutives, l’interprétabilité est sacrifiée. Nous introduisons une architecture novatrice entraînée de manière entièrement auto-supervisée pour la prédiction simultanée en plusieurs étapes de la carte des coûts espace-temps et de la dynamique routière.
Segmentation sémantique avec modèles génératifs : apprentissage semi-supervisé et forte généralisation hors domaine
Daiqing Li, Junlin Yang, Karsten Kreis, Antonio Torralba, Sanja Fidler
Entraîner des réseaux profonds avec des données étiquetées limitées tout en atteignant une forte capacité de généralisation est essentiel pour réduire les efforts d’annotation humaine. C’est l’objectif de l’apprentissage semi-supervisé, qui exploite des données non étiquetées plus largement disponibles pour compléter de petits ensembles de données étiquetés. Dans cet article, nous proposons un cadre novateur pour les tâches discriminatives au niveau des pixels en utilisant un modèle génératif à la fois des images et des étiquettes. Concrètement, nous apprenons un réseau conflictuel génératif qui capture la distribution conjointe des étiquettes image et est entraîné efficacement à l’aide d’un grand ensemble d’images non étiquetées complétées par seulement quelques images identifiées. Nous construisons notre architecture par-dessus StyleGAN2, avec une branche de synthèse d’étiquettes. L’étiquetage de l’image au moment du test s’obtient d’abord en intégrant l’image cible dans l’espace latent joint via un réseau d’encodeurs et en optimisant au moment du test, puis en générant l’étiquette à partir de l’intégration inférée. Nous évaluons notre approche dans deux domaines importants : la segmentation médicale de l’image et la segmentation faciale basée sur les parties. Nous démontrons une performance in-domaine solide comparée à plusieurs références, et sommes les premiers à démontrer une généralisation extrême hors domaine, comme le transfert du CT à l’IRM en imagerie médicale, et des photographies de visages réels pour des peintures, sculptures, et même des dessins animés et des visages d’animaux. Page de projet.
SSTVOS : Transformateurs spatiotemporels clairsemés pour segmentation d’objets vidéo
Brendan Duke, Abdalla Ahmed, Christian Wolf, Parham Aarabi, Graham W. Taylor
Comment un algorithme d’apprentissage automatique peut-il suivre des objets à travers l’espace et le temps? Les SSTVO peuvent tracer chaque objet d’une scène vers l’avant et vers l’arrière dans le temps en prédisant une silhouette de chaque objet appelée « masque ». Ces masques sont utiles dans des applications telles que la rotoscopie pour les effets visuels dans les longs mets, la synthèse vidéo et la compression vidéo HD. SSTVOS inspecte chaque pixel d’une vidéo et recherche dans le reste de la vidéo des pixels similaires à l’aide d’un procédé appelé « attention ». L’attention produit un ensemble de scores qui indiquent à quel point chaque pixel est similaire aux autres pixels de la vidéo. Les SSTVOS agrégent ensuite les scores d’attention obtenus pour prédire le mouvement de chaque objet dans le temps. Ce travail est une collaboration internationale entre des chercheurs canadiens (Vector Institute, Université de Guelph) et français (Institut national des sciences appliquées de Lyon) et un partenaire industriel, ModiFace (une filiale de L’Oréal).
Vers de bonnes pratiques pour annoter efficacement des ensembles de données de classification d’images à grande échelle
Yuan-Hong Liao, Amlan Kar, Sanja Fidler
Les données sont le moteur de la vision par ordinateur moderne, ce qui nécessite de collecter des ensembles de données à grande échelle. C’est coûteux, et garantir la qualité des labels est un défi majeur. Dans cet article, nous étudions des stratégies d’annotation efficaces pour collecter des étiquettes de classification multi-classes pour une grande collection d’images. Bien qu’il existe des méthodes exploitant des modèles d’étiquetage appris, une approche étonnamment répandue consiste à interroger les humains pour un nombre fixe d’étiquettes par datum et à les agréger, ce qui est coûteux. S’appuyant sur des travaux antérieurs sur la modélisation probabiliste conjointe en ligne des annotations humaines et des croyances générées par des machines, nous proposons des modifications et des meilleures pratiques visant à minimiser l’effort d’étiquetage humain. Plus précisément, nous utilisons les avancées de l’apprentissage auto-supervisé, considérons l’annotation comme un problème d’apprentissage semi-supervisé, identifions et atténuons les pièges et ablistons plusieurs choix de conception clés pour proposer des lignes directrices efficaces pour l’étiquetage. Notre analyse est réalisée dans une simulation plus réaliste qui implique des requêtes auprès des étiqueteurs humains, ce qui met en lumière des problèmes d’évaluation utilisant les méthodes de simulation des travailleurs existantes. Des expériences simulées sur un sous-ensemble d’images de 125k de l’ImageNet100 montrent qu’il peut être annoté avec une précision de 80% en top-1 avec une moyenne de 0,35 annotation par image, soit une amélioration de 2,7x et 6,7x par rapport aux travaux antérieurs et à l’annotation manuelle, respectivement. Page du projet : cette URL https
Vers un modèle de classification robuste par génération de données contrefactuelles et invariantes
Chun-Hao Chang, George Alexandru Adam, Anna Goldenberg
Qu’est-ce qui fait qu’une image est étiquetée comme un chat? Qu’est-ce qui fait croire à un médecin qu’il y a une tumeur dans un scanner? Ces questions sont intrinsèquement causales, mais les modèles typiques d’apprentissage automatique (ML) reposent sur des associations plutôt que sur la causalité. À cause de cela, on observe des enjeux tels que l’équité, le manque de robustesse et la discrimination dans de nombreux domaines de l’apprentissage automatique. Dans cet article, nous avons intégré les connaissances causales humaines dans les modèles d’apprentissage automatique, et démontrons que nos modèles conservent une grande précision lorsque l’environnement change. C’est crucial pour que les modèles puissent être transférés entre différents environnements, par exemple dans différents sites hospitaliers dans des applications médicales.
TrafficSim : apprendre à simuler des comportements multi-agents réalistes
Simon Suo, Sebastian Regalado, Sergio Casas, Raquel Urtasun
La simulation a le potentiel d’évaluer massivement les systèmes autonomes, permettant un développement rapide ainsi qu’un déploiement sécuritaire. Pour combler l’écart entre la simulation et le monde réel, il faut simuler des comportements multi-agents réalistes. Les environnements de simulation existants s’appuient sur des modèles basés sur des heuristiques qui codent directement les règles de circulation, ce qui ne peut pas capturer les manœuvres irrégulières (par exemple, le nudging, les demi-tours) ni les interactions complexes (par exemple, le yielding, le merging). En revanche, nous exploitons des données du monde réel pour apprendre directement à partir de la démonstration humaine et ainsi capturer un ensemble plus diversifié de comportements des acteurs. À cette fin, nous proposons TrafficSim, un modèle de comportement multi-agents pour la simulation réaliste du trafic. En particulier, nous utilisons un modèle implicite de variables latentes pour paramétrer une politique d’acteurs conjoints qui génère des plans socialement cohérents pour tous les acteurs de la scène conjointement. Pour apprendre une politique robuste adaptée à la simulation à long terme, nous déroulons la politique en formation et optimisons via la simulation entièrement différentiable dans le temps. Notre objectif d’apprentissage intègre à la fois des démonstrations humaines et du bon sens. Nous montrons que TrafficSim génère des scénarios de trafic beaucoup plus réalistes et diversifiés comparativement à un ensemble diversifié de références. Notamment, nous pouvons exploiter les trajectoires générées par TrafficSim comme augmentation efficace des données pour entraîner un meilleur planificateur de mouvement.
UniT : Transfert unifié de connaissances pour la détection et la segmentation d’objets à n’importe quel plan
Siddhesh Khandelwal, Raghav Goyal, Leonid Sigal
Identifier des objets dans une image nécessite souvent l’accès à une abondance de données étiquetées, ce qui est long et coûteux à obtenir. Détecter et segmenter des objets avec peu ou pas d’images étiquetées est donc souhaitable. Nous avons développé une approche intuitive qui transfère le savoir d’objets avec une abondance de données étiquetées vers des objets à peine étiquetés. Cela se fait en tirant parti des similitudes linguistiques et visuelles entre ces types d’objets. Par exemple, si l’objet « oiseau » est à peine étiqueté, il est détecté grâce à la capacité d’un réseau neuronal d’identifier les objets abondamment étiquetés « chat » (linguistiquement similaire; animaux) et « avion » (visuellement similaires).