Plus de 20 articles de recherche de Vector acceptés à CVPR 2023 - Vector Institute for Artificial Intelligence

4 articles co-rédigés par des membres de la faculté Vector et des affiliés de la faculté ont été acceptés à la conférence de cette année.

Par Natasha Ali

Les membres de la faculté Vector et les affiliés de la faculté étaient bien représentés à la conférence IEEE / CVF Computer Vision and Pattern Recognition (CVPR) 2023. Cette année, la conférence s'est tenue à Vancouver du 18 au 22 juin.

Cet événement hybride a donné lieu à des exposés de recherche, des présentations d'affiches et des ateliers animés par des spécialistes de l'IA et de l'informatique. 24 articles co-écrits par des membres de la faculté Vector et des affiliés de la faculté ont été acceptés à la conférence de cette année.

Parmi les articles acceptés, cinq ont été cosignés par Raquel Urtasun, membre de la faculté Vector et cofondatrice, dont les recherches portent sur le développement de simulateurs de capteurs neuronaux pour les véhicules à conduite autonome. Sanja Fidler, membre de la faculté Vector, a également cosigné cinq articles sur la construction d'environnements 3D pour la réalité virtuelle et les simulations robotiques.

Des chercheurs modifient les modèles d'apprentissage du NeRF pour améliorer les représentations 3D d'images 2D

Pour "RobustNeRF : Ignoring Distractors with Robust Losses", co-écrit par David Fleet, membre de la faculté Vector et chef de l'équipe Google Research Brain, les chercheurs ont créé un modèle de réseau neuronal qui entraîne les champs de radiance neuronale (NeRF) pour générer des représentations précises de scènes 3D à partir d'images 2D.

Alors que les méthodes NeRF actuelles fonctionnent lorsque toutes les images d'apprentissage représentent la même scène "statique", elles produisent des résultats inexacts lorsque la scène varie d'une image à l'autre (par exemple, en raison d'une personne en mouvement, d'un objet éphémère qui apparaît sur certaines images mais pas sur d'autres, ou d'une ombre éphémère).

À l'aide de robustNeRF, Fleet et ses coauteurs ont modifié les algorithmes existants et formé des modèles de réseaux neuronaux afin d'ignorer les objets transitoires dans les images d'apprentissage. "Le résultat, explique M. Fleet, est une simple modification des méthodes existantes, qui s'avère extrêmement performante par rapport aux méthodes modernes de formation des réseaux neuronaux.

Comment les ordinateurs peuvent-ils reconnaître des objets dans des images de la même manière que les humains ?

"Sparsifiner : Learning Sparse Instance-Dependent Attention for Efficient Vision Transformers", coécrit par Graham Taylor, directeur de recherche à l'Institut Vecteur, présente une nouvelle technique, moins gourmande en ressources informatiques, qui aide les ordinateurs à reconnaître les objets dans les images de la même manière que les humains. L'article s'appuie sur des études antérieures des transformateurs de vision (ViT), des modèles de reconnaissance d'images qui s'appuient sur des algorithmes d'apprentissage profond pour détecter des objets individuels dans les images et les classer en vue d'une analyse plus approfondie.

Traditionnellement, les ViT utilisent une technique appelée "auto-attention multi-têtes" pour comparer toutes les parties d'une image entre elles. Toutefois, ce processus est très gourmand en ressources informatiques.

Pour atténuer ce problème, Taylor et ses coauteurs ont mis au point Sparsifiner, une version plus efficace des ViTs. Ce transformateur de vision prédit quelles parties d'une image sont les plus susceptibles d'avoir des relations significatives entre elles, concentre son attention sur les relations entre ces parties et ignore le reste.

"La principale amélioration de Sparsifiner par rapport aux travaux antérieurs, explique M. Taylor, réside dans le fait qu'il prédit un modèle d'attention clairsemé unique pour chaque image d'entrée.

Sparsifiner réduit la puissance de calcul sans perte significative de précision, ce qui permet d'utiliser des technologies de reconnaissance d'images plus avancées dans des domaines où les ressources sont limitées.

Articles de recherche acceptés par les membres de la faculté Vector

Vous trouverez ci-dessous les résumés des articles acceptés, rédigés par les membres de la faculté Vector et les affiliés de la faculté.

Alignez vos latents : Synthèse vidéo haute résolution à l'aide de modèles de diffusion latente
Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, Karsten Kreis

Les modèles de diffusion latente (MLD) permettent une synthèse d'image de haute qualité tout en évitant les demandes de calcul excessives en entraînant un modèle de diffusion dans un espace latent compressé de dimension inférieure. Nous appliquons ici le paradigme des MLD à la génération de vidéos haute résolution, une tâche particulièrement gourmande en ressources. Ensuite, nous transformons le générateur d'images en générateur de vidéos en introduisant une dimension temporelle dans le modèle de diffusion de l'espace latent et en effectuant un réglage fin sur les séquences d'images codées, c'est-à-dire les vidéos. De même, nous alignons temporellement les échantillonneurs de modèles de diffusion, en les transformant en modèles de super-résolution vidéo cohérents dans le temps. Nous nous concentrons sur deux applications pertinentes dans le monde réel : La simulation de données de conduite dans la nature et la création de contenu créatif avec la modélisation texte-vidéo. En particulier, nous validons notre MLD vidéo sur des vidéos de conduite réelles d'une résolution de 512 x 1024, en obtenant des performances de pointe. En outre, notre approche peut facilement tirer parti de MLD d'images pré-entraînés disponibles sur le marché, puisqu'il nous suffit d'entraîner un modèle d'alignement temporel dans ce cas. Ainsi, nous transformons le MLD texte-image de pointe Stable Diffusion, disponible publiquement, en un modèle texte-vidéo efficace et expressif avec une résolution allant jusqu'à 1280 x 2048. Nous montrons que les couches temporelles formées de cette manière se généralisent à différents MLD texte-image finement ajustés. En utilisant cette propriété, nous montrons les premiers résultats pour la génération de texte-vidéo personnalisé, ouvrant des directions passionnantes pour la création de contenu futur.

Portes dérobées architecturales dans les réseaux neuronaux
Mikel Bober-Irizar, Ilia Shumailov, Yiren Zhao, Robert Mullins, Nicolas Papernot

La communauté de l'apprentissage automatique est actuellement confrontée à la menace des réseaux neuronaux rétroactifs, qui sont intentionnellement modifiés par des attaquants dans la chaîne d'approvisionnement. Ces modèles backdoored ont des comportements cachés qui sont déclenchés par un "déclencheur" secret spécifique dans l'entrée, alors qu'ils fonctionnent normalement par ailleurs. La plupart des attaques par porte dérobée modifient les poids des modèles pendant la formation, soit directement, soit en manipulant les données de formation. Dans cet article, nous montrons que l'architecture des réseaux neuronaux elle-même peut être modifiée pour cacher les portes dérobées, ce qui les rend résistantes à l'élimination, même par le biais d'un recyclage complet. Nous construisons une porte dérobée d'architecture de modèle (MAB) et fournissons une méthode pour construire de telles portes dérobées qui survivent au réentraînement sur de nouveaux ensembles de données. Nous identifions les conditions nécessaires à la réussite des portes dérobées architecturales et démontrons leur efficacité sur divers points de référence. Notre recherche introduit une nouvelle classe d'attaques par porte dérobée qui opèrent au niveau de l'architecture, allant au-delà des méthodes précédentes qui s'appuient sur la modification des poids.

Coopération ou compétition : Éviter la domination des joueurs pour une robustesse multi-cibles via des budgets adaptatifs
Yimu Wang, Dinghuai Zhang, Yihan Wu, Heng Huang, Hongyang Zhang

Malgré des progrès incroyables, l'apprentissage profond s'est révélé sensible aux attaques adverses. De nombreuses approches ont été proposées pour former des réseaux robustes de manière empirique et certifiée. Cependant, la plupart d'entre elles ne se défendent que contre un seul type d'attaque, alors que les travaux récents progressent dans la défense contre des attaques multiples. Dans cet article, pour comprendre la robustesse multicible, nous considérons ce problème comme un jeu de négociation dans lequel différents joueurs (adversaires) négocient pour parvenir à un accord sur une direction commune de mise à jour des paramètres. Nous identifions un phénomène appelé \emph{domination du joueur} dans le jeu de négociation, et nous montrons qu'avec ce phénomène, certaines des approches basées sur le maximum existantes, telles que MAX et MSD, ne convergent pas. Sur la base de nos résultats théoriques, nous concevons un nouveau cadre qui ajuste les budgets des différents adversaires afin d'éviter la domination des joueurs. Des expériences sur deux points de référence montrent que l'utilisation du cadre proposé pour les approches existantes améliore considérablement la robustesse multicible.

DINN360 : Réseau neuronal inversible déformable pour le recalage d'images à 360° tenant compte de la latitude
Yichen Guo, Mai Xu, Lai Jiang, Leonid Sigal, Yunjin Chen

Avec le développement rapide de la réalité virtuelle, les images à 360 degrés ont gagné en popularité. Leur large champ de vision nécessite une haute résolution pour garantir la qualité de l'image. Cela complique toutefois l'acquisition, le stockage et même le traitement de ce type d'images. Pour remédier à ce problème, nous proposons la première tentative de remise à l'échelle d'images à 360 degrés. Le processus de redimensionnement consiste à produire une variante valide mais à faible résolution de l'image originale et une méthode pour redimensionner cette contrepartie à faible résolution à la haute résolution d'origine lorsque cela est nécessaire. L'essentiel est de définir, ou d'apprendre, le processus de sous-échantillonnage et de suréchantillonnage. Compte tenu d'une observation empirique selon laquelle la quantité d'informations varie en fonction de la latitude dans les images à 360 degrés, nous proposons un nouveau réseau neuronal inversible déformable pour cette tâche. Notre réseau neuronal inversible déformable apprend à réduire l'échelle des images à haute résolution en basse résolution et à projeter les informations à haute fréquence dans l'espace latent en gérant de manière adaptative les différentes régions de latitude. La nature inversible du réseau neuronal conçu facilite la mise à l'échelle de l'image à faible résolution. Des expériences approfondies sur quatre ensembles de données publiques montrent que notre méthode est considérablement plus performante que d'autres méthodes de pointe pour des facteurs de redimensionnement de l'image à 360 degrés de 2x, 4x et 8x.

Adaptation dynamique guidée par l'instance : Une approche sans retour pour la segmentation sémantique adaptative dans le domaine test-temps
Wei Wang - Zhun Zhong - Weijie Wang - Xi Chen - Charles Ling - Boyu Wang - Nicu Sebe

Dans cet article, nous étudions l'application de l'adaptation du domaine en temps de test à la segmentation sémantique (TTDA-Seg), où l'efficacité et l'efficience sont cruciales. Les méthodes existantes sont soit peu efficaces (par exemple, l'optimisation à rebours), soit ignorent l'adaptation sémantique (par exemple, l'alignement de la distribution). En outre, elles souffrent des erreurs accumulées causées par une optimisation instable et des distributions anormales. Pour résoudre ces problèmes, nous proposons une nouvelle approche sans retour en arrière pour TTDA-Seg, appelée Dynamically Instance-Guided Adaptation (DIGA). Notre principe consiste à utiliser chaque instance pour guider dynamiquement sa propre adaptation de manière non paramétrique, ce qui permet d'éviter le problème de l'accumulation d'erreurs et le coût élevé de l'optimisation. Plus précisément, la DIGA est composée d'un module d'adaptation de la distribution (DAM) et d'un module d'adaptation sémantique (SAM), ce qui nous permet d'adapter conjointement le modèle sur deux aspects indispensables. Le DAM mélange les statistiques d'instance et de source BN pour *Corresponding author encourager le modèle à capturer une représentation robuste. SAM combine les prototypes historiques avec les prototypes au niveau de l'instance pour ajuster les prédictions sémantiques, qui peuvent être associées au classificateur paramétrique pour bénéficier mutuellement des résultats finaux. Des expériences approfondies évaluées sur cinq domaines cibles démontrent l'efficacité et l'efficience de la méthode proposée. Notre DIGA établit une nouvelle performance de pointe dans TTDA-Seg.

Exemplar-FreeSOLO : Amélioration de la segmentation d'instances non supervisée avec des exemples
Taoseef Ishtiak, Qing En, Yuhong Guo

La segmentation d'instances vise à identifier et à segmenter chaque objet à partir d'images, ce qui nécessite souvent un grand nombre d'annotations denses pour l'apprentissage du modèle. Pour alléger ce fardeau, des méthodes de segmentation d'instances non supervisées ont été développées pour former des modèles de segmentation d'instances agnostiques en termes de classes sans aucune annotation. Dans cet article, nous proposons une nouvelle approche de segmentation d'instance non supervisée, Exemplar-FreeSOLO, pour améliorer la segmentation d'instance non supervisée en exploitant un nombre limité d'exemples non annotés et non segmentés. Le cadre proposé offre une nouvelle perspective sur la perception directe des informations descendantes sans annotations. Plus précisément, Exemplar-FreeSOLO introduit un nouveau module d'abstraction de la connaissance des exemplaires afin d'acquérir une connaissance d'orientation descendante bénéfique pour les instances à l'aide d'une extraction d'objets exemplaires non supervisée. De plus, un nouveau module contrastif d'intégration d'exemplaires est conçu pour améliorer la capacité de discrimination du modèle de segmentation en exploitant les connaissances d'orientation basées sur les exemples contrastifs dans l'espace d'intégration. Pour évaluer l'ExemplarFreeSOLO proposé, nous menons des expériences complètes et effectuons des analyses approfondies sur trois ensembles de données de segmentation d'instances d'images. Les résultats expérimentaux démontrent que l'approche proposée est efficace et surpasse les méthodes de pointe.

Apprentissage de la similarité visuelle géométrique dans le cadre d'un pré-entraînement auto-supervisé d'images médicales 3D
Yuting He, Guanyu Yang, Rongjun Ge, Yang Chen, Jean-Louis Coatrieux, Boyu Wang, Shuo Li

L'apprentissage de la similarité inter-images est crucial pour le pré-entraînement auto-supervisé des images médicales 3D, en raison du partage de nombreuses régions sémantiques identiques. Cependant, l'absence d'a priori sémantique dans les métriques et la variation indépendante de la sémantique dans les images médicales 3D rendent difficile l'obtention d'une mesure fiable de la similarité inter-images, ce qui entrave l'apprentissage d'une représentation cohérente pour la même sémantique. Nous étudions le problème difficile de cette tâche, c'est-à-dire l'apprentissage d'une représentation cohérente entre les images pour un effet de regroupement des mêmes caractéristiques sémantiques. Nous proposons un nouveau paradigme d'apprentissage de la similarité visuelle, l'apprentissage de la similarité visuelle géométrique, qui intègre la priorité de l'invariance topologique dans la mesure de la similarité inter-images pour une représentation cohérente des régions sémantiques. Pour piloter ce paradigme, nous construisons en outre une nouvelle tête d'appariement géométrique, la tête d'appariement Z, pour apprendre de manière collaborative la similarité globale et locale des régions sémantiques, en guidant l'apprentissage d'une représentation efficace pour différentes caractéristiques sémantiques inter-images au niveau de l'échelle. Nos expériences démontrent que le pré-entraînement avec notre apprentissage de la similarité inter-image produit une capacité de transfert interne, inter-scène et global-local plus puissante sur quatre tâches difficiles d'images médicales en 3D.

Champs de flux d'occupation implicites pour la perception et la prédiction dans la conduite autonome
Ben Agro, Quinlan Sykora, Sergio Casas, Raquel Urtasun

Un véhicule autonome (SDV) doit être capable de percevoir son environnement et de prédire le comportement futur des autres acteurs du trafic. Les travaux existants effectuent soit une détection d'objets suivie d'une prévision de la trajectoire des objets détectés, soit une prédiction de grilles d'occupation et de flux denses pour l'ensemble de la scène. La première solution pose un problème de sécurité car le nombre de détections doit être maintenu à un niveau bas pour des raisons d'efficacité, ce qui sacrifie le rappel des objets. La seconde est coûteuse en termes de calcul en raison de la haute dimensionnalité de la grille de sortie et souffre du champ réceptif limité inhérent aux réseaux entièrement convolutifs. En outre, les deux approches utilisent de nombreuses ressources informatiques pour prédire des zones ou des objets qui pourraient ne jamais être interrogés par le planificateur de mouvement. C'est ce qui motive notre approche unifiée de la perception et de la prédiction future, qui représente implicitement l'occupation et le flux dans le temps à l'aide d'un seul réseau neuronal. Notre méthode évite les calculs inutiles, car elle peut être directement interrogée par le planificateur de mouvement à des emplacements spatiotemporels continus. En outre, nous concevons une architecture qui surmonte le champ réceptif limité des méthodes précédentes de prédiction explicite de l'occupation en ajoutant un mécanisme d'attention globale à la fois efficace et efficient. Grâce à des expériences approfondies en milieu urbain et sur autoroute, nous démontrons que notre modèle implicite est plus performant que l'état de l'art actuel.

Apprentissage de représentations compactes pour la complétion et la génération de données LiDAR
Yuwen Xiong, Wei-Chiu Ma, Jingkang Wang, Raquel Urtasun

Le LiDAR fournit des mesures géométriques précises du monde en 3D. Malheureusement, les LiDAR denses sont très coûteux et les nuages de points capturés par les LiDAR à faible faisceau sont souvent épars. Pour résoudre ces problèmes, nous présentons UltraLiDAR, un cadre axé sur les données pour l'achèvement du LiDAR au niveau de la scène, la génération du LiDAR et la manipulation du LiDAR. Le cœur d'UltraLiDAR est une représentation compacte et discrète qui encode la structure géométrique du nuage de points, qui est robuste au bruit et qui est facile à manipuler. Nous montrons qu'en alignant la représentation d'un nuage de points clairsemé sur celle d'un nuage de points dense, nous pouvons densifier les nuages de points clairsemés comme s'ils avaient été capturés par un véritable LiDAR à haute densité, ce qui réduit considérablement les coûts. En outre, l'apprentissage d'un a priori sur le livre de codes discret permet de générer des nuages de points LiDAR variés et réalistes pour la conduite autonome. Nous évaluons l'efficacité d'UltraLiDAR sur la complétion et la génération de LiDAR clairsemés à denses. Les expériences montrent que la densification des nuages de points du monde réel à l'aide de notre approche peut améliorer de manière significative les performances des systèmes de perception en aval. Par rapport à l'art antérieur de la génération LiDAR, notre approche génère des nuages de points beaucoup plus réalistes. D'après les tests A/B, les participants humains préfèrent nos résultats à ceux des méthodes précédentes dans plus de 98,5 % des cas.

Faire une histoire : La mémoire visuelle conditionne la génération d'histoires cohérentes
Tanzila Rahman, Hsin-Ying Lee, Jian Ren, Sergey Tulyakov, Shweta Mahajan, Leonid Sigal

Dans ce travail, nous nous concentrons sur le problème de la génération d'histoires, dont l'objectif est de générer une séquence d'images illustratives cohérentes à partir d'une séquence de phrases - une histoire textuelle. Cette capacité a de nombreuses applications intéressantes, notamment la visualisation de matériel pédagogique, l'aide aux artistes pour la création de bandes dessinées sur le web, etc. Une bonne génération d'histoires visuelles ne dépend pas seulement de la capacité à générer des images de haute qualité, mais aussi d'un rendu cohérent des scènes et des acteurs au sein d'une histoire, par exemple en préservant leurs apparences. En outre, les histoires réalistes sont référentielles par nature et requièrent la capacité de résoudre les ambiguïtés et les références (ou coréférences) par le raisonnement. Aucun de ces deux défis n'a été abordé dans les travaux antérieurs. Dans cet article, pour la première fois (à notre connaissance), nous étudions la résolution des coréférences dans la génération d'histoires. Pour ce faire, nous introduisons Story-LDM, une approche générative profonde avec une structure autorégressive. Dans ce modèle, nous proposons un nouveau mécanisme d'attention de la mémoire qui prend en compte la sémantique déjà générée des images précédentes afin d'assurer la cohérence temporelle et la fluidité de la progression de l'histoire. Pour valider la résolution des coréférences et la cohérence des personnages et de l'arrière-plan, nous étendons les ensembles de données et les mesures d'évaluation existants afin d'inclure des scénarios plus complexes. La méthode que nous proposons est non seulement plus performante que l'état de l'art antérieur en ce qui concerne la génération d'images de haute qualité visuelle, mais elle modélise également les correspondances appropriées entre les personnages et l'arrière-plan.

MixSim : Un cadre hiérarchique pour la simulation de trafic en réalité mixte
Simon Suo, Kelvin Wong, Justin Xu, James Tu, Alexander Cui, Sergio Casas, Raquel Urtasun

La méthode la plus répandue pour tester un véhicule autonome (SDV) en simulation consiste à rejouer en boucle ouverte et sans réaction des scénarios réels. Cependant, afin de déployer en toute sécurité les SDV dans le monde réel, nous devons les évaluer en boucle fermée. Pour atteindre cet objectif, nous proposons d'exploiter la richesse des scénarios intéressants capturés dans le monde réel et de les rendre réactifs et contrôlables pour permettre l'évaluation des SDV en boucle fermée dans des situations de simulation. En particulier, nous présentons MIXSIM, un cadre hiérarchique pour la simulation de trafic en réalité mixte. MIXSIM modélise explicitement les objectifs des agents sous forme d'itinéraires le long du réseau routier et apprend une politique réactive de conditionnalité des itinéraires. En déduisant l'itinéraire de chaque agent du scénario original, MIXSIM peut re-simuler le scénario de manière réactive et permettre de tester différents systèmes d'autonomie dans les mêmes conditions. En outre, en faisant varier l'itinéraire de chaque agent, nous pouvons étendre la portée des tests à des situations de simulation avec des variations réalistes des comportements des agents ou même des interactions critiques pour la sécurité. Nos expériences montrent que MIXSIM peut servir de jumeau numérique réaliste, réactif et contrôlable de scénarios réels.

Les champs neuronaux répondent aux représentations géométriques explicites pour le rendu inverse des scènes urbaines
Zian Wang, Tianchang Shen, Jun Gao, Shengyu Huang, Jacob Munkberg, Jon Hasselgren, Zan Gojcic, Wenzheng Chen, Sanja Fidler

La reconstruction et la décomposition intrinsèque de scènes à partir d'images capturées permettraient de nombreuses applications telles que le ré-éclairage et l'insertion d'objets virtuels. Les méthodes récentes basées sur le NeRF atteignent une fidélité impressionnante de la reconstruction 3D, mais intègrent l'éclairage et les ombres dans le champ de radiance, tandis que les méthodes basées sur le maillage qui facilitent la décomposition intrinsèque par le biais d'un rendu différentiable ne sont pas encore adaptées à la complexité et à l'échelle des scènes extérieures. Nous présentons un nouveau cadre de rendu inverse pour les grandes scènes urbaines, capable de reconstruire conjointement la géométrie de la scène, les matériaux variant dans l'espace et l'éclairage HDR à partir d'un ensemble d'images RVB posées avec une profondeur optionnelle. Plus précisément, nous utilisons un champ neuronal pour représenter les rayons primaires et un maillage explicite (reconstruit à partir du champ neuronal sous-jacent) pour modéliser les rayons secondaires qui produisent des effets d'éclairage d'ordre supérieur tels que les ombres portées. En démêlant fidèlement la géométrie et les matériaux complexes des effets d'éclairage, notre méthode permet un ré-éclairage photoréaliste avec des effets spéculaires et d'ombre sur plusieurs ensembles de données en extérieur. En outre, elle prend en charge les manipulations de scènes basées sur la physique, telles que l'insertion d'objets virtuels avec des ombres portées tracées par rayons.

Reconstruction de surface par noyau neuronal
Jiahui Huang, Zan Gojcic, Matan Atzmon, Or Litany, Sanja Fidler, Francis Williams

Nous présentons une nouvelle méthode de reconstruction d'une surface implicite en 3D à partir d'un nuage de points à grande échelle, peu dense et bruyant. Notre approche s'appuie sur la représentation NKF (Neural Kernel Fields) récemment introduite. Elle bénéficie de capacités de généralisation similaires à celles des NKF, tout en remédiant à leurs principales limitations : (a) Nous pouvons nous adapter à de grandes scènes grâce à des fonctions de noyau compactes, qui permettent l'utilisation de solveurs linéaires peu gourmands en mémoire. (b) Nous sommes robustes au bruit, grâce à une solution d'ajustement du gradient. (c) Nous minimisons les exigences en matière d'apprentissage, ce qui nous permet d'apprendre à partir de n'importe quel ensemble de données de points orientés denses, et même de mélanger des données d'apprentissage constituées d'objets et de scènes à différentes échelles. Notre méthode est capable de reconstruire des millions de points en quelques secondes et de traiter de très grandes scènes en dehors du cœur. Nous obtenons des résultats de pointe sur des benchmarks de reconstruction composés d'objets uniques, de scènes d'intérieur et de scènes d'extérieur.

NeuralField-LDM : génération de scènes à l'aide de modèles de diffusion latents hiérarchiques
Seung Wook Kim, Bradley Brown, Kangxue Yin, Karsten Kreis, Katja Schwarz, Daiqing Li, Robin Rombach, Antonio Torralba, Sanja Fidler

La génération automatique de scènes 3D de haute qualité dans le monde réel présente un intérêt considérable pour des applications telles que la réalité virtuelle et la simulation robotique. Dans cette optique, nous présentons NeuralField-LDM, un modèle génératif capable de synthétiser des environnements 3D complexes. Nous nous appuyons sur les modèles de diffusion latente qui ont été utilisés avec succès pour la création efficace de contenu 2D de haute qualité. Nous formons d'abord un auto-encodeur de scène pour exprimer un ensemble de paires d'images et de poses sous la forme d'un champ neuronal, représenté par des grilles de voxels de densité et de caractéristiques qui peuvent être projetées pour produire de nouvelles vues de la scène. Pour comprimer davantage cette représentation, nous formons un autoencodeur latent qui associe les grilles de voxels à un ensemble de représentations latentes. Un modèle de diffusion hiérarchique est ensuite ajusté aux latents pour compléter le pipeline de génération de scène. Nous obtenons une amélioration substantielle par rapport aux modèles de génération de scènes existants. En outre, nous montrons comment NeuralField-LDM peut être utilisé pour une variété d'applications de création de contenu 3D, y compris la génération de scènes conditionnelles, l'inpainting de scènes et la manipulation de styles de scènes.

Omnimatte3D : Associer des objets et leurs effets dans une vidéo monoculaire sans contrainte
Erika Lu, Forrester Cole, Tali Dekel, Andrew Zisserman, William T. Freeman, Michael Rubinstein

Dans ce travail, nous proposons une méthode de décomposition d'une vidéo en un arrière-plan et un ensemble de couches de premier plan, où l'arrière-plan capture des éléments stationnaires tandis que les couches de premier plan capturent des objets en mouvement avec leurs effets associés (par exemple, les ombres et les reflets). Notre approche est conçue pour les vidéos monoculaires sans contrainte, avec des mouvements de caméra et d'objets arbitraires, contrairement aux méthodes précédentes qui fonctionnent sur des vidéos avec une gamme limitée de mouvements de caméra. Notre représentation en couches prédite s'avère utile dans de nombreuses applications telles que la suppression d'objets, la stabilisation de la caméra, la défocalisation synthétique et bien d'autres. La nouveauté technique réside dans une série d'objectifs d'apprentissage proposés qui garantissent une décomposition appropriée dans la représentation en couches.

Préservation de la séparabilité linéaire dans l'apprentissage continu par rétroprojection des caractéristiques
Qiao Gu, Dongsub Shim, Florian Shkurti

L'oubli catastrophique est un défi majeur dans l'apprentissage continu, où le modèle doit apprendre de nouvelles tâches avec un accès limité ou inexistant aux données des tâches précédentes. Pour relever ce défi, des méthodes basées sur la distillation des connaissances dans l'espace des caractéristiques ont été proposées et il a été démontré qu'elles réduisaient l'oubli. Cependant, la plupart des méthodes de distillation des caractéristiques contraignent directement les nouvelles caractéristiques à correspondre aux anciennes, négligeant ainsi le besoin de plasticité. Pour parvenir à un meilleur compromis entre stabilité et plasticité, nous proposons la projection rétrospective des caractéristiques (BFP), une méthode d'apprentissage continu qui permet aux nouvelles caractéristiques de changer jusqu'à une transformation linéaire des anciennes caractéristiques pouvant faire l'objet d'un apprentissage. La BFP préserve la séparabilité linéaire des anciennes classes tout en permettant l'émergence de nouvelles directions de caractéristiques pour s'adapter aux nouvelles classes. BFP peut être intégré aux méthodes de relecture d'expérience existantes et améliorer les performances de manière significative. Nous démontrons également que BFP permet d'apprendre un meilleur espace de représentation, dans lequel la séparabilité linéaire est bien préservée pendant l'apprentissage continu et où le sondage linéaire permet d'obtenir une grande précision de classification.

RobustNeRF : Ignorer les distracteurs avec des pertes robustes
Sara Sabour, Suhani Vora, Daniel Duckworth, Ivan Krasin, David J. Fleet, Andrea Tagliasacchi

Les champs de radiance neuronaux (NeRF) excellent dans la synthèse de nouvelles vues à partir d'images calibrées multi-vues d'une scène statique. Lorsque les scènes comprennent des distracteurs, qui ne sont pas persistants pendant la capture de l'image (objets en mouvement, variations d'éclairage, ombres), des artefacts apparaissent sous la forme d'effets dépendant de la vue ou de "flotteurs". Pour faire face aux distracteurs, nous préconisons une forme d'estimation robuste pour l'apprentissage du NeRF, en modélisant les distracteurs dans les données d'apprentissage comme des valeurs aberrantes d'un problème d'optimisation. Notre méthode élimine avec succès les valeurs aberrantes d'une scène et améliore nos lignes de base, sur des scènes synthétiques et réelles. Notre technique est simple à incorporer dans les cadres NeRF modernes, avec peu d'hyperparamètres. Elle ne suppose pas de connaissance a priori des types de distracteurs et se concentre sur le problème d'optimisation plutôt que sur le prétraitement ou la modélisation d'objets transitoires.

SparsePose : Régression et affinement de la pose de la caméra à partir de vues éparses
Samarth Sinha, Jason Y. Zhang, Andrea Tagliasacchi, Igor Gilitschenski, David B. Lindell

L'estimation de la pose de la caméra est une étape clé dans les pipelines de reconstruction 3D standard qui fonctionnent sur un ensemble dense d'images d'un seul objet ou d'une seule scène. Cependant, les méthodes d'estimation de la pose échouent souvent lorsque seules quelques images sont disponibles, car elles reposent sur la capacité d'identifier et de faire correspondre des caractéristiques visuelles entre les paires d'images. Bien que ces méthodes puissent fonctionner de manière robuste avec des vues de caméra denses, la capture d'un grand nombre d'images peut prendre beaucoup de temps ou s'avérer peu pratique. Nous proposons SparsePose pour récupérer des poses de caméra précises à partir d'un ensemble peu dense d'images de base larges (moins de 10). La méthode apprend à régresser les poses initiales de la caméra, puis à les affiner de manière itérative après un entraînement sur un ensemble de données d'objets à grande échelle (Co3D : Common Objects in 3D). SparsePose surpasse de manière significative les lignes de base conventionnelles et basées sur l'apprentissage en récupérant des rotations et des translations précises de la caméra. Nous démontrons également notre pipeline pour la reconstruction 3D haute-fidélité en utilisant seulement 5 à 9 images d'un objet.

Sparsifiner : Apprentissage de l'attention éparse dépendante de l'instance pour des transformateurs de vision efficaces
Cong Wei, Brendan Duke, Ruowei Jiang, Parham Aarabi, Graham W. Taylor, Florian Shkurti

Les transformateurs de vision (ViT) ont montré leurs avantages compétitifs en termes de performances par rapport aux réseaux neuronaux convolutionnels (CNN), bien qu'ils s'accompagnent souvent de coûts de calcul élevés. À cette fin, les méthodes précédentes explorent différents modèles d'attention en limitant un nombre fixe de jetons spatialement proches afin d'accélérer les opérations d'auto-attention multi-têtes (MHSA) des ViT. Cependant, de tels modèles d'attention structurés limitent les connexions de token à token à leur pertinence spatiale, ce qui ne tient pas compte des connexions sémantiques apprises à partir d'un masque d'attention complet. Dans ce travail, nous proposons une nouvelle approche pour apprendre des modèles d'attention dépendant de l'instance, en concevant un module de prédiction de connectivité léger pour estimer le score de connectivité de chaque paire de jetons. Intuitivement, deux jetons ont des scores de connectivité élevés si les caractéristiques sont considérées comme pertinentes sur le plan spatial ou sémantique. Étant donné que chaque jeton n'est en contact qu'avec un petit nombre d'autres jetons, les masques de connectivité binarisés sont souvent très épars par nature et permettent donc d'accélérer le réseau grâce à des calculs épars. Équipé du modèle d'attention non structuré appris, le ViT d'attention clairsemée (Sparsifiner) produit un compromis Pareto-optimal supérieur entre les FLOP et la précision top-1 sur ImageNet par rapport à la clairsemée de jetons. Notre méthode réduit de 48% à 69% les FLOPs de MHSA alors que la baisse de précision est de l'ordre de 0,4%. Nous montrons également que la combinaison de l'attention et de l'espacement des jetons réduit les FLOPs de ViT de plus de 60 %.

SPIn-NeRF : Segmentation multi-vues et repeintures perceptuelles avec des champs de radiance neuronaux
Ashkan Mirzaei, Tristan Aumentado-Armstrong, Konstantinos G. Derpanis, Jonathan Kelly, Marcus A. Brubaker, Igor Gilitschenski, Alex Levinshtein

Les champs de rayonnement neuronaux (NeRF) sont apparus comme une approche populaire pour la synthèse de nouvelles vues. Bien que les NeRF soient rapidement adaptés à un plus grand nombre d'applications, l'édition intuitive de scènes NeRF reste un défi à relever. Une tâche d'édition importante consiste à supprimer les objets indésirables d'une scène 3D, de sorte que la région remplacée soit visuellement plausible et cohérente avec son contexte. Nous appelons cette tâche l'inpainting 3D. En 3D, les solutions doivent être à la fois cohérentes sur plusieurs vues et géométriquement valides. Dans cet article, nous proposons une nouvelle méthode d'inpainting 3D qui relève ces défis. À partir d'un petit ensemble d'images posées et d'annotations éparses dans une seule image d'entrée, notre cadre obtient d'abord rapidement un masque de segmentation 3D pour un objet cible. En utilisant le masque, une approche basée sur l'optimisation perceptuelle est ensuite introduite qui exploite les inpainters d'images 2D appris, distillant leurs informations dans l'espace 3D, tout en garantissant la cohérence de la vue. Nous répondons également à l'absence d'une référence diversifiée pour évaluer les méthodes d'inpainting de scènes 3D en introduisant un ensemble de données comprenant des scènes difficiles du monde réel. En particulier, notre ensemble de données contient des vues de la même scène avec et sans objet cible, ce qui permet une évaluation comparative de la tâche d'inpainting 3D fondée sur des principes. Nous démontrons d'abord la supériorité de notre approche sur la segmentation multi-vues, en la comparant aux méthodes basées sur le NeRF et aux approches de segmentation 2D. Nous évaluons ensuite la tâche d'inpainting 3D, établissant des performances de pointe par rapport à d'autres algorithmes de manipulation NeRF, ainsi qu'une solide base d'inpainter d'images 2D.

StepFormer : Découverte et localisation autosupervisées des pas dans les vidéos pédagogiques
Nikita Dvornik, Isma Hadji, Ran Zhang, Konstantinos G. Derpanis, Animesh Garg, Richard P. Wildes, Allan D. Jepson

Les vidéos pédagogiques constituent une ressource importante pour l'apprentissage de tâches procédurales à partir de démonstrations humaines. Cependant, les étapes d'instruction dans ces vidéos sont généralement courtes et peu nombreuses, la majeure partie de la vidéo n'étant pas pertinente pour la procédure. Il est donc nécessaire de localiser temporellement les étapes de l'instruction dans ces vidéos, ce que l'on appelle la localisation des étapes clés. Les méthodes traditionnelles de localisation des étapes clés nécessitent des annotations humaines au niveau de la vidéo et ne s'adaptent donc pas aux grands ensembles de données. Dans ce travail, nous nous attaquons au problème sans supervision humaine et présentons StepFormer, un modèle auto-supervisé qui découvre et localise les étapes d'instruction dans une vidéo. StepFormer est un décodeur transformateur qui s'intéresse à la vidéo à l'aide de requêtes pouvant être apprises et qui produit une séquence de créneaux capturant les étapes clés de la vidéo. Nous entraînons notre système sur un vaste ensemble de vidéos pédagogiques, en utilisant leurs sous-titres générés automatiquement comme seule source de supervision. En particulier, nous supervisons notre système à l'aide d'une séquence de narrations textuelles en utilisant une fonction de perte tenant compte de l'ordre qui filtre les phrases non pertinentes. Nous montrons que notre modèle est plus performant que toutes les approches non supervisées et faiblement supervisées précédentes pour la détection et la localisation des pas, et ce avec une grande marge sur trois points de référence difficiles. De plus, notre modèle démontre une propriété émergente pour résoudre la localisation multi-étapes à partir d'un cliché zéro et surpasse toutes les lignes de base pertinentes pour cette tâche.

Vers une détection non supervisée d'objets à partir de nuages de points LiDAR
Lunjun Zhang, Anqi Joyce Yang, Yuwen Xiong, Sergio Casas Bin Yang, Mengye Ren, Raquel Urtasun

Dans cet article, nous étudions le problème de la détection non supervisée d'objets à partir de nuages de points 3D dans des scènes de conduite autonome. Nous présentons une méthode simple mais efficace qui exploite (i) le regroupement de points dans les zones proches où les nuages de points sont denses, (ii) la cohérence temporelle pour filtrer les détections non supervisées bruyantes, (iii) l'équivariance de traduction des CNN pour étendre les étiquettes automatiques à longue distance, et (iv) l'auto-supervision pour s'améliorer de manière autonome. Notre approche, OYSTER (Object Discovery via Spatio-Temporal Refinement), n'impose pas de contraintes à la collecte de données (telles que des passages répétés au même endroit), est capable de détecter des objets de manière aléatoire sans mise au point supervisée (même dans des régions peu denses et éloignées) et continue à s'améliorer d'elle-même après plusieurs cycles d'auto-apprentissage itératif. Pour mieux mesurer la performance du modèle dans des scénarios de conduite autonome, nous proposons une nouvelle mesure de perception centrée sur la planification et basée sur la distance jusqu'à la collision. Nous démontrons que notre détecteur d'objets non supervisé surpasse de manière significative les lignes de base non supervisées sur les ensembles de données PandaSet et Argoverse 2 Sensor, ce qui laisse présager que l'auto-supervision combinée à des antécédents d'objets peut permettre la découverte d'objets dans la nature.

Trace et rythme : animation de piétons contrôlable par diffusion guidée de la trajectoire
Davis Rempe, Zhengyi Luo, Xue Bin Peng, Ye Yuan, Kris Kitani, Karsten Kreis, Sanja Fidler, Or Litany

Nous présentons une méthode permettant de générer des trajectoires de piétons réalistes et des animations du corps entier qui peuvent être contrôlées pour répondre à des objectifs définis par l'utilisateur. Nous nous appuyons sur les progrès récents de la modélisation de la diffusion guidée pour obtenir une contrôlabilité des trajectoires en temps réel, ce qui n'est normalement associé qu'à des systèmes basés sur des règles. Notre modèle de diffusion guidée permet aux utilisateurs de contraindre les trajectoires par le biais de points de passage cibles, de la vitesse et de groupes sociaux spécifiques, tout en tenant compte du contexte de l'environnement. Ce modèle de diffusion des trajectoires est intégré à un nouveau contrôleur humanoïde basé sur la physique pour former un système d'animation de piétons en boucle fermée, capable de placer de grandes foules dans un environnement simulé avec des terrains variés. Nous proposons en outre d'utiliser la fonction de valeur apprise au cours de l'entraînement RL du contrôleur d'animation pour guider la diffusion afin de produire des trajectoires mieux adaptées à des scénarios particuliers tels que l'évitement des collisions et la traversée de terrains accidentés.

UniSim : Un simulateur de capteur neuronal à boucle fermée
Ze Yang, Yun Chen, Jingkang Wang, Siva Manivasagam, Wei-Chiu Ma, Anqi Joyce Yang, Raquel Urtasun

Il est essentiel de tester rigoureusement les systèmes d'autonomie pour faire des véhicules autonomes sûrs une réalité. Il faut pour cela générer des scénarios critiques pour la sécurité qui vont au-delà de ce qui peut être collecté en toute sécurité dans le monde, car de nombreux scénarios se produisent rarement sur nos routes. Pour évaluer précisément les performances, nous devons tester le SDV sur ces scénarios en boucle fermée, où le SDV et d'autres acteurs interagissent les uns avec les autres à chaque étape du temps. Les journaux de conduite enregistrés précédemment constituent une ressource riche pour construire ces nouveaux scénarios, mais pour l'évaluation en boucle fermée, nous devons modifier les données des capteurs en fonction de la nouvelle configuration de la scène et des décisions du SDV, car des acteurs peuvent être ajoutés ou supprimés et les trajectoires des acteurs existants et du SDV diffèrent de celles du journal d'origine. Dans cet article, nous présentons UniSim, un simulateur de capteurs neuronaux qui prend un seul enregistrement capturé par un véhicule équipé de capteurs et le convertit en une simulation multi-capteurs réaliste en boucle fermée. UniSim construit des grilles de caractéristiques neuronales pour reconstruire à la fois l'arrière-plan statique et les acteurs dynamiques de la scène, et les compose ensemble pour simuler les données LiDAR et de la caméra à de nouveaux points de vue, avec des acteurs ajoutés ou supprimés et à de nouveaux emplacements. Pour mieux gérer les vues extrapolées, nous incorporons des prières d'apprentissage pour les objets dynamiques et utilisons un réseau convolutionnel pour compléter les régions non vues. Nos expériences montrent qu'UniSim peut simuler des données de capteurs réalistes avec un faible écart de domaine sur les tâches en aval. Avec UniSim, nous démontrons, pour la première fois, l'évaluation en boucle fermée d'un système d'autonomie sur des scénarios critiques de sécurité comme s'il était dans le monde réel.

Plus de 20 articles de recherche sur Vector acceptés à CVPR 2023

4 articles co-rédigés par des membres de la faculté Vector et des affiliés de la faculté ont été acceptés à la conférence de cette année.

Des chercheurs modifient les modèles d'apprentissage du NeRF pour améliorer les représentations 3D d'images 2D

Comment les ordinateurs peuvent-ils reconnaître des objets dans des images de la même manière que les humains ?

Articles de recherche acceptés par les membres de la faculté Vector

En rapport :

Évaluation comparative de Grok-1 de xAI

Une première étape : Le traitement du langage naturel à la une du dernier atelier de l'Institut Vecteur

Blogue de Vector Research : Votre réseau neuronal est-il en danger ? Le piège des optimiseurs de gradient adaptatifs