Plus de 20 articles de recherche sur les vecteurs acceptés au CVPR 2023
12 juillet 2023
12 juillet 2023
Par Natasha Ali
Les membres du corps professoral et les membres affiliés du corps professoral de Vector étaient bien représentés à la conférence IEEE / CVF sur la vision par ordinateur et la reconnaissance de motifs (CVPR) 2023. La conférence de cette année s’est tenue à Vancouver du 18 au 22 juin.
L’événement hybride a présenté des conférences de recherche, des présentations d’affiches et des ateliers animés par des experts en IA et en informatique. 24 articles coécrits par des membres du corps professoral de Vector et des membres affiliés du corps professoral ont été acceptés lors de la conférence de cette année.
Parmi les articles acceptés, cinq ont été coécrits par Raquel Urtasun, membre du corps professoral de Vector et cofondatrice, dont les recherches portent sur le développement de simulateurs de capteurs neuronaux pour véhicules autonomes. Sanja Fidler, membre du corps professoral de Vector, a également coécrit cinq articles sur la construction d’environnements 3D pour la réalité virtuelle et les simulations robotiques.
Pour « RobustNeRF : Ignorer les distracteurs avec des pertes robustes », coécrit par David Fleet, membre du corps professoral de Vector et chef de l’équipe Google Research Brain, les chercheurs ont créé un modèle de réseau de neurones qui entraîne des champs de radiance neuronale (NeRF) à générer des représentations précises de scènes 3D à partir d’images 2D.
Bien que les méthodes actuelles de NeRF fonctionnent lorsque toutes les images d’entraînement représentent la même scène « statique », elles produisent des résultats inexacts lorsque la scène varie d’une image à une autre (par exemple, en raison d’une personne en mouvement, d’un objet transitoire qui apparaît dans certaines images mais pas d’autres, ou d’une ombre transitoire).
Grâce à robustNeRF, Fleet et ses coauteurs ont modifié des algorithmes existants et entraîné des modèles de réseaux de neurones pour ignorer les objets transitoires dans les images d’entraînement. « Le résultat, » dit Fleet, « est un simple changement aux méthodes existantes, qui a montré ses performances extrêmement efficaces comparées aux méthodes d’entraînement NeRF modernes. »
« Sparsifiner : Apprendre l’attention dépendante de l’instance rare pour des transformateurs de vision efficaces », coécrit par Graham Taylor, directeur de recherche du Vector Institute, présente une nouvelle technique, moins lourde en calcul, qui aide les ordinateurs à reconnaître un objet dans les images de la même manière que les humains. L’article s’appuie sur des études antérieures sur les transformateurs de vision (ViTs), des modèles de reconnaissance d’images qui s’appuient sur des algorithmes d’apprentissage profond pour détecter des objets individuels dans les images et les classifier pour une analyse ultérieure.
Traditionnellement, les ViT utilisent une technique appelée « auto-attention multi-têtes » pour comparer toutes les parties d’une image entre elles. Cependant, ce processus est très exigeant en calcul.
Pour atténuer ce problème, Taylor et ses coauteurs ont développé Sparsifiner, une version plus efficace de ViTs. Ce transformateur de vision prédit quelles parties d’une image ont le plus de chances d’avoir des relations significatives entre elles, concentre son attention sur les relations entre ces parties, et ignore le reste.
« L’amélioration clé de Sparsifiner par rapport aux travaux précédents, » dit Taylor, « est qu’il prédit un schéma d’attention clairsemé unique pour chaque image d’entrée. »
Le Sparsifiner réduit la puissance de calcul sans perte significative de précision, permettant ainsi des technologies de reconnaissance d’image plus avancées dans les domaines où les ressources sont limitées.
Vous trouverez ci-dessous des résumés et des résumés en langage clair des articles acceptés, coécrits par les membres du corps professoral de Vector et les membres affiliés du corps professoral.
Alignez vos latents : synthèse vidéo haute résolution avec modèles de diffusion latente
Andreas Blattmann, Robin Rombach, Huan Ling, Tim Dockhorn, Seung Wook Kim, Sanja Fidler, Karsten Kreis
Les modèles de diffusion latente (LDM) permettent une synthèse d’images de haute qualité tout en évitant des exigences de calcul excessives en entraînant un modèle de diffusion dans un espace latent compressé de dimension inférieure. Ici, nous appliquons le paradigme LDM à la génération vidéo haute résolution, une tâche particulièrement gourmande en ressources. Nous pré-formons d’abord un LDM uniquement sur des images; Ensuite, nous transformons le générateur d’images en générateur vidéo en introduisant une dimension temporelle dans le modèle de diffusion de l’espace latent et en affinant les séquences d’images encodées, c’est-à-dire des vidéos. De même, nous alignons temporellement les upsamplers de modèles de diffusion, les transformant en modèles vidéo à super-résolution cohérents dans le temps. Nous nous concentrons sur deux applications concrètes pertinentes : la simulation de données de conduite dans la nature et la création de contenu créatif avec modélisation texte-vidéo. En particulier, nous validons notre vidéo LDM sur de vraies vidéos de conduite à la résolution 512 x 1024, atteignant ainsi des performances de pointe. De plus, notre approche peut facilement exploiter des LDM d’images pré-entraînées prêtes à l’emploi, car dans ce cas, il suffit d’entraîner un modèle d’alignement temporel. Ce faisant, nous transformons le LDM Stable Diffusion texte-image à la fine pointe du public en un modèle de synthèse en vidéo efficace et expressif, avec une résolution allant jusqu’à 1280 x 2048. Nous montrons que les couches temporelles entraînées de cette façon se généralisent à différents LDM texte-image affinés. En utilisant cette propriété, nous présentons les premiers résultats pour la génération personnalisée de texte en vidéo, ouvrant des directions passionnantes pour la création future de contenu.
Portes dérobées architecturales dans les réseaux neuronaux
Mikel Bober-Irizar, Ilia Shumailov, Yiren Zhao, Robert Mullins, Nicolas Papernot
La communauté de l’apprentissage automatique fait actuellement face à une menace provenant de réseaux neuronaux dérobés, qui sont intentionnellement modifiés par des attaquants dans la chaîne d’approvisionnement. Ces modèles à porte arrière ont des comportements cachés qui sont déclenchés par un « déclencheur » secret spécifique dans l’entrée, alors qu’ils fonctionnent normalement autrement. La plupart des attaques backdoor modifient les poids entraînés des modèles pendant l’entraînement, soit directement, soit en manipulant les données d’entraînement. Dans cet article, nous montrons que l’architecture même des réseaux de neurones peut être modifiée pour masquer les portes dérobées, les rendant résistantes à leur retrait même après un réentraînement complet. Nous construisons une porte arrière Model Architecture (MAB) de preuve de concept et fournissons une méthode pour construire ces portes dérobées qui survivent à la rééducation sur de nouveaux ensembles de données. Nous identifions les exigences pour réussir les portes dérobées architecturales et démontrons leur efficacité selon divers repères. Nos recherches introduisent une nouvelle catégorie d’attaques backdoor qui opèrent au niveau de l’architecture, allant au-delà des méthodes précédentes qui reposaient sur la modification des poids.
Coopération ou compétition : éviter la domination des joueurs pour une robustesse multi-cibles grâce à des budgets adaptatifs
Yimu Wang, Dinghuai Zhang, Yihan Wu, Heng Huang, Hongyang Zhang
Malgré des avancées incroyables, il a été démontré que l’apprentissage profond est vulnérable aux attaques adverses. De nombreuses approches ont été proposées pour entraîner des réseaux robustes, tant empiriquement que certifiés. Cependant, la plupart d’entre eux défendent contre un seul type d’attaque, tandis que les travaux récents se promettent de se défendre contre plusieurs attaques. Dans cet article, pour comprendre la robustesse multi-cibles, nous voyons ce problème comme un jeu de négociation où différents acteurs (adversaires) négocient pour parvenir à un accord sur une direction conjointe de mise à jour des paramètres. Nous identifions un phénomène appelé \emph{domination du joueur} dans le jeu de négociation, et montrons qu’avec ce phénomène, certaines approches existantes basées sur le max comme MAX et MSD ne convergent pas. Sur la base de nos résultats théoriques, nous concevons un cadre novateur qui ajuste les budgets de différents adversaires afin d’éviter la domination des joueurs. Des expériences sur deux benchmarks montrent que l’utilisation du cadre proposé aux approches existantes améliore considérablement la robustesse multi-cibles.
DINN360 : Réseau neuronal inversible déformable pour le redimensionnement d’image à 360° conscient de la latitude
Yichen Guo, Mai Xu, Lai Jiang, Leonid Sigal, Yunjin Chen
Avec le développement rapide de la réalité virtuelle, les images à 360 degrés ont gagné en popularité. Leur large champ de vision nécessite une haute résolution pour assurer la qualité de l’image. Cela rend cependant plus difficile l’acquisition, le stockage et même le traitement de telles images. Pour atténuer ce problème, nous proposons la première tentative de redimensionnement d’image à 360 degrés. Le processus de remise à l’échelle consiste à produire une variante valide mais à basse résolution de l’image originale ainsi qu’une méthode pour agrandir cet équivalent basse résolution à la haute résolution originale lorsque nécessaire. L’essentiel est de définir, ou d’apprendre, le processus à la fois de sous-échantillonnage et d’upsampling. Compte tenu d’une observation empirique selon laquelle la quantité d’information varie selon la latitude dans les images à 360 degrés, nous proposons un nouveau réseau neuronal inversible déformable pour cette tâche. Notre réseau de neurones inversible déformable apprend à réduire l’échelle des images haute résolution vers des basse résolution, et à projeter l’information à haute fréquence dans l’espace latent en manipulant de manière adaptative différentes régions de latitude. La nature inversible du réseau de neurones conçu facilite l’agrandissement de l’image à basse résolution. Des expériences approfondies sur quatre ensembles de données publiques montrent que notre méthode fonctionne nettement mieux que d’autres méthodes de pointe pour les facteurs de redimensionnement d’image 2x, 4x et 8x à 360 degrés.
Adaptation guidée dynamiquement par instance : une approche rétroactive pour la segmentation sémantique adaptative en temps de test
Wei Wang · Zhun Zhong · Weijie Wang · Xi Chen · Charles Ling · Boyu Wang · Nicu Sebe
Dans cet article, nous étudions l’application de l’adaptation du domaine en temps de test en segmentation sémantique (TTDA-Seg), où l’efficacité et l’efficacité sont cruciales. Les méthodes existantes ont soit une faible efficacité (par exemple, optimisation rétroactive), soit ignorent l’adaptation sémantique (par exemple, l’alignement de distribution). De plus, ils souffriraient des erreurs accumulées causées par une optimisation instable et des distributions anormales. Pour résoudre ces problèmes, nous proposons une approche novatrice sans rebours pour TTDA-Seg, appelée Adaptation Guidée par Instance Dynamique (DIGA). Notre principe consiste à utiliser chaque instance pour guider dynamiquement sa propre adaptation de façon non paramétrique, ce qui évite le problème d’accumulation d’erreurs et le coût d’optimisation coûteux. Plus précisément, DIGA est composé d’un module d’adaptation de distribution (DAM) et d’un module d’adaptation sémantique (SAM), ce qui nous permet d’adapter conjointement le modèle dans deux aspects indispensables. DAM mélange les statistiques BN d’instance et source pour *L’auteur correspondant encourage le modèle à capturer une représentation robuste. SAM combine les prototypes historiques avec des prototypes au niveau de l’instance pour ajuster les prédictions sémantiques, qui peuvent être associées au classificateur paramétrique afin de bénéficier mutuellement aux résultats finaux. Des expériences approfondies évaluées sur cinq domaines cibles démontrent l’efficacité et l’efficience de la méthode proposée. Notre DIGA établit une nouvelle performance à la fine pointe de la technologie en TTDA-Seg.
Exemplar-FreeSOLO : Améliorer la segmentation d’instances non supervisée avec des exemples
Taoseef Ishtiak, Qing En, Yuhong Guo
La segmentation d’instance cherche à identifier et segmenter chaque objet à partir d’images, ce qui repose souvent sur un grand nombre d’annotations denses pour l’entraînement du modèle. Pour alléger ce fardeau, des méthodes de segmentation d’instances non supervisées ont été développées pour entraîner des modèles de segmentation d’instance indépendants de la classe sans aucune annotation. Dans cet article, nous proposons une nouvelle approche de segmentation d’instances non supervisée, Exemplar-FreeSOLO, pour améliorer la segmentation d’instances non supervisée en exploitant un nombre limité d’exemples non annotés et non segmentés. Le cadre proposé offre une nouvelle perspective sur la perception directe de l’information descendante sans annotations. Plus précisément, Exemplar-FreeSOLO introduit un module novateur d’abstraction des connaissances des exemples afin d’acquérir des connaissances bénéfiques en orientation descendante pour les instances utilisant l’extraction non supervisée d’objets d’exemples. De plus, un nouveau module contrastif d’inclusion d’exemplaires est conçu pour améliorer la capacité discriminative du modèle de segmentation en exploitant les connaissances de guidage basées sur l’exemplaire contrastif dans l’espace d’immersion. Pour évaluer l’ExemplarFreeSOLO proposé, nous menons des expériences complètes et réalisons des analyses approfondies sur trois ensembles de données de segmentation d’instances d’images. Les résultats expérimentaux démontrent que l’approche proposée est efficace et surpasse les méthodes de pointe.
Apprentissage de la similarité visuelle géométrique dans une image médicale 3D Pré-entraînement auto-supervisé
Yuting He, Guanyu Yang, Rongjun Ge, Yang Chen, Jean-Louis Coatrieux, Boyu Wang, Shuo Li
L’apprentissage de la similarité entre images est crucial pour la pré-formation auto-supervisée des images médicales 3D, en raison du partage de nombreuses régions sémantiques identiques. Cependant, l’absence du prior sémantique dans les métriques et la variation indépendante de la sémantique dans les images médicales 3D rendent difficile l’obtention d’une mesure fiable de la similarité entre images, ce qui nuit à l’apprentissage d’une représentation cohérente pour la même sémantique. Nous étudions le problème complexe de cette tâche, c’est-à-dire apprendre une représentation cohérente entre les images pour un effet de regroupement des mêmes caractéristiques sémantiques. Nous proposons un nouveau paradigme d’apprentissage de la similarité visuelle, l’apprentissage géométrique de similarité visuelle, qui intègre le prior de l’invariance topologique dans la mesure de la similarité inter-images pour une représentation cohérente des régions sémantiques. Pour alimenter ce paradigme, nous construisons en outre une nouvelle tête d’appariement géométrique, la tête Z-matching, afin d’apprendre de manière collaborative la similarité globale et locale des régions sémantiques, en guidant l’apprentissage efficace des représentations pour différentes caractéristiques sémantiques inter-images au niveau de l’échelle. Nos expériences démontrent que la pré-formation grâce à notre apprentissage de la similarité inter-images permet une capacité de transfert plus puissante en scène intérieure, inter-scène et global-local sur quatre tâches complexes d’images médicales 3D.
Champs d’écoulement à occupation implicite pour la perception et la prédiction en conduite autonome
Ben Agro, Quinlan Sykora, Sergio Casas, Raquel Urtasun
Un véhicule autonome (VSD) doit être capable de percevoir son environnement et de prédire le comportement futur des autres participants à la circulation. Les œuvres existantes effectuent soit la détection d’objets, suivies de prévisions de trajectoire des objets détectés, soit prédisent l’occupation dense et les grilles de flux pour l’ensemble de la scène. La première pose un risque de sécurité, car le nombre de détections doit être maintenu bas pour des raisons d’efficacité, sacrifiant ainsi le rappel d’objets. Ce dernier est coûteux en calcul en raison de la haute dimensionnalité de la grille de sortie, et souffre du champ réceptif limité inhérent aux réseaux entièrement convolutifs. De plus, les deux approches emploient de nombreuses ressources computationnelles prédisant des zones ou des objets qui pourraient ne jamais être interrogés par le planificateur de mouvement. Cela motive notre approche unifiée de la perception et de la prédiction future qui représente implicitement l’occupation et le flux dans le temps avec un seul réseau de neurones. Notre méthode évite les calculs inutiles, car elle peut être directement interrogée par le planificateur de mouvement à des emplacements spatiotemporels continus. De plus, nous concevons une architecture qui surmonte le champ réceptif limité des méthodes de prédiction explicite d’occupation précédentes en ajoutant un mécanisme d’attention globale efficace mais efficace. Grâce à des expériences approfondies tant en milieu urbain qu’autoroutier, nous démontrons que notre modèle implicite surpasse l’état de la technologie actuel.
Apprentissage des représentations compactes pour la complétion et la génération de LiDAR
Yuwen Xiong, Wei-Chiu Ma, Jingkang Wang, Raquel Urtasun
Le LiDAR fournit des mesures géométriques précises du monde 3D. Malheureusement, les LiDAR denses sont très coûteux et les nuages ponctuels captés par les LiDAR à faible faisceau sont souvent rares. Pour répondre à ces problèmes, nous présentons UltraLiDAR, un cadre basé sur les données pour la complétion LiDAR au niveau de la scène, la génération de LiDAR et la manipulation LiDAR. Le cœur de l’UltraLiDAR est une représentation compacte et discrète qui encode la structure géométrique du nuage de points, est robuste au bruit et facile à manipuler. Nous montrons qu’en alignant la représentation d’un nuage de points clairsemés à celle d’un nuage de points dense, nous pouvons densifier ces nuages de points clairsemés comme s’ils étaient capturés par un véritable LiDAR à haute densité, réduisant drastiquement le coût. De plus, en apprenant un prior sur le code discret, nous pouvons générer des nuages de points LiDAR diversifiés et réalistes pour la conduite autonome. Nous évaluons l’efficacité de l’UltraLiDAR sur la complétion LiDAR clairsemée à dense et la génération de LiDAR. Les expériences démontrent que densifier les nuages de points réels grâce à notre approche peut considérablement améliorer la performance des systèmes de perception en aval. Comparé à l’art antérieur sur la génération de LiDAR, notre approche génère des nuages de points beaucoup plus réalistes. Selon le test A/B, plus de 98,5% du temps, les participants humains préfèrent nos résultats à ceux des méthodes précédentes.
Make-a-Story : Génération cohérente d’histoires conditionnée par la mémoire visuelle
Tanzila Rahman, Hsin-Ying Lee, Jian Ren, Sergey Tulyakov, Shweta Mahajan, Leonid Sigal
Dans ce travail, nous nous concentrons sur le problème de la génération d’histoires, dont l’objectif est de générer une séquence d’images illustratives cohérentes à partir d’une séquence de phrases — une histoire textuelle. Cette capacité a de nombreuses applications intéressantes, notamment la visualisation de matériel éducatif, l’aide aux artistes dans la création de webcomics, et ainsi de suite. Une bonne génération d’histoire visuelle ne dépend pas seulement de la capacité à générer des images de haute qualité, mais aussi d’un rendu cohérent des scènes et des acteurs au sein d’une histoire, par exemple en préservant leur apparence. De plus, les histoires réalistes sont de nature référentielle et nécessitent la capacité de résoudre l’ambiguïté et les références (ou coréférences) par le raisonnement. Aucun de ces deux défis n’a été abordé par des travaux antérieurs. Dans cet article, pour la première fois (à notre connaissance), nous étudions la résolution de coréférences dans la génération d’histoires. Nous le faisons en introduisant Story-LDM, une approche générative profonde avec une structure autorégressive. Dans ce modèle, nous proposons un nouveau mécanisme mémoire-attention qui prend en compte la sémantique déjà générée des images précédentes afin d’assurer la cohérence temporelle et la progression fluide de l’histoire. Pour valider la résolution de coréférence, ainsi que la cohérence des caractères et des fonds, nous étendons les ensembles de données existants et les métriques d’évaluation pour inclure des scénarios plus complexes. Notre méthode proposée surpasse non seulement l’état de l’art précédent pour générer des images de haute qualité visuelle, mais modélise aussi les correspondances appropriées entre les personnages et l’arrière-plan.
MixSim : un cadre hiérarchique pour la simulation du trafic en réalité mixte
Simon Suo, Kelvin Wong, Justin Xu, James Tu, Alexander Cui, Sergio Casas, Raquel Urtasun
La méthode dominante pour tester un véhicule autonome (SDV) en simulation implique la relecture en boucle ouverte non réactive de scénarios réels. Cependant, pour déployer les SDV en toute sécurité dans le monde réel, nous devons les évaluer en boucle fermée. Dans ce but, nous proposons de tirer parti de la richesse de scénarios intéressants capturés dans le monde réel et de les rendre réactifs et contrôlables afin de permettre une évaluation SDV en boucle fermée dans des situations hypothétiques. En particulier, nous présentons MIXSIM, un cadre hiérarchique pour la simulation du trafic en réalité mixte. MIXSIM modélise explicitement les objectifs de l’agent comme des itinéraires le long du réseau routier et apprend une politique de routage conditionnelle réactive. En déduisant la route de chaque agent à partir du scénario original, MIXSIM peut re-simuler le scénario de façon réactive et permettre de tester différents systèmes d’autonomie sous les mêmes conditions. De plus, en variant la route de chaque agent, nous pouvons élargir la portée des tests aux situations hypothétiques avec des variations réalistes dans les comportements des agents ou même des interactions critiques pour la sécurité. Nos expériences montrent que MIXSIM peut servir de jumeau numérique réaliste, réactif et contrôlable de scénarios réels.
Les champs neuronaux rencontrent des représentations géométriques explicites pour le rendu inverse des scènes urbaines
Zian Wang, Tianchang Shen, Jun Gao, Shengyu Huang, Jacob Munkberg, Jon Hasselgren, Zan Gojcic, Wenzheng Chen, Sanja Fidler
La reconstruction et la décomposition intrinsèque de scènes à partir d’images capturées permettraient de nombreuses applications telles que le rééclairage et l’insertion d’objets virtuels. Les méthodes récentes basées sur NeRF atteignent une fidélité impressionnante de la reconstruction 3D, mais intègrent l’éclairage et les ombres dans le champ de radiance, tandis que les méthodes basées sur un maillage qui facilitent la décomposition intrinsèque par un rendu différentiable n’ont pas encore atteint la complexité et l’échelle des scènes extérieures. Nous présentons un cadre novateur de rendu inverse pour de grandes scènes urbaines, capable de reconstituer conjointement la géométrie de la scène, les matériaux spatialement variables et l’éclairage HDR à partir d’un ensemble d’images RVB posées avec une profondeur optionnelle. Plus précisément, nous utilisons un champ neuronal pour prendre en compte les rayons primaires, et nous utilisons un maillage explicite (reconstruit à partir du champ neuronal sous-jacent) pour modéliser les rayons secondaires qui produisent des effets d’éclairage d’ordre supérieur, comme projeter des ombres. En démêlant fidèlement la géométrie complexe et les matériaux des effets d’éclairage, notre méthode permet un rééclairage photoréaliste avec des effets spéculaires et d’ombre sur plusieurs ensembles de données extérieures. De plus, il supporte des manipulations de scènes basées sur la physique, comme l’insertion d’objets virtuels avec projection d’ombres ray-tracée.
Reconstruction de la surface du noyau neural
Jiahui Huang, Zan Gojcic, Matan Atzmon, Or Litany, Sanja Fidler, Francis Williams
Nous présentons une méthode novatrice pour reconstruire une surface implicite 3D à partir d’un nuage de points à grande échelle, clairsemé et bruyant. Notre approche s’appuie sur la représentation récemment introduite par les champs neuronaux du noyau (NKF). Il bénéficie de capacités de généralisation similaires à NKF, tout en répondant simultanément à ses principales limites : (a) Nous pouvons étendre à de grandes scènes grâce à des fonctions noyau compactement supportées, qui permettent l’utilisation de solveurs linéaires clairsemés économes en mémoire. (b) Nous sommes robustes au bruit, grâce à une résolution d’ajustement en gradient. (c) Nous minimisons les exigences d’entraînement, ce qui nous permet d’apprendre à partir de n’importe quel ensemble de données de points orientés denses, et même de mélanger des données d’entraînement composées d’objets et de scènes à différentes échelles. Notre méthode est capable de reconstituer des millions de points en quelques secondes et de gérer de très grandes scènes de façon hors du cœur. Nous obtenons des résultats de pointe sur des repères de reconstruction comprenant des objets uniques, des scènes intérieures et des scènes extérieures.
NeuralField-LDM : Génération de scènes avec modèles hiérarchiques de diffusion latente
Seung Wook Kim, Bradley Brown, Kangxue Yin, Karsten Kreis, Katja Schwarz, Daiqing Li, Robin Rombach, Antonio Torralba, Sanja Fidler
La génération automatique de scènes 3D réelles de haute qualité est d’un immense intérêt pour des applications telles que la réalité virtuelle et la simulation robotique. Dans ce but, nous introduisons NeuralField-LDM, un modèle génératif capable de synthétiser des environnements 3D complexes. Nous exploitons les modèles de diffusion latente qui ont été utilisés avec succès pour une création efficace de contenu 2D de haute qualité. Nous entraînons d’abord un auto-encodeur de scène pour exprimer un ensemble de paires image et pose sous forme de champ neuronal, représenté par des grilles de densité et de caractéristiques voxel pouvant être projetées pour produire de nouvelles vues de la scène. Pour compresser davantage cette représentation, nous entraînons un autoencodeur latent qui mappe les grilles de voxels à un ensemble de représentations latentes. Un modèle de diffusion hiérarchique est ensuite ajusté aux latents pour compléter la chaîne de génération de scènes. Nous réalisons une amélioration substantielle par rapport aux modèles de génération de scènes à la fine pointe de la technologie existants. De plus, nous montrons comment NeuralField-LDM peut être utilisé pour diverses applications de création de contenu 3D, incluant la génération conditionnelle de scènes, l’inpainting de scènes et la manipulation du style de scène.
Omnimatte3D : Associer des objets et leurs effets dans une vidéo monoculaire non contrainte
Erika Lu, Forrester Cole, Tali Dekel, Andrew Zisserman, William T. Freeman, Michael Rubinstein
Dans ce travail, nous proposons une méthode pour décomposer une vidéo en arrière-plan et en un ensemble de calques au premier plan, où l’arrière-plan capture des éléments stationnaires tandis que les couches de premier plan capturent des objets en mouvement ainsi que leurs effets associés (par exemple, ombres et reflets). Notre approche est conçue pour des vidéos monoculaires non contraintes, avec un mouvement arbitraire de la caméra et des objets, contrairement aux méthodes précédentes qui fonctionnent sur des vidéos avec une amplitude limitée de mouvements de caméra. Notre représentation en couches prédite s’avère utile dans de nombreuses applications telles que le retrait d’objets, la stabilisation de la caméra, la défocalisation synthétique et bien d’autres. La nouveauté technique réside dans une série d’objectifs d’apprentissage proposés qui assurent une décomposition appropriée en représentation en couches.
Préserver la séparabilité linéaire dans l’apprentissage continu par projection de caractéristiques à rebours
Qiao Gu, Dongsub Shim, Florian Shkurti
L’oubli catastrophique a été un défi majeur dans l’apprentissage continu, où le modèle doit apprendre de nouvelles tâches avec un accès limité ou inexistant aux données des tâches déjà vues. Pour relever ce défi, des méthodes basées sur la distillation des connaissances dans l’espace des caractéristiques ont été proposées et ont démontré qu’elles réduisent l’oubli. Cependant, la plupart des méthodes de distillation des caractéristiques contraignent directement les nouvelles caractéristiques à correspondre aux anciennes, négligeant ainsi la nécessité de plasticité. Pour obtenir un meilleur compromis stabilité-plasticité, nous proposons la projection de caractéristiques à l’envers (BFP), une méthode d’apprentissage continu qui permet aux nouvelles caractéristiques de changer jusqu’à une transformation linéaire apprenable des anciennes. BFP préserve la séparabilité linéaire des anciennes classes tout en permettant l’émergence de nouvelles directions de caractéristiques pour accueillir de nouvelles classes. BFP peut être intégré aux méthodes de relecture d’expérience existantes et améliorer considérablement la performance. Nous démontrons également que la BFP aide à apprendre un meilleur espace de représentation, dans lequel la séparabilité linéaire est bien préservée lors de l’apprentissage continu et où le sondage linéaire atteint une grande précision de classification.
RobustNeRF : Ignorer les distracteurs avec des pertes robustes
Sara Sabour, Suhani Vora, Daniel Duckworth, Ivan Krasin, David J. Fleet, Andrea Tagliasacchi
Les champs de radiance neuronale (NeRF) excellent dans la synthèse de nouvelles vues à partir d’images multi-vues calibrées d’une scène statique. Lorsque les scènes incluent des distracteurs, qui ne sont pas persistants lors de la capture d’image (objets en mouvement, variations d’éclairage, ombres), les artefacts apparaissent sous forme d’effets dépendants de la vue ou de « flottants ». Pour faire face aux distraiteurs, nous préconisons une forme d’estimation robuste pour l’entraînement NeRF, modélisant les distracteurs dans les données d’entraînement comme des valeurs aberrantes d’un problème d’optimisation. Notre méthode élimine avec succès les valeurs aberrantes d’une scène et améliore nos bases de base, tant sur les scènes synthétiques que sur les scènes réelles. Notre technique est simple à intégrer dans les frameworks NeRF modernes, avec peu d’hyperparamètres. Il ne suppose pas une connaissance a priori des types de distracteurs, et se concentre plutôt sur le problème d’optimisation plutôt que sur le prétraitement ou la modélisation d’objets transitoires.
SparsePose : Régression et affinement de la pose de la caméra à vue éparse
Samarth Sinha, Jason Y. Zhang, Andrea Tagliasacchi, Igor Gilitschenski, David B. Lindell
L’estimation de la pose de la caméra est une étape clé dans les pipelines standards de reconstruction 3D qui fonctionnent sur un ensemble dense d’images d’un seul objet ou d’une seule scène. Cependant, les méthodes d’estimation de la pose échouent souvent lorsque seules quelques images sont disponibles, car elles reposent sur la capacité d’identifier et de faire correspondre robustement les caractéristiques visuelles entre les paires d’images. Bien que ces méthodes puissent fonctionner efficacement avec des vues de caméra denses, capturer un grand ensemble d’images peut être long ou peu pratique. Nous proposons SparsePose pour récupérer des poses de caméra précises à partir d’un ensemble clairsemé d’images larges (moins de 10). La méthode apprend à régresser les poses initiales de la caméra, puis à les affiner de façon itérative après un entraînement sur un ensemble de données à grande échelle d’objets (Co3D : Common Objects in 3D). SparsePose surpasse nettement les références conventionnelles et basées sur l’apprentissage pour récupérer des rotations et translations précises de la caméra. Nous démontrons également notre pipeline de reconstruction 3D haute fidélité en utilisant seulement 5 à 9 images d’un objet.
Sparsifiner : Apprendre l’attention dépendant des instances parcimonieuses pour des transformateurs de vision efficaces
Cong Wei, Brendan Duke, Ruowei Jiang, Parham Aarabi, Graham W. Taylor, Florian Shkurti
Les transformateurs de vision (ViT) ont démontré leurs avantages concurrentiels en termes de performance comparativement aux réseaux neuronaux convolutionnels (CNN), bien qu’ils comportent souvent des coûts computationnels élevés. À cette fin, les méthodes précédentes explorent différents schémas d’attention en limitant un nombre fixe de jetons spatialement proches afin d’accélérer les opérations d’auto-attention multi-têtes (MHSA) du ViT. Cependant, de tels schémas d’attention structurés limitent les connexions token-à-token à leur pertinence spatiale, ce qui ignore les connexions sémantiques apprises d’un masque d’attention complet. Dans ce travail, nous proposons une approche novatrice pour apprendre les schémas d’attention dépendants de l’instance, en concevant un module prédicteur de connectivité léger pour estimer le score de connectivité de chaque paire de jetons. Intuitivement, deux jetons ont des scores de connectivité élevés si les caractéristiques sont considérées comme pertinentes spatialement ou sémantiquement. Comme chaque jeton ne s’occupe que d’un petit nombre d’autres jetons, les masques de connectivité binarisés sont souvent très clairsemés par nature et offrent donc la possibilité d’accélérer le réseau via des calculs clairsemés. Équipé du schéma d’attention non structuré appris, le ViT à l’attention clairsemée (Sparsifiner) produit un compromis optimal de Pareto supérieur entre les FLOP et la précision top 1 sur ImageNet comparativement à la parcimonie des jetons. Notre méthode réduit de 48% à 69% les FLOPs de la MHSA tandis que la baisse de précision est de moins de 0,4%. Nous montrons aussi que la combinaison de l’attention et de la rareté des jetons réduit les FLOPs ViT de plus de 60%.
SPIn-NeRF : Segmentation multiview et peinture perceptuelle avec champs de radiance neuronale
Ashkan Mirzaei, Tristan Aumentado-Armstrong, Konstantinos G. Derpanis, Jonathan Kelly, Marcus A. Brubaker, Igor Gilitschenski, Alex Levinshtein
Les champs de radiance neuronale (NeRF) sont devenus une approche populaire pour la synthèse de nouvelles vues. Bien que les NeRF soient rapidement adaptés à un plus large éventail d’applications, monter intuitivement les scènes NeRF reste un défi ouvert. Une tâche importante de montage consiste à retirer les objets indésirables d’une scène 3D, de sorte que la région remplacée soit visuellement plausible et cohérente avec son contexte. Nous appelons cette tâche l’inpainting 3D. En 3D, les solutions doivent être à la fois cohérentes à travers plusieurs vues et géométriquement valides. Dans cet article, nous proposons une méthode novatrice de peinture 3D qui répond à ces défis. À partir d’un petit ensemble d’images posées et d’annotations clairsemées dans une seule image d’entrée, notre cadre obtient rapidement un masque de segmentation 3D pour un objet cible. À l’aide du masque, une approche basée sur l’optimisation perceptive est ensuite introduite, exploitant des peintres d’images 2D appris, distillant leurs informations dans l’espace 3D tout en assurant la cohérence des vues. Nous abordons également l’absence d’un repère diversifié pour évaluer les méthodes de peinture de scènes 3D en introduisant un ensemble de données composé de scènes réelles difficiles. En particulier, notre ensemble de données contient des vues de la même scène avec ou sans objet cible, permettant un benchmarking plus solide de la tâche d’inpainting 3D. Nous démontrons d’abord la supériorité de notre approche sur la segmentation multivue, en la comparant aux méthodes basées sur NeRF et aux approches de segmentation 2D. Nous évaluons ensuite la tâche de l’inpainting 3D, établissant des performances de pointe par rapport à d’autres algorithmes de manipulation NeRF, ainsi qu’une base solide de l’inpainteur d’images 2D.
StepFormer : Découverte et localisation d’étapes auto-supervisées dans des vidéos pédagogiques
Nikita Dvornik, Isma Hadji, Ran Zhang, Konstantinos G. Derpanis, Animesh Garg, Richard P. Wildes, Allan D. Jepson
Les vidéos pédagogiques sont une ressource importante pour apprendre les tâches procédurales à partir de démonstrations humaines. Cependant, les étapes d’instruction dans ces vidéos sont généralement courtes et épurées, la plupart des vidéos étant sans rapport avec la procédure. Cela motive le besoin de localiser temporellement les étapes d’instruction dans ces vidéos, c’est-à-dire la tâche appelée localisation par étape clé. Les méthodes traditionnelles de localisation par étapes clés nécessitent des annotations humaines au niveau vidéo et ne s’adaptent donc pas à de grands ensembles de données. Dans ce travail, nous abordons le problème sans supervision humaine et introduisons StepFormer, un modèle auto-supervisé qui découvre et localise les étapes d’instruction dans une vidéo. StepFormer est un décodeur transformateur qui s’occupe de la vidéo avec des requêtes apprenables, et produit une séquence d’emplacements capturant les étapes clés de la vidéo. Nous entraînons notre système sur un vaste ensemble de vidéos pédagogiques, en utilisant leurs sous-titres générés automatiquement comme seule source de supervision. En particulier, nous supervisons notre système avec une séquence de narrations textuelles à l’aide d’une fonction de perte consciente de l’ordre qui filtre les phrases non pertinentes. Nous montrons que notre modèle surpasse de loin toutes les approches précédentes, non supervisées et faiblement supervisées, en matière de détection et de localisation sur trois benchmarks difficiles. De plus, notre modèle démontre une propriété émergente pour résoudre la localisation en plusieurs étapes zéro et surpasse toutes les références pertinentes à cette tâche.
Vers la détection non supervisée d’objets à partir des nuages ponctuels LiDAR
Lunjun Zhang, Anqi Joyce Yang, Yuwen Xiong, Sergio Casas Bin Yang, Mengye Ren, Raquel Urtasun
Dans cet article, nous étudions le problème de la détection non supervisée d’objets à partir de nuages de points 3D dans des scènes autonomes. Nous présentons une méthode simple mais efficace qui exploite (i) le regroupement de points dans les zones proches où les nuages de points sont denses, (ii) la cohérence temporelle pour filtrer les détections bruyantes non supervisées, (iii) l’équivariance de traduction des CNN pour étendre les auto-étiquettes à longue portée, et (iv) l’auto-supervision pour s’améliorer seule. Notre approche, OYSTER (Object Discovery via Spatio-Temporal Refinement), n’impose pas de contraintes sur la collecte de données (comme des traversées répétées du même endroit), est capable de détecter des objets sans aucun réglage supervisé (même dans des régions rares et éloignées), et continue de s’auto-améliorer grâce à d’autres cycles d’auto-entraînement itératif. Pour mieux mesurer la performance du modèle dans des scénarios de conduite autonome, nous proposons une nouvelle mesure de perception centrée sur la planification, basée sur la distance à la collision. Nous démontrons que notre détecteur d’objets non supervisé surpasse largement les références non supervisées sur les ensembles de données PandaSet et Argoverse 2 Sensor, montrant le potentiel que l’auto-supervision combinée aux priors d’objets peut permettre la découverte d’objets dans la nature.
Trace et rythme : animation piétonne contrôlable via diffusion de trajectoire guidée
Davis Rempe, Zhengyi Luo, Xue Bin Peng, Ye Yuan, Kris Kitani, Karsten Kreis, Sanja Fidler, Or Litany
Nous introduisons une méthode pour générer des trajectoires piétons réalistes et des animations corporelles complètes pouvant être contrôlées pour atteindre des objectifs définis par l’utilisateur. Nous nous appuyons sur les avancées récentes en modélisation de diffusion guidée pour atteindre la contrôlabilité des trajectoires au moment des tests, ce qui est normalement associé uniquement aux systèmes basés sur des règles. Notre modèle de diffusion guidée permet aux utilisateurs de contraindre des trajectoires à travers des points de passage ciblés, la vitesse et des groupes sociaux spécifiés tout en tenant compte du contexte environnemental environnant. Ce modèle de diffusion de trajectoire est intégré à un nouveau contrôleur humanoïde basé sur la physique pour former un système d’animation piétonne en boucle fermée, couvrant tout le corps, capable de placer de grandes foules dans un environnement simulé avec des terrains variés. Nous proposons également d’utiliser la fonction valeur apprise lors de l’entraînement RL du contrôleur d’animation pour guider la diffusion afin de produire des trajectoires mieux adaptées à des scénarios particuliers tels que l’évitement des collisions et la traversée de terrains irréguliers.
UniSim : un simulateur de capteurs neuronaux en boucle fermée
Ze Yang, Yun Chen, Jingkang Wang, Siva Manivasagam, Wei-Chiu Ma, Anqi Joyce Yang, Raquel Urtasun
Tester rigoureusement les systèmes d’autonomie est essentiel pour concrétiser les véhicules autonomes sécuritaires (VSD). Cela exige de générer des scénarios critiques pour la sécurité au-delà de ce qui peut être collecté en toute sécurité dans le monde, car de nombreux scénarios se produisent rarement sur nos routes. Pour évaluer précisément la performance, nous devons tester la VS sur ces scénarios en boucle fermée, où la VS et les autres acteurs interagissent à chaque étape temporelle. Les journaux de conduite précédemment enregistrés fournissent une ressource riche pour construire ces nouveaux scénarios, mais pour une évaluation en boucle fermée, il faut modifier les données des capteurs en fonction de la nouvelle configuration de la scène et des décisions du SDV, car des acteurs peuvent être ajoutés ou retirés et les trajectoires des acteurs existants ainsi que du SDV diffèrent du journal original. Dans cet article, nous présentons UniSim, un simulateur de capteurs neuronaux qui prend un seul journal enregistré capturé par un véhicule équipé de capteurs et le convertit en une simulation multi-capteurs en boucle fermée réaliste. UniSim construit des grilles de caractéristiques neuronales pour reconstruire à la fois l’arrière-plan statique et les acteurs dynamiques dans la scène, et les compose ensemble pour simuler des données LiDAR et de caméra à de nouveaux points de vue, avec des acteurs ajoutés ou retirés et à de nouveaux emplacements. Pour mieux gérer les vues extrapolées, nous intégrons des priors apprenables pour des objets dynamiques, et exploitons un réseau convolutionnel pour compléter des régions invisibles. Nos expériences montrent qu’UniSim peut simuler des données de capteurs réalistes avec un petit écart de domaine sur les tâches en aval. Avec UniSim, nous démontrons, pour la première fois, une évaluation en boucle fermée d’un système d’autonomie sur des scénarios critiques pour la sécurité, comme s’il se trouvait dans le monde réel.