Les chercheurs en vecteurs présentent plus d’une douzaine d’articles lors du CVPR 2024
17 juin 2024
17 juin 2024
Les chercheurs en vecteurs présentent plus de 12 articles lors de la conférence IEEE/CVF sur la vision par ordinateur et la reconnaissance de motifs 2024 de cette année (CVPR 2024). La conférence se tient à Seattle, WA, du 17 au 21 juin.
Quatre des articles de chercheurs affiliés à Vector ont été coécrits par Sanja Fidler, membre du corps professoral de Vector, présentant de nouvelles méthodes pour détecter et générer des images 3D, entre autres avancées. Deux autres ont été coécrits par Wenhu Chen, membre du corps professoral de Vector, dont l’un introduit un nouvel algorithme pour combiner plusieurs grands modèles de langage (LLM) afin de faire des prédictions en ligne.
Voici des résumés simplifiés des articles acceptés et des séances d’affiches par les membres du corps professoral de Vector.
Descriptions d’articles rédigées par IA et éditées par des coauteurs d’articles.
MMMU : Un immense repère multidisciplinaire multimodal de compréhension et de raisonnement pour l’AGI d’experts
Session d’affiches 3 & Salle d’exposition
Xiang Yue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, Cong Wei, Botao Yu, Ruibin Yuan, Renliang Sun, Ming Yin, Boyuan Zheng, Zhenzhu Yang, Yibo Liu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen
Le benchmark MMMU (Massive Multi-discipline Multimodal Understanding) est un nouvel outil conçu pour tester les capacités des modèles d’IA dans la compréhension et le raisonnement dans un large éventail de sujets universitaires. Développé par des experts d’institutions comme IN. Recherche en IA, Université de Waterloo et Université d’État de l’Ohio, elle couvre six disciplines principales : Art et Design, Affaires, Sciences, Santé et Médecine, Sciences humaines et sociales, ainsi que Technologie et Génie. MMMU comprend 11 500 questions soigneusement recueillies provenant d’examens universitaires, de quiz et de manuels, couvrant 30 matières et 183 sous-domaines. Ces questions sont conçues pour tester la capacité de l’IA à gérer différents types d’images et de texte simultanément, tels que des graphiques, des diagrammes et des cartes. L’objectif est de pousser les modèles d’IA à démontrer une perception et un raisonnement de niveau expert. La référence a remis en question les modèles d’IA existants, y compris le propriétaire GPT-4V (Vision), qui n’a atteint que 56% de précision, montrant qu’il y a beaucoup de place à amélioration. Cette référence devrait encourager le développement de modèles avancés d’IA multimodale qui ne sont pas seulement des généralistes, mais aussi des experts dans la gestion de tâches spécifiques et axées sur un domaine.
Instruct-Imagen : Génération d’images avec instruction multimodale
Session d’affiches 2 & Salle d’exposition
Hexiang Hu, Kelvin C.K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, William Cohen, Ming-Wei Chang, Xuhui Jia
Cette recherche introduit l’algorithme MoE-F pour combiner plusieurs grands modèles de langage (LLM) afin de faire des prédictions en ligne, comme la prévision des mouvements boursiers. Plutôt que de mélanger les LLM de façon fixe, MoE-F adapte la pondération de chaque LLM au fil du temps en fonction de ses performances récentes. L’idée centrale est de traiter le problème comme un « modèle de Markov caché » comme s’il y avait un signal inobservable qui dicte quel LLM fonctionne le mieux à chaque étape temporelle. Le MoE-F utilise une technique mathématique appelée filtrage stochastique pour estimer ce signal caché à partir des erreurs de prédiction observables de chaque LLM. Des garanties théoriques sont fournies pour l’optimalité des équations de filtrage et des poids de mélange. Des expériences sur une tâche de prédiction boursière montrent que le MoE-F obtient de solides résultats, avec une amélioration absolue de 17% du score F1 par rapport au meilleur LLM individuel. En résumé, le MoE-F offre une façon adaptative et théoriquement ancrée de combiner les LLM pour des tâches de prédiction en ligne. Cela démontre le potentiel d’améliorer la performance par rapport à l’utilisation d’un seul modèle.
3DiffTection : Détection d’objets 3D avec des fonctions de diffusion géométriques
Session d’affiches 3 & Salle d’exposition
Chenfeng Xu. Huan Ling, Sanja Fidler, ou Litany
3DiffTection est une nouvelle méthode pour détecter des objets 3D à partir d’une seule image en utilisant des caractéristiques issues d’un modèle de diffusion sensible à la 3D. La détection typique d’objets 3D nécessite d’annoter de grands ensembles de données avec des boîtes englobantes 3D, ce qui prend beaucoup de temps.
3DiffTection contourne ce problème en améliorant les caractéristiques d’un modèle de diffusion 2D pré-entraîné pour obtenir une conscience 3D. Il le fait de deux façons :
Enfin, au moment des tests, 3DiffTection génère plusieurs vues virtuelles de l’image et agrège des prédictions de boîtes englobantes 3D de chaque vue afin d’améliorer encore plus la précision. Sur le complexe jeu de données Omni3D, 3DiffTection surpasse largement les méthodes de pointe précédentes comme Cube-RCNN pour la détection 3D à image unique. Il est aussi très efficace en matière de données, atteignant des résultats compétitifs avec seulement 10% des données d’entraînement.
XCube : Modélisation générative 3D à grande échelle utilisant des hiérarchies de voxels clairsemées
Session d’affiches 1 & Salle d’exposition
Xuanchi Ren, Jiahui Huang, Xiaohui Zeng, Ken Museth, Sanja Fidler, Francis Williams
Cet article présente X3 (prononcé XCube), une nouvelle méthode pour générer des formes 3D haute résolution représentées par des hiérarchies de voxels clairsemées. L’idée clé est d’utiliser une hiérarchie de modèles de diffusion latente qui génère la forme 3D de manière grossière à fine. À chaque niveau de la hiérarchie, un autoencodeur variationnel encode d’abord la grille voxel clairsemée en une représentation latente compacte. Ensuite, un modèle de diffusion latente génère le niveau de détail plus fin suivant, conditionné au niveau plus grossier. Cela permet de générer des formes avec des détails géométriques fins jusqu’à une résolution de 10 243 voxels en moins de 30 secondes. Les voxels générés peuvent inclure des attributs comme des normales de surface et des étiquettes sémantiques. La méthode surpasse les travaux antérieurs sur des ensembles de données 3D standard comme ShapeNet et Objaverse. Il peut générer des objets à partir de descriptions textuelles ou d’étiquettes de classe. Les auteurs démontrent également la création de scènes extérieures à grande échelle de 100 m x 100 m à une résolution voxel de 10 cm, une première pour ce type de modèle génératif. Des capacités supplémentaires sont présentées, comme l’édition guidée par l’utilisateur des voxels grossiers pour contrôler les détails plus fins, la réalisation d’un balayage 3D partiel en forme complète, et l’assemblage de plusieurs vues générées pour améliorer les résultats. Dans l’ensemble, X3 représente une avancée dans la création de contenu 3D de haute qualité.
Alignez vos gaussiennes : texte en 4D avec des gaussiennes 3D dynamiques et des modèles de diffusion composée
Session d’affiches 2 & Salle d’exposition
Huan Ling · Seung Wook Kim · Antonio Torralba · Sanja Fidler · Karsten Kreis
Align Your Gaussians (AYG) est une nouvelle méthode pour générer des objets et scènes 3D dynamiques à partir de descriptions textuelles. L’idée clé est de combiner plusieurs modèles de diffusion qui excellent dans différents aspects – modèles texte-image pour une haute qualité visuelle, modèles texte-vidéo pour un mouvement réaliste, et modèles sensibles à la 3D pour la cohérence géométrique.
L’approche comporte deux étapes principales :
Plusieurs techniques novatrices sont introduites pour améliorer le processus de génération, comme la régularisation de la distribution évolutive des gaussiennes 3D et l’amplification du mouvement. Cette approche permet aussi d’étendre les séquences dans le temps et de combiner plusieurs objets dynamiques. Les expériences montrent que l’AYG surpasse l’état de l’art précédent en génération texte vers 4D. Parmi les exemples d’applications figurent la génération rapide d’assets pour les jeux/VR, la génération de données synthétiques avec étiquettes de suivi, et l’animation créative.
Extrapolation de scènes extérieures avec automates cellulaires génératifs hiérarchiques
Session d’affiches 5 & Salle d’exposition
Dongsu Zhang, Francis Williams, Žan Gojčič, Karsten Kreis, Sanja Fidler, Young Min Kim, Amlan Kar
Cet article propose les automates cellulaires génératifs hiérarchiques (hGCA), une nouvelle méthode pour générer des scènes 3D complètes et haute résolution à partir de scans LiDAR clairsemés capturés par des véhicules autonomes. L’idée clé est de développer la géométrie 3D de manière grossière à fine. À la première étape grossière, un modèle d’automates cellulaires génératifs applique récursivement des règles de génération locale pour développer une représentation voxel basse résolution de la scène. Un module « planificateur » léger fournit un contexte global pour rendre la génération plus cohérente à l’échelle mondiale. Dans le deuxième étage fin, la hGCA affine les voxels grossiers en une surface continue à haute résolution en utilisant des fonctions implicites locales. Diviser la production en deux étapes améliore l’efficacité. Sur les scènes de rue synthétiques, la hGCA surpasse les méthodes de pointe précédentes sur les mesures de qualité de complétion. Il démontre également une forte généralisation des scans synthétiques vers les scans LiDAR réels. La méthode peut même générer de nouveaux objets au-delà de son ensemble d’entraînement synthétique en prenant des indices géométriques issus des scans réels d’entrée. Les applications potentielles dans l’industrie incluent la création d’environnements de simulation pour la conduite autonome, le comblement des zones manquantes sur les cartes 3D, et comme étape vers la création de mondes ouverts réalistes pour le jeu. Cependant, améliorer la qualité géométrique et générer des textures rendrait les sorties plus utiles pratiquement.
Libérer le potentiel de l’ajustement prompt en faisant le pont entre l’apprentissage fédéré généralisé et personnalisé
Session d’affiches 2 & Salle d’exposition
Wenlong deng, Christos Thrampoulidis, Xiaoxiao Li
Cet article propose une nouvelle méthode appelée Shared and Group Prompt Tuning (SGPT) pour l’apprentissage fédéré avec des modèles de transformateurs de vision. L’apprentissage fédéré permet d’entraîner des modèles sur des données provenant de plusieurs clients sans que ces données ne soient partagées, mais la performance peut en souffrir si les distributions des données clients sont très différentes (hétérogènes). SGPT répond à cela en apprenant à la fois les invites partagées, qui capturent des caractéristiques communes entre les clients, et les invites spécifiques à chaque groupe, qui alignent le modèle avec des groupes de clients similaires. Un module de sélection d’invite détermine quels groupes d’invites utiliser pour chaque entrée. La méthode utilise une approche d’optimisation par descente de coordonnées en blocs, apprenant d’abord les prompts partagés pour capturer des informations communes, puis les prompts de groupe pour des connaissances plus spécialisées. Théoriquement, les auteurs ont comblé l’écart entre la performance globale du modèle fédéré et sa performance sur les données locales de chaque client. SGPT est conçu pour minimiser deux facteurs clés influençant cet écart : l’erreur de généralisation et l’écart de distribution entre les clients. Des expériences sur plusieurs ensembles de données présentant à la fois l’hétérogénéité des étiquettes et des caractéristiques montrent que le SGPT surpasse systématiquement les méthodes d’apprentissage fédéré de pointe. Cette approche permet d’entraîner un modèle global unique qui peut s’adapter automatiquement à diverses distributions locales de données sans ajustement fin spécifique au client.
Assemblage 3D génératif de pièces via le passage de messages par hiérarchie de parties entières
Session d’affiches 5 & Salle d’exposition
Bi’an Du, Xiang Gao, Wei Hu, Renjie Liao
Les auteurs de l’article proposent une nouvelle méthode appelée réseau de transmission de messages à hiérarchie partie-entière pour générer des objets 3D réalistes en assemblant leurs parties. Le concept clé est d’abord de regrouper des parties similaires en « super-parties », de prédire les postures (positions et orientations) de ces super-parties, puis d’utiliser cette information pour prédire plus précisément les postures des parties individuelles.
La méthode utilise un processus hiérarchique en deux étapes :
Dans le jeu de données PartNet, cette approche hiérarchique permet d’obtenir des résultats de pointe pour assembler avec précision des objets 3D à partir de leurs parties. Une inspection visuelle du procédé montre que la méthode permet d’abord de placer correctement les éléments majeurs comme les sièges et dossiers des chaises, avant d’affiner le placement des parties plus fines comme les jambes et les accoudoirs. Les applications potentielles incluent des outils de conception assistée par ordinateur qui peuvent automatiquement suggérer ou réaliser des conceptions d’objets 3D, la planification d’assemblage robotique, ainsi que la génération de grandes quantités de données 3D réalistes pour la simulation et l’entraînement. Le code est disponible ici.
Segmentation sémantique émergente à vocabulaire ouvert à partir de modèles de vision-langage prêts à l’emploi
Session d’affiches 1 & Salle d’exposition
Luo Jiayun, Siddhesh Khandelwal, Leonid Sigal, Boyang Li
Cet article propose une nouvelle méthode appelée Plug-and-Play Open-Vocabulary Semantic Segmentation (PnP-OVSS) pour segmenter des objets arbitraires dans des images à l’aide de grands modèles de langage visuel pré-entraînés (VLM). Les concepts clés sont :
De manière cruciale, PnP-OVSS ne nécessite aucun entraînement supplémentaire ni annotations au niveau des pixels, même pour l’ajustement des hyperparamètres. Il obtient d’excellentes performances zéro prise sur les benchmarks de segmentation standards, surpassant non seulement les bases sans entraînement de loin, mais aussi de nombreuses méthodes qui affinent les VLM. Les applications potentielles incluent l’étiquetage automatique des ensembles de données pour la vision par ordinateur, la capacité des robots à reconnaître des objets arbitraires à la volée, ainsi que des outils créatifs d’édition d’images permettant aux utilisateurs de sélectionner et modifier des objets simplement en tapant leurs noms. Les principaux avantages sont la simplicité et l’efficacité de l’approche permettant d’extraire des capacités de segmentation à vocabulaire ouvert à partir de modèles de base puissants sans formation supplémentaire.
Incitation visuelle à la segmentation généralisée de quelques plans : une approche à plusieurs échelles
Session d’affiches 5 & Salle d’exposition
Mir Hossain Hossain, Mennatullah Siam, Leonid Sigal, Jim Little
Cet article propose une nouvelle méthode appelée Visual Prompting for Generalized Few-Shot Segmentation (GFSS) utilisant une architecture de décodeur à transformateurs à plusieurs échelles. L’approche apprend des « incitations visuelles » qui représentent des classes de base (apprises à partir de données abondantes) et des classes nouvelles (apprises à partir de quelques exemples) comme des embeddings. Ces invites interviennent avec des caractéristiques d’image à plusieurs échelles dans un décodeur transformateur. Les prompts de classe roman sont initialisés en regroupant les caractéristiques des quelques images d’exemple masquées par les masques de segmentation de vérité au sol. Un aspect clé est l’introduction d’un mécanisme unidirectionnel d'« attention causale » où les questions de base peuvent influencer les prompts du roman, mais pas l’inverse. Cela aide à contextualiser les prompts du roman tout en empêchant qu’ils dégradent les représentations de la classe de base. La méthode permet également un « réglage transductif des prompts » où les prompts visuels peuvent être optimisés davantage sur les images de test non étiquetées de manière non supervisée pour s’adapter à la distribution du test.
Incitation difficile ou presque : Inversion des invites pour les modèles de diffusion texte-image
Session d’affiches 2 & Salle d’exposition
Shweta Mahajan, Tanzila Rahman, Kwang Moo Yi, Leonid Sigal
Cet article propose une nouvelle méthode appelée Prompting Hard or Hardly Prompting (PH2P) pour « inverser » un modèle de diffusion texte-image afin de trouver l’invite texte la plus susceptible de générer une image cible donnée.
Les principales idées sont :
PH2P surpasse les approches de base, générant des invites qui capturent plus précisément la sémantique des images cibles. Les invites générées peuvent être utilisées pour synthétiser des images diverses mais sémantiquement similaires. Les applications potentielles incluent des outils d’exploration créative et d’édition, où un utilisateur fournit une image conceptuelle cible et le système suggère une invite descriptive pouvant être modifiée davantage. Les invites inversées pourraient aussi permettre la génération de concepts évolutifs en modifiant itérativement les images et les prompts. Enfin, les régions attendues correspondantes à chaque jeton pouvaient être utilisées pour la localisation et la segmentation non supervisées d’objets.
UnO : Champs d’occupation non supervisée pour la perception et la prévision
Session d’affiches 4 & salle d’exposition
Ben Agro, Quinlan Sykora, Sergio Casas, Thomas Gilles, Raquel Urtasun
UNO (Unsupervised Occupancy Fields) est une méthode proposée dans cet article pour apprendre un modèle mondial 3D à partir de données LiDAR non étiquetées, capable de percevoir l’environnement actuel et de prévoir son état futur. UNO apprend à prédire l’occupation 3D (si un point dans l’espace est occupé par un objet ou non) au fil du temps de manière auto-supervisée, en utilisant les balayages LiDAR futurs comme pseudo-étiquettes. Il utilise une architecture de réseau neuronal implicite qui permet d’interroger l’occupation à n’importe quel point 3D continu et à un temps futur. UNO peut être transféré efficacement aux tâches en aval. Pour la prévision des nuages de points LiDAR, il obtient des résultats de pointe sur plusieurs ensembles de données en ajoutant un moteur de rendu léger par-dessus l’occupation prédite. Lorsqu’il est affiné sur des données limitées et étiquetées pour la prédiction sémantique de l’occupation en vue aérienne, UNO surpasse les méthodes entièrement supervisées, démontrant des capacités impressionnantes d’apprentissage par peu de tirs. Les applications potentielles incluent une planification de mouvement plus sécuritaire pour les véhicules autonomes, en leur permettant de raisonner sur l’état futur de toute la scène, et pas seulement sur les objets détectés. La capacité de l’UNO à apprendre à partir de données non étiquetées et à généraliser à des objets rares peut améliorer la robustesse et la sécurité.
Cliquez ici pour en savoir plus sur les travaux de vision par ordinateur réalisés par les chercheurs en Vector.