Les chercheurs de Vector présentent plus d'une douzaine d'articles à CVPR 2024
17 juin 2024
17 juin 2024
Les chercheurs de Vector présentent plus de 12 articles à la conférence IEEE/CVF de cette année sur la vision informatique et la reconnaissance des formes 2024 (CVPR 2024). La conférence se tient à Seattle, WA, du 17 au 21 juin.
Quatre des articles rédigés par des chercheurs affiliés à Vector ont été cosignés par Sanja Fidler, membre de la faculté Vector, et présentent de nouvelles méthodes de détection et de génération d'images 3D, ainsi que d'autres avancées. Deux autres articles ont été cosignés par Wenhu Chen, membre de la faculté Vector, dont l'un présente un nouvel algorithme permettant de combiner plusieurs grands modèles de langage (LLM) pour faire des prédictions en ligne.
Vous trouverez ci-dessous des résumés simplifiés des communications acceptées et des sessions d'affichage des membres de la faculté Vector.
Les descriptions des articles sont rédigées par AI et éditées par les co-auteurs de l'article.
MMMU : Un banc d'essai de compréhension et de raisonnement multimodaux massifs et multidisciplinaires pour les experts de l'AGI
Session de posters 3 et salle d'exposition
XiangYue, Yuansheng Ni, Kai Zhang, Tianyu Zheng, Ruoqi Liu, Ge Zhang, Samuel Stevens, Dongfu Jiang, Weiming Ren, Yuxuan Sun, Cong Wei, Botao Yu, Ruibin Yuan, Renliang Sun, Ming Yin, Boyuan Zheng, Zhenzhu Yang, Yibo Liu, Wenhao Huang, Huan Sun, Yu Su, Wenhu Chen
Le test MMMU (Massive Multi-discipline Multimodal Understanding) est un nouvel outil conçu pour tester les capacités de compréhension et de raisonnement des modèles d'IA dans un large éventail de sujets de niveau universitaire. Développé par des experts d'institutions telles que IN.AI Research, l'université de Waterloo et l'université d'État de l'Ohio, il couvre six disciplines fondamentales : Art et design, commerce, sciences, santé et médecine, sciences humaines et sociales, et technologie et ingénierie. MMMU comprend 11 500 questions soigneusement collectées à partir d'examens, de quiz et de manuels universitaires, couvrant 30 matières et 183 sous-domaines. Ces questions sont conçues pour tester la capacité de l'IA à traiter simultanément différents types d'images et de textes, tels que des graphiques, des diagrammes et des cartes. L'objectif est de pousser les modèles d'IA à faire preuve d'une perception et d'un raisonnement de niveau expert. Ce test a mis à l'épreuve les modèles d'IA existants, notamment le modèle propriétaire GPT-4V (Vision), qui n'a atteint qu'une précision de 56 %, ce qui montre qu'il y a encore beaucoup de progrès à faire. Ce test devrait encourager le développement de modèles d'IA multimodaux avancés qui ne sont pas simplement des généralistes, mais des experts dans le traitement de tâches spécifiques, axées sur un domaine.
Instruct-Imagen : Génération d'images avec instruction multimodale
Poster Session 2 & Exhibit Hall
Hexiang Hu, Kelvin C.K. Chan, Yu-Chuan Su, Wenhu Chen, Yandong Li, Kihyuk Sohn, Yang Zhao, Xue Ben, William Cohen, Ming-Wei Chang, Xuhui Jia
Cette recherche introduit l'algorithme MoE-F pour combiner plusieurs grands modèles de langage (LLM) afin de faire des prédictions en ligne, telles que la prévision des mouvements du marché boursier. Plutôt que de mélanger les LLM de manière fixe, MoE-F adapte la pondération de chaque LLM au fil du temps sur la base de ses performances récentes. L'idée de base est de traiter le problème comme un "modèle de Markov caché", comme s'il existait un signal inobservable dictant le LLM le plus performant à chaque pas de temps. MoE-F utilise une technique mathématique appelée filtrage stochastique pour estimer ce signal caché à partir des erreurs de prédiction observables de chaque LLM. Des garanties théoriques sont fournies pour l'optimalité des équations de filtrage et des poids de mélange. Des expériences sur une tâche de prédiction du marché boursier montrent que MoE-F obtient de bons résultats, avec une amélioration absolue de 17 % du score F1 par rapport au meilleur LLM individuel. En résumé, MoE-F fournit une manière adaptative et théoriquement fondée de combiner les LLM pour les tâches de prédiction en ligne. Il montre le potentiel d'augmenter la performance par rapport à l'utilisation d'un seul modèle.
3DiffTection : 3D Object Detection with Geometry-Aware Diffusion Features
Poster Session 3 & Exhibit Hall
Chenfeng Xu. Huan Ling, Sanja Fidler, ou Litany
3DiffTection est une nouvelle méthode de détection d'objets 3D à partir d'une seule image en utilisant les caractéristiques d'un modèle de diffusion sensible à la 3D. La détection d'objets 3D classique nécessite l'annotation de grands ensembles de données avec des boîtes de délimitation 3D, ce qui prend beaucoup de temps.
3DiffTection contourne ce problème en améliorant les caractéristiques d'un modèle de diffusion 2D pré-entraîné pour qu'il prenne en compte la 3D. Cela se fait de deux manières :
Enfin, au moment du test, 3DiffTection génère plusieurs vues virtuelles de l'image et agrège les prédictions des boîtes de délimitation 3D de chaque vue afin d'améliorer encore la précision. Sur l'ensemble de données difficile Omni3D, 3DiffTection surpasse de manière significative les méthodes de pointe précédentes telles que Cube-RCNN pour la détection 3D à partir d'une seule image. Elle est également très économe en données, obtenant des résultats compétitifs avec seulement 10 % des données d'entraînement.
XCube : Modélisation générative 3D à grande échelle utilisant des hiérarchies de voxels éparses
Poster Session 1 & Exhibit Hall
XuanchiRen, Jiahui Huang, Xiaohui Zeng, Ken Museth, Sanja Fidler, Francis Williams
Cet article présente X3 (prononcé XCube), une nouvelle méthode de génération de formes 3D à haute résolution représentées sous forme de hiérarchies de voxels éparses. L'idée principale est d'utiliser une hiérarchie de modèles de diffusion latente qui génère la forme 3D de manière grossière à fine. À chaque niveau de la hiérarchie, un autoencodeur variationnel code d'abord la grille de voxels peu dense en une représentation latente compacte. Ensuite, un modèle de diffusion latent génère le niveau de détail suivant, conditionné par le niveau le plus grossier. Cela permet de générer des formes avec des détails géométriques fins jusqu'à une résolution de 10243 voxels en moins de 30 secondes. Les voxels générés peuvent inclure des attributs tels que des normales de surface et des étiquettes sémantiques. La méthode est plus performante que les travaux antérieurs sur les ensembles de données d'objets 3D standard tels que ShapeNet et Objaverse. Elle peut générer des objets à partir de descriptions textuelles ou d'étiquettes de classe. Les auteurs ont également démontré qu'ils pouvaient générer des scènes extérieures à grande échelle de 100 m x 100 m avec une résolution de voxel de 10 cm, ce qui est une première pour ce type de modèle génératif. D'autres capacités sont présentées, comme l'édition guidée par l'utilisateur de voxels grossiers pour contrôler des détails plus fins, la transformation d'un scan 3D partiel en une forme complète et l'assemblage de plusieurs vues générées pour améliorer les résultats. Dans l'ensemble, X3 représente une avancée dans la création de contenu 3D de haute qualité.
Alignez vos gaussiennes : Text-to-4D avec des gaussiennes 3D dynamiques et des modèles de diffusion composés
Poster Session 2 & Exhibit Hall
Huan Ling - Seung Wook Kim - Antonio Torralba - Sanja Fidler - Karsten Kreis
Align Your Gaussians (AYG) est une nouvelle méthode pour générer des objets et des scènes 3D dynamiques à partir de descriptions textuelles. L'idée principale est de combiner plusieurs modèles de diffusion qui excellent dans différents domaines : les modèles texte-image pour une qualité visuelle élevée, les modèles texte-vidéo pour des mouvements réalistes et les modèles 3D pour la cohérence géométrique.
L'approche comporte deux étapes principales :
Plusieurs nouvelles techniques sont introduites pour améliorer le processus de génération, comme la régularisation de la distribution évolutive des gaussiennes 3D et l'amplification du mouvement. L'approche permet également d'étendre les séquences dans le temps et de combiner plusieurs objets dynamiques. Les expériences montrent qu'AYG est plus performant que l'état de l'art en matière de génération de texte en 4D. Parmi les exemples d'applications, citons la génération rapide d'actifs pour les jeux/VR, la génération de données synthétiques avec des étiquettes de suivi et l'animation créative.
Extrapolation de scènes extérieures avec des automates cellulaires génératifs hiérarchiques
Poster Session 5 & Exhibit Hall
DongsuZhang, Francis Williams, Žan Gojčič, Karsten Kreis, Sanja Fidler, Young Min Kim, Amlan Kar
Cet article propose des automates cellulaires génératifs hiérarchiques (hGCA), une nouvelle méthode pour générer des scènes 3D complètes et à haute résolution à partir de scans LiDAR épars capturés par des véhicules autonomes. L'idée principale est de faire croître la géométrie 3D d'une manière allant de grossière à fine. Dans la première étape grossière, un modèle d'automate cellulaire génératif applique récursivement des règles de génération locales pour développer une représentation voxel basse résolution de la scène. Un module "planificateur" léger fournit un contexte global pour rendre la génération plus cohérente à l'échelle mondiale. Dans la deuxième étape fine, hGCA affine les voxels grossiers en une surface continue à haute résolution en utilisant des fonctions implicites locales. La division de la génération en deux étapes améliore l'efficacité. Sur des scènes de rue synthétiques, hGCA surpasse les méthodes de pointe antérieures sur les métriques mesurant la qualité de l'achèvement. Elle démontre également une forte généralisation des scans LiDAR synthétiques aux scans réels. La méthode peut même générer de nouveaux objets au-delà de son ensemble d'entraînement synthétique en prenant des repères géométriques à partir des scans d'entrée réels. Les applications industrielles potentielles comprennent la création d'environnements de simulation pour la conduite autonome, le remplissage de zones manquantes dans les cartes 3D et la création de mondes ouverts réalistes pour les jeux. Cependant, l'amélioration de la qualité géométrique et la génération de textures rendraient les résultats plus utiles sur le plan pratique.
Libérer le potentiel de l'adaptation des messages dans le cadre d'un apprentissage fédéré généralisé et personnalisé
Session de posters 2 et salle d'exposition
Wenlongdeng, Christos Thrampoulidis, Xiaoxiao Li
Cet article propose une nouvelle méthode appelée Shared and Group Prompt Tuning (SGPT) pour l'apprentissage fédéré avec des modèles de transformateurs de vision. L'apprentissage fédéré permet d'entraîner des modèles sur des données provenant de plusieurs clients sans que les données soient partagées, mais les performances peuvent en souffrir si les distributions de données des clients sont très différentes (hétérogènes). SGPT résout ce problème en apprenant à la fois des invites partagées, qui capturent les caractéristiques communes à tous les clients, et des invites spécifiques à un groupe, qui alignent le modèle sur des groupes de clients similaires. Un module de sélection des invites détermine les invites de groupe à utiliser pour chaque entrée. La méthode utilise une approche d'optimisation par descente de coordonnées en bloc, en apprenant d'abord les messages-guides partagés pour capturer les informations communes, puis les messages-guides de groupe pour les connaissances plus spécialisées. En théorie, les auteurs limitent l'écart entre les performances globales du modèle fédéré et ses performances sur les données locales de chaque client. SGPT est conçu pour minimiser deux facteurs clés qui influencent cet écart : l'erreur de généralisation et l'écart de distribution entre les clients. Des expériences sur de multiples ensembles de données présentant une hétérogénéité des étiquettes et des caractéristiques montrent que SGPT surpasse systématiquement les méthodes d'apprentissage fédéré les plus récentes. L'approche permet d'entraîner un modèle global unique qui peut s'adapter automatiquement à diverses distributions de données locales sans réglage fin spécifique au client.
Assemblage génératif de pièces en 3D via le passage de messages entre pièces et hiérarchie
Session de posters 5 et salle d'exposition
Bi'an Du, Xiang Gao, Wei Hu, Renjie Liao
Les auteurs de l'article proposent une nouvelle méthode appelée réseau de transmission de messages partie-totalité-hiérarchie pour générer des objets 3D réalistes en assemblant leurs pièces. Le concept clé consiste à regrouper d'abord les pièces similaires en "super-pièces", à prédire les poses (positions et orientations) de ces super-pièces, puis à utiliser ces informations pour prédire avec plus de précision les poses des pièces individuelles.
La méthode utilise un processus hiérarchique en deux étapes :
Sur l'ensemble de données PartNet, cette approche hiérarchique permet d'obtenir des résultats de pointe dans l'assemblage précis d'objets 3D à partir de leurs pièces. L'inspection visuelle du processus montre que la méthode permet d'abord de placer correctement les principaux composants, tels que les sièges et les dossiers des chaises, avant d'affiner le placement des pièces plus fines, telles que les pieds et les bras. Parmi les applications potentielles, citons les outils de conception assistée par ordinateur qui peuvent suggérer ou compléter automatiquement des conceptions d'objets en 3D, la planification d'assemblages robotiques et la génération de grandes quantités de données 3D réalistes pour la simulation et la formation. Le code est disponible ici.
Segmentation sémantique émergente à vocabulaire ouvert à partir de modèles vision-langage standard
Poster Session 1 & Exhibit Hall
Luo Jiayun, Siddhesh Khandelwal, Leonid Sigal, Boyang Li
Cet article propose une nouvelle méthode appelée Plug-and-Play Open-Vocabulary Semantic Segmentation (PnP-OVSS) pour segmenter des objets arbitraires dans des images à l'aide de modèles vision-langage (VLM) pré-entraînés de grande taille. Les concepts clés sont les suivants :
De manière cruciale, PnP-OVSS ne nécessite pas d'entraînement supplémentaire ni d'annotations au niveau des pixels, même pour le réglage des hyperparamètres. Il obtient d'excellentes performances sur les benchmarks de segmentation standard, non seulement en surpassant largement les lignes de base sans apprentissage, mais aussi de nombreuses méthodes qui ajustent finement les VLM. Parmi les applications potentielles, citons l'étiquetage automatique des ensembles de données pour la vision par ordinateur, la reconnaissance à la volée d'objets arbitraires par les robots et les outils d'édition d'images créatifs qui permettent aux utilisateurs de sélectionner et de modifier des objets en tapant simplement leur nom. Les principaux avantages sont la simplicité et l'efficacité de l'approche permettant d'extraire des capacités de segmentation de vocabulaire ouvert à partir de modèles de base puissants sans qu'aucune formation supplémentaire ne soit nécessaire.
Invitation visuelle pour la segmentation généralisée de quelques images : A Multi-scale Approach
Poster Session 5 & Exhibit Hall
Mir Hossain Hossain, Mennatullah Siam, Leonid Sigal, Jim Little
Cet article propose une nouvelle méthode appelée Visual Prompting for Generalized Few-Shot Segmentation (GFSS) qui utilise une architecture de décodeur transformateur multi-échelle. L'approche apprend des "invites visuelles" qui représentent des classes de base (apprises à partir de données abondantes) et de nouvelles classes (apprises à partir de quelques exemples) sous forme d'encastrements. Ces invites croisent les caractéristiques de l'image à plusieurs échelles dans un décodeur transformateur. Les nouvelles classes sont initialisées en regroupant les caractéristiques des quelques images d'exemple masquées par les masques de segmentation de la vérité de terrain. Un aspect essentiel est l'introduction d'un mécanisme unidirectionnel d'"attention causale", dans lequel les invites de base peuvent influencer les nouvelles invites, mais pas l'inverse. Cela permet de contextualiser les nouvelles invites tout en les empêchant de dégrader les représentations de la classe de base. La méthode permet également un "réglage transductif des messages-guides" où les messages-guides visuels peuvent être optimisés sur les images de test non étiquetées de manière non supervisée afin de s'adapter à la distribution du test.
Prompting Hard or Hardly Prompting : Inversion des messages pour les modèles de diffusion texte-image
Poster Session 2 & Exhibit Hall
Shweta Mahajan, Tanzila Rahman, Kwang Moo Yi, Leonid Sigal
Cet article propose une nouvelle méthode appelée Prompting Hard or Hardly Prompting (PH2P) pour "inverser" un modèle de diffusion texte-image afin de trouver l'incitation textuelle la plus susceptible de générer une image cible donnée.
Les principales conclusions sont les suivantes :
PH2P surpasse les approches de base, en générant des invites qui capturent la sémantique des images cibles avec plus de précision. Les invites générées peuvent être utilisées pour synthétiser des images diverses mais sémantiquement similaires. Les applications potentielles comprennent des outils d'exploration créative et d'édition, où l'utilisateur fournit une image conceptuelle cible et le système suggère une invite descriptive qui peut être modifiée ultérieurement. Les messages-guides inversés pourraient également permettre de générer des concepts évolutifs en modifiant itérativement les images et les messages-guides. Enfin, les régions assistées correspondant à chaque jeton pourraient être utilisées pour la localisation et la segmentation non supervisées d'objets.
UnO : Unsupervised Occupancy Fields for Perception and Forecasting
Poster Session 4 & Exhibit Hall
Ben Agro, Quinlan Sykora, Sergio Casas, Thomas Gilles, Raquel Urtasun
UNO (Unsupervised Occupancy Fields) est une méthode proposée dans cet article pour apprendre un modèle 3D du monde à partir de données LiDAR non étiquetées qui peuvent percevoir l'environnement actuel et prévoir son état futur. UNO apprend à prédire l'occupation 3D (si un point de l'espace est occupé par un objet ou non) au fil du temps de manière autosupervisée en utilisant les futurs balayages LiDAR comme pseudo-étiquettes. Il utilise une architecture de réseau neuronal implicite qui permet d'interroger l'occupation à n'importe quel point 3D continu et dans le temps. UNO peut être transféré efficacement à des tâches en aval. Pour la prévision des nuages de points LiDAR, il obtient des résultats de pointe sur de multiples ensembles de données en ajoutant un moteur de rendu léger au-dessus de l'occupation prédite. Lorsqu'elle est affinée sur des données étiquetées limitées pour la prédiction sémantique de l'occupation d'une vue à vol d'oiseau, l'UNO surpasse les méthodes entièrement supervisées, démontrant d'impressionnantes capacités d'apprentissage en quelques coups de cuillère à pot. Parmi les applications potentielles, citons la planification de mouvements plus sûrs pour les véhicules à conduite autonome, en leur permettant de raisonner sur l'état futur de l'ensemble de la scène, et pas seulement sur les objets détectés. La capacité de l'UNO à apprendre à partir de données non étiquetées et à généraliser à des objets rares peut améliorer la robustesse et la sécurité.
Cliquez ici pour en savoir plus sur les travaux de vision artificielle menés par les chercheurs de Vector.