Un modèle d'apprentissage automatique mis au point par les chercheurs de Vector crée des environnements 3D sans images de référence

2 juillet 2021

2 juillet 2021

Par Ian Gormely

Un nouveau modèle d'apprentissage automatique mis au point par le Vector Institute et des chercheurs d'Apple permet de créer des environnements en 3D sans aucune image de référence. 

Les réseaux de scènes génératifs (GSN) s'appuient sur les champs de rayonnement neuronaux (Neural Radiance Fields - NeRF), qui permettent aux utilisateurs de construire facilement des modèles 3D à partir de photos 2D. Mais les NeRF ne peuvent pas fournir des détails qu'ils n'ont pas déjà "vus". Les GSN élargissent leur champ d'action, modélisant des environnements entiers, par exemple en passant d'une maison à un garage et en ajoutant de nouveaux détails au fur et à mesure que la caméra se déplace. Une fois entraînés, les GSN peuvent créer, ou "halluciner", comme le dit l'expression anglaise "hallucinate". "halluciner", comme le dit Graham Taylor, membre de la faculté Vector, des environnements entièrement nouveaux lorsqu'ils ne sont pas soumis à des contraintes.. Les utilisateurs peuvent également donner au modèle une scène partielle et le laisser remplir le reste pour obtenir une représentation plus concrète de la réalité.

Les GSN, qui synthétisent les champs de radiance des scènes d'intérieur afin d'accomplir cet exploit impressionnant, ont été décrits pour la première fois dans "Unconstrained Scene Generation with Locally Conditioned Radiance Fields" (Génération de scènes sans contrainte avec des champs de radiance conditionnés localement) un nouvel article coécrit par Graham Taylor, titulaire de la chaire canadienne CIFAR d'IA et membre de la faculté Vector, et dirigé par son étudiant Terrance DeVries.

Taylor, DeVries et leurs coauteurs Nitish Srivastava et Joshua M. Susskind (qui ont tous deux étudié avec Geoffrey Hinton à l'université de Toronto, tout comme Taylor), ainsi que Miguel Angel Bautista, le mentor de DeVries chez Apple, sont très enthousiastes quant aux applications de la technologie. 

Il voit en particulier le potentiel de déploiement dans le secteur de la construction. Dans le cadre de son travail avec Next AI et le Creative Destruction Lab de la Rotman School of Management, M. Taylor encadre la startup Origami XR. Leur application iOS utilise le scanner LiDAR inclus dans les nouveaux produits Apple pour rapidement et de manière fiable créer rapidement et de manière fiable des modèles 3D de pièces individuelles à partir de projets de construction (le logiciel utilise des modèles NeRF pour nettoyer les images). La reproduction de ce modèle avec la technologie LiDAR actuelle nécessiterait un équipement coûteux et une formation approfondie, ce que la plupart des entreprises de construction, qui sont généralement des petites et moyennes entreprises (PME), ne peuvent pas se permettre.

C'est le fondateur d'Origami, Erik Peterson, qui lui a fait découvrir les NeRF. Bien que M. Peterson affirme que son entreprise n'a pas l'intention d'intégrer les réseaux GSN dans son logiciel, M. Taylor pense que les réseaux GSN peuvent être utiles aux entreprises de construction qui souhaitent modéliser des bâtiments entiers. 

Taylor et ses collègues espèrent que le GSN débouchera sur de nombreuses applications en aval pour la modélisation 3D, de la même manière que StyleGAN2, un autre modèle génératif, l'a fait pour les images 2D, comme l'outil de filtre neuronal outil de filtre neuronal d'Adobe Photoshop. Ils considèrent que les jeux vidéo s'y prêtent naturellement, d'autant plus qu'une partie des données d'entraînement de GSN provient de VizDoom, a Doom un simulateur de Doom. "Vous pouvez créer de nouveaux jeux à la volée", explique Taylor en citant l'exemple de l'entreprise torontoise Transitional Forms, qui utilise l'IA pour développer du contenu pour l'industrie du divertissement. L'entreprise a également cité l'immobilier et le design comme des secteurs pour lesquels son modèle pourrait être utile.

Il considère également leur article comme un exemple parfait de l'écosystème local de l'IA - recherche, mentorat et, potentiellement, déploiement dans l'industrie - en plein essor. "Je pense que c'est exactement ce que nous voulons voir émerger d'une stratégie pancanadienne en matière d'IA - le renforcement de l'écosystème de recherche et, par conséquent, des opportunités économiques locales."

En rapport :

Des protocoles normalisés sont essentiels pour un déploiement responsable des modèles linguistiques

Les inconnues connues : Geoff Pleiss, chercheur chez Vector, se penche sur l'incertitude pour rendre les modèles de ML plus précis.

Un homme regarde un tableau blanc sur lequel sont inscrites des formules en rouge.
Perspectives
Une IA digne de confiance

Comment mettre en œuvre des systèmes d'IA en toute sécurité