LES CHERCHEURS DE VECTOR PRÉSENTENT LE PREMIER MOTEUR DE RECHERCHE ALIMENTÉ PAR L'INTELLIGENCE ARTIFICIELLE AU CVPR 2020

18 juin 2020

Annonce Nouvelles Recherche Histoires de réussite

Par Ian Gormely

La capacité de construire et d'entraîner des réseaux neuronaux reste hors de portée pour de nombreuses personnes et organisations en raison de la grande quantité de données, du temps et de la puissance de calcul nécessaires pour entraîner de nouveaux modèles d'IA.

Aujourd'hui, un moteur de recherche "unique en son genre" contribue à mettre la puissance des réseaux neuronaux à la portée du programmeur moyen. Neural Data Server (NDS) est un moteur de recherche pour les données d'IA conçu par Sanja Fidler, membre de la faculté Vector, David Acuna, étudiant diplômé de Vector, et Xi Yan, étudiant de premier cycle de l'Université de Toronto. Il utilise l'apprentissage automatique pour trouver les données les plus pertinentes nécessaires au pré-entraînement, une étape importante dans la construction de modèles d'apprentissage profond très performants. Cela permet d'économiser un temps précieux, de la puissance de calcul et, en fin de compte, de l'argent. L'équipe présentera NDS et le document qui l'accompagne, "Neural Data Server : A Large-Scale Search Engine for Transfer Learning Data" (Serveur de données neuronales :un moteur de recherche à grande échelle pour les données d'apprentissage par transfert) lors d'une présentation orale à la CVPR ce mois-ci.

Comme son nom l'indique, la préformation permet d'enseigner ou de conditionner un réseau neuronal profond avant qu'il ne commence une tâche particulière. Il peut améliorer considérablement les performances d'un réseau neuronal profond, en particulier dans les situations où la quantité de données étiquetées est faible. "Si un réseau n'est pas pré-entraîné, il y a un écart de performance notable", explique M. Fidler, qui considère les données comme l'élément vital de l'apprentissage automatique. "Il faut beaucoup de données pour entraîner des modèles vraiment performants. Mais les plus grands ensembles de données sont constitués de dizaines de millions de points de données et l'analyse de toutes ces données peut prendre des semaines et nécessite beaucoup de ressources informatiques. "Les ressources sont limitées, en particulier dans le monde universitaire", explique-t-elle. "Nous ne pouvons tout simplement pas nous permettre d'effectuer un pré-entraînement sur 10 ou 20 millions d'images, dans le cadre de plusieurs expériences.

NDS permet de réduire le temps et la puissance de calcul nécessaires au pré-entraînement en éliminant les points de données non pertinents. Si un utilisateur souhaite créer une application liée à la mode, au lieu d'entraîner un réseau neuronal sur un vaste ensemble de données d'images de véhicules, NDS éliminera tout ce qui n'inclut pas un gros plan de personnes et les vêtements qu'elles portent. Cela permet d'obtenir des ensembles de données plus petits mais plus efficaces. Il est à noter que NDS ne conserve pas de données. Au contraire, comme tout autre moteur de recherche, il indexe les ensembles de données d'apprentissage automatique accessibles au public, rendant ainsi les données consultables.

Contrairement à la recherche de données de Google, NDS recommande ensuite les données les plus pertinentes pour le modèle unique de l'utilisateur. Pour effectuer une recherche, les utilisateurs téléchargent et exécutent un ensemble d'"experts", de minuscules modèles de ML, sur leur ensemble de données. Les résultats - un ensemble de statistiques, et non les données réelles - sont renvoyés à NDS, qui identifie le meilleur sous-ensemble de données pour un modèle. L'ensemble du processus ne prend que quelques minutes.

Libre d'utilisation tout en protégeant la confidentialité des données des utilisateurs, NDS ouvre la voie aux chercheurs en dehors de l'enseignement supérieur ou des grandes entreprises pour construire leurs propres réseaux neuronaux. M. Fidler estime que les jeunes entreprises, qui possèdent les compétences et les idées novatrices nécessaires pour créer de nouveaux modèles mais ne disposent pas de l'infrastructure informatique, sont particulièrement bien placées pour tirer parti de la NDS.

"C'est quelque chose dont nous voyons que la communauté a besoin", déclare M. Acuna. "La préformation est essentielle pour obtenir des résultats de pointe, et nous voulons la rendre facile et réalisable pour tout le monde."

"Les systèmes d'apprentissage automatique n'ont d'égal que la qualité de leurs données", explique M. Xi. "Nous espérons que notre NDS offrira un moyen plus efficace d'exploiter l'énorme quantité de données disponibles aujourd'hui."

Également à CVPR 2020

Les chercheurs affiliés à Vector ont publié un certain nombre d'articles à CVPR cette année.

Réglage automatique de la lumière structurée par descente de gradient stochastique optique
Wenzheng Chen, Parsa Mirdehghan, Sanja Fidler (Vector), Kiriakos N. Kutulakos (Vector)

La découverte d'un schéma de codage et de décodage optimal est essentielle pour la reconstruction 3D par détection active de la profondeur. Alors que la plupart des travaux antérieurs adoptent des règles heuristiques pour concevoir le codage sans tenir compte des caractéristiques réelles des appareils, nous plaçons les appareils réels dans la boucle en optimisant conjointement les paramètres du réseau neuronal avec les paramètres spécifiques du matériel. Notre méthode, que nous appelons SGD optique, permet au système d'imagerie de profondeur active choisi de découvrir automatiquement les éclairages et les algorithmes de décodage optimaux qu'il devrait utiliser. Il suffit de placer son appareil préféré devant une planche texturée, de sélectionner la métrique d'évaluation de son choix, de laisser notre algorithme agir et d'obtenir le code et le décodeur qui correspondent le mieux à l'appareil.

Front2Back : Reconstruction de formes 3D à vue unique par prédiction de l'avant vers l'arrière
Yuan Yao, Nico Schertler, Enrique Rosales, Helge Rhodin, Leonid Sigal (Vector), Alla Sheffer

La reconstruction d'une forme 3D à partir d'une image 2D est un problème classique de vision par ordinateur qui a une large application pratique allant de la navigation et de la manipulation d'objets au raisonnement et à la compréhension spatiaux. Malgré des progrès significatifs dans ce domaine, la reconstruction reste un défi en raison de l'ambiguïté inhérente à la récupération de surfaces occultées ou partiellement observées. Dans ce travail, nous nous appuyons sur un ensemble de contraintes géométriques guidées par la perception pour améliorer ces reconstructions. Nous observons principalement que la plupart des objets de la vie quotidienne (y compris les objets fabriqués par l'homme) sont symétriques. Nous sommes en mesure d'estimer ces symétries et de les utiliser pour prédire les vues occultées (arrière) des objets à partir de la vue avant observable, en utilisant une architecture de réseau neuronal. Les vues observées de l'avant et prédites de l'arrière exposent presque entièrement la surface extérieure de l'objet. Par conséquent, en fusionnant les informations de ces vues, nous pouvons reconstruire une surface complète et précise. Nos expériences démontrent que notre approche est plus performante que l'état de l'art en matière de reconstruction de formes 3D à partir de données 2D et 2,5D en termes de fidélité géométrique et de préservation des détails. 

Classification visuelle améliorée à partir de quelques clichésPeyman Bateni, Rghav Goyal, Vaden Masrani, Frank Wood, Leonid Sigal (Vector)

L'apprentissage à partir d'une quantité limitée de données est une tâche fondamentale dans le domaine de la vision par ordinateur, qui promet de réduire la nécessité de disposer d'ensembles de données exhaustivement étiquetés. La plupart des approches adoptées jusqu'à présent se sont concentrées sur des méthodes de plus en plus complexes pour extraire les caractéristiques des images ou sur des stratégies de structuration des données en vue d'un apprentissage efficace. Dans ce travail, nous considérons une approche plus simple qui consiste à apprendre une métrique de distance tenant compte de la distribution, ce qui peut améliorer de manière significative les performances d'un modèle de pointe existant (CNAPS). Nous constatons qu'il est possible de structurer le modèle de manière à ce que l'apprentissage de cette métrique soit possible même avec quelques échantillons. L'approche résultante, que nous appelons CNAPS simple, a près de 10 % de paramètres en moins, mais elle est 6 % plus performante que l'approche originale. 

Apprendre à évaluer les modèles de perception à l'aide de métriques centrées sur le planificateur Jonah Philion, Amlan Kar, Sanja Fidler (NVIDIA)

Les mesures d'évaluation sont importantes pour la conduite autonome car elles déterminent les algorithmes qui seront finalement déployés dans les voitures. Le problème des mesures d'évaluation actuelles pour la perception de la conduite autonome est qu'elles consistent en de longues listes d'heuristiques que les chercheurs conçoivent à la main dans l'espoir que le résultat final corresponde à peu près aux performances de conduite. Dans cet article, nous proposons une mesure plus fondamentale pour la détection d'objets en 3D, spécifiquement pour la conduite autonome. L'idée centrale de notre mesure est d'isoler la tâche de détection d'objets et de mesurer l'impact des détections produites sur la tâche de conduite en aval. Sans l'avoir conçue à la main, nous constatons que notre métrique pénalise de nombreuses erreurs que d'autres métriques pénalisent de par leur conception.

Apprendre à simuler des environnements dynamiques avec GameGAN
Seung Wook Kim, Yuhao Zhou, Jonah Philion, Antonio Torralba, Sanja Fidler (NVIDIA)

GameGAN est un modèle d'IA basé sur un réseau neuronal qui apprend à imiter les moteurs de jeu. Il est formé en ingérant des scénarios et des actions d'utilisateurs d'un jeu. Une fois entraîné, il peut rendre l'écran suivant en fonction des touches pressées, de sorte que les utilisateurs peuvent jouer au jeu sans moteur de jeu, mais seulement avec l'IA ! GameGAN dispose également d'un module de mémoire qui se souvient de ce qu'il a généré et peut séparer les arrière-plans des objets qui se déplacent dynamiquement.

En rapport :

Akbar Nurlybayev, cofondateur et directeur de l'exploitation de Vector CentML, sponsor de bronze, s'exprime sur scène lors de la Collision Conference 2024.
Nouvelles

Le changement climatique et l'IA computationnelle clôturent la troisième et dernière journée de Collision 2024

Patricia Thaine, PDG de Private AI, présente à Collision 2024
Nouvelles

ChainML, Private AI et Geoffrey Hinton soulignent l’importance du développement et de la gouvernance responsables de l’IA à Collision 2024

Étude de cas
Recherche

BMO, TELUS et leurs partenaires utilisent la boîte à outils Vector AI pour appliquer les techniques de vision par ordinateur dans la lutte contre les changements climatiques