LES CHERCHEURS DE VECTOR PRÉSENTENT UN MOTEUR DE RECHERCHE ALIMENTÉ PAR IA « PREMIER DU GENRE » POUR L’IA LORS DE CVPR 2020
18 juin 2020
18 juin 2020
Par Ian Gormely
La capacité de construire et d’entraîner des réseaux de neurones demeure hors de portée pour de nombreuses personnes et organisations en raison de la grande quantité de données, de temps et de puissance de calcul nécessaires pour entraîner de nouveaux modèles d’IA.
Aujourd’hui, un moteur de recherche « premier du genre » aide à rapprocher la puissance des réseaux neuronaux des mains du codeur moyen. Neural Data Server (NDS) est un moteur de recherche pour les données d’IA développé par Sanja Fidler, membre du corps professoral de Vector, David Acuna, étudiant diplômé de Vector, ainsi que Xi Yan, étudiant de premier cycle à l’Université de Toronto et à l’Université de Toronto. Il utilise l’apprentissage automatique (ML) pour trouver les données les plus pertinentes nécessaires en pré-entraînement, une étape importante dans la construction de modèles d’apprentissage profond haute performance. Cela peut permettre d’économiser un temps précieux, de la puissance de calcul et, ultimement, de l’argent. L’équipe présentera NDS et son article associé, « Serveur de données neuronaux : un moteur de recherche à grande échelle pour les données d’apprentissage transférés », lors d’une présentation orale au CVPR ce mois-ci.
Comme son nom l’indique, la pré-formation enseigne ou conditionne un réseau de neurones profond avant qu’il ne commence une tâche particulière. Il peut considérablement améliorer la performance d’un réseau neuronal profond, particulièrement dans les situations où il y a peu de données identifiées. « Si vous ne pré-entraînez pas un réseau, il y a un écart notable de performance », dit Fidler, qui considère les données comme le moteur de l’apprentissage automatique. « Il faut beaucoup de données pour entraîner des modèles vraiment performants. » Mais les plus grands ensembles de données sont composés de dizaines de millions de points de données, et passer en revue toutes ces données peut prendre des semaines et nécessite beaucoup de ressources de calcul. « Particulièrement dans le milieu universitaire, nous avons des ressources limitées », dit-elle. « Nous ne pouvons tout simplement pas nous permettre de pré-entraîner sur 10 ou 20 millions d’images, et à travers plusieurs expériences. »
NDS aide à réduire le temps et la puissance de calcul nécessaires lors de la pré-formation en éliminant les points de données non pertinents. Si un utilisateur souhaite créer une application liée à la mode, au lieu d’entraîner un réseau neuronal sur un grand ensemble de données d’images de véhicules, NDS supprimera tout ce qui n’inclut pas un gros plan des personnes et des vêtements qu’elles portent. Cela conduit à des ensembles de données plus petits mais plus efficaces. Notamment, NDS ne conserve pas de données. Au contraire, comme tout autre moteur de recherche, il indexe les ensembles de données d’apprentissage automatique accessibles publiquement, rendant les données consultables.
Contrairement à la recherche par ensemble de données de Google, NDS recommande ensuite les données qui seront les plus pertinentes pour le modèle unique de l’utilisateur. Pour effectuer une recherche, les utilisateurs téléchargent et exécutent un ensemble d'« experts », de minuscules modèles d’apprentissage automatique, sur leur ensemble de données. Les résultats — un ensemble de statistiques, et non les données réelles — sont renvoyés à NDS, qui identifie le meilleur sous-ensemble de données pour un modèle. Tout le processus prend quelques minutes.
Libre d’utilisation tout en protégeant la confidentialité des données des utilisateurs, la NDS ouvre la porte aux chercheurs en dehors de l’enseignement supérieur ou des grandes entreprises pour construire leurs propres réseaux neuronaux. Fidler souligne que les startups — des entreprises dotées des compétences et des idées innovantes pour construire de nouveaux modèles, mais qui manquent d’infrastructure informatique — sont particulièrement bien placées pour bénéficier de la NDS.
« C’est quelque chose dont on voit que la communauté a besoin », dit Acuna. « La pré-formation est essentielle pour obtenir des résultats à la fine pointe, et nous voulons que ce soit facile et réalisable pour tous. »
« Les systèmes d’apprentissage automatique ne peuvent être aussi bons que leurs données », dit Xi. « Nous espérons que notre NDS ouvrira une façon plus efficace de tirer parti de la quantité massive de données disponibles aujourd’hui. »
Également au CVPR 2020
Les chercheurs affiliés à Vector ont publié plusieurs articles au CVPR cette année.
Auto-réglage de la lumière structurée par la descente du gradient stochastique optique
Wenzheng Chen, Parsa Mirdehghan, Sanja Fidler (Vector), Kiriakos N. Kutulakos (Vector)
Découvrir un schéma de codage et de décodage optimal est essentiel pour la reconstruction 3D par détection active de profondeur. Alors que la plupart des travaux précédents adoptent des règles heuristiques pour concevoir le codage sans tenir compte des caractéristiques réelles des dispositifs, en revanche, nous mettons les appareils réels dans la boucle en optimisant conjointement les paramètres du réseau de neurones avec les paramètres matériels spécifiques. Notre méthode, que nous appelons SGD optique, permet au système d’imagerie active en profondeur choisi de découvrir automatiquement les algorithmes optimaux d’illumination et de décodage qu’il doit utiliser. On peut simplement placer son appareil préféré devant une carte texturée, sélectionner la métrique d’évaluation qu’on aime, laisser notre algorithme, et obtenir son code et son décodeur qui correspondent le mieux à l’appareil.
Front2Back : Reconstruction de formes 3D en vue unique via prédiction de l’avant vers l’arrière
Yuan Yao, Nico Schertler, Enrique Rosales, Helge Rhodin, Leonid Sigal (Vector), Alla Sheffer
La reconstruction de la forme 3D à partir d’une image 2D est un problème classique de vision par ordinateur qui a une large applicabilité pratique, allant de la navigation et manipulation d’objets au raisonnement spatial et à la compréhension. Malgré des progrès significatifs dans ce domaine, cela demeure un défi en raison de l’ambiguïté inhérente à la récupération de surfaces occluses et seulement partiellement observées. Dans ce travail, nous exploitons un ensemble de contraintes géométriques guidées perceptuellement pour aider à améliorer ces reconstructions. Principalement, on observe que la plupart des objets du quotidien (y compris les objets fabriqués par l’homme) sont symétriques. Nous sommes capables d’estimer ces symétries et de les utiliser pour prédire les vues occluses (arrière) des objets à partir du face observable, en utilisant une architecture de réseau de neurones. Les vues de face observées et les vues arrière prédites exposent presque entièrement la surface extérieure de l’objet. Ainsi, en fusionnant l’information de ces vues, nous pouvons reconstruire une surface complète et précise. Nos expériences démontrent que notre approche surpasse la reconstruction de formes 3D de pointe à partir de données 2D et 2,5D en termes de fidélité géométrique et de préservation des détails.
Classification visuelle améliorée de quelques coups
Peyman Bateni, Rghav Goyal, Vaden Masrani, Frank Wood, Leonid Sigal (Vector)
Apprendre à partir d’une quantité limitée de données est une tâche fondamentale en vision par ordinateur qui promet de réduire le besoin d’ensembles de données exhaustivement étiquetés. La plupart des approches à ce jour se sont concentrées sur des méthodes de plus en plus complexes pour extraire des caractéristiques des images ou des stratégies pour structurer les données afin d’un apprentissage efficace. Dans ce travail, nous envisageons une approche plus simple consistant à apprendre une métrique de distance consciente de la distribution, qui peut améliorer significativement la performance d’un modèle de pointe existant (CNAPS). Nous constatons qu’il est possible de structurer le modèle qui rend possible l’apprentissage de cette métrique même avec quelques échantillons. L’approche résultante, que nous appelons Simple CNAPS, a près de 10% de paramètres en moins, mais performe tout de même 6% mieux que l’originale.
Apprendre à évaluer les modèles de perception à l’aide de métriques centrées sur le planificateur
Jonah Philion, Amlan Kar, Sanja Fidler (NVIDIA)
Les métriques d’évaluation sont importantes en conduite autonome parce qu’elles déterminent quels algorithmes seront finalement déployés dans les voitures. Le problème avec les métriques actuelles d’évaluation de la perception de la conduite autonome, c’est qu’elles consistent en de longues listes d’heuristiques que les chercheurs conçoivent à la main dans l’espoir que le résultat final soit à peu près corrélé à la performance de conduite. Dans cet article, nous proposons une métrique plus principielle pour la détection d’objets 3D, spécifiquement pour la conduite autonome. L’idée centrale derrière notre métrique est d’isoler la tâche de détection d’objets et de mesurer l’impact que les détections produites auraient sur la tâche en aval de la conduite. Sans la concevoir à la main, on constate que notre métrique pénalise bon nombre des erreurs que d’autres mesures pénalisent par conception.
Apprendre à simuler des environnements dynamiques avec GameGAN
Seung Wook Kim, Yuhao Zhou, Jonah Philion, Antonio Torralba, Sanja Fidler (NVIDIA)
GameGAN est un modèle d’IA basé sur un réseau de neurones qui apprend à imiter les moteurs de jeu. Il est entraîné en intégrant des scénarios ainsi que des actions des utilisateurs d’un jeu. Une fois entraîné, il peut afficher l’écran suivant en appuyant sur les touches afin que les joueurs puissent jouer sans moteurs de jeu, mais seulement avec l’IA! GameGAN possède aussi un module mémoire qui se souvient de ce qu’il a généré et peut séparer les arrière-plans des objets en mouvement dynamique.