Le chercheur en vecteurs Will Grathwohl veut abaisser les barrières à l’entrée de l’IA
17 décembre 2019
17 décembre 2019
Photo : Will Grathwohl (tout à gauche) avec ses collègues chercheurs de l’Institut Vector : Jesse Bettencourt, Yulia Rubanova et Ricky Chen.
Par Ian Gormely
L’intelligence artificielle est une technologie transformatrice. Pourtant, tout comme Internet avant les navigateurs web, il demeure inaccessible à beaucoup de gens. Le véritable potentiel du web n’a été réalisé que lorsque les barrières à l’entrée ont été abaissées au point où « toute personne ayant un portable avait le potentiel de construire le prochain Facebook », affirme Will Grathwohl, chercheur en Vector et étudiant diplômé à l’Université de Toronto. « Je pense qu’on devrait confier l’IA aux gens. Les personnes qui ont les meilleures idées pour appliquer quelque chose ne sont généralement pas celles qui ont créé la chose. Mais pour l’instant, ce n’est pas du tout comme ça. »
Grathwohl faisait partie d’un groupe solide de personnes affiliées à Vector qui ont assisté à la Conférence internationale sur les représentations d’apprentissage (ICLR) de cette année à La Nouvelle-Orléans. Au total, 12 affiches de membres du corps professoral de Vector ont été acceptées à la conférence, Grathwohl présentant oralement l’article « FFJORD : Free-Form Continuous Dynamics for Scalable Reversible Generative Models », qu’il a coécrit avec Ricky T. Q. Chen, Jesse Bettencourt, Ilya Sutskever et David Duvenaud, membre du corps professoral de Vector.
FFJORD, un acronyme pour Free-form Jacobian of Reversible Dynamics, est une étape petite mais importante dans la quête de Grathwhel pour abaisser les barrières à l’entrée de l’IA. Il y a eu d’énormes percées dans ce domaine, notamment en ce qui concerne l’utilisation de l’apprentissage automatique, au cours des cinq dernières années. Mais ces percées nécessitent encore d’énormes quantités de données étiquetées à la main – par exemple des photos de chats identifiés comme tels – et de la puissance de calcul, qui ne sont pas donnés. « Pour moi, la méthode la plus intéressante pour réduire cette quantité de données est de trouver des moyens d’utiliser les énormes quantités de données non étiquetées qui existent », dit le jeune homme de 27 ans. « Une façon dont cela est devenu populaire, c’est d’explorer les modèles génératifs. »
L’article de Grathwohl s’intéresse spécifiquement à la normalisation des flux, une classe de modèles génératifs qui sont devenus populaires dans la communauté de l’apprentissage automatique pour leur capacité à générer des échantillons et à calculer la probabilité. Les construire nécessite cependant d’imposer beaucoup de restrictions aux réseaux de neurones qui peuvent être utilisés pour résoudre un problème. FFJORD applique l’idée du temps continu comme solution de contournement pour construire de meilleurs flux de normalisation moins restrictifs.
Il s’appuie sur une idée initialement avancée par le directeur de Grathwohl, David Duvenaud, membre du corps professoral de Vector, dans l’article Neural Ordinary Differential Equations, qui a valu à Duvenaud, ainsi que par ses coauteurs Ricky Tian Qi Chen, Yulia Rubanova et Jesse Bettencourt le prix du meilleur article lors de la conférence NeuIPS de l’an dernier. « L’article de David a présenté l’idée d’un réseau neuronal paramétrant un processus dynamique dans le temps continu. Et cela a ouvert tout un nouveau paradigme pour penser les choses impliquant l’apprentissage automatique dans les réseaux neuronaux », explique Grathwohl. Tirer parti de l’idée de Duvenaud de passer du temps discret – données échantillonnées à intervalles réguliers – au temps continu – données échantillonnées à n’importe quel point du flux – permet de créer des modèles génératifs basés sur le flux de manière beaucoup plus simple et expressive.
Après avoir terminé son baccalauréat en 2014, Grathwohl a passé plusieurs années à naviguer dans l’industrie technologique, d’abord comme entrepreneur, développant des logiciels de modération de contenu, puis utilisant l’apprentissage automatique pour l’indexation de produits dans une startup. Finalement, il est devenu frustré par le manque de créativité. Pourtant, de ce milieu est née l’inspiration pour son retour à l’école. « Mon travail consistait à construire une infrastructure pour collecter des données et à trouver comment le faire le moins cher possible », dit-il. « Nous avons dû construire plus de classificateurs pour desservir plus d’industries et plus de clients. Chacune de ces choses représentait un coût constant de temps et d’argent. J’ai réalisé qu’il fallait que ces choses fonctionnent mieux avec moins de données. »
FFJORD ne résout pas ce problème, mais c’est un pas dans la bonne direction. « De meilleurs modèles capables de résoudre ce problème de données moins étiquetées seront une pièce clé », dit-il, soulignant qu’à l’avenir, la normalisation des flux pourrait aussi aider dans la modélisation des environnements, un aspect important de la recherche génétique et de la robotique. « Toute amélioration des modèles génératifs non supervisés nous aidera dans le cadre de l’apprentissage semi-supervisé. »