Les chercheurs de Vector remportent les plus grands honneurs à NeurIPS 2018
4 décembre 2018
4 décembre 2018
Les membres de la faculté Vector et les étudiants ont collaboré et remporté deux des quatre prix du meilleur article et un prix du meilleur article étudiant à NeurIPS 2018, la plus importante conférence sur l'apprentissage automatique au monde.
Le cofondateur de Vector et membre de la faculté, David Duvenaud, et les étudiants de Vector Jesse Bettencourt, Yulia Rubanova et Ricky Chen, tous de l'Université de Toronto, sont les auteurs de "Neural Ordinary Differential Equations", et ont reçu le prix du meilleur article à NeurIPS 2018.
En outre, Will Grathwohl, Ricky Chen et Jesse Bettencourt ont reçu une deuxième récompense en remportant le prix du meilleur article étudiant lors de l'atelier Advances in Approximate Bayesian Inference, en collaboration avec David Duvenaud et Ilya Sutskever.
L'un des nouveaux membres du corps enseignant de Vector, Shai Ben-David, de l'Université de Waterloo, et Hassan Ashtiani, affilié à Vector, ainsi que leurs collaborateurs, ont également remporté le prix du meilleur article pour leur article intitulé Nearly tight sample complexity bounds for learning mixtures of Gaussians via sample compression schemes (limites de complexité d'échantillonnage étroites pour l'apprentissage de mélanges de gaussiennes via des schémas de compression d'échantillons).
La trente-deuxième conférence annuelle sur les systèmes de traitement de l'information neuronale (NeurIPS) a débuté ce dimanche à Montréal. NeurlPS est une conférence multidisciplinaire sur l'apprentissage automatique et les neurosciences computationnelles qui comprend des conférences invitées, des démonstrations, des symposiums et des présentations orales et par affiches d'articles évalués par un comité de lecture.
Meilleur article
Par Hassan Ashtiani, Shai Ben-David, Nicholas Harvey, Christopher Liaw, Abbas Mehrabian, Yaniv Plan
Résumé :
Nous prouvons que ϴ(k d^2 / ε^2) échantillons sont nécessaires et suffisants pour apprendre un mélange de k gaussiennes dans R^d, jusqu'à l'erreur ε dans la distance de variation totale. Ceci améliore les limites supérieures et inférieures connues pour ce problème. Pour les mélanges de gaussiennes alignées sur les axes, nous montrons que O(k d / ε^2) échantillons suffisent, ce qui correspond à une limite inférieure connue.
La limite supérieure est basée sur une nouvelle technique d'apprentissage de distribution fondée sur une notion de compression d'échantillons. Toute classe de distributions qui permet un tel schéma de compression d'échantillons peut également être apprise avec peu d'échantillons. De plus, si une classe de distributions possède un tel schéma de compression, il en va de même pour les classes de produits et de mélanges de ces distributions. Le cœur de notre résultat principal est de montrer que la classe des gaussiennes dans R^d possède une compression d'échantillon efficace.
Meilleur article
Equations différentielles ordinaires neuronales
Par Ricky Chen*, Yulia Rubanova*, Jesse Bettencourt*, David Duvenaud (*contribution égale)
Résumé :
Nous présentons une nouvelle famille de modèles de réseaux neuronaux profonds. Au lieu de spécifier une séquence discrète de couches cachées, nous paramétrons la dérivée de l'état caché à l'aide d'un réseau neuronal. La sortie du réseau est calculée à l'aide d'un solveur d'équations différentielles. Ces modèles à profondeur continue ont un coût de mémoire constant, adaptent leur stratégie d'évaluation à chaque entrée et peuvent explicitement échanger la précision numérique contre la vitesse. Nous démontrons ces propriétés dans les réseaux résiduels à profondeur continue et les modèles de variables latentes à temps continu. Nous construisons également des flux normalisateurs continus, un modèle génératif qui peut s'entraîner par maximum de vraisemblance, sans partitionner ni ordonner les dimensions des données. Pour la formation, nous montrons comment rétropropager de manière évolutive à travers n'importe quel solveur ODE, sans accès à ses opérations internes. Cela permet une formation de bout en bout des ODE au sein de modèles plus vastes.
Meilleur article d'étudiant
Symposium sur les avancées en inférence bayésienne approximative 2018. Présentation orale
FFJORD : Dynamique continue de forme libre pour les modèles génératifs réversibles évolutifs
Par Will Grathwohl*, Ricky T. Q. Chen*, Jesse Bettencourt, Ilya Sutskever, David Duvenaud. (*contribution égale)
Résumé :
Une classe prometteuse de modèles génératifs fait correspondre des points d'une distribution simple à une distribution complexe par l'intermédiaire d'un réseau neuronal inversible. L'apprentissage de ces modèles basé sur la vraisemblance nécessite de restreindre leurs architectures pour permettre un calcul peu coûteux des déterminants jacobiens. Il est également possible d'utiliser la trace jacobienne si la transformation est spécifiée par une équation différentielle ordinaire. Dans cet article, nous utilisons l'estimateur de trace d'Hutchinson pour obtenir une estimation sans biais évolutive de la log-densité. Il en résulte un modèle génératif inversible à temps continu avec estimation sans biais de la densité et échantillonnage à un passage, tout en permettant des architectures de réseaux neuronaux non restreintes. Nous démontrons notre approche sur l'estimation de la densité en haute dimension, la génération d'images et l'inférence variationnelle, atteignant l'état de l'art parmi les méthodes de vraisemblance exacte avec un échantillonnage efficace.