Les chercheurs de Vector présentent plus de 50 articles à NeurIPS 2021
30 novembre 2021
30 novembre 2021
30 novembre 2021
Par Ian Gormely
Les chercheurs du secteur vectoriel se préparent à nouveau à la conférence virtuelle sur les systèmes de traitement de l'information neuronale (NeurIPS). Cette année, la conférence se déroulera du 6 au 14 décembre en ligne. Les articles présentés par la faculté Vector cette année ouvrent de nouvelles perspectives dans différents domaines de la recherche en IA, notamment l'apprentissage profond, l'apprentissage par renforcement, la vision par ordinateur et l'IA responsable, et peuvent avoir un impact sur de nombreuses facettes de la vie quotidienne et du travail, de l'architecture à la santé.
Les nouveaux travaux de Graham Taylor, directeur de recherche par intérim de Vector, étaient particulièrement remarquables, car ils combinaient les efforts de son équipe avec ceux du chercheur Jungtaek Kim, avec lequel M. Taylor avait noué des liens lors de la conférence NeurIPS de l'année dernière. Tous deux présentaient des travaux liés au jouet de construction LEGO.
Cette année, l'équipe canado-coréenne, qui comprend Boris Knyazev, chercheur chez Vector, ainsi que Hyunsoo Chung, Jinhwi Lee, Jaesik Park et Minsu Cho, chercheurs chez POSTECH, présente un autre article sur les LEGO, "Brick-by-Brick : Combinatorial Construction with Deep Reinforcement Learning". Ils utilisent ici l'apprentissage par renforcement pour construire une structure en briques LEGO à partir d'une photo. Le modèle pourrait aider à créer des conceptions architecturales à partir d'images ou de rendus.
D'autres travaux notables ont été réalisés par Richard Zemel, directeur de la recherche vectorielle (actuellement en congé), et Alireza Makhzani, membre de la faculté. Avec leurs coauteurs Kuan-Chieh Wang, Yan Fu, Ke Li et Ashish J Khisti, ils étudient la vulnérabilité des réseaux neuronaux lorsqu'ils subissent des attaques par inversion de modèle, qui peuvent révéler des données d'entraînement à des utilisateurs non autorisés. Leur article, "Variational Model Inversion Attacks," examine comment améliorer la précision de ces attaques, afin que les données révélées soient à la fois réalistes et diversifiées. Leurs travaux pourraient avoir un impact sur les questions de protection de la vie privée en ML, en particulier dans le domaine de la santé.
Enfin, Chris Maddison, membre de la faculté Vector, et Yann Dubois, stagiaire chez Vector, ainsi que les coauteurs Benjamin Bloem-Reddy, Karen Ullrich, ont développé un nouveau paradigme de compression pour les données qui sont traitées par des algorithmes plutôt que vues par des humains. Dans le cadre du projet "Lossy Compression for Lossless Prediction" (Compression avec perte pour une prédiction sans perte) ils détaillent un modèle qui fonctionne 1000 fois mieux que JPEG pour la compression d'images. La réduction de la taille des données pourrait permettre aux startups et aux petites institutions de travailler avec de grands ensembles de données qui nécessitent actuellement des ressources informatiques d'un coût prohibitif.
Vous trouverez ci-dessous les résumés et les sommaires simplifiés de nombreux articles et ateliers acceptés par les membres de la faculté Vecteur.
Pour en savoir plus sur le travail de Vector lors des conférences des années précédentes ici (2020), ici (2019)et ici (2018).
An Analysis of Constant Step Size SGD in the Non-convex Regime : Normalité asymptotique et biais
Lu Yu, Krishnakumar Balasubramanian, Stanislav Volgushev, Murat A. Erdogdu
Les problèmes d'apprentissage structurés non convexes, pour lesquels les points critiques ont des propriétés statistiques favorables, apparaissent fréquemment dans l'apprentissage automatique statistique. La convergence algorithmique et les taux d'estimation statistique sont bien compris pour de tels problèmes. Cependant, la quantification de l'incertitude associée à l'algorithme d'apprentissage sous-jacent n'est pas bien étudiée dans le cadre non convexe. Afin de combler cette lacune, nous établissons dans ce travail un résultat de normalité asymptotique pour l'algorithme de descente stochastique du gradient (SGD) à pas constant, un algorithme largement utilisé dans la pratique. Plus précisément, sur la base de la relation entre la SGD et les chaînes de Markov [DDB19], nous montrons que la moyenne des itérés de la SGD est asymptotiquement normalement distribuée autour de la valeur attendue de leur unique distribution invariante, tant que la fonction objective non convexe et non lisse satisfait à une propriété de dissipativité. Nous caractérisons également le biais entre cette valeur attendue et les points critiques de la fonction objective sous diverses conditions de régularité locale. Ensemble, les deux résultats ci-dessus pourraient être utilisés pour construire des intervalles de confiance pour les problèmes non convexes qui sont entraînés à l'aide de l'algorithme SGD.
Mes systèmes d'apprentissage profond sont-ils équitables ? Une étude empirique de la formation à base de graines fixes
Shangshu Qian, Hung Viet Pham, Thibaud Lutellier, Zeou Hu, Jungwon Kim, Lin Tan, Yaoliang Yu, Jiahao Chen, Sameena Shah
Les systèmes d'apprentissage profond (DL) ont gagné en popularité dans des tâches critiques telles que l'évaluation de crédit et la prédiction de la criminalité. Ces systèmes exigent de l'équité. Des travaux récents montrent que les implémentations logicielles d'apprentissage profond introduisent de la variance : des cycles d'apprentissage profond identiques (c'est-à-dire un réseau, des données, une configuration, un logiciel et un matériel identiques) avec une graine fixe produisent des modèles différents. Une telle variance pourrait faire en sorte que les modèles et les réseaux de DL violent les lois sur le respect de l'équité, ce qui aurait un impact social négatif. Nous menons la première étude empirique visant à quantifier l'impact de l'implémentation logicielle sur l'équité et la variance des systèmes de DL. Notre étude de 22 techniques d'atténuation et de cinq lignes de base révèle une variance d'équité allant jusqu'à 12,6 % pour des cycles d'entraînement identiques avec des semences identiques. En outre, la plupart des algorithmes de débiaisage ont un impact négatif sur le modèle : réduction de la précision du modèle, augmentation de la variance de l'équité ou augmentation de la variance de la précision. Notre étude bibliographique montre que si l'équité gagne en popularité dans les conférences liées à l'intelligence artificielle (IA), seuls 34,4 % des articles utilisent plusieurs cycles d'entraînement identiques pour évaluer leur approche, ce qui soulève des inquiétudes quant à la validité de leurs résultats. Nous demandons de meilleurs protocoles d'évaluation et de test de l'équité afin d'améliorer l'équité et la variance de l'équité des systèmes de DL, ainsi que la validité et la reproductibilité de la recherche en DL en général.
ATISS : Transformateurs autorégressifs pour la synthèse de scènes intérieures
Despoina Paschalidou, Amlan Kar, Maria Shugrina, Karsten Kreis, Andreas Geiger, Sanja Fidler
La possibilité de synthétiser automatiquement ou à partir de données partielles des agencements réalistes et diversifiés de meubles d'intérieur ouvre la voie à de nombreuses applications, qu'il s'agisse d'améliorer les outils 3D interactifs ou de synthétiser des données pour la formation et la simulation. Dans cet article, nous présentons ATISS, une nouvelle architecture de transformateur autorégressif permettant de créer des environnements intérieurs synthétiques diversifiés et plausibles, à partir du seul type de pièce et de son plan. Contrairement aux travaux antérieurs, qui considèrent la synthèse de scènes comme une génération de séquences, notre modèle génère des pièces comme des ensembles d'objets non ordonnés. Nous soutenons que cette formulation est plus naturelle, car elle rend ATISS généralement utile au-delà de la synthèse entièrement automatique de la disposition des pièces. Par exemple, le même modèle formé peut être utilisé dans des applications interactives pour compléter des scènes générales, réorganiser des pièces partielles avec des objets spécifiés par l'utilisateur, ainsi que pour suggérer des objets pour des pièces partielles. Pour ce faire, notre modèle exploite l'équivariance de permutation du transformateur lors du conditionnement sur la scène partielle, et il est formé pour être invariant en termes de permutation pour tous les ordres d'objets. Notre modèle est entraîné de bout en bout comme un modèle génératif autorégressif utilisant uniquement des boîtes de délimitation 3D étiquetées comme supervision. Des évaluations sur quatre types de pièces de l'ensemble de données 3D-FRONT démontrent que notre modèle génère de manière cohérente des agencements de pièces plausibles qui sont plus réalistes que les méthodes existantes. En outre, il a moins de paramètres, est plus simple à mettre en œuvre et à entraîner et fonctionne jusqu'à 8 fois plus vite que les méthodes existantes.
Brique par brique : Construction combinatoire avec apprentissage par renforcement profond
Hyunsoo Chung, Jungtaek Kim, Boris Knyazev, Jinhwi Lee, Graham W. Taylor, Jaesik Park, Minsu Cho
L'équipe de l'Institut Vecteur dirigée par Graham Taylor, directeur de recherche par intérim, montre une fois de plus que les ordinateurs peuvent aussi jouer au LEGO. L'année dernière, lors de l'atelier NeurIPS sur les ML pour la modélisation, la simulation et la conception d'ingénierie, l'équipe a présenté un modèle génératif de graphe qui a appris à partir de diverses données. modèle génératif graphique qui s'inspire de divers types de structures LEGO créées par l'homme et propose ses propres créations.. Ils y ont rencontré Jungtaek Kim, un étudiant de POSTECH, qui présentait d'ailleurs son propre travail sur les LEGO. Les deux équipes ont décidé d'unir leurs forces et Kim a effectué un stage chez Vector. Dans un travail qui sera présenté à NeurIPS, l'équipe coréenne-canadienne propose une nouvelle formulation du problème de la construction de LEGO avec l'apprentissage par renforcement profond. Dans "Brick-by-Brick", un agent d'apprentissage par renforcement pour la construction de LEGO accepte une connaissance incomplète de la cible souhaitée sous la forme d'une image, plutôt que de construire à partir d'une ardoise vierge. La principale innovation de ce travail consiste à traiter un grand nombre d'actions de construction non valides qui peuvent compromettre l'intégrité d'une construction. Ce travail a des implications pour la conception architecturale, où l'inspiration peut être suggérée par une photo ou un rendu et où l'agent construit un plan constructible qui respecte les contraintes complexes du monde réel.
Caractérisation de la généralisation en cas de changements hors distribution dans l'apprentissage métrique profond
Timo MilbichKarsten Roth, Samarth Sinha, Ludwig Schmidt, Marzyeh Ghassemi, Björn Ommer
Le Deep Metric Learning (DML) vise à apprendre des espaces de représentation dans lesquels une métrique prédéfinie (par exemple la distance euclidienne) est liée à la similarité sémantique des données d'entrée d'une manière qui permet de regrouper des échantillons de classes inédites sur la base d'une similarité inhérente, même en cas de changements sémantiques. des déplacements hors distribution. Cependant, les repères standard utilisés pour évaluer les capacités de généralisation des différentes méthodes de LMD utilisent des divisions de formation et de test fixes et, par conséquent, des décalages fixes entre la formation et le test. Mais dans la pratique, le décalage au moment du test n'est pas connu a priori et, par conséquent, le paramètre d'évaluation par défaut est insuffisant pour évaluer l'utilité pratique des différentes méthodes de LMD. Pour y remédier, nous proposons un nouveau protocole permettant de générer des séquences de changements sémantiques de plus en plus difficiles pour des divisions train-test données afin d'évaluer les performances de généralisation des méthodes de LMD dans des scénarios plus réalistes avec différents changements entre le train et le test. Par la suite, nous fournissons une évaluation approfondie des approches conceptuelles de la LMD et de leurs avantages ou lacunes dans le cadre de décalages train-test de dureté variable, nous étudions les liens avec les métriques structurelles en tant qu'indicateurs potentiels de la performance de généralisation en aval et nous introduisons la LMD à quelques reprises en tant que remède peu coûteux pour une généralisation améliorée de manière cohérente dans le cadre de décalages OOD plus sévères.
Autoencodeurs variationnels à horloge
Vaibhav Saxena, Jimmy Ba, Danijar Hafner
L'apprentissage profond a permis aux algorithmes de générer des images réalistes. Cependant, prédire avec précision de longues séquences vidéo nécessite de comprendre les dépendances à long terme et reste un défi ouvert. Si les modèles de prédiction vidéo existants parviennent à générer des images nettes, ils ne parviennent généralement pas à prédire avec précision l'avenir. Nous présentons la VAE Clockwork (CW-VAE), un modèle de prédiction vidéo qui s'appuie sur une hiérarchie de séquences latentes, où les niveaux supérieurs se succèdent à intervalles plus lents. Nous démontrons les avantages des latents hiérarchiques et de l'abstraction temporelle sur 4 ensembles de données de prédiction vidéo divers avec des séquences allant jusqu'à 1000 images, où CW-VAE surpasse les meilleurs modèles de prédiction vidéo. En outre, nous proposons un benchmark Minecraft pour la prédiction vidéo à long terme. Nous menons plusieurs expériences pour mieux comprendre la CW-VAE et confirmons que les niveaux les plus lents apprennent à représenter les objets qui changent plus lentement dans la vidéo, et que les niveaux les plus rapides apprennent à représenter les objets les plus rapides.
Taux de convergence de la descente de gradient stochastique dans le cas d'une variance de bruit infinie
Hongjian Wang, Mert Gürbüzbalaban, Lingjiong Zhu, Umut Şimşekli, Murat A. Erdogdu
Des études récentes ont fourni des preuves empiriques et théoriques illustrant que des queues lourdes peuvent apparaître dans la descente stochastique de gradient (SGD) dans divers scénarios. Ces queues lourdes peuvent donner lieu à des itérés dont la variance diverge, ce qui entrave l'utilisation des techniques conventionnelles d'analyse de la convergence qui reposent sur l'existence des moments du second ordre. Dans cet article, nous fournissons des garanties de convergence pour le SGD dans le cas d'un bruit dépendant de l'état et à queues lourdes avec une variance potentiellement infinie, pour une classe d'objectifs fortement convexes. Dans le cas où le p-ième moment du bruit existe pour un certain p∈[1,2], nous identifions d'abord une condition sur la Hessienne, appelée "p-positive (semi-)definiteness", qui conduit à une interpolation intéressante entre les matrices semi-définies positives (p=2) et les matrices diagonalement dominantes avec des entrées diagonales non négatives (p=1). Sous cette condition, nous fournissons un taux de convergence pour la distance à l'optimum global dans Lp. En outre, nous fournissons un théorème limite central généralisé, qui montre que la moyenne de Polyak-Ruppert correctement mise à l'échelle converge faiblement vers un vecteur aléatoire α-stable multivarié. Nos résultats indiquent que même dans le cas d'un bruit à queue lourde et à variance infinie, SGD peut converger vers l'optimum global sans qu'il soit nécessaire de modifier la fonction de perte ou l'algorithme lui-même, comme c'est généralement le cas dans les statistiques robustes. Nous démontrons les implications de nos résultats pour des applications telles que la régression linéaire et les modèles linéaires généralisés soumis à des données à forte queue.
Tétraèdres à marche profonde : une représentation hybride pour la synthèse de formes 3D à haute résolution
Tianchang Shen, Jun Gao, Kangxue Yin, Ming-Yu Liu, Sanja Fidler
Nous présentons DMTet, un modèle génératif conditionnel 3D profond qui peut synthétiser des formes 3D haute résolution en utilisant des guides utilisateur simples tels que des voxels grossiers. Il marie les mérites des représentations 3D implicites et explicites en tirant parti d'une nouvelle représentation 3D hybride. Par rapport aux approches implicites actuelles, qui sont entraînées à régresser les valeurs de distance signées, DMTet optimise directement la surface reconstruite, ce qui nous permet de synthétiser des détails géométriques plus fins avec moins d'artefacts. Contrairement aux modèles génératifs 3D profonds qui génèrent directement des représentations explicites telles que des maillages, notre modèle peut synthétiser des formes avec une topologie arbitraire. Le cœur de DMTet comprend une grille tétraédrique déformable qui encode une fonction de distance signée discrétisée et une couche de tétraèdres marchants différentiables qui convertit la représentation implicite de la distance signée en une représentation de maillage de surface explicite. Cette combinaison permet l'optimisation conjointe de la géométrie et de la topologie de la surface ainsi que la génération de la hiérarchie des subdivisions à l'aide de la reconstruction et des pertes adverses définies explicitement sur le maillage de la surface. Notre approche est nettement plus performante que les travaux existants sur la synthèse conditionnelle de formes à partir d'entrées de voxels grossiers, entraînés sur un ensemble de données de formes animales complexes en 3D. Page du projet : cette URL https.
Démystifier et généraliser BinaryConnect
Tim Dockhorn, Yaoliang Yu, Eyyüb Sari, Mahdi Zolnouri, Vahid Partovi Nia
BinaryConnect (BC) et ses nombreuses variantes sont devenus la norme de facto pour la quantification des réseaux neuronaux, ce qui est crucial pour réduire la consommation d'énergie et pour le déploiement sur des appareils à faibles ressources. Malgré son succès empirique, le BC est largement resté un "truc d'entraînement" et une compréhension rigoureuse de son fonctionnement interne n'a pas encore été trouvée. Dans ce travail, nous montrons qu'une extension de la CB est une modification non convexe de l'algorithme du gradient conditionnel généralisé, ce qui nous permet d'établir facilement ses propriétés de convergence. Nous présentons également une théorie fondée sur des principes pour construire des quantificateurs proximaux qui transforment progressivement des poids continus en poids discrets. Pour la première fois, en nous appuyant sur nos résultats théoriques, nous justifions rigoureusement le paramètre de divergence dans les quantificateurs proximaux, qui est resté jusqu'à présent une incohérence entre la théorie et la pratique.
DIB-R++ : Apprendre à prédire l'éclairage et les matériaux avec un moteur de rendu hybride différentiable
Wenzheng Chen, Joey Litalien, Jun Gao, Zian Wang, Clement Fuji Tsang, Sameh Khamis, Or Litany, Sanja Fidler
Nous examinons le problème difficile de la prédiction des propriétés intrinsèques d'un objet à partir d'une seule image en exploitant des rendus différentiables. De nombreuses approches antérieures basées sur l'apprentissage pour le graphisme inverse adoptent des rendus basés sur la rastérisation et supposent des modèles d'éclairage et de matériaux naïfs, qui ne parviennent souvent pas à prendre en compte les réflexions spéculaires non-lambertiennes couramment observées dans la nature. Dans ce travail, nous proposons DIBR++, un moteur de rendu différentiable hybride qui prend en charge ces effets photoréalistes en combinant la rastérisation et le ray-tracing, en tirant parti de leurs forces respectives - vitesse et réalisme. Notre moteur de rendu intègre l'éclairage environnemental et des modèles de matériaux variant dans l'espace afin d'approximer efficacement le transport de la lumière, soit par une estimation directe, soit par des fonctions de base sphériques. Comparé à des moteurs de rendu différentiables plus avancés basés sur la physique et utilisant le traçage de chemin, DIBR++ est très performant grâce à son modèle d'ombrage compact et expressif, qui permet une intégration facile avec des cadres d'apprentissage pour la géométrie, la réflectance et la prédiction de l'éclairage à partir d'une seule image sans avoir besoin d'une vérité de base. Nous démontrons expérimentalement que notre approche permet de mieux démêler les matériaux et l'éclairage sur des données synthétiques et réelles par rapport aux approches existantes basées sur la rastérisation et nous présentons plusieurs applications artistiques, y compris l'édition des matériaux et le ré-éclairage.
L'échantillonnage d'importance recalé différentiable et les dangers du bruit de gradient
Guodong Zhang, Kyle Hsu, Jianing Li, Chelsea Finn, Roger Grosse
Dans le domaine de l'apprentissage automatique, bon nombre de nos algorithmes clés (par exemple, la descente de gradient stochastique) calculent des mises à jour sur de petits lots de données, et notre expérience habituelle est que les petits lots sont au moins aussi efficaces que les grands lots (en termes de convergence à l'échelle de l'époque). Nous présentons et analysons un algorithme de mini-batch pour estimer la vraisemblance marginale d'un modèle bayésien. De manière surprenante, nous constatons que (contrairement à l'optimisation et à l'échantillonnage) l'estimateur par mini-lots est incohérent ; notre analyse met en évidence un obstacle majeur à l'efficacité de l'estimation de la vraisemblance marginale.
Apprentissage profond distribué dans le cadre de collaborations ouvertes
Michael Diskin, Alexey Bukhtiyarov, Max Ryabinin, Lucile Saulnier, Quentin Lhoest, Anton Sinitsin, Dmitry Popov, Dmitriy Pyrkin, Maxim Kashirin, Alexander Borzunov, Albert Villanova del Moral, Denis Mazur, Yacine Jernite, Thomas Wolf, Gennady Pekhimenko
L'entraînement des réseaux neuronaux les plus puissants nécessite des ressources informatiques qui sont souvent indisponibles en dehors des grandes organisations, ce qui finit par ralentir les progrès scientifiques. Dans ce travail, nous proposons une approche qui permet d'entraîner de grands réseaux neuronaux dans des collaborations qui peuvent s'étendre sur l'ensemble du globe. Notre méthode DeDLOC peut s'adapter à différentes vitesses de connexion, ce qui la rend nettement plus efficace que les méthodes standard conçues pour les réseaux homogènes. Nous démontrons les propriétés bénéfiques du DeDLOC dans des configurations en nuage rentables et dans une expérience volontaire, en formant un modèle de langage de haute qualité pour le bengali avec 40 participants.
Ne me générez pas : formation de modèles génératifs différentiellement privés avec la divergence de Sinkhorn
Tianshi Cao, Alex Bie, Arash Vahdat, Sanja Fidler, Karsten Kreis
Bien que les modèles d'apprentissage automatique formés sur des données massives aient permis des percées dans plusieurs domaines, leur déploiement dans des domaines sensibles à la confidentialité reste limité en raison de l'accès restreint aux données. Les modèles génératifs formés avec des contraintes de confidentialité sur des données privées peuvent contourner ce défi, en fournissant un accès indirect aux données privées. Nous proposons DP-Sinkhorn, une nouvelle méthode générative basée sur le transport optimal pour l'apprentissage de distributions de données à partir de données privées avec confidentialité différentielle. DP-Sinkhorn minimise la divergence de Sinkhorn, une approximation efficace en termes de calcul de la distance de transport optimale exacte, entre le modèle et les données d'une manière différentiellement privée et utilise une nouvelle technique pour contrôler le compromis biais-variance des estimations de gradient. Contrairement aux approches existantes pour l'apprentissage de modèles génératifs différentiellement privés, qui sont principalement basées sur des réseaux adversaires génératifs, nous ne nous appuyons pas sur des objectifs adversaires, qui sont notoirement difficiles à optimiser, en particulier en présence de bruit imposé par des contraintes de protection de la vie privée. DP-Sinkhorn est donc facile à former et à déployer. Expérimentalement, nous améliorons l'état de l'art sur de nombreux benchmarks de modélisation d'images et nous montrons une synthèse différentiellement privée d'images RVB informatives. Page du projet : cette URL https.
Drop-DTW : Alignement du signal commun entre les séquences tout en éliminant les valeurs aberrantes
Nikita Dvornik, Isma Hadji, Konstantinos G. Derpanis, Animesh Garg, Allan D. Jepson
Le problème de l'alignement des séquences est au cœur de nombreuses applications de l'intelligence artificielle, telles que la biologie computationnelle, la vidéo, l'audio ou l'analyse multimodale. S'il est facile d'aligner des signaux "propres", il est plus difficile d'aligner des séquences contenant des valeurs aberrantes, qui peuvent être généralement ambiguës. Dans ce travail, nous proposons Drop-DTW, un nouvel algorithme pour aligner des séquences avec des valeurs aberrantes intercalées. Drop-DTW fournit une solution optimale pour la détection simultanée des valeurs aberrantes et l'alignement des séquences sans valeurs aberrantes, a une mise en œuvre efficace et peut être rendu différentiable. En utilisant Drop-DTW, nous sommes en mesure d'améliorer la tâche générale de récupération de séquences, l'apprentissage de représentation non supervisé et faiblement supervisé, et de proposer une nouvelle méthode efficace pour effectuer la localisation des pas dans les vidéos d'instruction. Dans toutes les applications, Drop-DTW obtient des résultats de pointe.
Goulot d'étranglement dynamique pour l'exploration auto-supervisée robuste
Chenjia Bai, Lingxiao Wang, Lei Han, Animesh Garg, Jianye Hao, Peng Liu, Zhaoran Wang
Le compromis entre l'exploration et l'exploitation est depuis longtemps un défi majeur dans l'apprentissage par renforcement (RL), en particulier pour de nombreuses applications réelles telles que la conduite autonome. Une approche efficace de l'exploration auto-supervisée consiste à concevoir une récompense intrinsèque dense qui motive l'agent à explorer de nouvelles transitions. Cependant, les méthodes d'exploration précédentes deviennent instables lorsque les états sont bruyants, par exemple lorsqu'ils contiennent des informations dynamiques non pertinentes. Par exemple, dans les tâches de conduite autonome, les états capturés par la caméra peuvent contenir des objets non pertinents, tels que des nuages qui se comportent de manière similaire au mouvement brownien. Si nous mesurons la nouveauté des états ou la curiosité des transitions à l'aide des pixels bruts observés, l'exploration est susceptible d'être affectée par la dynamique de ces objets non pertinents. Pour résoudre ce problème, nous proposons un modèle de goulot d'étranglement dynamique (DB) afin d'obtenir une représentation pertinente du point de vue de la dynamique et d'éliminer les bruits sur la base du principe de goulot d'étranglement de l'information. Nous proposons un bonus DB pour encourager l'agent à explorer les paires état-action avec un gain d'information élevé. Les expériences montrent que le bonus DB surpasse plusieurs méthodes d'exploration de pointe dans les environnements bruyants.
EditGAN : Edition sémantique d'images de haute précision
Huan Ling, Karsten Kreis, Daiqing Li, Seung Wook Kim, Antonio Torralba, Sanja Fidler
Les réseaux adversaires génératifs (GAN) ont récemment trouvé des applications dans l'édition d'images. Cependant, la plupart des méthodes d'édition d'images basées sur les GAN nécessitent souvent des ensembles de données à grande échelle avec des annotations de segmentation sémantique pour l'entraînement, ne fournissent qu'un contrôle de haut niveau, ou se contentent d'interpoler entre différentes images. Nous proposons ici EditGAN, une nouvelle méthode d'édition d'images sémantiques de haute qualité et de haute précision, permettant aux utilisateurs d'éditer des images en modifiant leurs masques de segmentation très détaillés, par exemple en dessinant un nouveau masque pour les phares d'une voiture. EditGAN s'appuie sur un cadre GAN qui modélise conjointement les images et leurs segmentations sémantiques, ne nécessitant qu'une poignée d'exemples étiquetés, ce qui en fait un outil évolutif pour l'édition. Plus précisément, nous intégrons une image dans l'espace latent du GAN et effectuons une optimisation conditionnelle du code latent en fonction de l'édition de la segmentation, ce qui modifie également l'image. Pour amortir l'optimisation, nous trouvons des vecteurs d'édition dans l'espace latent qui réalisent les éditions. Le cadre nous permet d'apprendre un nombre arbitraire de vecteurs d'édition, qui peuvent ensuite être appliqués directement sur d'autres images à des taux interactifs. Nous montrons expérimentalement qu'EditGAN peut manipuler des images avec un niveau de détail et de liberté sans précédent, tout en préservant la qualité de l'image. Nous pouvons aussi facilement combiner plusieurs éditions et effectuer des éditions plausibles au-delà des données d'entraînement EditGAN. Nous démontrons EditGAN sur une grande variété de types d'images et surpassons quantitativement plusieurs méthodes d'édition précédentes sur des tâches de référence d'édition standard.
Structure fractale et propriétés de généralisation des algorithmes d'optimisation stochastique
Alexander Camuto, George Deligiannidis, Murat A. Erdogdu, Mert Gürbüzbalaban, Umut Şimşekli, Lingjiong Zhu
Comprendre la généralisation dans l'apprentissage profond a été l'un des principaux défis de la théorie de l'apprentissage statistique au cours de la dernière décennie. Alors que des travaux récents ont illustré que l'ensemble de données et l'algorithme d'apprentissage doivent être pris en compte pour obtenir des bornes de généralisation significatives, il n'est toujours pas clair théoriquement quelles propriétés des données et de l'algorithme déterminent la performance de généralisation. Dans cette étude, nous abordons ce problème du point de vue de la théorie des systèmes dynamiques et représentons les algorithmes d'optimisation stochastiques comme des systèmes de fonctions itérées aléatoires (IFS). Bien étudiés dans la littérature sur les systèmes dynamiques, sous des hypothèses légères, ces IFS peuvent être montrés comme étant ergodiques avec une mesure invariante qui est souvent supportée sur des ensembles avec une structure fractale. Notre principale contribution consiste à prouver que l'erreur de généralisation d'un algorithme d'optimisation stochastique peut être limitée en fonction de la "complexité" de la structure fractale qui sous-tend sa mesure invariante. En nous appuyant sur des résultats de la théorie des systèmes dynamiques, nous montrons que l'erreur de généralisation peut être explicitement liée au choix de l'algorithme (par exemple, descente stochastique du gradient - SGD), aux hyperparamètres de l'algorithme (par exemple, taille du pas, taille du lot) et à la géométrie du problème (par exemple, Hessien de la perte). Nous spécialisons ensuite nos résultats pour des problèmes spécifiques (par exemple, régression linéaire/logistique, réseaux neuronaux à une couche cachée) et des algorithmes (par exemple, SGD et variantes préconditionnées), et nous obtenons des estimations analytiques pour notre limite.Pour les réseaux neuronaux modernes, nous développons un algorithme efficace pour calculer la limite développée et nous soutenons notre théorie avec diverses expériences sur les réseaux neuronaux.
L'avenir est log-gaussien : Les ResNets et leur limite de profondeur et de largeur infinie à l'initialisation
Mufan (Bill) Li, Mihai Nica, Daniel M. Roy
La théorie de la limite de largeur infinie a considérablement élargi notre compréhension des réseaux neuronaux. Les réseaux réels sont cependant trop profonds : leurs performances s'écartent de la théorie de la largeur infinie. Nous étudions les réseaux avec des connexions résiduelles dans la limite de la profondeur et de la largeur infinies, et nous montrons un accord remarquable entre les prédictions théoriques et les mesures empiriques dans les réseaux réels.
Grad2Task : Amélioration de la classification de textes en quelques clics en utilisant des gradients pour la représentation des tâches
Jixuan Wang, Kuan-Chieh Wang, Frank Rudzicz, Michael Brudno
"Le pré-entraînement de modèles de langage basés sur des transformateurs sur des textes non étiquetés, puis leur mise au point sur des tâches cibles, a connu un succès considérable dans diverses tâches de TAL. Cependant, l'étape de réglage fin nécessite toujours une grande quantité de données étiquetées pour obtenir de bonnes performances. Dans ce travail, nous proposons une approche de méta-apprentissage pour la classification de textes peu nombreux, où seule une poignée d'exemples est donnée pour chaque classe. Pendant la formation, notre modèle apprend des connaissances préalables utiles à partir d'un ensemble de tâches diverses mais apparentées. Lors du test, notre modèle utilise les connaissances acquises pour mieux résoudre diverses tâches en aval dans différents domaines. Nous utilisons les gradients comme caractéristiques pour représenter la tâche. Par rapport au réglage fin et à d'autres approches de méta-apprentissage, nous démontrons de meilleures performances sur un ensemble varié de tâches de classification de textes. Notre travail est une exploration inaugurale de l'utilisation de représentations de tâches basées sur les gradients pour le méta-apprentissage".
Queues lourdes en SGD et compressibilité des réseaux neuronaux surparamétrés
Melih Barsbey, Milad Sefidgaran, Murat A. Erdogdu, Gaël Richard, Umut Şimşekli
Les techniques de compression des réseaux neuronaux sont de plus en plus populaires car elles permettent de réduire considérablement les besoins de stockage et de calcul pour les réseaux de très grande taille. Des études empiriques récentes ont montré que même des stratégies d'élagage simples peuvent être étonnamment efficaces, et plusieurs études théoriques ont montré que les réseaux compressibles (dans des sens spécifiques) devraient atteindre une faible erreur de généralisation. Pourtant, il manque encore une caractérisation théorique de la cause sous-jacente qui permet aux réseaux de se prêter à des schémas de compression aussi simples. Dans cette étude, nous abordons cette question fondamentale et révélons que la dynamique de l'algorithme d'apprentissage joue un rôle clé dans l'obtention de tels réseaux compressibles. En concentrant notre attention sur la descente de gradient stochastique (SGD), notre principale contribution est de lier la compressibilité à deux propriétés récemment établies de la SGD : (i) lorsque la taille du réseau passe à l'infini, le système peut converger vers une limite de champ moyen, où les poids du réseau se comportent de manière indépendante, (ii) pour un grand rapport taille de pas/taille de lot, les itérés SGD peuvent converger vers une distribution stationnaire à queues lourdes. Dans le cas où ces deux phénomènes se produisent simultanément, nous prouvons que les réseaux sont garantis "ℓp-compressibles" et que les erreurs de compression des différentes techniques d'élagage (magnitude, valeur singulière ou élagage des nœuds) deviennent arbitrairement petites à mesure que la taille du réseau augmente. Nous prouvons en outre des limites de généralisation adaptées à notre cadre théorique, qui confirment effectivement que l'erreur de généralisation sera plus faible pour les réseaux plus compressibles. Notre théorie et notre étude numérique sur divers réseaux neuronaux montrent que les grands rapports taille de pas/taille de lot introduisent des queues lourdes qui, en combinaison avec la surparamétrisation, aboutissent à la compressibilité.
Quel est l'impact de l'architecture d'un réseau neuronal sur sa robustesse aux étiquettes bruitées ?
Jingling Li, Mozhi Zhang, Keyulu Xu, John P Dickerson, Jimmy Ba
Les étiquettes bruitées sont inévitables dans les grands ensembles de données du monde réel. Dans ce travail, nous explorons un domaine peu étudié par les travaux précédents : l'impact de l'architecture du réseau sur sa robustesse aux étiquettes bruyantes. Nous fournissons un cadre formel reliant la robustesse d'un réseau aux alignements entre son architecture et les fonctions cible/bruit. Notre cadre mesure la robustesse d'un réseau via le pouvoir prédictif de ses représentations - la performance de test d'un modèle linéaire entraîné sur les représentations apprises à l'aide d'un petit ensemble d'étiquettes propres. Nous émettons l'hypothèse qu'un réseau est plus robuste aux étiquettes bruyantes si son architecture est plus alignée sur la fonction cible que sur le bruit. Pour étayer notre hypothèse, nous fournissons des preuves théoriques et empiriques concernant diverses architectures de réseaux neuronaux et différents domaines. Nous constatons également que lorsque le réseau est bien aligné sur la fonction cible, son pouvoir prédictif dans les représentations pourrait améliorer les méthodes de formation à étiquettes bruyantes de pointe (SOTA) en termes de précision des tests et même surpasser les méthodes sophistiquées qui utilisent des étiquettes propres.
Identification et étalonnage des problèmes de prédiction naturelle hors contexte
David Madras, Richard Zemel
Les systèmes d'apprentissage profond échouent souvent dans la prédiction hors contexte (OOC), le problème de faire des prédictions fiables sur des entrées peu communes ou inhabituelles ou des sous-groupes de la distribution d'apprentissage. À cette fin, un certain nombre de repères pour mesurer les performances OOC ont été récemment introduits. Dans ce travail, nous introduisons un cadre unifiant la littérature sur la mesure de la performance OOC, et démontrons comment de riches informations auxiliaires peuvent être exploitées pour identifier des ensembles candidats d'exemples OOC dans des ensembles de données existants. Nous présentons NOOCh : une suite d'"ensembles de défis" d'origine naturelle, et nous montrons comment différentes notions de contexte peuvent être utilisées pour sonder des modes de défaillance OOC spécifiques. Expérimentalement, nous explorons les compromis entre les différentes approches d'apprentissage sur ces ensembles de défis et démontrons comment les choix faits dans la conception des repères OOC peuvent produire des conclusions variées.
Apprentissage de représentations invariantes du domaine dans les MDP à blocs conditionnés par des objectifs
Beining Han, Chongyi Zheng, Harris Chan, Keiran Paster, Michael R. Zhang, Jimmy Ba
L'apprentissage par renforcement profond (RL) permet de résoudre avec succès de nombreux problèmes complexes liés aux processus de décision de Markov (MDP). Cependant, les agents sont souvent confrontés à des changements environnementaux imprévus après leur déploiement dans le monde réel. Ces changements sont souvent fallacieux et sans rapport avec le problème sous-jacent, comme les changements d'arrière-plan pour les agents à entrée visuelle. Malheureusement, les politiques de RL profond sont généralement sensibles à ces changements et ne parviennent pas à les contrer de manière robuste. Cela ressemble au problème de la généralisation du domaine dans l'apprentissage supervisé. Dans ce travail, nous étudions ce problème pour les agents RL conditionnés par des objectifs. Nous proposons un cadre théorique dans le cadre des MDP en bloc qui caractérise la généralisation des politiques conditionnées par les objectifs à de nouveaux environnements. Dans ce cadre, nous développons une méthode pratique PA-SkewFit qui améliore la généralisation du domaine. L'évaluation empirique montre que notre agent RL conditionné par un objectif peut donner de bons résultats dans divers environnements de test inédits, en s'améliorant de 50 % par rapport aux lignes de base.
Apprentissage de mécanismes causaux généralisés de type Gumbel-max
Guy Lorberbom, Daniel D. Johnson, Chris J. Maddison, Daniel Tarlow, Tamir Hazan
L'inférence contrefactuelle nous permet de répondre à des questions du type "et si", mais les réponses correctes à ces questions ne peuvent pas être identifiées de manière unique par l'observation et l'interaction avec le monde. Nous proposons une famille de modèles causaux pouvant être appris à donner de "bonnes" réponses aux questions contrefactuelles, sur la base de critères spécifiés par l'utilisateur. Nos modèles généralisent le modèle causal structurel Gumbel-max précédemment proposé et peuvent être utilisés pour répondre à de nouvelles requêtes contrefactuelles qui n'ont pas été vues au moment de la formation.
Apprentissage de listes de contrôle prédictives optimales
Guiliang Liu, Xiangyu Sun, Oliver Schulte, Pascal Poupart
Les listes de contrôle sont des outils d'aide à la décision couramment utilisés en milieu clinique. L'une des raisons pour lesquelles les listes de contrôle sont si efficaces est leur forme simple - elles peuvent être remplies en quelques minutes, elles ne nécessitent pas de matériel spécialisé pour être déployées (seulement une feuille imprimée), et elles sont facilement vérifiables, contrairement à d'autres modèles d'apprentissage automatique de type boîte noire. Cependant, la grande majorité des listes de contrôle actuelles sont créées par des groupes d'experts qui utilisent leur expertise du domaine. Dans ce travail, nous proposons une méthode pour créer des listes de contrôle prédictives à partir de *données*. La création de listes de contrôle à partir de données nous permet d'avoir des critères d'évaluation mesurables (c'est-à-dire qu'il existe une mesure concrète que nous pouvons utiliser pour évaluer les listes de contrôle). Elle permet également un développement rapide du modèle - nous pouvons créer des listes de contrôle en quelques heures, au lieu d'attendre des mois le panel d'experts. Notre méthode formule la création de listes de contrôle comme un programme en nombres entiers qui minimise directement le taux d'erreur de la liste de contrôle. Notre méthode permet également d'inclure des contraintes personnalisables (par exemple, sur la forme, la performance ou l'équité de la liste de contrôle) et de déterminer si une liste de contrôle n'est pas un modèle approprié pour une tâche particulière. Nous constatons que notre méthode est plus performante que les méthodes de base existantes et nous présentons deux études de cas pour démontrer l'utilité pratique de notre méthode : 1) nous formons une liste de contrôle pour prédire la mortalité chez les patients en soins intensifs avec des contraintes d'équité de groupe et 2) nous apprenons une version abrégée de la liste de contrôle du syndrome de stress post-traumatique pour le DSM-5 qui est plus rapide à remplir tout en conservant sa précision.
Interprétation de l'arbre d'apprentissage à partir de la représentation des objets pour l'apprentissage par renforcement en profondeur
Guiliang Liu, Xiangyu Sun, Oliver Schulte, Pascal Poupart
L'interprétation des politiques d'apprentissage par renforcement (RL) est importante pour renforcer la confiance et respecter les règles de transparence. Nous décrivons une nouvelle technique permettant d'expliquer les politiques d'apprentissage par renforcement en termes de caractéristiques d'objets de haut niveau plutôt que de caractéristiques de bas niveau telles que les pixels ou les mesures brutes des capteurs. L'approche construit un arbre de décision interprétable en termes de caractéristiques d'objets de haut niveau qui imitent les politiques d'apprentissage par renforcement que nous souhaitons expliquer.
Compression avec perte pour une prédiction sans perte
Yann Dubois, Benjamin Bloem-Reddy, Karen Ullrich, Chris J. Maddison
Des milliards de téraoctets de données sont collectés chaque année. À ces échelles, la plupart des données ne sont pas vues par les humains. Elles sont traitées par des algorithmes. Pourtant, les compresseurs de données standard (par exemple JPEG) sont optimisés de manière à ce que les reconstructions ressemblent à celles des humains. Dans cet article, nous posons les bases théoriques de la compression pour une utilisation en aval par des algorithmes d'apprentissage. D'un point de vue pratique, nous proposons un algorithme simple pour l'apprentissage d'un compresseur générique, qui compresse les images standard plus de 1000 fois mieux que le JPEG, sans entraver les performances de l'apprentissage automatique en aval. À long terme, nous espérons que cette compression permettra aux individus de traiter des données à des échelles qui ne sont actuellement possibles que dans les grandes institutions.
Manipulation de SGD avec des attaques d'ordonnancement des données
Ilia Shumailov, Zakhar Shumaylov, Dmitry Kazhdan, Yiren Zhao, Nicolas Papernot, Murat A. Erdogdu, Ross Anderson
Dans cet article, nous présentons une nouvelle classe d'attaques sur le temps d'apprentissage qui ne nécessitent aucune modification de l'ensemble de données sous-jacent ou de l'architecture du modèle, mais qui modifient uniquement l'ordre dans lequel les données sont fournies au modèle. En substance, nous montrons que le biais d'échantillonnage des données est un élément crucial de toute optimisation stochastique et qu'en contrôlant le hasard, c'est-à-dire l'ordre dans lequel les données sont présentées au modèle, un attaquant peut ralentir l'apprentissage, l'arrêter et parfois faire en sorte que le modèle apprenne des choses qu'il n'est pas censé apprendre.
Impasses médicales et apprentissage de l'identification des états et des traitements à haut risque
Mehdi Fatemi, Taylor W. Killian, Jayakumar Subramanian, Marzyeh Ghassemi
Les interactions patient-clinicien sont des processus intrinsèquement séquentiels dans lesquels les décisions de traitement sont prises et adaptées en fonction de la compréhension qu'a un expert de l'évolution de l'état de santé du patient. Bien qu'il ait été démontré que le RL est un outil puissant pour l'apprentissage de stratégies de décision optimales - apprendre ce qu'il faut faire-les garanties de trouver ces solutions dépendent de la capacité à expérimenter des stratégies possibles pour collecter davantage de données. Ce type d'exploration n'est pas possible dans un contexte de soins de santé, ce qui rend impossible l'apprentissage de stratégies optimales. Dans ce travail, nous proposons d'inverser le paradigme RL dans des environnements où les données sont limitées et où la sécurité est essentielle, afin d'étudier les traitements à haut risque ainsi que l'état de santé des patients. Nous entraînons l'algorithme à identifier les traitements à éviter choisir afin d'éviter au patient des conséquences négatives irrémédiables sur sa santé, définies comme une impasse médicale. Nous appliquons cette approche (Dead-end Discovery - DeD) à une tâche clinique réelle utilisant l'ensemble de données MIMIC-III, traitant des patients gravement malades ayant développé une septicémie. Nous établissons l'existence d'impasses et démontrons l'utilité de l'approche DeD, en émettant des avertissements qui indiquent quand un patient ou un traitement présente un risque élevé ou extrême de se retrouver dans une impasse et donc de mourir.
Méta-apprentissage pour améliorer le pré-entraînement
Aniruddh Raghu, Jonathan Lorraine, Simon Kornblith, Matthew McDermott, David Duvenaud
Le pré-entraînement de grands modèles est utile et nécessaire à l'état de l'art dans de nombreuses tâches machine. Cependant, il ajoute de nombreux paramètres supplémentaires, qui sont difficiles à régler. Nous proposons une méthode évolutive, basée sur le gradient, pour régler les paramètres de pré-entraînement. Les gradients exacts de pré-entraînement étant difficiles à calculer, nous les approximons. Plus précisément, nous composons la différenciation implicite pour la longue étape de pré-entraînement presque convergente, avec la rétropropagation par l'entraînement pour la courte étape de réglage fin. Nous avons appliqué des gradients de pré-entraînement approximatifs pour ajuster des milliers de poids de tâches pour la prédiction de la fonction des protéines basée sur les graphes, et pour apprendre un réseau neuronal d'augmentation de données complet pour l'apprentissage contrastif sur les électrocardiogrammes.
Quantile optimal minimax et Regret semi-adversarial via des régularisateurs racine-logarithmiques
Jeffrey Negrea, Blair Bilodeau, Nicolò Campolongo, Francesco Orabona, Daniel M. Roy
Dans la prédiction avec avis d'expert, on tente de faire correspondre les performances d'un ensemble de prédicteurs/prévisionnistes de référence. Dans ce travail, nous donnons des algorithmes manifestement optimaux pour deux variantes de cette tâche : égaler les performances des k% les plus performants et égaler les performances du meilleur expert, que les données soient bonnes, mauvaises ou quelque part entre les deux.
Moshpit SGD : formation décentralisée efficace en termes de communication sur des appareils hétérogènes non fiables
Max Ryabinin, Eduard Gorbunov, Vsevolod Plokhotnyuk, Gennady Pekhimenko
La formation des réseaux neuronaux profonds est souvent accélérée en combinant la puissance de plusieurs serveurs avec des algorithmes distribués. Malheureusement, les versions efficaces en termes de communication de ces algorithmes nécessitent souvent des connexions fiables à haut débit, qui ne sont généralement disponibles que dans des clusters dédiés. Ce travail propose Moshpit All-Reduce - un algorithme évolutif tolérant aux pannes pour le calcul décentralisé de la moyenne qui conserve des propriétés de convergence favorables par rapport aux approches régulièrement distribuées. Nous montrons que Moshpit SGD, une méthode d'optimisation distribuée basée sur cet algorithme, présente à la fois de solides garanties théoriques et une grande efficacité pratique. En particulier, nous démontrons des gains de 1,3 à 1,5 fois dans des expériences d'apprentissage profond à grande échelle telles que la classification ImageNet avec ResNet-50 ou le pré-entraînement ALBERT-large sur BookCorpus.
Automates hybrides neuronaux : Dynamique d'apprentissage avec modes multiples et transitions stochastiques
Michael Poli, Stefano Massaroli, Luca Scimeca, Seong Joon Oh, Sanghyuk Chun, Atsushi Yamashita, Hajime Asama, Jinkyoo Park, Animesh Garg
En raison de leur capacité à intégrer des contraintes et des connaissances préalables spécifiques à un domaine, les modèles de réseaux neuronaux implicites sont largement appliqués aux problèmes traditionnels de prévision et de contrôle. Parmi eux, les équations différentielles neuronales représentent un choix naturel pour les systèmes à temps continu, dont l'évolution des variables d'état est décrite par des équations différentielles. En particulier, on ne sait toujours pas comment exploiter au mieux cette classe de modèles pour effectuer des prévisions dans des systèmes multimodes soumis à des événements discrets, tels que des impacts ou des chocs. Ces systèmes, connus sous le nom de systèmes hybrides stochastiques (SHS), sont les plus courants dans les applications du monde réel, avec des exemples notables dans les systèmes biologiques, les réseaux de circulation, les marchés financiers et la robotique. Ce travail présente les Automates Hybrides Neuraux (AHN), une méthode évolutive en plusieurs étapes basée sur la normalisation des flux, les équations différentielles neuronales et l'auto-supervision sur les données de trajectoire du système. Les automates hybrides neuronaux sont la première approche d'apprentissage profond capable d'apprendre et de simuler la grande classe des SHS à partir de données, sans connaître le nombre de modes de fonctionnement d'un système cible. L'efficacité du modèle NHA montre qu'avec des considérations attentives, les modèles implicites peuvent être appliqués à la plupart des systèmes, tout en restant des approches d'apprentissage profond générales et évolutives.
OctField : Fonctions implicites hiérarchiques pour la modélisation 3D
Jia-Heng Tang, Weikai Chen, Jie Yang, Bo Wang, Songrun Liu, Bo Yang, Lin Gao
Les progrès récents dans le domaine des fonctions implicites localisées ont permis à la représentation implicite neuronale de s'étendre à de grandes scènes. Toutefois, la subdivision régulière de l'espace 3D employée par ces approches ne tient pas compte de la rareté de l'occupation de la surface et de la granularité variable des détails géométriques. Par conséquent, l'empreinte mémoire augmente de façon cubique avec le volume d'entrée, ce qui entraîne un coût de calcul prohibitif, même pour une décomposition modérément dense. Dans ce travail, nous présentons une représentation hiérarchique implicite des surfaces 3D, codée OctField, qui permet un encodage de haute précision des surfaces complexes avec un faible budget de mémoire et de calcul. La clé de notre approche est une décomposition adaptative des scènes 3D qui ne distribue que des fonctions implicites locales autour de la surface d'intérêt. Nous atteignons cet objectif en introduisant une structure hiérarchique octree pour subdiviser de manière adaptative l'espace 3D en fonction de l'occupation de la surface et de la richesse de la géométrie des pièces. L'octree étant discret et non différentiable, nous proposons un nouveau réseau hiérarchique qui modélise la subdivision des cellules de l'octree comme un processus probabiliste et qui encode et décode récursivement la structure de l'octree et la géométrie de la surface d'une manière différentiable. Nous démontrons la valeur d'OctField pour une série de tâches de modélisation et de reconstruction de formes, en montrant sa supériorité par rapport à d'autres approches.
Minimisation empirique du risque avec des données dépendantes et à forte queue
Abhishek Roy, Krishnakumar Balasubramanian, Murat A. Erdogdu
Dans ce travail, nous établissons des limites de risque pour la minimisation empirique du risque (ERM) avec des processus de génération de données à la fois dépendants et à queue lourde. Pour ce faire, nous étendons les travaux fondamentaux de Mendelson [Men15, Men18] sur l'analyse de la MRE avec des observations à queue lourde mais indépendantes et identiquement distribuées, au cas strictement stationnaire du β-mélange exponentiel. Notre analyse est basée sur le contrôle explicite du processus multiplicateur découlant de l'interaction entre le bruit et les évaluations de fonctions sur les entrées. Elle permet à l'interaction d'être même polynomialement à queue lourde, ce qui couvre une classe significativement large de modèles à queue lourde au-delà de ce qui est analysé dans la littérature sur la théorie de l'apprentissage. Nous illustrons nos résultats en dérivant des taux de convergence pour le problème de régression linéaire en haute dimension avec des données dépendantes et à forte queue.
Prédiction des paramètres pour les architectures profondes invisibles
Boris Knyazev, Michal Drozdzal, Graham W. Taylor, Adriana Romero-Soriano
Avons-nous encore besoin de SGD ou d'Adam pour entraîner les réseaux neuronaux ? De récentes recherches menées par l'Institut Vecteur en collaboration avec Facebook AI Research (maintenant Meta) suggèrent une étape vers une approche alternative pour former les réseaux. Dirigée par Boris Knyazev, doctorant à l'université de Guelph, l'équipe a mis au point une technique permettant d'initialiser diverses architectures de réseaux neuronaux à l'aide d'un "méta-modèle". Cette recherche remet en question l'hypothèse de longue date selon laquelle les optimiseurs basés sur le gradient sont nécessaires pour former des réseaux neuronaux profonds. Étonnamment, le méta-modèle peut prédire les paramètres de presque tous les réseaux neuronaux en une seule passe, atteignant une précision d'environ 60 % sur le populaire ensemble de données CIFAR-10 sans aucun entraînement. De plus, pendant l'entraînement, le méta-modèle n'a observé aucun réseau proche du ResNet-50 dont il a prédit ~25 M paramètres. Dans la lignée des travaux menés par l'équipe en 2020 pour réduire les exigences de calcul des GANscette approche démocratise le DL en rendant la technologie accessible aux plus petits acteurs du domaine tels que les startups et les organisations à but non lucratif. Elle sera présentée à NeurIPS 2021.
Quantifier et améliorer la transférabilité dans la généralisation des domaines
Guojun Zhang, Han Zhao, Yaoliang Yu, Pascal Poupart
Lors du transfert d'un prédicteur du laboratoire au monde réel, il y a toujours des divergences entre les données du laboratoire et celles du monde réel. Dans cet article, nous quantifions la transférabilité des caractéristiques des données et décrivons un nouvel algorithme pour calculer les caractéristiques transférables. Ce travail fait progresser l'état de l'art en matière d'analyse des données lorsqu'il est nécessaire de transférer un prédicteur formé dans un certain domaine (par exemple, le client A) à un nouveau domaine (par exemple, le client B).
Transformateur de référence : Une approche en une étape de la mise à la terre visuelle multitâche
Muchen Li, Leonid Sigal
La capacité à localiser, ou à ancrer, une requête linguistique décrivant une entité dans une image est une tâche fondamentale pour les humains et, par extension, pour tout système de reconnaissance visuelle artificielle. Plus précisément, étant donné une phrase d'interrogation (par exempleune berline bleue", "un homme barbu portant une veste en cuir"), l'objectif est de produire une boîte ou un masque au niveau des pixels englobant étroitement l'entité décrite dans l'image. La plupart des méthodes existantes abordent ce problème en deux étapes : premièrement, localiser un ensemble de régions dans les images qui contiennent des entités potentielles intéressantes et, deuxièmement, déterminer laquelle de ces régions correspond le mieux à la description de la requête fournie. Le problème principal de ces méthodes est que les erreurs commises lors de la première étape limitent fondamentalement les performances de la seconde. Dans ce travail, nous proposons une architecture en une seule étape, qui est capable d'établir simultanément la base linguistique au niveau de la boîte englobante et du pixel. Il est à noter que la plupart des approches antérieures permettaient de réaliser l'une ou l'autre, mais pas les deux. Notre modèle permet également un raisonnement contextualisé en prenant en compte l'image entière, toutes les phrases d'intérêt de la requête et (optionnellement) le contexte linguistique afin d'améliorer les performances. Notre modèle est relativement simple, mais il surpasse largement les méthodes les plus récentes. En plus d'être plus précise, notre approche est aussi considérablement plus rapide, puisqu'elle permet la localisation de plusieurs phrases d'interrogation en même temps et à une granularité différente.
Serveur de données neuronales évolutif : Un outil de recommandation de données pour l'apprentissage par transfert
Tianshi Cao, Sasha (Alexandre) Doubov, David Acuna, Sanja Fidler
L'absence de données étiquetées à grande échelle dans le domaine cible du praticien peut constituer un goulot d'étranglement pour l'application pratique des algorithmes d'apprentissage automatique. L'apprentissage par transfert est une stratégie populaire qui permet d'exploiter des données supplémentaires pour améliorer les performances en aval, mais il peut être difficile de trouver les données les plus pertinentes à partir desquelles effectuer le transfert. Le Neural Data Server (NDS), un moteur de recherche qui recommande des données pertinentes pour une tâche en aval donnée, a déjà été proposé pour résoudre ce problème (Yan et al., 2020). Le NDS utilise un mélange d'experts formés sur les sources de données pour estimer la similarité entre chaque source et la tâche en aval. Ainsi, le coût de calcul pour chaque utilisateur augmente avec le nombre de sources et nécessite une étape de formation coûteuse pour chaque fournisseur de données.Pour résoudre ces problèmes, nous proposons Scalable Neural Data Server (SNDS), un moteur de recherche à grande échelle qui peut théoriquement indexer des milliers d'ensembles de données pour servir des données ML pertinentes aux utilisateurs finaux. SNDS forme le mélange d'experts sur des ensembles de données intermédiaires lors de l'initialisation et représente à la fois les sources de données et les tâches en aval en fonction de leur proximité avec les ensembles de données intermédiaires. Nous validons SNDS sur une pléthore de tâches réelles et constatons que les données recommandées par SNDS améliorent les performances des tâches en aval par rapport aux lignes de base. Nous validons SNDS sur une multitude de tâches réelles et constatons que les données recommandées par SNDS améliorent les performances des tâches en aval par rapport aux lignes de base.
Reparamétrisation signe-sparse-décalage pour une formation efficace des réseaux de décalage à faible bit
Xinlin Li, Bang Liu, Yaoliang Yu, Wulong Liu, Chunjing Xu, Vahid Partovi Nia
Les réseaux neuronaux à décalage réduisent la complexité des calculs en supprimant les opérations de multiplication coûteuses et en quantifiant les poids continus en valeurs discrètes de faible bit, ce qui est rapide et économe en énergie par rapport aux réseaux neuronaux conventionnels. Cependant, les réseaux à décalage existants sont sensibles à l'initialisation des poids et produisent des performances dégradées en raison du gradient de disparition et du problème de gel du signe des poids. Pour résoudre ces problèmes, nous proposons la re-paramétrisation S3, une nouvelle technique pour la formation des réseaux à décalage à faible bit. Notre méthode décompose un paramètre discret d'une manière triplement étalée en signes. De cette manière, elle apprend efficacement un réseau à faible bit dont la dynamique des poids est similaire à celle des réseaux de pleine précision et qui est insensible à l'initialisation des poids. La méthode d'apprentissage proposée repousse les limites des réseaux neuronaux à décalage et montre que les réseaux à décalage de 3 bits rivalisent avec leurs homologues de pleine précision en termes de précision top-1 sur ImageNet.
Vers des stratégies optimales pour l'entraînement des modèles de perception de la conduite autonome en simulation
David Acuna, Jonah Philion, Sanja Fidler
La conduite autonome repose sur un énorme volume de données réelles à étiqueter avec une grande précision. Des solutions alternatives cherchent à exploiter les simulateurs de conduite qui peuvent générer de grandes quantités de données étiquetées avec une pléthore de variations de contenu. Toutefois, l'écart entre les données synthétiques et les données réelles demeure, ce qui soulève l'importante question suivante : Quelles sont les meilleures façons d'utiliser un simulateur de conduite autonome pour les tâches de perception ? Dans ce travail, nous nous appuyons sur les avancées récentes de la théorie de l'adaptation au domaine et, dans cette perspective, nous proposons des moyens de minimiser l'écart avec la réalité. Nous nous concentrons principalement sur l'utilisation d'étiquettes dans le seul domaine synthétique. Notre approche introduit à la fois un principe d'apprentissage des représentations invariantes pour les neurones et un point de vue théorique sur la manière d'échantillonner les données du simulateur. Notre méthode est facile à mettre en œuvre dans la pratique car elle est indépendante de l'architecture du réseau et du choix du simulateur. Nous présentons notre approche sur la tâche de segmentation de véhicules à vue d'oiseau avec des données multi-capteurs (caméras, lidar) en utilisant un simulateur open-source (CARLA), et nous évaluons le cadre entier sur un ensemble de données réelles (nuScenes). Enfin, nous montrons quels types de variations (par exemple, les conditions météorologiques, le nombre d'actifs, la conception de la carte et la diversité des couleurs) ont une incidence sur les réseaux de perception lorsqu'ils sont entraînés avec des simulateurs de conduite, et lesquels peuvent être compensés par notre technique d'adaptation au domaine.
Vers un cadre théorique unifié de l'information pour la généralisation
Mahdi Haghifam, Gintare Karolina Dziugaite, Shay Moran, Daniel M. Roy
L'une des principales propriétés d'un algorithme d'apprentissage est sa capacité à se généraliser à des données inédites. Dans ce travail, nous montrons que la théorie de l'information produit des théories de généralisation presque optimales dans beaucoup plus de scénarios qu'on ne le pensait auparavant, ce qui prouve que considérer l'apprentissage comme un canal de communication est un objectif unificateur.
TriBERT : Apprentissage de la représentation audio-visuelle centrée sur l'homme et le corps entier pour la séparation visuelle des sons
Tanzila Rahman, Mengyu Yang, Leonid Sigal
L'apprentissage audiovisuel qui exploite la relation entre les signaux visuels et auditifs est un sous-domaine important de l'apprentissage automatique et de la vision par ordinateur. Parmi les exemples de tâches typiques que ces modèles peuvent résoudre, on peut citer la séparation et la localisation audiovisuellesoù l'objectif est de segmenter les sons produits par des objets individuels dans un fichier audio et/ou de localiser ces objets dans une scène visuelle ; et la correspondance audiovisuelleoù l'objectif est souvent la récupération audio-visuelle, par exemple.par exemple, l'extraction de l'image correspondant à un son. La plupart des approches existantes pour ces problèmes extraient des informations des modalités nécessaires (audio ou visuelle) et construisent ensuite des algorithmes spécifiques au problème pour fusionner ces représentations afin de résoudre une tâche spécifique. Cela va à l'encontre des tendances actuelles dans d'autres domaines, où, au cours des dernières années, les approches se sont largement consolidées autour d'architectures conçues pour apprendre des représentations génériques et indépendantes du problème, qui peuvent ensuite être facilement exploitées pour des tâches spécifiques. Dans ce travail, nous formulons un apprentissage générique de représentation audiovisuelle centrée sur l'homme, dans le but explicite d'améliorer l'état de l'art en matière de séparation des sources sonores audiovisuelles. Notre modèle de transformateur prend trois flux d'informations : vidéo, audio et pose humaine, et fusionne ces informations pour obtenir des représentations enrichies qui peuvent ensuite être utilisées pour la séparation sonore audiovisuelle finale. L'utilisation de la pose humaine est inspirée par des travaux récents qui illustrent que de telles représentations peuvent considérablement améliorer les performances dans de nombreux scénarios audiovisuels où une ou plusieurs personnes sont souvent responsables du son de manière explicite (par ex.parler) ou implicitement (par exemple, le son produit en fonction de l'activité humaine).le son produit en fonction de la manipulation d'un objet par l'homme). Nous montrons que les représentations apprises sont générales, utiles et améliorent les performances dans d'autres tâches auxiliaires (par ex.Nous montrons que les représentations apprises sont générales, utiles et qu'elles améliorent considérablement les performances dans d'autres tâches auxiliaires (par exemple, des formes de récupération audio-visuelle-positionnelle intermodale).
Attaques par inversion de modèle variationnel
Kuan-Chieh Wang, Yan Fu, Ke Li, Ashish Khisti, Richard Zemel, Alireza Makhzani
Étant donné l'omniprésence des réseaux neuronaux profonds, il est important que ces modèles ne révèlent pas d'informations sur les données sensibles sur lesquelles ils ont été formés. Dans les attaques par inversion de modèle, un utilisateur malveillant tente de récupérer l'ensemble de données privées utilisé pour former un réseau neuronal supervisé. Une attaque par inversion de modèle réussie doit générer des échantillons réalistes et diversifiés qui décrivent avec précision chacune des classes de l'ensemble de données privé. Dans ce travail, nous fournissons une interprétation probabiliste des attaques par inversion de modèle et formulons un objectif variationnel qui tient compte à la fois de la diversité et de la précision. Afin d'optimiser cet objectif variationnel, nous choisissons une famille variationnelle définie dans l'espace de code d'un modèle génératif profond, entraîné sur un ensemble de données auxiliaire public qui partage une certaine similarité structurelle avec l'ensemble de données cible. Empiriquement, notre méthode améliore considérablement les performances en termes de précision de l'attaque de la cible, de réalisme de l'échantillon et de diversité sur des ensembles de données de visages et d'images de radiographie thoracique.