Chercheurs en vecteurs présentant plus de 50 articles à NeurIPS 2021
30 novembre 2021
30 novembre 2021
30 nov. 2021
Par Ian Gormely
Les chercheurs en vecteurs se préparent à nouveau pour une conférence virtuelle sur les systèmes de traitement de l’information neuronale (NeurIPS). La conférence de cette année se déroule du 6 au 14 décembre en ligne. Les communications présentées cette année par la faculté de Vector ouvrent de nouvelles voies dans différents domaines de la recherche en IA, notamment l’apprentissage profond, l’apprentissage par renforcement, la vision par ordinateur et l’IA responsable, et ont le potentiel d’influencer de nombreux aspects de la vie quotidienne et du travail, de l’architecture à la santé.
Les nouveaux travaux du directeur de recherche intérimaire de Vector, Graham Taylor, ont été particulièrement remarquables car ils ont combiné les efforts de son équipe avec ceux du chercheur Jungtaek Kim, que Taylor a rencontré lors de la conférence NeurIPS de l’an dernier. Les deux présentaient des œuvres liées au jouet de construction LEGO.
Cette année, l’équipe combinée canado-coréenne, qui comprend le chercheur de Vector Boris Knyazev ainsi que les chercheurs de POSTECH Hyunsoo Chung, Jinhwi Lee, Jaesik Park et Minsu Cho, présente un autre article lié à LEGO, « Brique par brique : construction combinatoire avec apprentissage par renforcement profond ». Ici, ils utilisent l’apprentissage par renforcement pour construire une structure à partir de briques LEGO à partir d’une photo. Le modèle a le potentiel d’aider à créer des conceptions architecturales à partir d’images ou de rendus.
D’autres travaux notables proviennent de Richard Zemel, directeur de la recherche vectorielle (actuellement en congé), et du membre du corps professoral Alireza Makhzani. Eux et leurs coauteurs Kuan-Chieh Wang, Yan Fu, Ke Li et Ashish J Khisti examinent la vulnérabilité des réseaux neuronaux lorsqu’ils subissent des attaques d’inversion de modèles, qui peuvent révéler des données d’entraînement à des utilisateurs non autorisés. Leur article, « Variational Model Inversion Attacks », examine comment améliorer la précision de ces attaques, afin que les données révélées soient à la fois réalistes et diversifiées. Leur travail a le potentiel d’avoir un impact sur les questions de confidentialité en apprentissage automatique, particulièrement dans le domaine de la santé.
Enfin, le professeur de Vector Chris Maddison et le stagiaire Vector Yann Dubois, ainsi que les coauteurs Benjamin Bloem-Reddy et Karen Ullrich, ont développé un nouveau paradigme de compression pour les données traitées par des algorithmes plutôt que vues par les humains. Dans « Lossy Compression for Lossless Prediction », ils détaillent un modèle qui fonctionne 1000 fois mieux que le JPEG pour la compression d’image. Réduire la taille des données pourrait permettre aux startups et aux petites institutions de travailler avec de grands ensembles de données qui nécessitent actuellement des ressources de calcul prohibitivement coûteuses.
Vous trouverez ci-dessous des résumés et des résumés simplifiés de nombreux articles et ateliers acceptés par les membres du corps professoral de Vector.
Vous pouvez en lire plus sur le travail de Vector lors des conférences des années précédentes ici (2020), ici (2019) et ici (2018).
Une analyse du SGD à taille constante des pas dans le régime non convexe : normalité asymptotique et biais
Lu Yu, Krishnakumar Balasubramanian, Stanislav Volgushev, Murat A. Erdogdu
Les problèmes d’apprentissage structuré non convexe, pour lesquels les points critiques ont des propriétés statistiques favorables, apparaissent fréquemment dans l’apprentissage automatique statistique. Les taux de convergence algorithmique et d’estimation statistique sont bien compris pour de tels problèmes. Cependant, la quantification de l’incertitude associée à l’algorithme d’entraînement sous-jacent n’est pas bien étudiée dans le contexte non convexe. Pour corriger cette lacune, dans ce travail, nous établissons un résultat de normalité asymptotique pour l’algorithme de descente du gradient stochastique (SGD) à taille constante d’étape – un algorithme largement utilisé en pratique. Plus précisément, sur la base de la relation entre SGD et chaînes de Markov [DDB19], nous montrons que la moyenne des itérats SGD est asymptotiquement normalement répartie autour de la valeur attendue de leur distribution invariante unique, tant que la fonction objectif non convexe et non lisse satisfait une propriété de dissipativité. Nous caractérisons également le biais entre cette valeur attendue et les points critiques de la fonction objectif sous diverses conditions de régularité locale. Ensemble, les deux résultats ci-dessus pourraient être exploités pour construire des intervalles de confiance pour des problèmes non convexes entraînés à l’aide de l’algorithme SGD.
Mes systèmes d’apprentissage profond sont-ils équitables? Étude empirique de l’entraînement à semences fixes
Shangshu Qian, Hung Viet Pham, Thibaud Lutellier, Zeou Hu, Jungwon Kim, Lin Tan, Yaoliang Yu, Jiahao Chen, Sameena Shah
Les systèmes d’apprentissage profond (DL) gagnent en popularité dans des tâches cruciales telles que l’évaluation du crédit et la prédiction de la criminalité. De tels systèmes exigent l’équité. Des travaux récents montrent que les implémentations logicielles DL introduisent de la variance : des exécutions d’entraînement DL identiques (c’est-à-dire identiques réseau, données, configuration, logiciel et matériel) avec une graine fixe produisent des modèles différents. Une telle variance pourrait faire en sorte que les modèles et réseaux DL violent les lois de conformité à l’équité, entraînant un impact social négatif. Nous menons la première étude empirique pour quantifier l’impact de la mise en œuvre logicielle sur l’équité et la variance des systèmes DL. Notre étude portant sur 22 techniques d’atténuation et cinq références révèle une variation d’équité allant jusqu’à 12,6% entre des entraînements identiques avec des semences identiques. De plus, la plupart des algorithmes de debiasing ont un impact négatif sur le modèle, comme une réduction de la précision du modèle, une augmentation de la variance d’équité ou une augmentation de la variance de précision. Notre enquête littéraire montre que, bien que l’équité gagne en popularité dans les conférences liées à l’intelligence artificielle (IA), seulement 34,4% des articles utilisent plusieurs séances d’entraînement identiques pour évaluer leur approche, ce qui soulève des inquiétudes quant à la validité de leurs résultats. Nous appelons à de meilleurs protocoles d’évaluation et de tests d’équité afin d’améliorer l’équité et la variabilité des systèmes DL ainsi que la validité et la reproductibilité de la recherche DL en général.
ATISS : Transformateurs autorégressifs pour la synthèse de scènes intérieures
Despoina Paschalidou, Amlan Kar, Maria Shugrina, Karsten Kreis, Andreas Geiger, Sanja Fidler
La capacité de synthétiser automatiquement des agencements réalistes et diversifiés de meubles d’intérieur ou à partir d’une entrée partielle débloque de nombreuses applications, allant de meilleurs outils 3D interactifs à la synthèse de données pour l’entraînement et la simulation. Dans cet article, nous présentons ATISS, une architecture innovante de transformateur autorégressif permettant de créer des environnements intérieurs synthétiques diversifiés et plausibles, en fonction uniquement du type de pièce et de son plan d’étage. Contrairement aux travaux antérieurs, qui présentent la synthèse de scènes comme génération de séquences, notre modèle génère des pièces comme des ensembles non ordonnés d’objets. Nous soutenons que cette formulation est plus naturelle, car elle rend l’ATISS généralement utile au-delà de la synthèse entièrement automatique de la disposition des pièces. Par exemple, le même modèle entraîné peut être utilisé dans des applications interactives pour la complétion générale de la scène, le réarrangement partiel de la pièce avec tout objet spécifié par l’utilisateur, ainsi que pour la suggestion d’objets pour toute pièce partielle. Pour permettre cela, notre modèle exploite l’équivariance de permutation du transformateur lors du conditionnement sur la scène partielle, et est entraîné à être invariant par permutation selon les ordres des objets. Notre modèle est entraîné de bout en bout comme un modèle génératif autorégressif en utilisant uniquement des boîtes englobantes 3D identifiées comme supervision. Les évaluations de quatre types de pièces dans l’ensemble de données 3D-FRONT démontrent que notre modèle génère systématiquement des agencements de pièces plausibles, plus réalistes que les méthodes existantes. De plus, il comporte moins de paramètres, est plus simple à mettre en œuvre et à entraîner, et fonctionne jusqu’à 8 fois plus vite que les méthodes existantes.
Brique par brique : construction combinatoire avec apprentissage par renforcement profond
Hyunsoo Chung, Jungtaek Kim, Boris Knyazev, Jinhwi Lee, Graham W. Taylor, Jaesik Park, Minsu Cho
L’équipe du Vector Institute, dirigée par le directeur de recherche intérimaire Graham Taylor, démontre encore une fois que les ordinateurs peuvent aussi jouer à LEGO. L’an dernier, lors de l’atelier NeurIPS sur l’apprentissage automatique pour la modélisation en ingénierie, la simulation et la conception, l’équipe a présenté un modèle génératif de graphes qui a appris de divers types de structures LEGO créées par l’humain et a proposé ses propres créations. Là, ils ont rencontré Jungtaek Kim, étudiant de POSTECH, qui, soit dit en passant, présentait ses propres travaux liés à LEGO. Les équipes ont décidé de s’unir et Kim a effectué un stage chez Vector. Dans le cadre d’un projet à NeurIPS, l’équipe coréano-canadienne propose une nouvelle formulation du problème de construction de LEGO avec l’apprentissage par renforcement profond. Dans « Brick-by-Brick », un agent d’apprentissage par renforcement construit par LEGO accepte une connaissance incomplète de la cible désirée sous forme d’image, plutôt que de construire à partir d’une page blanche. L’innovation clé dans ce travail réside dans la gestion d’un grand nombre d’actions de construction invalides qui peuvent compromettre l’intégrité d’un bâtiment. Ce travail a des implications pour la conception architecturale, où l’inspiration peut être suggérée par une photo ou un rendu et où l’agent construit un plan constructible qui respecte les contraintes complexes du monde réel.
Caractérisation de la généralisation sous les décalages hors distribution dans l’apprentissage métrique profond
Timo Milbich, Karsten Roth, Samarth Sinha, Ludwig Schmidt, Marzyeh Ghassemi, Björn Ommer
L’apprentissage métrique profond (DML) vise à apprendre les espaces de représentation dans lesquels une métrique prédéfinie (par exemple, la distance euclidienne) se rapporte à la similarité sémantique des données d’entrée d’une manière qui permet de regrouper des échantillons issus de classes invisibles en fonction de la similarité inhérente, même sous des décalages sémantiques hors distribution. Cependant, les benchmarks standards utilisés pour évaluer les capacités de généralisation de différentes méthodes DML utilisent des divisions fixes entre trains et tests et donc des décalages fixes de train à test. Mais en pratique, le décalage au moment du test n’est pas connu a priori et, par conséquent, le réglage d’évaluation par défaut est insuffisant pour évaluer l’utilisabilité pratique des différentes méthodes DML. Pour y remédier, nous proposons un protocole novateur pour générer des séquences de décalages sémantiques de plus en plus difficiles pour des divisions train-test données afin d’évaluer la performance de généralisation des méthodes DML dans des scénarios plus réalistes avec différents décalages train-à-test. Par la suite, nous fournissons une évaluation approfondie des approches conceptuelles de la DML et de leurs avantages ou lacunes à travers les changements d’entraînement à test de difficulté variable, étudions les liens avec des métriques structurelles comme indicateurs potentiels de la performance de généralisation en aval, ainsi que nous introduisons la DML à quelques coups comme remède peu coûteux pour une généralisation systématiquement améliorée lors de changements d’OOD plus sévères.
Encodeurs automatiques variationnels mécaniques
Vaibhav Saxena, Jimmy Ba, Danijar Hafner
L’apprentissage profond a permis aux algorithmes de générer des images réalistes. Cependant, prédire avec précision de longues séquences vidéo nécessite de comprendre les dépendances à long terme et demeure un défi ouvert. Bien que les modèles de prédiction vidéo existants réussissent à générer des images nettes, ils ont tendance à échouer à prédire avec précision à long terme. Nous introduisons le Clockwork VAE (CW-VAE), un modèle de prédiction vidéo qui exploite une hiérarchie de séquences latentes, où les niveaux supérieurs tirent à des intervalles plus lents. Nous démontrons les avantages à la fois des latents hiérarchiques et de l’abstraction temporelle sur 4 ensembles de données de prédiction vidéo diversifiés avec des séquences allant jusqu’à 1000 images, où CW-VAE surpasse les meilleurs modèles de prédiction vidéo. De plus, nous proposons un benchmark Minecraft pour la prédiction vidéo à long terme. Nous menons plusieurs expériences pour obtenir des informations sur CW-VAE et confirmer que les niveaux plus lents apprennent à représenter des objets qui changent plus lentement dans la vidéo, et que les niveaux plus rapides apprennent à représenter des objets plus rapides.
Taux de convergence de la descente du gradient stochastique sous variance infinie du bruit
Hongjian Wang, Mert Gürbüzbalaban, Lingjiong Zhu, Umut Şimşekli, Murat A. Erdogdu
Des études récentes ont fourni à la fois des preuves empiriques et théoriques illustrant que des queues lourdes peuvent apparaître dans la descente du gradient stochastique (SGD) dans divers scénarios. De telles queues lourdes peuvent potentiellement entraîner des itérations avec variance divergente, ce qui entrave l’utilisation des techniques conventionnelles d’analyse de convergence qui reposent sur l’existence des moments du second ordre. Dans cet article, nous fournissons des garanties de convergence pour SGD sous un bruit dépendant de l’état et à queue lourde avec une variance potentiellement infinie, pour une classe d’objectifs fortement convexes. Dans le cas où le p-ième moment du bruit existe pour un certain p∈[1,2), on identifie d’abord une condition sur le hessois, appelée « p-définitude p-positive », qui conduit à une interpolation intéressante entre les matrices semi-définies positives (p=2) et les matrices dominantes en diagonale avec des entrées diagonales non négatives (p=1). Dans cette condition, nous fournissons ensuite un taux de convergence pour la distance à l’optimum global en Lp. De plus, nous fournissons un théorème central de limite généralisé, qui montre que la moyenne de Polyak-Ruppert correctement mise à l’échelle converge faiblement vers un vecteur aléatoire multivarié α-stable. Nos résultats indiquent que même sous un bruit à queue lourde avec variance infinie, la SGD peut converger vers l’optimum global sans nécessiter de modification ni de la fonction de perte ni de l’algorithme lui-même, comme c’est généralement requis en statistique robuste. Nous démontrons les implications de nos résultats pour des applications telles que la régression linéaire et les modèles linéaires généralisés soumis à des données à queue lourde.
Tétraèdres en marche profonde : une représentation hybride pour la synthèse de formes 3D à haute résolution
Tianchang Shen, Jun Gao, Kangxue Yin, Ming-Yu Liu, Sanja Fidler
Nous introduisons DMTet, un modèle génératif conditionnel 3D profond qui peut synthétiser des formes 3D haute résolution à l’aide de guides d’utilisation simples comme les voxels grossiers. Il marie les mérites des représentations 3D implicites et explicites en exploitant une représentation hybride 3D novatrice. Comparé aux approches implicites actuelles, qui sont entraînées à régresser les valeurs de distance signée, DMTet optimise directement pour la surface reconstruite, ce qui nous permet de synthétiser des détails géométriques plus fins avec moins d’artefacts. Contrairement aux modèles génératifs 3D profonds qui génèrent directement des représentations explicites comme des maillages, notre modèle peut synthétiser des formes avec une topologie arbitraire. Le noyau de DMTet comprend une grille tétraédrique déformable qui encode une fonction distance signée discrétisée et une couche de tétraèdres marqueurs différentiables qui convertit la représentation implicite de la distance signée en la représentation explicite du maillage de surface. Cette combinaison permet l’optimisation conjointe de la géométrie et de la topologie de la surface ainsi que la génération de la hiérarchie des subdivisions en utilisant la reconstruction et les pertes adversaires définies explicitement sur le maillage de surface. Notre approche surpasse largement les travaux existants sur la synthèse conditionnelle de formes à partir d’entrées voxel grossières, entraînées sur un ensemble de données de formes animales 3D complexes. Page du projet : cette URL https.
Démystifier et généraliser BinaryConnect
Tim Dockhorn, Yaoliang Yu, Eyyüb Sari, Mahdi Zolnouri, Vahid Partovi Nia
BinaryConnect (BC) et ses nombreuses variantes sont devenues la norme de facto pour la quantification des réseaux neuronaux, cruciale pour réduire la consommation d’énergie et pour le déploiement sur des dispositifs à faibles ressources. Malgré son succès empirique, la Colombie-Britannique est restée en grande partie un « truc d’entraînement » et une compréhension rigoureuse de son fonctionnement interne reste à trouver. Dans ce travail, nous montrons qu’une extension de BC est une modification non convexe de l’algorithme du gradient conditionnel généralisé, ce qui nous permet d’établir facilement ses propriétés de convergence. Nous présentons également une théorie fondée sur des principes pour construire des quantificateurs proximaux qui transforment graduellement des poids continus en poids discrets. Pour la première fois, en nous appuyant sur nos découvertes théoriques, nous justifions rigoureusement le paramètre divergent dans les quantificateurs proximaux, qui est resté une incohérence entre la théorie et la pratique jusqu’à présent.
DIB-R++ : Apprendre à prédire l’éclairage et le matériel avec un moteur de rendu différentiable hybride
Wenzheng Chen, Joey Litalien, Jun Gao, Zian Wang, Clement Fuji Tsang, Sameh Khamis, Or Litany, Sanja Fidler
Nous considérons le problème difficile de prédire les propriétés intrinsèques d’un objet à partir d’une seule image en exploitant des moteurs de rendu différentiables. De nombreuses approches antérieures basées sur l’apprentissage pour les graphiques inverses adoptent des moteurs de rendu basés sur la rastérisation et supposent des modèles d’éclairage et de matériaux naïfs, qui ne tiennent souvent pas compte des réflexions spéculaires non lambertiennes couramment observées dans la nature. Dans ce travail, nous proposons DIBR++, un moteur hybride différentiable qui supporte ces effets photoréalistes en combinant la rastérisation et le lancer de rayons, tirant parti de leurs forces respectives — vitesse et réalisme. Notre moteur de rendu intègre l’éclairage environnemental et des modèles de matériaux spatialement variables pour approximer efficacement le transport de la lumière, soit par estimation directe, soit par des fonctions de base sphérique. Comparé à des moteurs différentiables plus avancés basés sur la physique utilisant le path tracing, DIBR++ est très performant grâce à son modèle d’ombrage compact et expressif, qui permet une intégration facile avec des cadres d’apprentissage pour la géométrie, la réflectance et la prédiction de l’éclairage à partir d’une seule image sans nécessiter de vérification du terrain. Nous démontrons expérimentalement que notre approche permet un démêlement supérieur des matériaux et de l’éclairage sur des données synthétiques et réelles comparativement aux approches existantes basées sur la rastérisation, et nous présentons plusieurs applications artistiques, notamment l’édition et le rééclairage de matériaux.
Échantillonnage d’importance recuit différentiable et les dangers du bruit de gradient
Guodong Zhang, Kyle Hsu, Jianing Li, Chelsea Finn, Roger Grosse
En apprentissage automatique, plusieurs de nos algorithmes clés (par exemple la descente du gradient stochastique) calculent des mises à jour sur de petits lots de données, et notre expérience habituelle est que les petits lots sont au moins aussi efficaces que les gros lots (en termes de convergence époque). Nous présentons et analysons un algorithme mini-batch pour estimer la vraisemblance marginale d’un modèle bayésien. Étonnamment, on constate que (contrairement aux paramètres d’optimisation et d’échantillonnage) l’estimateur en mini-lots est incohérent; Notre analyse met en lumière un obstacle clé à une estimation efficace de la vraisemblance marginale.
Apprentissage profond distribué dans des collaborations ouvertes
Michael Diskin, Alexey Bukhtiyarov, Max Ryabinin, Lucile Saulnier, Quentin Lhoest, Anton Sinitsin, Dmitry Popov, Dmitriy Pyrkin, Maxim Kashirin, Alexander Borzunov, Albert Villanova del Moral, Denis Mazur, Yacine Jernite, Thomas Wolf, Gennady Pekhimenko
L’entraînement des réseaux de neurones les plus puissants nécessite des ressources computationnelles souvent indisponibles en dehors des grandes organisations, ce qui ralentit ultimement les progrès scientifiques. Dans ce travail, nous proposons une approche permettant d’entraîner de grands réseaux neuronaux dans des collaborations pouvant couvrir le monde entier. Notre méthode DeDLOC peut s’adapter à différentes vitesses de connexion, ce qui la rend significativement plus efficace que les méthodes standard conçues pour les réseaux homogènes. Nous démontrons les propriétés bénéfiques du DeDLOC dans des configurations cloud économiques et une expérience bénévole, entraînant un modèle de langage de haute qualité pour le bengali avec 40 participants.
Don’t Generate Me : Entraîner des modèles génératifs différenciellement privés avec la divergence de Sinkhorn
Tianshi Cao, Alex Bie, Arash Vahdat, Sanja Fidler, Karsten Kreis
Bien que les modèles d’apprentissage automatique entraînés sur des données massives aient permis des avancées dans plusieurs domaines, leur déploiement dans des domaines sensibles à la vie privée demeure limité en raison de l’accès restreint aux données. Les modèles génératifs entraînés avec des contraintes de confidentialité sur les données privées peuvent contourner ce défi, offrant plutôt un accès indirect aux données privées. Nous proposons DP-Sinkhorn, une nouvelle méthode générative optimale basée sur le transport pour apprendre les distributions de données à partir de données privées avec une confidentialité différentielle. DP-Sinkhorn minimise la divergence de Sinkhorn, une approximation computationnellement efficace de la distance de transport optimale exacte, entre le modèle et les données, de manière différentiellement privée, et utilise une technique novatrice pour contrôler le compromis biais-variance des estimations du gradient. Contrairement aux approches existantes pour l’entraînement des modèles génératifs différencialement privés, qui reposent principalement sur des réseaux génératifs adversaires, nous ne nous appuyons pas sur des objectifs adversaires, qui sont notoirement difficiles à optimiser, surtout en présence de bruit imposé par des contraintes de confidentialité. Ainsi, le DP-Sinkhorn est facile à entraîner et à déployer. Expérimentalement, nous améliorons l’état de l’art des benchmarks de modélisation multiple d’images et montrons une synthèse différentiellement privée d’images RVB informatives. Page du projet : cette URL https.
Drop-DTW : alignement du signal commun entre les séquences tout en éliminant les valeurs aberrantes
Nikita Dvornik, Isma Hadji, Konstantinos G. Derpanis, Animesh Garg, Allan D. Jepson
Le problème de l’alignement des séquences est central dans de nombreuses applications de l’IA, telles que la biologie computationnelle, la vidéo, l’audio ou l’analyse multimodale. Bien qu’il soit facile d’aligner des signaux « propres », aligner la séquence avec les valeurs aberrantes est plus difficile et peut généralement être ambigu. Dans ce travail, nous proposons Drop-DTW, un nouvel algorithme pour aligner les séquences avec des valeurs aberrantes entrecoupées. Drop-DTW offre la solution optimale pour la détection simultanée des valeurs aberrantes et l’alignement des séquences sans valeurs aberrantes, possède une implémentation efficace et peut être rendu différentiable. Grâce à Drop-DTW, nous pouvons améliorer la tâche générale de récupération de séquences, l’apprentissage de représentation non supervisé et faiblement supervisé, et proposer une nouvelle méthode efficace pour effectuer la localisation par étapes dans les vidéos pédagogiques. Dans toutes les applications, Drop-DTW obtient des résultats de pointe.
Goulot d’étranglement dynamique pour une exploration autonome robuste
Chenjia Bai, Lingxiao Wang, Lei Han, Animesh Garg, Jianye Hao, Peng Liu, Zhaoran Wang
Le compromis entre exploration et exploitation a longtemps été un défi majeur en apprentissage par renforcement (RL), surtout pour de nombreuses applications réelles comme la conduite autonome. Une approche efficace de l’exploration auto-supervisée consiste à concevoir une récompense intrinsèque dense qui motive l’agent à explorer de nouvelles transitions. Cependant, les méthodes d’exploration précédentes deviennent instables lorsque les états sont bruyants, par exemple contenant des informations dynamiques non pertinentes. Par exemple, dans les tâches de conduite autonome, les états capturés par la caméra peuvent contenir des objets non pertinents, comme des nuages qui se comportent de manière similaire au mouvement brownien. Si l’on mesure la nouveauté des états ou la curiosité des transitions à travers des pixels bruts observés, l’exploration est susceptible d’être affectée par la dynamique de ces objets sans importance. Pour résoudre ce problème, nous proposons un modèle de goulot d’étranglement dynamique (DB) afin d’obtenir une représentation dynamique pertinente et d’écarter les bruits selon le principe du goulot d’étranglement d’information. Nous proposons un bonus DB pour encourager l’agent à explorer les paires état-action avec un gain d’information élevé. Les expériences montrent que le bonus de la base de données surpasse plusieurs méthodes d’exploration de pointe dans des environnements bruyants.
EditGAN : Édition sémantique d’image haute précision
Huan Ling, Karsten Kreis, Daiqing Li, Seung Wook Kim, Antonio Torralba, Sanja Fidler
Les réseaux antagonistes génératifs (GAN) ont récemment trouvé des applications en édition d’images. Cependant, la plupart des méthodes d’édition d’images basées sur le GAN nécessitent souvent des ensembles de données à grande échelle avec des annotations de segmentation sémantique pour l’entraînement, ne fournissent que un contrôle de haut niveau, ou simplement interpolent entre différentes images. Ici, nous proposons EditGAN, une méthode novatrice pour l’édition sémantique d’images de haute qualité et haute précision, permettant aux utilisateurs de modifier des images en modifiant leurs masques de segmentation très détaillés, par exemple, en dessinant un nouveau masque pour le phare d’une voiture. EditGAN s’appuie sur un cadre GAN qui modélise conjointement les images et leurs segmentations sémantiques, ne nécessitant qu’une poignée d’exemples identifiés, ce qui en fait un outil évolutif pour l’édition. Plus précisément, nous intégrons une image dans l’espace latent GAN et effectuons une optimisation conditionnelle du code latent selon l’édition de segmentation, ce qui modifie effectivement aussi l’image. Pour amortir l’optimisation, on trouve des vecteurs d’édition dans l’espace latent qui réalisent les modifications. Le cadre nous permet d’apprendre un nombre arbitraire de vecteurs d’édition, qui peuvent ensuite être appliqués directement à d’autres images à des rythmes interactifs. Nous démontrons expérimentalement qu’EditGAN peut manipuler les images avec un niveau de détail et de liberté sans précédent, tout en préservant une qualité d’image complète. Nous pouvons aussi facilement combiner plusieurs modifications et effectuer des modifications plausibles au-delà des données d’entraînement EditGAN. Nous démontrons EditGAN sur une grande variété de types d’images et surpassons quantitativement plusieurs méthodes de montage précédentes sur des tâches standard de benchmark de montage.
Structure fractale et propriétés de généralisation des algorithmes d’optimisation stochastique
Alexander Camuto, George Deligiannidis, Murat A. Erdogdu, Mert Gürbüzbalaban, Umut Şimşekli, Lingjiong Zhu
Comprendre la généralisation en apprentissage profond a été l’un des principaux défis de la théorie statistique de l’apprentissage au cours de la dernière décennie. Bien que des travaux récents aient démontré que le jeu de données et l’algorithme d’entraînement doivent être pris en compte pour obtenir des bornes de généralisation significatives, il n’est toujours pas clair théoriquement quelles propriétés des données et de l’algorithme déterminent la performance de généralisation. Dans cette étude, nous abordons ce problème du point de vue de la théorie des systèmes dynamiques et représentons les algorithmes d’optimisation stochastique comme des systèmes à fonctions itérées aléatoires (IFS). Bien étudiée dans la littérature des systèmes dynamiques, sous hypothèses modérées, de telles IFS peuvent être démontrées comme ergodiques avec une mesure invariante souvent supportée sur des ensembles à structure fractale. Comme contribution principale, nous démontrons que l’erreur de généralisation d’un algorithme d’optimisation stochastique peut être bornée en fonction de la « complexité » de la structure fractale qui sous-tend sa mesure invariante. En tirant parti des résultats de la théorie des systèmes dynamiques, nous montrons que l’erreur de généralisation peut être explicitement liée au choix de l’algorithme (par exemple, la descente du gradient stochastique — SGD), aux hyperparamètres de l’algorithme (par exemple, la taille du pas, la taille du lot), et à la géométrie du problème (par exemple, le Hessian de la perte). Nous spécialisons également nos résultats à des problèmes spécifiques (par exemple, régression linéaire/logistique, réseaux de neurones à couches cachées) et aux algorithmes (par exemple, SGD et variantes préconditionnées), et obtenons des estimations analytiques pour notre borne. Pour les réseaux de neurones modernes, nous développons un algorithme efficace pour calculer la borne développée et soutenir notre théorie par diverses expériences sur les réseaux de neurones.
L’avenir est log-gaussienne : les ResNets et leur limite de profondeur et largeur infinies à l’initialisation
Mufan (Bill) Li, Mihai Nica, Daniel M. Roy
La théorie de la limite à largeur infinie a considérablement élargi notre compréhension des réseaux neuronaux. Cependant, les réseaux réels sont trop profonds : leur performance s’écarte de la théorie de la largeur infinie. Nous étudions les réseaux avec des connexions résiduelles dans la limite de profondeur et largeur infinies, et montrons un accord remarquable entre les prédictions théoriques et les mesures empiriques dans les réseaux réels.
Grad2Task : Amélioration de la classification des textes en poignées à l’aide de gradients pour la représentation des tâches
Jixuan Wang, Kuan-Chieh Wang, Frank Rudzicz, Michael Brudno
« Pré-entraîner des modèles de langage basés sur des Transformers sur du texte non étiqueté, puis leur ajustement fin selon les tâches ciblées, a obtenu un succès remarquable sur diverses tâches de PLN. Cependant, l’étape d’ajustement fin nécessite encore une grande quantité de données étiquetées pour obtenir de bonnes performances. Dans ce travail, nous proposons une approche de méta-apprentissage pour la classification de texte en quelques shots, où seulement quelques exemples sont donnés pour chaque cours. Pendant l’entraînement, notre modèle apprend des connaissances préalables utiles à partir d’un ensemble de tâches diverses mais connexes. Lors des tests, notre modèle utilise les connaissances acquises pour mieux résoudre diverses tâches en aval dans différents domaines. Nous utilisons des dégradés comme caractéristiques pour représenter la tâche. Comparativement à l’ajustement fin et à d’autres approches de méta-apprentissage, nous démontrons de meilleures performances sur un ensemble diversifié de tâches de classification de texte. Notre travail est une exploration inaugurale de l’utilisation de représentations de tâches basées sur des gradients pour le méta-apprentissage. »
Queues lourdes en SGD et compressibilité des réseaux neuronaux surparamétrés
Melih Barsbey, Milad Sefidgaran, Murat A. Erdogdu, Gaël Richard, Umut Şimşekli
Les techniques de compression des réseaux neuronaux sont devenues de plus en plus populaires car elles peuvent réduire drastiquement les besoins de stockage et de calcul pour les très grands réseaux. Des études empiriques récentes ont démontré que même des stratégies de taille simples peuvent être étonnamment efficaces, et plusieurs études théoriques ont montré que les réseaux compressibles (dans des sens spécifiques) devraient produire une faible erreur de généralisation. Cependant, une caractérisation théorique de la cause sous-jacente qui rend les réseaux adaptés à de tels schémas de compression simples fait encore défaut. Dans cette étude, nous abordons cette question fondamentale et révélons que la dynamique de l’algorithme d’entraînement joue un rôle clé dans l’obtention de tels réseaux compressibles. En concentrant notre attention sur la descente du gradient stochastique (SGD), notre principale contribution est de lier la compressibilité à deux propriétés récemment établies du SGD : (i) à mesure que la taille du réseau atteint l’infini, le système peut converger vers une limite de champ moyen, où les poids du réseau se comportent indépendamment, (ii) pour un grand rapport taille de pas/taille de lot, le SGD irate peut converger vers une distribution stationnaire à queues lourdes. Dans le cas où ces deux phénomènes se produisent simultanément, on prouve que les réseaux sont garantis d’être « lp-compressibles », et que les erreurs de compression des différentes techniques d’élagage (magnitude, valeur singulière ou taille de nœud) deviennent arbitrairement petites à mesure que la taille du réseau augmente. Nous démontrons également des limites de généralisation adaptées à notre cadre théorique, qui confirment effectivement que l’erreur de généralisation sera plus faible pour les réseaux plus compressibles. Notre théorie et notre étude numérique sur divers réseaux de neurones montrent que de grands rapports de taille de pas/taille de lot introduisent des queues lourdes qui, combinées à une surparamétrisation, entraînent une compressibilité.
Comment l’architecture d’un réseau de neurones influence-t-elle sa robustesse face aux étiquettes bruyantes?
Jingling Li, Mozhi Zhang, Keyulu Xu, John P Dickerson, Jimmy Ba
Les étiquettes bruyantes sont inévitables dans les grands ensembles de données réels. Dans ce travail, nous explorons un domaine peu étudié par les travaux précédents — comment l’architecture du réseau influence sa robustesse face aux étiquettes bruyantes. Nous fournissons un cadre formel reliant la robustesse d’un réseau aux alignements entre son architecture et les fonctions cible/bruit. Notre cadre mesure la robustesse d’un réseau grâce au pouvoir prédictif de ses représentations — la performance de test d’un modèle linéaire entraîné sur les représentations apprises à l’aide d’un petit ensemble d’étiquettes propres. Nous émettons l’hypothèse qu’un réseau est plus robuste face aux étiquettes bruitées si son architecture est plus alignée avec la fonction cible qu’avec le bruit. Pour appuyer notre hypothèse, nous fournissons à la fois des preuves théoriques et empiriques dans diverses architectures de réseaux neuronaux et différents domaines. Nous constatons aussi que lorsque le réseau est bien aligné avec la fonction cible, son pouvoir prédictif dans les représentations pourrait améliorer les méthodes d’entraînement des étiquettes bruitées de pointe (SOTA) en termes de précision des tests, voire surpasser les méthodes sophistiquées utilisant des étiquettes propres.
Identifier et comparer les problèmes naturels de prédiction hors contexte
David Madras, Richard Zemel
Les systèmes d’apprentissage profond échouent fréquemment dans la prédiction hors contexte (OOC), c’est-à-dire le problème de faire des prédictions fiables sur des entrées ou sous-groupes peu communs ou inhabituels de la distribution d’entraînement. À cette fin, plusieurs repères pour mesurer la performance OOC ont récemment été introduits. Dans ce travail, nous introduisons un cadre unifiant la littérature sur la mesure de performance OOC, et démontrons comment des informations auxiliaires riches peuvent être exploitées pour identifier des ensembles candidats d’exemples OOC dans des ensembles de données existants. Nous présentons NOOCh : un ensemble d'« ensembles de défis » naturels, et montrons comment différentes notions de contexte peuvent être utilisées pour sonder des modes de défaillance OOC spécifiques. Expérimentalement, nous explorons les compromis entre les différentes approches d’apprentissage sur ces ensembles de défis et démontrons comment les choix faits lors de la conception des benchmarks OOC peuvent mener à des conclusions différentes.
Représentations invariantes du domaine d’apprentissage dans les MDP à blocs conditionnés par l’objectif
Beining Han, Chongyi Zheng, Harris Chan, Keiran Paster, Michael R. Zhang, Jimmy Ba
L’apprentissage par renforcement profond (RL) réussit à résoudre de nombreux problèmes complexes liés aux processus décisionnels de Markov (MDP). Cependant, les agents font souvent face à des changements environnementaux imprévus après leur déploiement dans le monde réel. Ces changements sont souvent fallacieux et sans lien avec le problème sous-jacent, comme les décalages de fond pour les agents d’entrée visuelle. Malheureusement, les politiques RL profondes sont généralement sensibles à ces changements et n’agissent pas de manière rigoureuse contre eux. Cela ressemble au problème de la généralisation de domaine dans l’apprentissage supervisé. Dans ce travail, nous étudions ce problème pour les agents RL conditionnés par un objectif. Nous proposons un cadre théorique dans le cadre Block MDP qui caractérise la généralisabilité des politiques conditionnées par des objectifs vers de nouveaux environnements. Dans ce cadre, nous développons une méthode pratique PA-SkewFit qui favorise la généralisation du domaine. L’évaluation empirique montre que notre agent RL conditionné aux objectifs peut bien performer dans divers environnements de test invisibles, s’améliorant de 50% par rapport aux références.
Apprentissage des mécanismes causaux généralisés du Gumbel-max
Guy Lorberbom, Daniel D. Johnson, Chris J. Maddison, Daniel Tarlow, Tamir Hazan
L’inférence contrefactuelle nous permet de répondre à des questions « et si », mais les bonnes réponses à ces questions ne peuvent pas être identifiées de manière unique en observant et en interagissant avec le monde. Nous proposons une famille apprenable de modèles causaux qui peuvent être entraînés à donner de « bonnes » réponses aux questions contrefactuelles, selon des critères spécifiés par l’utilisateur. Nos modèles généralisent le modèle structurel causal Gumbel-max précédemment proposé, et peuvent être utilisés pour répondre à de nouvelles questions contrefactuelles non observées lors de l’entraînement.
Apprendre des listes de vérification prédictives optimales
Guiliang Liu, Xiangyu Sun, Oliver Schulte, Pascal Poupart
Les listes de vérification sont des aides à la décision couramment utilisées en milieu clinique. Une des raisons pour lesquelles les listes de vérification sont si efficaces est leur forme simple – elles peuvent être remplies en quelques minutes, elles ne nécessitent aucun matériel spécialisé pour être déployées (seulement une feuille imprimée), et elles sont facilement vérifiables contrairement à d’autres modèles d’apprentissage automatique en boîte noire. Cependant, la grande majorité des listes de vérification actuelles sont créées par des panels d’experts utilisant une expertise dans le domaine. Dans ce travail, nous proposons une méthode pour créer des listes de contrôle prédictives à partir de *données*. Créer des listes de vérification à partir des données nous permet d’avoir un critère d’évaluation mesurable (c’est-à-dire qu’il existe une métrique concrète que nous pouvons utiliser pour évaluer les listes de vérification). Cela permet aussi un développement rapide du modèle – nous pouvons établir des listes de vérification en quelques heures, au lieu d’attendre des mois pour le panel d’experts. Notre méthode formule la création de liste de vérification comme un programme entier qui minimise directement le taux d’erreur de la liste. De manière cruciale, notre méthode permet aussi d’inclure des contraintes personnalisables (par exemple, sur le formulaire de la liste de vérification, la performance ou l’équité), ainsi que de donner des indications sur les moments où une liste de vérification n’est pas un modèle approprié pour la tâche particulière. Nous constatons que notre méthode surpasse les méthodes de référence existantes, et présentons deux études de cas pour démontrer l’utilité pratique de notre méthode où 1) nous entraînons une liste de vérification pour prédire la mortalité chez les patients en soins intensifs avec des contraintes d’équité de groupe, et 2) nous apprenons une version courte de la liste de vérification du TSPT pour le DSM-5, plus rapide à compléter tout en maintenant la précision.
Apprentissage de l’interprétation de l’arbre à partir de la représentation d’objets pour l’apprentissage par renforcement profond
Guiliang Liu, Xiangyu Sun, Oliver Schulte, Pascal Poupart
L’interprétation des politiques d’apprentissage par renforcement (RL) est importante pour renforcer la confiance et se conformer aux règlements sur la transparence. Nous décrivons une nouvelle technique pour expliquer les politiques RL en termes de caractéristiques d’objets de haut niveau plutôt que de caractéristiques de bas niveau comme les pixels ou les mesures brutes des capteurs. Cette approche construit un arbre de décision interprétable en termes de caractéristiques d’objets de haut niveau qui imitent les politiques RL que nous souhaitons expliquer.
Compression avec perte pour la prédiction sans perte
Yann Dubois, Benjamin Bloem-Reddy, Karen Ullrich, Chris J. Maddison
Des milliards de téraoctets de données sont collectés chaque année. À ces échelles, la plupart des données ne sont pas observées par les humains. Au lieu de cela, elle est traitée par des algorithmes. Pourtant, les compresseurs de données standards (e.g. JPEG) sont optimisés de façon à ce que les reconstructions ressemblent à celles des humains. Dans cet article, nous posons les bases théoriques de la compression pour une utilisation en aval par des algorithmes d’apprentissage. Sur le plan pratique, nous proposons un algorithme simple pour entraîner un compresseur générique, qui comprime les images standards plus de 1000 fois mieux que le JPEG, sans nuire à la performance de l’apprentissage automatique en aval. À long terme, nous espérons que cette compression permettra aux individus de traiter des données à des échelles qui ne sont actuellement possibles que dans de grandes institutions.
Manipulation du SGD avec des attaques d’ordre de données
Ilia Shumailov, Zakhar Shumaylov, Dmitry Kazhdan, Yiren Zhao, Nicolas Papernot, Murat A. Erdogdu, Ross Anderson
Dans cet article, nous présentons une nouvelle classe d’attaques au temps d’entraînement qui ne nécessitent aucun changement au jeu de données sous-jacent ou à l’architecture du modèle, mais ne modifient que l’ordre dans lequel les données sont fournies au modèle. Essentiellement, nous montrons que le biais d’échantillonnage des données est un élément crucial de toute optimisation stochastique et en contrôlant l’aléa, c’est-à-dire Dans l’ordre dans lequel les données sont montrées au modèle, un attaquant peut ralentir l’apprentissage, arrêter l’apprentissage et parfois forcer le modèle à apprendre des choses qu’il n’est pas censé.
Impasses médicales et apprentissage de l’identification des états et traitements à haut risque
Mehdi Fatemi, Taylor W. Killian, Jayakumar Subramanian, Marzyeh Ghassemi
Les interactions patient-clinicien sont intrinsèquement des processus séquentiels où les décisions de traitement sont prises et adaptées selon la compréhension par un expert de l’évolution de la santé du patient. Bien que le RL ait démontré être un outil puissant pour apprendre des stratégies décisionnelles optimales – apprendre quoi faire – les garanties pour trouver ces solutions dépendent de la capacité à expérimenter des stratégies possibles pour collecter plus de données. Ce type d’exploration n’est pas possible dans un contexte de soins de santé, ce qui rend impossible l’apprentissage de stratégies optimales. Dans ce travail, nous proposons d’inverser le paradigme RL dans des contextes limités par les données et critiques pour la sécurité afin d’étudier les traitements à haut risque ainsi que les états de santé des patients. Nous entraînons l’algorithme à identifier des traitements afin d’éviter de choisir afin d’éviter au patient des résultats de santé irrémédiablement négatifs, définis comme une impasse médicale. Nous appliquons cette approche (Découverte sans issue — DeD) à une tâche clinique réelle utilisant le jeu de données MIMIC-III, traitant des patients gravement malades ayant développé une septicémie. Nous établissons l’existence des impasses et démontrons l’utilité de la DeD, en soulevant des avertissements qui indiquent lorsqu’un patient ou un traitement comporte un risque élevé ou extrême de rencontrer une impasse et donc de mourir.
Méta-apprentissage pour améliorer le pré-entraînement
Aniruddh Raghu, Jonathan Lorraine, Simon Kornblith, Matthew McDermott, David Duvenaud
L’entraînement préalable de grands modèles est utile et nécessaire pour l’état de l’art dans de nombreuses tâches mécaniques. Cependant, il ajoute de nombreux paramètres supplémentaires, difficiles à régler. Nous offrons une méthode évolutive basée sur un gradient pour ajuster les paramètres de pré-entraînement. Parce que les gradients exacts avant l’entraînement sont intractables, nous les approximons. Plus précisément, nous composons une différenciation implicite pour la longue phase de pré-entraînement presque convergente, avec le backprop jusqu’à l’entraînement pour la courte phase de réglage fin. Nous avons appliqué des gradients approximatifs de pré-entraînement pour ajuster des milliers de poids de tâches afin de prédire la fonction des protéines sur des graphes, et pour apprendre un réseau neuronal complet d’augmentation de données pour l’apprentissage contrastif sur électrocardiogrammes.
Minimax Quantile optimal et regret semi-adversarial via des régulariseurs root-logarithmiques
Jeffrey Negrea, Blair Bilodeau, Nicolò Campolongo, Francesco Orabona, Daniel M. Roy
Dans la prédiction avec des conseils d’experts, on tente d’égaler la performance d’un ensemble de prédicteurs/prévisionnistes de référence. Dans ce travail, donnez des algorithmes démontrablement optimaux pour deux variantes de cette tâche : faire correspondre la performance du k% supérieur et correspondre à la performance du meilleur expert, que les données soient bonnes, coquines ou quelque part entre les deux.
Moshpit SGD : Formation décentralisée efficace en communication sur des dispositifs hétérogènes et peu fiables
Max Ryabinin, Eduard Gorbunov, Vsevolod Plokhotnyuk, Gennady Pekhimenko
L’entraînement des réseaux de neurones profonds est souvent accéléré en combinant la puissance de plusieurs serveurs avec des algorithmes distribués. Malheureusement, les versions efficaces en communication de ces algorithmes nécessitent fréquemment des connexions fiables à haute vitesse, généralement disponibles uniquement dans des grappes dédiées. Ce travail propose Moshpit All-Reduce — un algorithme évolutif tolérant aux pannes pour la moyenne décentralisée qui conserve des propriétés de convergence favorables à celles des approches distribuées régulièrement. Nous montrons que Moshpit SGD, une méthode d’optimisation distribuée basée sur cet algorithme, offre à la fois de fortes garanties théoriques et une grande efficacité pratique. En particulier, nous démontrons des gains de 1,3 à 1,5x dans des expériences d’apprentissage profond à grande échelle telles que la classification ImageNet avec ResNet-50 ou le préentraînement ALBERT-large sur BookCorpus.
Automates hybrides neuronaux : apprendre la dynamique avec plusieurs modes et transitions stochastiques
Michael Poli, Stefano Massaroli, Luca Scimeca, Seong Joon Oh, Sanghyuk Chun, Atsushi Yamashita, Hajime Asama, Jinkyoo Park, Animesh Garg
Grâce à leur capacité à intégrer des contraintes et des connaissances préalables spécifiques à un domaine, les modèles de réseaux de neurones implicites sont largement appliqués aux problèmes traditionnels de prévision et de contrôle. Parmi eux, les équations différentielles neuronales représentent un choix naturel pour les systèmes en temps continu, dont l’évolution des variables d’état est décrite par des équations différentielles. Malgré quelques succès récents, plusieurs questions demeurent ouvertes; en particulier, il n’est toujours pas clair comment tirer parti au mieux de cette catégorie de modèles pour effectuer des prédictions dans des systèmes multimodes soumis à des événements discrets, tels que des impacts ou des chocs. Ces systèmes, appelés systèmes hybrides stochastiques (SHS), sont les plus courants dans les applications réelles, avec des exemples notables dans les systèmes biologiques, les réseaux de trafic, les marchés financiers et la robotique. Ce travail introduit les Neural Hybrid Automata (NHA), une méthode évolutive à plusieurs étapes basée sur la normalisation des flux, les équations différentielles neuronales et l’auto-supervision des données de trajectoire du système. Les automates hybrides neuronaux sont la première approche d’apprentissage profond capable d’apprendre et de simuler une grande classe de SHS à partir de données, sans connaître le nombre de modes de fonctionnement d’un système cible. L’efficacité du plan directeur de la NHA montre comment, avec des réflexions attentives, les modèles implicites peuvent être appliqués à la plupart des systèmes, tout en conservant des approches d’apprentissage profond générales et évolutives.
OctField : Fonctions implicites hiérarchiques pour la modélisation 3D
Jia-Heng Tang, Weikai Chen, Jie Yang, Bo Wang, Songrun Liu, Bo Yang, Lin Gao
Des avancées récentes dans les fonctions implicites localisées ont permis une représentation implicite neuronale évolutive à de grandes scènes. Cependant, la subdivision régulière de l’espace 3D employée par ces approches ne tient pas compte de la rareté de l’occupation de la surface et des granularités variables des détails géométriques. En conséquence, son empreinte mémoire croît cubiquement avec le volume d’entrée, ce qui entraîne un coût computationnel prohibitif même à une décomposition modérément dense. Dans ce travail, nous présentons une représentation hiérarchique implicite apprenable pour les surfaces 3D, codée OctField, qui permet un codage haute précision de surfaces complexes avec une mémoire et un budget computationnel faibles. La clé de notre approche est une décomposition adaptative des scènes 3D qui ne distribue que les fonctions implicites locales autour de la surface d’intérêt. Nous atteignons cet objectif en introduisant une structure octree hiérarchique pour subdiviser adaptativement l’espace 3D selon l’occupation de la surface et la richesse de la géométrie des pièces. Comme octree est discret et non différentiable, nous proposons également un nouveau réseau hiérarchique qui modélise la subdivision des cellules octree comme un processus probabiliste et encode et décode récursivement à la fois la structure octree et la géométrie de surface de manière différentiable. Nous démontrons la valeur d’OctField pour une gamme de tâches de modélisation et de reconstruction de formes, démontrant une supériorité sur les approches alternatives.
Sur la minimisation des risques empiriques avec des données dépendantes et à queue lourde
Abhishek Roy, Krishnakumar Balasubramanian, Murat A. Erdogdu
Dans ce travail, nous établissons des limites de risque pour la minimisation empirique du risque (ERM) avec des processus de génération de données dépendants et lourds. Nous le faisons en étendant les travaux fondamentaux de Mendelson [Men15, Men18] sur l’analyse de la MRE avec des observations à queue lourde mais indépendantes et identiquement distribuées, au cas strictement stationnaire du mélange exponentiel β exponentiel. Notre analyse repose sur le contrôle explicite du processus multiplicateur résultant de l’interaction entre le bruit et les évaluations de fonctions sur les entrées. Cela permet que l’interaction soit même polynomialement à queue lourde, ce qui couvre une classe significativement large de modèles à queue lourde, au-delà de ce qui est analysé dans la littérature sur la théorie de l’apprentissage. Nous illustrons nos résultats en dérivant les taux de convergence pour le problème de régression linéaire à haute dimension avec des données dépendantes et à queue lourde.
Prédiction des paramètres pour les architectures profondes invisibles
Boris Knyazev, Michal Drozdzal, Graham W. Taylor, Adriana Romero-Soriano
Avons-nous encore besoin de SGD ou d’Adam pour entraîner les réseaux de neurones? Des recherches récentes menées par le Vector Institute, en collaboration avec Facebook AI Research (aujourd’hui Meta), suggèrent un pas vers une approche alternative pour entraîner les réseaux. Dirigée par Boris Knyazev, doctorant à l’Université de Guelph, l’équipe a développé une technique pour initialiser diverses architectures de réseaux neuronaux à l’aide d’un « méta-modèle ». Cette recherche remet en question l’hypothèse de longue date selon laquelle des optimiseurs basés sur le gradient sont nécessaires pour entraîner des réseaux de neurones profonds. Étonnamment, le métamodèle peut prédire les paramètres de presque n’importe quel réseau de neurones en un seul passage avant, atteignant une précision de ~60% sur le populaire jeu de données CIFAR-10 sans aucune formation. De plus, pendant que le métamodèle s’entraînait, il n’a observé aucun réseau proche du ResNet-50 dont il avait prédit les ~25 M de paramètres. Dans la lignée des travaux de l’équipe en 2020 visant à réduire les besoins computationnels des GAN, cette approche démocratise la DL en rendant la technologie accessible aux acteurs plus petits du domaine, comme les startups et les organismes à but non lucratif. Il sera présenté lors de NeurIPS 2021.
Quantification et amélioration de la transférabilité dans la généralisation des domaines
Guojun Zhang, Han Zhao, Yaoliang Yu, Pascal Poupart
Lors du transfert d’un prédicteur du laboratoire vers le monde réel, il y a toujours des divergences entre les données du laboratoire et celles dans la nature. Dans cet article, nous quantifions la transférabilité des caractéristiques des données et décrivons un nouvel algorithme pour calculer les caractéristiques transférables. Ce travail fait progresser l’état de l’art en analyse de données lorsqu’il est nécessaire de transférer un prédicteur entraîné dans un domaine (par exemple, le client A) vers un nouveau domaine (par exemple, le client B).
Transformateur référent : une approche en une étape pour la mise à la terre visuelle multitâche
Muchen Li, Leonid Sigal
La capacité à localiser, ou à ancrer, une requête linguistique décrivant une entité dans une image est une tâche fondamentale pour les humains et, par extension, pour tout système artificiel de reconnaissance visuelle. Plus précisément, étant donné une phrase de requête (par exemple, « une berline bleue », « un homme à barbe portant une veste de cuir »), l’objectif est de produire une boîte ou un masque au niveau du pixel englobant étroitement l’entité décrite dans l’image. La plupart des approches existantes à ce problème l’abordent en deux étapes : d’abord, localiser un ensemble de régions dans les images contenant des entités potentielles d’intérêt, et, ensuite, voir laquelle de ces régions correspond le mieux à la description de la requête fournie. Le problème central de ces méthodes est que les erreurs à la première étape limitent fondamentalement la performance de la seconde. Dans ce travail, nous proposons une architecture à une seule étape, capable d’une mise à la terre simultanée du langage à la fois au niveau d’une boîte englobante et au niveau des pixels. Notamment, la plupart des approches antérieures pouvaient faire l’un ou l’autre, mais pas les deux. Notre modèle permet aussi un raisonnement contextualisé en tenant compte de l’image dans son ensemble, de toutes les phrases de requête d’intérêt et (optionnellement) du contexte linguistique afin d’améliorer la performance. Notre modèle est relativement simple, mais surpasse largement les méthodes de pointe. En plus d’être plus précis, notre approche est aussi beaucoup plus rapide, car elle permet la localisation de plusieurs phrases de requête en même temps et avec une granularité différente.
Serveur de données neuronales évolutif : un recommandant de données pour l’apprentissage par transfert
Tianshi Cao, Sasha (Alexandre) Doubov, David Acuna, Sanja Fidler
L’absence de données étiquetées à grande échelle dans le domaine cible du praticien peut constituer un goulot d’étranglement pour l’application pratique des algorithmes d’apprentissage automatique. L’apprentissage par transfert est une stratégie populaire pour exploiter des données supplémentaires afin d’améliorer la performance en aval, mais trouver les données les plus pertinentes à partir de laquelle transférer peut être un défi. Neural Data Server (NDS), un moteur de recherche qui recommande des données pertinentes pour une tâche en aval donnée, a déjà été proposé pour résoudre ce problème (Yan et al., 2020). NDS utilise un mélange d’experts formés sur des sources de données pour estimer la similarité entre chaque source et la tâche en aval. Ainsi, le coût computationnel pour chaque utilisateur augmente avec le nombre de sources et nécessite une étape d’entraînement coûteuse pour chaque fournisseur de données. Pour répondre à ces problèmes, nous proposons le Scalable Neural Data Server (SNDS), un moteur de recherche à grande échelle qui peut théoriquement indexer des milliers de jeux de données pour fournir des données ML pertinentes aux utilisateurs finaux. Le SNDS entraîne le mélange d’experts sur des ensembles de données intermédiaires lors de l’initialisation, et représente à la fois les sources de données et les tâches en aval par leur proximité avec les ensembles de données intermédiaires. Ainsi, le coût de calcul encouru par les utilisateurs de SNDS reste fixe à mesure que de nouveaux ensembles de données sont ajoutés au serveur, sans pré-entraînement pour les fournisseurs de données. Nous validons SNDS sur une multitude de tâches réelles et constatons que les données recommandées par SNDS améliorent la performance des tâches en aval par rapport aux bases de base. Nous démontrons également l’évolutivité de notre système en démontrant sa capacité à sélectionner des données pertinentes à transférer en dehors du cadre naturel de l’image.
Reparamétrisation signe-déplacement clairsemé pour l’entraînement efficace des réseaux à décalage à bas débit de bits
Xinlin Li, Bang Liu, Yaoliang Yu, Wulong Liu, Chunjing Xu, Vahid Partovi Nia
Les réseaux de neurones à décalage réduisent la complexité de calcul en supprimant des opérations de multiplication coûteuses et en quantifiant les poids continus en valeurs discrètes de bas bit, qui sont rapides et économes en énergie comparativement aux réseaux de neurones conventionnels. Cependant, les réseaux de décalage existants sont sensibles à l’initialisation des poids et produisent une performance dégradée causée par le gradient nuls et le problème de gel des signes de poids. Pour répondre à ces problèmes, nous proposons la reparamétrisation S3, une technique novatrice pour entraîner les réseaux à décalage de bas bit. Notre méthode décompose un paramètre discret selon un décalage de signe clairsemé à trois fois. De cette façon, il apprend efficacement un réseau à faible bit avec une dynamique de poids similaire à celle des réseaux de pleine précision et insensible à l’initialisation des poids. Notre méthode d’entraînement proposée repousse les limites des réseaux de neurones à décalage et montre que les réseaux à décalage à 3 bits rivalisent avec leurs homologues à pleine précision en termes de précision top 1 sur ImageNet.
Vers des stratégies optimales pour entraîner des modèles de perception autonomes en simulation
David Acuna, Jonah Philion, Sanja Fidler
La conduite autonome repose sur un énorme volume de données réelles à étiqueter avec une grande précision. Des solutions alternatives cherchent à exploiter des simulateurs de conduite capables de générer de grandes quantités de données étiquetées avec une multitude de variations de contenu. Cependant, l’écart de domaine entre les données synthétiques et réelles demeure, soulevant la question importante suivante : Quelles sont les meilleures façons d’utiliser un simulateur de conduite autonome pour des tâches de perception? Dans ce travail, nous nous appuyons sur les avancées récentes de la théorie de l’adaptation de domaine et, à partir de cette perspective, proposons des moyens de minimiser l’écart de réalité. Nous nous concentrons principalement sur l’utilisation des étiquettes uniquement dans le domaine synthétique. Notre approche introduit à la fois une méthode de principe pour apprendre des représentations invariantes neuronales et une vision théorique inspirée de la manière d’échantillonner les données du simulateur. Notre méthode est facile à implémenter en pratique car elle est indépendante de l’architecture réseau et du choix du simulateur. Nous présentons notre approche sur la segmentation des véhicules en vue d’oiseau avec des données multi-capteurs (caméras, lidar) à l’aide d’un simulateur open source (CARLA), et évaluons l’ensemble du cadre sur un ensemble de données du monde réel (nuScenes). Enfin, nous montrons quels types de variations (par exemple, conditions météorologiques, nombre d’actifs, conception de la carte et diversité des couleurs) comptent pour les réseaux de perception lorsqu’ils sont entraînés avec des simulateurs de conduite, et lesquels peuvent être compensés par notre technique d’adaptation de domaine.
Vers un cadre unifié de la théorie de l’information pour la généralisation
Mahdi Haghifam, Gintare Karolina Dziugaite, Shay Moran, Daniel M. Roy
L’une des propriétés clés d’un algorithme d’apprentissage est sa capacité à généraliser à des données invisibles. Dans ce travail, nous montrons que la théorie de l’information produit des théories de généralisation presque optimales dans bien plus de scénarios qu’on ne le pensait auparavant, fournissant des preuves que considérer l’apprentissage comme un canal de communication est une lentille unificatrice.
TriBERT : Apprentissage de la représentation audiovisuelle centrée sur l’humain sur tout le corps pour la séparation visuelle des sons
Tanzila Rahman, Mengyu Yang, Leonid Sigal
L’apprentissage audiovisuel qui exploite la relation entre les signaux visuels et auditifs est un sous-domaine important de l’apprentissage automatique et de la vision par ordinateur. Des exemples de tâches typiques que ces modèles peuvent résoudre incluent : la séparation audiovisuelle et la localisation, où le but est de segmenter les sons produits par des objets individuels dans un audio et/ou de localiser ces objets dans une scène visuelle; et la correspondance audiovisuelle, où l’objectif est souvent la récupération audiovisuelle, par exemple, récupération du visuel correspondant pour un son. La plupart des approches existantes pour ces problèmes extraient l’information des modalités nécessaires (audio ou visuel) puis construisent des algorithmes spécifiques au problème pour fusionner ces représentations afin de résoudre une tâche spécifique. Cela va à l’encontre des tendances actuelles dans d’autres domaines problématiques, où, au cours des dernières années, les approches se sont largement consolidées autour d’architectures conçues pour apprendre des représentations génériques et agnostiques au problème, qui peuvent ensuite être facilement exploitées pour des tâches spécifiques. Dans ce travail, nous formulons un apprentissage générique de représentation audiovisuelle centré sur l’humain, avec pour objectif explicite d’améliorer l’état de la technologie dans la séparation des sources sonores audiovisuelles. Notre modèle transformateur prend trois flux d’information : vidéo, audio et pose humaine, et fusionne ces informations pour obtenir des représentations enrichies qui peuvent ensuite être utilisées pour la séparation sonore audiovisuelle finale. L’utilisation de la pose humaine s’inspire de travaux récents qui montrent que de telles représentations peuvent considérablement améliorer la performance dans de nombreux scénarios audiovisuels où souvent une ou plusieurs personnes sont responsables du son explicitement (par exemple, en parlant) ou implicitement (par exemple, le son produit en fonction de la manipulation humaine d’un objet). Nous montrons que les représentations apprises sont générales, utiles et améliorent la performance sur d’autres tâches auxiliaires (par exemple, des formes de récupération audio-visuelle intermodale) de façon substantielle.
Attaques par inversion par modèle variationnel
Kuan-Chieh Wang, Yan Fu, Ke Li, Ashish Khisti, Richard Zemel, Alireza Makhzani
Étant donné l’omniprésence des réseaux neuronaux profonds, il est important que ces modèles ne révèlent pas d’informations sur des données sensibles sur lesquelles ils ont été entraînés. Dans les attaques par inversion de modèle, un utilisateur malveillant tente de récupérer l’ensemble de données privé utilisé pour entraîner un réseau de neurones supervisé. Une attaque d’inversion de modèle réussie devrait générer des échantillons réalistes et diversifiés qui décrivent avec précision chacune des classes du jeu de données privé. Dans ce travail, nous proposons une interprétation probabiliste des attaques par inversion de modèle et formulons un objectif variationnel tenant compte à la fois de la diversité et de la précision. Pour optimiser cet objectif variationnel, nous choisissons une famille variationnelle définie dans l’espace de code d’un modèle génératif profond, entraîné sur un ensemble de données auxiliaire public qui partage une certaine similarité structurelle avec le jeu de données cible. Empiriquement, notre méthode améliore considérablement la performance en termes de précision des attaques de cibles, de réalisme des échantillons et de diversité sur les ensembles de données de visages et d’images de radiographies thoraciques.