La théorie de l'apprentissage automatique au centre d'un atelier de l'Institut Vecteur

9 janvier 2024

Perspectives Recherche

Par Arber Kacollja

Le récent atelier sur la théorie de l'apprentissage automatique de l'Institut Vecteur a rassemblé des chercheurs en théorie de l'apprentissage automatique pour présenter leurs dernières recherches, discuter de sujets d'avant-garde et partager des idées sur les fondements théoriques de l'apprentissage automatique. L'événement, organisé par Shai Ben-David, membre du corps professoral de l'Institut Vecteur, et Ruth Urner, affiliée au corps professoral de l'Institut Vecteur, s'est tenu à l'Université de Waterloo en novembre. 

Les théoriciens de l'apprentissage automatique jouent un rôle essentiel en relevant les défis et en posant de nouvelles questions fondamentales dans ce domaine. En approfondissant les aspects fondamentaux de l'apprentissage automatique, ils contribuent au développement de nouveaux concepts qui peuvent avoir un impact transformateur sur les méthodologies de résolution des problèmes. En fin de compte, leurs contributions peuvent entraîner un changement de paradigme dans la manière d'aborder les questions complexes liées à l'intelligence artificielle.

Les participants se sont réunis dans un amphithéâtre de l'université de Waterloo pour l'atelier théorique sur l'apprentissage automatique organisé par Vector en novembre.

Les participants se sont réunis à l'Université de Waterloo pour l'atelier théorique de Vector sur l'apprentissage automatique en novembre.

Au cours de cet atelier d'une journée, les membres du corps professoral de l'Institut Vecteur, les affiliés du corps professoral, les boursiers postdoctoraux et les chercheurs de la communauté Vecteur au sens large ont écouté les exposés de certains des plus grands théoriciens de l'apprentissage automatique, qui ont couvert un large éventail de sujets sur les fondements mathématiques de l'apprentissage automatique. Les participants ont également pris part à des discussions de groupe interactives ainsi qu'à une session de posters au cours de laquelle des étudiants diplômés ont présenté leurs recherches.

Shai Ben-David, membre de la faculté Vector, utilise un microphone pour accueillir les participants à l'atelier.

Shai Ben-David, membre de la faculté Vector, accueillant les participants à l'atelier.

Ben-David a discuté des notions possibles de caractérisation et de dimensions de l'apprenabilité. Le théorème fondamental de l'apprentissage statistique stipule que la dimension Vapnik-Chervonenkis (VC) caractérise la capacité d'apprentissage des classes pour la tâche de prédiction d'étiquettes binaires. Des caractérisations similaires peuvent-elles être fournies pour d'autres tâches d'apprentissage telles que la prédiction multi-classes, l'apprentissage non supervisé de distributions de probabilités, etc. Ben-David, qui est titulaire d'une chaire CIFAR d'IA au Canada et professeur à la David Cheriton School of Computer Science de l'université de Waterloo, a également expliqué les résultats récents de son laboratoire à l'université de Waterloo, qui indiquent l'inexistence de telles dimensions pour l'apprentissage statistique général et pour l'apprentissage de classes de distributions de probabilités.

Au-delà des paradigmes statistiques et informatiques classiques

Murat Erdogdu, membre de la faculté Vector et titulaire de la chaire CIFAR AI du Canada, et les chercheurs de ce laboratoire étudient l'effet de l'optimisation basée sur le gradient sur l'apprentissage des caractéristiques dans les réseaux neuronaux à deux couches. Dans sa présentation, M. Erdogdu, qui est également professeur adjoint au département d'informatique et au département des sciences statistiques de la faculté des arts et des sciences de l'université de Toronto, a examiné un cadre dans lequel le nombre d'échantillons est du même ordre que la dimension des données d'entrée et a montré que, lorsque les données d'entrée sont isotropes, la descente de gradient améliore toujours le modèle initial de caractéristiques aléatoires en termes de risque de prédiction, pour une certaine catégorie de cibles. En s'appuyant sur l'observation pratique que les données contiennent souvent une structure supplémentaire, c'est-à-dire que la covariance d'entrée a un alignement non trivial avec la cible, le travail du groupe de recherche prouve que la classe de cibles pouvant être apprises peut être étendue de manière significative, démontrant une séparation claire entre les méthodes à noyau et les réseaux neuronaux à deux couches dans ce régime.

Les réseaux neuronaux sont devenus si grands que leur comportement peut être bien approximé par les "réseaux neuronaux infinis", qui sont obtenus en considérant la limite lorsque le nombre de neurones passe à l'infini. Cependant, il existe de nombreuses limites infinies possibles. Par exemple, une limite bien connue est celle du "noyau tangent neuronal" (NTK), où la profondeur est fixe et la largeur de la couche va jusqu'à l'infini.

Mihai Nica, affilié à la faculté Vector et professeur adjoint à l'université de Guelph, a introduit une autre limite infinie, la limite infinie de profondeur et de largeur, où la profondeur et la largeur sont simultanément mises à l'échelle à l'infini. Cela conduit à des distributions exotiques non gaussiennes qui sont très différentes du comportement de type NTK, mais qui correspondent plus précisément à la sortie des réseaux neuronaux finis.

Au cours de la dernière décennie, de nombreuses prédictions ont été faites sur les spectres des Hessiens empiriques et des matrices d'information au cours de l'apprentissage (via la descente de gradient stochastique) dans les réseaux surparamétrés. Aukosh Jagannath, professeur assistant à l'Université de Waterloo, a présenté des travaux récents réalisés en collaboration avec Gérard Ben Arous, Reza Ghessari et Jiaoyang Huang, qui ont permis d'établir rigoureusement certaines de ces prédictions. La présentation s'est concentrée sur les résultats obtenus pour un analogue à haute dimension du problème XOR, montrant que la trajectoire de descente stochastique du gradient (SGD) s'aligne rapidement sur les espaces propres des valeurs aberrantes émergentes de faible rang des matrices hessienne et gradient ; cet alignement se produit par couche, l'espace propre des valeurs aberrantes de la dernière couche évoluant au cours de la formation et présentant une insuffisance de rang lorsque la SGD converge vers des classificateurs sous-optimaux. 

Vers un système d'apprentissage automatique robuste et digne de confiance Apprentissage

Sivan Sabato, membre de la faculté Vector et titulaire de la chaire CIFAR AI au Canada, qui est également professeur associé à l'université McMaster, a discuté du potentiel et des défis liés à l'utilisation d'explications en tant que données d'entrée d'un algorithme d'apprentissage. L'objectif est de permettre aux systèmes d'apprentissage automatique d'apprendre beaucoup plus rapidement à partir de l'expérience s'ils entendent également les explications d'un enseignant compétent, comme le font les gens.

Par exemple, lorsqu'il s'agit d'apprendre à diagnostiquer automatiquement des patients, on utilise généralement des données historiques sur les patients précédents et leurs diagnostics. Toutefois, le processus pourrait être beaucoup plus efficace si le système d'apprentissage pouvait également demander aux médecins d'expliquer certains des diagnostics. Autre exemple, les logiciels et les sites web pourraient être mieux personnalisés en fonction des utilisateurs s'ils permettaient à ces derniers d'expliquer leurs préférences.

Pour intégrer des explications dans le processus d'apprentissage, il faut comprendre comment elles peuvent être utilisées et comment elles doivent être interprétées par l'algorithme. L'aspect le plus difficile est peut-être de faire en sorte que le système d'apprentissage tienne compte du fait que les explications peuvent être utiles, mais qu'elles peuvent aussi parfois être erronées. Un système d'apprentissage robuste doit utiliser les explications avec prudence, afin de pouvoir bénéficier de bonnes explications sans être trop sensible aux mauvaises. Cet exposé a proposé des méthodes pour y parvenir.

Ruth Urner, membre affilié de la faculté Vector, présente son exposé intitulé "Models of adversaries".

Ruth Urner, membre affilié de la faculté Vector, présente son exposé intitulé "Models of adversaries".

Mme Urner, qui est également professeur associé à l'Université York, a axé son exposé sur la manière dont les exigences de robustesse adverses peuvent être modélisées de manière adéquate. Elle a examiné comment différentes hypothèses de modélisation peuvent conduire à des conclusions radicalement différentes. Urner a soutenu que nous devrions viser des hypothèses minimales sur la façon dont un adversaire pourrait agir, et a présenté des résultats récents sur une variété d'assouplissements de l'apprentissage avec le cadre standard pour la robustesse contradictoire (ou stratégique).

Dans le même ordre d'idées, l'apprentissage statistique repose traditionnellement sur des données de formation et de test générées par le même processus, mais les instances peuvent (de manière stratégique ou contradictoire) répondre à un prédicteur publié visant un résultat spécifique. De telles manipulations des données au moment du test peuvent conduire à des échecs inattendus d'un modèle appris. Un grand nombre d'études pratiques et théoriques visent à atténuer les risques de sécurité qui en résultent en développant des méthodes robustes aux perturbations adverses. 

Estimation statistique sous contrainte de confidentialité différentielle

Gautam Kamath, membre de la faculté Vector et titulaire de la chaire CIFAR AI au Canada, a présenté les recherches de son groupe sur l'estimation statistique sous contrainte de confidentialité. L'estimation statistique concerne des tâches fondamentales telles que la compréhension des modèles qui sous-tendent un ensemble de données, ou le calcul de certaines statistiques globales comme la moyenne. La question pertinente est de savoir comment y parvenir sans divulguer d'informations sensibles sur les points de données individuels de l'ensemble de données. M. Kamath, qui est également professeur adjoint à la David R. Cheriton School of Computer Science de l'université de Waterloo, a abordé une série de nouveaux problèmes qui se posent dans le cadre privé et la manière de les résoudre, notamment les compromis impliquant des biais statistiques, des données avec des queues lourdes et des antécédents sur l'ensemble de données.

Par ailleurs, Hassan Ashtiani, affilié à la faculté Vecteur et professeur adjoint à l'université McMaster, a parlé de l'apprentissage privé des modèles de mélanges gaussiens (GMM). Les MGM représentent une classe riche de distributions qui ont été utilisées pour modéliser divers phénomènes scientifiques, y compris dans les premiers travaux de Karl Pearson dans les années 1890 pour étudier les caractéristiques des crabes de rivage. Ces dernières années, la conception d'algorithmes optimaux pour l'échantillon et efficaces en termes de calcul pour l'estimation des MGM a suscité un vif intérêt.

Toutefois, la conception de méthodes différentiellement privées pour l'apprentissage des MGM s'est avérée difficile. Il est intéressant de noter que certaines de ces difficultés représentent des lacunes fondamentales dans notre compréhension de l'estimation statistique privée. Dans son exposé, M. Ashtiani a présenté certains de ces défis, ainsi que des approches génériques pour les résoudre. Un thème commun a été l'utilisation d'estimateurs non privés comme boîte noire, la "stabilisation" des résultats des estimateurs non privés, puis l'agrégation des résultats d'une manière différentiellement privée. Les résultats comprennent la première réduction efficace sur le plan du calcul pour l'estimation privée à non privée des paramètres pour les GMM, ainsi que le premier résultat d'apprenabilité pour les GMM dans le cadre de l'estimation de la densité.

Parmi les autres temps forts de l'événement, citons la discussion de Yaoliang Yu, membre de la faculté Vecteur, sur l'empoisonnement des données, la compression des modèles et l'estimation des valeurs (liée à Shapley), ainsi que la présentation de Daniel Roy, membre de la faculté Vecteur et codirecteur de la recherche, sur les applications des infinitésimales aux problèmes ouverts de la théorie statistique de la décision.

Le travail des théoriciens de l'apprentissage va au-delà de la simple résolution de problèmes ; il sert de catalyseur pour une compréhension plus profonde des phénomènes émergents. En explorant les principes fondamentaux qui sous-tendent l'apprentissage automatique, les théoriciens de l'apprentissage fournissent des informations qui non seulement améliorent l'efficacité des systèmes existants, mais ouvrent également la voie au développement d'approches de pointe. En substance, leurs contributions constituent le fondement de l'évolution actuelle de l'apprentissage automatique et de l'intelligence artificielle, façonnant le paysage de ces domaines dynamiques.

Vous souhaitez en savoir plus sur les initiatives de recherche actuelles de l'Institut Vecteur dans le domaine de la théorie de l'apprentissage automatique ? Cliquez ici pour consulter la liste complète des conférences.

En rapport :

Recherche
Une IA digne de confiance

Des experts de renommée mondiale en matière de confiance et de sécurité de l'IA publient un article majeur sur la gestion des risques liés à l'IA dans la revue Science

Perspectives
Grands modèles linguistiques

Des protocoles normalisés sont essentiels pour un déploiement responsable des modèles linguistiques

Apprentissage automatique
Recherche

Les inconnues connues : Geoff Pleiss, chercheur chez Vector, se penche sur l'incertitude pour rendre les modèles de ML plus précis.