Les inconnues connues : Geoff Pleiss, chercheur chez Vector, se penche sur l'incertitude pour rendre les modèles de ML plus précis.
3 mai 2024
3 mai 2024
Par Michael Barclay
"Nous pourrions entamer un débat très philosophique sur ce qu'est l'incertitude.
Parler à Geoff Pleiss de ses recherches est peut-être plus difficile à assimiler pour un profane. Mais avec toutes les questions qui se posent sur l'efficacité et la précision de l'IA, l'incertitude est un domaine de recherche essentiel.
Le statisticien de l'UBC et titulaire de la chaire CIFAR AI du Canada définit son travail comme la "quantification de l'incertitude des modèles d'apprentissage automatique". Les inconnues connues. "Les informations relatives à l'incertitude sont utiles dans de nombreuses applications", explique M. Pleiss. "Nous utilisons un modèle d'apprentissage automatique pour faire une prédiction, et nous voulons savoir dans quelle mesure nous pouvons nous fier à cette prédiction."
L'exemple le plus évident serait celui d'une voiture auto-conduite, impliquant ce que Pleiss appelle des "prédictions critiques pour la sécurité". Je veux vraiment avoir une bonne notion de l'incertitude, afin de pouvoir dire à tout moment à un conducteur humain qu'il doit intervenir.
"Ou dans le domaine des soins de santé : si un réseau neuronal est susceptible d'être incorrect - et surtout s'il est susceptible d'être incorrect parce qu'il rencontre des données qui ne ressemblent pas du tout à ce que j'ai vu pendant la formation - je veux vraiment avoir une bonne notion de l'incertitude".
L'autre application de la recherche de Pleiss concerne "les problèmes de prise de décision séquentielle ou les applications d'apprentissage par renforcement". Un exemple serait celui d'une entreprise effectuant des tests A-B sur de nouvelles fonctionnalités, essayant d'élaborer une stratégie pour la prochaine fonctionnalité à tester. Cette méthode est particulièrement utile en médecine.
"Les informations sur l'incertitude sont utiles dans de nombreuses applications. Nous utilisons un modèle d'apprentissage automatique pour faire une prédiction, et nous voulons savoir dans quelle mesure nous pouvons nous fier à cette prédiction".
Geoff Pleiss
Vecteur Membre de la faculté
Selon M. Pleiss, "si je dirige un laboratoire de chimie et que j'essaie de trouver la prochaine molécule à synthétiser, dans le cadre du développement d'un médicament à un stade précoce, je pourrais avoir une très bonne idée de l'ensemble des produits chimiques que j'ai essayés jusqu'à présent et qui ont très bien fonctionné. Et puis il y a un ensemble de produits chimiques avec lesquels je n'ai pas du tout joué. Je pourrais continuer à faire des expériences d'exploitation : Si un type d'ensemble de produits chimiques est vraiment bon jusqu'à présent, est-ce que je continue à affiner dans cette région ? Ou est-ce que j'opte pour cet autre ensemble de produits chimiques dont je ne sais rien : ils pourraient être vraiment mauvais, mais ils pourraient aussi être vraiment bons. Comment équilibrer ce compromis ?
"Pour résumer, je dirais que les deux types d'applications sont les applications critiques pour la sécurité ou la prise de décision plus large, en particulier les décisions relatives à la conception expérimentale. Ou plus généralement, si nous utilisons cette prédiction dans le cadre d'un processus décisionnel en aval, nous voudrions utiliser ces informations sur l'incertitude afin de prendre une décision plus éclairée."
Si nous pouvons être relativement certains de la définition et de la valeur de l'incertitude, pouvons-nous être aussi sûrs qu'elle s'applique à l'état de l'IA aujourd'hui ? Lorsque l'échelle des réseaux neuronaux est si grande et qu'ils traitent des quantités inimaginables de données ?
L'exploration de l'incertitude était plus simple avec les modèles d'apprentissage automatique utilisés il y a 20 ou 30 ans. Mais les réseaux neuronaux modernes "posent un grand défi", explique M. Pleiss, "parce qu'ils sont très grands et peu maniables". De nombreuses techniques utilisées dans le passé ne s'appliquent pas vraiment aux réseaux neuronaux. Nous ne savons même pas vraiment ce qui se passe sous le capot. De plus, ces modèles sont tellement volumineux et coûteux à former. Aujourd'hui, nous essayons non seulement de faire une prédiction, mais aussi d'en tirer une certaine notion d'incertitude. C'est un problème difficile. Je ne pense pas que la communauté ait vraiment convergé sur la bonne façon de l'aborder".
Pleiss travaille sur ce que l'on appelle "l'assemblage profond". Il s'agit d'entraîner non pas un mais plusieurs réseaux neuronaux à une tâche, en injectant des éléments aléatoires au cours de chaque processus d'entraînement indépendant pour les rendre légèrement différents les uns des autres. "Nous obtenons un ensemble de prédictions à partir de ces réseaux neuronaux, et maintenant nous avons cet ensemble de prédictions plutôt qu'une seule prédiction, et nous pouvons voir combien de variance il y a."
Ce qui est étrange, c'est qu'il n'y a pas beaucoup de variations. Pas du tout.
"Les réseaux neuronaux sont étonnamment homogènes", déclare Pleiss, "quelle que soit la façon dont nous modifions l'architecture, la procédure d'apprentissage ou tout le reste. Ils font fondamentalement la même chose". Même lorsqu'ils sont basés sur des architectures totalement différentes. "Je m'attendrais à ce que l'espace des prédictions possibles s'élargisse de plus en plus. Mais en fait, c'est le contraire qui se produit. Elles s'effondrent les unes sur les autres. Elles commencent toutes à produire exactement la même prédiction. Du point de vue de la quantification de l'incertitude, c'est assez troublant".
Pensez aux millions de chansons disponibles sur les services de streaming, et à la façon dont le goût collectif s'effondre encore sur quelques artistes sélectionnés, améliorés par des algorithmes. "Comment faire pour découvrir quelque chose là-dedans ? s'interroge Pleiss. "Comment trouver l'aiguille dans une botte de foin ? Pour obtenir un signal quelconque à partir de ce bruit, il faut disposer d'un ensemble d'hypothèses très solides, d'un ensemble de préférences très solides. Il n'y a pas beaucoup d'ensembles d'hypothèses fortes qui vont fonctionner, et vous allez donc vous retrouver avec un certain niveau d'homogénéité.
Il n'y a tout simplement pas beaucoup de façons de trouver des aiguilles dans une botte de foin, d'autant plus que ces modèles sont de plus en plus grands".
Geoff Pleiss
Vecteur Membre de la faculté
"Ce qui se passe avec les réseaux neuronaux, c'est que ces modèles sont si grands et si complexes que, même si nous les entraînons sur ces très grands ensembles de données d'entraînement, l'espace des prédictions possibles que ce réseau neuronal représente éclipse la quantité de données sur lesquelles nous l'entraînons. Il n'y a tout simplement pas beaucoup de façons de trouver des aiguilles dans une botte de foin, d'autant plus que ces modèles sont de plus en plus volumineux".
Pleiss et ses chercheurs ont essayé de forcer les modèles à faire des prédictions différentes. "Ce qui a été surprenant, c'est que cela n'a servi à rien", explique-t-il. "En fait, ces modèles ont même empiré. Ainsi, même si les modèles faisaient des prédictions potentiellement plus diversifiées, ils devenaient également beaucoup moins utiles que si vous leur demandiez : quel est le meilleur endroit pour acheter une brosse à dents ? Et il répondrait 'Staples' ou quelque chose comme ça".
Ce qui fonctionnait avec des réseaux neuronaux de petite taille ne fonctionne plus avec des ensembles plus importants, explique M. Pleiss. En fait, c'est l'inverse qui est vrai. "Même si je prenais des réseaux neuronaux de très petite taille et que j'essayais de les rendre plus diversifiés, je constaterais une amélioration de ma précision. Et si j'essayais de faire en sorte que ces très petits réseaux neuronaux aient une pensée de groupe, cela entraînerait une détérioration de la précision des prédictions. Nous assistons réellement à une transition de phase lorsque nous passons de petits modèles prédictifs à de très grands réseaux neuronaux. Il est beaucoup plus difficile et potentiellement contre-productif d'essayer d'obtenir de ces modèles une diversité prédictive qui serait utile pour quantifier l'incertitude.
"De nombreuses intuitions issues des approches statistiques et d'apprentissage automatique classiques s'effondrent lorsque nous examinons ces très grands modèles. Nous avions l'habitude de penser qu'en diversifiant les modèles, nous obtiendrions de meilleures informations sur l'incertitude, mais cette intuition est totalement erronée dans le cas des grands réseaux neuronaux. De nombreux travaux ont démontré que les grands modèles défient notre façon habituelle de concevoir la modélisation statistique. Il s'agit là d'une pièce du puzzle".