Interprétabilité de l'apprentissage automatique : Nouveaux défis et approches - Institut Vecteur pour l'Intelligence Artificielle

Par Jonathan Woods

14 mars 2022

Cet article fait partie de notre série sur l'IA digne de confiance. Dans le cadre de cette série, nous publierons un article par semaine sur les thèmes suivants

Interprétabilité
L'équité
Gouvernance

Dans l'article de cette semaine, l'équipe Innovation industrielle de Vector décompose les défis liés à l'interprétabilité des ML afin d'aider les organisations à réfléchir à leur gouvernance et de proposer des principes généraux pour la gouvernance de l'interprétabilité des modèles ML.

L'interprétabilité des modèles est un élément clé de la gouvernance de l'apprentissage automatique. La capacité à prédire de manière cohérente le résultat d'un modèle et à comprendre comment il est parvenu à ce résultat est essentielle pour répondre à des questions importantes, notamment :

Pouvons-nous faire confiance au modèle que nous utilisons ?
Comprenons-nous ce que fait le modèle ?
Pouvons-nous expliquer comment le modèle est parvenu à ses conclusions ?

L'interprétabilité n'est pas une préoccupation nouvelle. La gouvernance des modèles logiciels traditionnels, fondés sur des règles, exige généralement la capacité de comprendre pleinement leur fonctionnement. Toutefois, l'apprentissage automatique présente de nouveaux défis qui rendent l'interprétabilité beaucoup plus complexe et font que les techniques conventionnelles pour y parvenir ne sont plus adaptées. En raison des caractéristiques uniques de l'apprentissage automatique, l'utilisation des approches traditionnelles de l'interprétabilité peut même être contre-productive, conduisant involontairement à des résultats négatifs et dégradant la confiance dans les systèmes d'apprentissage de manière plus générale.

Il n'est pas difficile d'imaginer des contextes dans lesquels des réponses claires sur le fonctionnement d'un modèle peuvent être vitales. Les médecins et les patients peuvent exiger un degré élevé d'interprétabilité pour justifier les recommandations d'un modèle concernant les interventions médicales et les plans de traitement. Les entreprises de médias en ligne peuvent avoir besoin de transparence lorsque des abus, des injustices ou d'autres pratiques indésirables liées au contenu sont susceptibles de se produire et d'être amplifiées. Les enquêteurs peuvent avoir besoin de savoir comment un modèle de véhicule autonome en est venu à prendre des décisions qui ont conduit à un accident.

À première vue, la solution peut sembler intuitive : il suffit de rendre les modèles de ML aussi interprétables que possible par défaut. Malheureusement, ce n'est pas si simple. Dans certains cas, l'amélioration de l'interprétabilité nécessite un compromis avec les performances du modèle, et il n'existe pas de ligne directrice standard indiquant quand l'une doit être privilégiée par rapport à l'autre. Pour avoir une idée de ce problème, considérons l'hypothèse suivante (paraphrasée) avancée par le conseiller scientifique en chef de Vector, Geoffrey Hinton. Supposons qu'un patient ait besoin d'une opération et doive choisir entre un chirurgien ML qui est une boîte noire mais qui a un taux de guérison de 90 % et un chirurgien humain qui a un taux de guérison de 80 %. Quel est le meilleur choix pour le patient ?[1] Les cliniciens doivent-ils exiger une transparence totale du modèle afin de savoir exactement ce qu'il fait tout au long de l'opération, même si cela implique une réduction des performances ? Ou doivent-ils accepter de renoncer à la transparence pour donner au patient les meilleures chances de réussite ?

Ce type de décision devra être prise pour les applications de ML dans l'ensemble de l'industrie et de la société. Le problème est qu'il n'existe actuellement aucun consensus sur la bonne réponse, ni même sur la manière d'aborder la question.

Il est clair que l'adoption généralisée de la ML nécessitera à l'avenir une confiance implicite généralisée. Idéalement, le ML deviendra une technologie aussi fiable que l'électricité. Tout le monde sait que l'électricité présente des risques, mais personne ne s'inquiète de voir sa maison brûler s'il allume la lumière. Les connaissances et les meilleures pratiques en matière d'atténuation des risques adaptées à la ML seront nécessaires pour que la société atteigne ce niveau de confiance avec cette nouvelle technologie. Comprendre les difficultés et déterminer le bon niveau d'interprétabilité pour chaque cas d'utilisation en question - ainsi que les bonnes façons d'y parvenir - sera un élément crucial du développement de ces pratiques. L'alternative pourrait être un long chapitre dans lequel la ML serait reléguée à des tâches à faible enjeu, laissant sur la table la valeur massive qu'elle promet.

La première étape consiste à comprendre le défi. Dans ce document, l'équipe Innovation industrielle de l'Institut Vecteur décompose les défis d'interprétabilité liés à l'apprentissage automatique afin d'aider les organisations à réfléchir à sa gouvernance. Les défis liés à l'industrie, aux objectifs, à la complexité et aux limites techniques sont abordés séparément avant que le document ne propose des principes généraux pour la gouvernance de l'interprétabilité des modèles d'apprentissage automatique. Les idées présentées dans ce document ont été élaborées grâce aux contributions de divers sponsors industriels de l'Institut Vecteur.

Les défis de l'apprentissage automatique : Les pratiques traditionnelles d'interprétabilité ne sont pas à la hauteur

Les cadres de gouvernance du risque de modèle comprennent généralement un élément d'interprétabilité. Toutefois, les pratiques souvent utilisées pour les logiciels conventionnels ne sont pas suffisamment fiables pour gérer efficacement le risque lorsqu'elles sont appliquées aux modèles d'apprentissage automatique. Examinons quelques-uns des défis posés par l'application des techniques d'interprétabilité habituelles à l'apprentissage automatique :

Interpréter le comportement global du modèle. Une connaissance et une compréhension approfondies de la structure, des hypothèses et des contraintes d'un modèle conventionnel peuvent suffire à déterminer avec certitude son mode de fonctionnement. Toutefois, en ce qui concerne l'apprentissage automatique, les résultats du modèle sont basés sur des interactions conditionnelles entre des caractéristiques dépendantes et indépendantes, ce qui rend souvent le fonctionnement du modèle trop complexe pour être articulé en se référant simplement à un ensemble de règles. De nombreux modèles d'apprentissage automatique n'ont pas de coefficients explicites ni de tests de signification statistique pour une caractéristique donnée, ce qui rend exceptionnellement difficile la détermination des poids attribués à une caractéristique telle qu'elle apparaît dans divers calculs au cours du fonctionnement du modèle. Cela limite la profondeur avec laquelle on peut comprendre un modèle en connaissant simplement sa conception.
Interprétabilité des caractéristiques. Une compréhension complète de chaque caractéristique - c'est-à-dire de chaque propriété individuelle ou variable indépendante utilisée comme entrée dans un système - peut contribuer à une compréhension complète du fonctionnement du modèle. Cependant, l'ingénierie automatisée des caractéristiques est de plus en plus répandue. Par exemple, les modèles génératifs peuvent créer leurs propres entrées. Dans ce contexte, il peut devenir plus difficile de comprendre complètement les caractéristiques et d'utiliser cette compréhension pour éclairer le fonctionnement du modèle.
Transparence de la solution. Traditionnellement, la transparence des détails techniques d'un modèle peut aider à déterminer comment un modèle aboutit à ses résultats. Dans l'apprentissage automatique, ces détails peuvent inclure le nombre de couches d'un réseau neuronal ou les nœuds et les divisions d'un arbre de décision. Malheureusement, le simple fait de connaître ces détails ne permet pas nécessairement de comprendre comment des prédictions spécifiques sont faites.
La capacité à reproduire de manière cohérente les résultats d'un modèle en utilisant les mêmes données d'entrée est l'une des méthodes permettant de déterminer le fonctionnement d'un modèle. Cependant, pour l'apprentissage automatique, la complexité du modèle, la variabilité du matériel et le coût de calcul peuvent rendre la reproduction des résultats d'un modèle difficile et prohibitive.

Il est clair que la satisfaction des besoins d'interprétabilité pour la gouvernance des modèles d'apprentissage automatique nécessitera de nouvelles techniques supplémentaires.

Ambiguïtés et incertitudes liées à l'interprétabilité du ML

En l'absence de normes, plusieurs défis compliquent le développement et l'inclusion de pratiques d'interprétabilité significatives dans le cadre de la gouvernance. Il est essentiel que les organisations qui tentent de déterminer leurs exigences et leurs méthodes en matière d'interprétabilité soient conscientes de chacun de ces défis. Les principaux défis peuvent être divisés en quatre catégories. Il s'agit de

les défis spécifiques à l'industrie ;
les défis liés au but et à l'objectif ;
les défis liés à la complexité du modèle ; et
les défis liés à la technique.

Les tableaux suivants présentent les préoccupations dans chaque catégorie, en décrivant les défis, leurs implications et leurs effets potentiels sur les clients ou les utilisateurs finaux.

Les défis de l'industrie

Les exigences en matière d'explicabilité varient d'un secteur à l'autre. Un secteur dans lequel la plupart des applications sont à faible enjeu - des applications telles que la planification de la main-d'œuvre - peut ne pas nécessiter de normes d'interprétabilité strictes, car le risque de préjudice ou de conséquences involontaires est relativement faible. Cela dit, les normes d'interprétabilité ne visent pas seulement à réduire les dommages, mais aussi à accroître la confiance dans l'apprentissage automatique de manière plus générale, et la mesure dans laquelle cela doit être fait nécessite probablement des discussions et des négociations au cas par cas entre les organisations et leurs parties prenantes.

Le tableau ci-dessous décrit certains des principaux défis sectoriels auxquels les entreprises doivent faire face lorsqu'elles examinent comment l'interprétabilité s'intégrera dans la gouvernance de l'utilisation des modèles d'apprentissage automatique.

Tableau 1 : Défis pour l'industrie

Objectifs et défis de l'approche

Le degré approprié d'interprétabilité du modèle peut dépendre de l'utilisation qui en est faite. Dans de nombreux cas, les capacités prédictives des modèles à boîte noire dépassent de loin celles des humains, et le fait de s'en remettre aux résultats du modèle peut permettre d'obtenir des résultats de meilleure qualité. Modifier le modèle pour accroître la transparence peut réduire ses performances. Dans ces cas, il convient d'examiner attentivement le juste équilibre entre deux objectifs : la transparence et la qualité des résultats. Il s'agit d'un exercice subjectif, qui dépendra des valeurs et des normes de l'organisation, du secteur dans lequel elle opère et de la société en général.

D'autres questions peuvent avoir un impact sur l'approche de l'interprétabilité. L'une d'entre elles est la mesure dans laquelle les organisations se sentent à l'aise pour s'appuyer sur des services d'"apprentissage automatique explicable", qui sont annoncés comme étant capables de fournir des comptes rendus complets sur le fonctionnement des modèles à boîte noire. Ces services doivent être abordés avec un scepticisme de bon aloi. La conséquence d'une confiance mal placée dans un tel service peut être qu'un cas d'utilisation de modèle dans lequel l'interprétabilité devrait être prioritaire n'est pas dû à un excès de confiance dans un service d'apprentissage automatique explicable. Un deuxième problème est la possibilité que des activités malveillantes - y compris la manipulation et les attaques malveillantes - aient un impact sur les résultats du modèle. Si cette possibilité est élevée ou conséquente, elle peut faire pencher la balance en faveur d'une plus grande priorité accordée à l'interprétabilité par rapport à la performance.

Le tableau ci-dessous fournit une description de chacune de ces questions ainsi que des impacts potentiels.

Tableau 2 : Objectifs et défis de l'approche

Défis liés à la complexité des modèles

Un modèle plus performant est souvent plus complexe, ce qui réduit souvent l'interprétabilité. Il peut simplement y avoir des limites techniques au niveau d'interprétabilité auquel on peut s'attendre si l'on utilise un modèle particulièrement complexe.

Le tableau ci-dessous décrit les défis et les impacts de la complexité des modèles.

Tableau 3 : Défis liés à la complexité du modèle

Limites de la technique

Chaque technique utilisée pour l'interprétabilité a ses limites. Par exemple, l'interprétabilité post hoc - l'interprétation du fonctionnement d'un modèle après coup par des explications en langage naturel ou des visualisations - peut conférer des informations utiles et il peut être tentant de l'appliquer car elle n'exige pas de modifications du modèle susceptibles de réduire les performances. Il convient toutefois d'être prudent : les êtres humains peuvent se laisser convaincre par des explications plausibles mais incomplètes - ou pire, entièrement incorrectes - parce qu'elles semblent correspondre à un modèle observé. Si les techniques existantes sont certainement utiles, elles ne doivent pas être considérées comme des méthodes infaillibles garantissant l'interprétabilité.

Le tableau 4 décrit les différentes techniques d'interprétabilité post hoc ainsi que les risques et les contrôles qu'elles comportent.

Le tableau 5 décrit certaines limites de la technique et leurs implications.

Tableau 4. Techniques d'interprétabilité post-hoc du ML

Tableau 5 : Limites de la technique

Principes : Approche de l'interprétabilité dans l'ambiguïté

Compte tenu de ces défis, comment une organisation peut-elle aborder l'interprétabilité et l'inclure dans un cadre de gouvernance approprié ? Les principes généraux de l'approche de l'interprétabilité dans le cadre de la gestion du risque de modèle sont présentés ci-dessous.

Définir la gouvernance du modèle

Ce que signifie la gouvernance doit être défini par chaque organisation, en tenant compte de la taille de l'organisation, des valeurs de l'entreprise, des normes du secteur et des intérêts des parties prenantes. Les contrôles doivent respecter les principes d'équité et d'acceptabilité sociale, et impliquer tous les aspects du cycle de vie du modèle - de l'idéation et du développement au déploiement et au suivi. La formulation de ces principes et concepts est une première étape cruciale.

Garantir l'interprétabilité est fait partie de la gouvernance

L'interprétabilité doit être prise en compte dans l'évaluation du risque lié aux modèles d'apprentissage automatique et s'inscrire dans l'approche adoptée par l'entreprise pour gérer le risque lié aux modèles de manière plus générale. Le niveau d'interprétabilité souhaité pour un modèle doit être défini dès le début de sa conception afin de minimiser les compromis en matière de performance et les impacts négatifs potentiels.

S'efforcer de connaître parfaitement le modèle

Bien qu'il soit difficile d'acquérir une connaissance approfondie du fonctionnement d'un modèle ou des caractéristiques générées par les modèles d'apprentissage automatique eux-mêmes, l'objectif devrait toujours être de maximiser la compréhension. Il s'agit notamment de comprendre les sources de données ou les intrants utilisés, la structure du modèle, les hypothèses impliquées dans sa conception et les contraintes existantes. Cette connaissance est essentielle pour démontrer la solidité conceptuelle d'un modèle d'IA/ML et son adéquation à un cas d'utilisation.

Lorsque l'interprétabilité est absolument nécessaire, optez pour des modèles intrinsèquement interprétables.

Lorsqu'un cas d'utilisation et son contexte exigent que le fonctionnement d'un modèle soit transparent, il peut être plus prudent de concevoir des modèles intrinsèquement interprétables que d'appliquer des approches et des techniques qui tentent d'atteindre l'interprétabilité a posteriori Bien qu'un certain nombre d'approches et de techniques puissent améliorer l'interprétabilité même dans les modèles ML, il peut être plus efficace de s'efforcer de concevoir des modèles intrinsèquement interprétables dans les scénarios à enjeux ou à risques élevés.

Éviter une approche unique

Les organisations devraient envisager d'utiliser différentes techniques en fonction du risque du modèle de ML dans chaque application spécifique. Cela signifie qu'il faut éviter les approches normatives ou standardisées lorsqu'il s'agit de définir les exigences en matière d'interprétabilité des modèles, car elles peuvent entraîner la sélection de modèles et de technologies sous-optimaux.

S'engager à assurer un suivi et un apprentissage continus

Apprendre à évaluer les risques avec précision, déterminer le compromis optimal entre précision et performance pour chaque cas d'utilisation et chaque modèle, et décider des meilleures approches pour une organisation et un secteur d'activité nécessite du temps, un suivi continu des résultats d'un modèle et un apprentissage permanent. Les organisations devraient continuer à affiner leur compréhension des techniques, des risques et des résultats pour chaque modèle et application, afin de mieux comprendre le rôle de l'interprétabilité dans la gouvernance et la manière d'adapter leur approche dans différents contextes.

En résumé

L'apprentissage automatique représente une formidable opportunité d'améliorer la productivité, l'innovation et le service à la clientèle dans tous les domaines. Toutefois, cette technologie comporte des risques et il n'existe pas de manuel standard pour les atténuer. Pour profiter des avantages de l'apprentissage automatique, il faut trouver un moyen de faire progresser la technologie de manière responsable malgré cette incertitude.

La confiance - des employés, des clients et du grand public - sera essentielle pour profiter pleinement des avantages que l'apprentissage automatique a à offrir. Pour obtenir cette confiance, les organisations doivent déterminer et adopter des pratiques appropriées de gouvernance des modèles de ML, y compris celles liées à l'interprétabilité. Pour ce faire, il faut d'abord comprendre les défis uniques que posent les modèles de ML aux efforts d'interprétabilité, ainsi que les étapes permettant de déterminer le degré de transparence du modèle requis, les méthodes qui garantiront qu'il est fourni, et les considérations à prendre en compte pour déterminer les compromis appropriés à chaque cas d'utilisation.

[1] https://twitter.com/geoffreyhinton/status/1230592238490615816?lang=en

Interprétabilité de l'apprentissage automatique : Nouveaux défis et nouvelles approches

En rapport :

Des experts de renommée mondiale en matière de confiance et de sécurité de l'IA publient un article majeur sur la gestion des risques liés à l'IA dans la revue Science

Comment mettre en œuvre des systèmes d'IA en toute sécurité

Comment le chercheur Xi He, spécialiste des vecteurs, utilise la confidentialité différentielle pour préserver la confidentialité des données