L'équité dans l'apprentissage automatique : Les principes de gouvernance 

21 mars 2022

Perspectives

Par Jonathan Woods
21 mars 2022

Cet article fait partie de notre série sur l'IA digne de confiance. Dans le cadre de cette série, nous publierons un article par semaine sur les thèmes suivants

  • Interprétabilité
  • L'équité
  • Gouvernance

Dans l'article de cette semaine, l'équipe Innovation industrielle de Vector se penche sur l'équité dans l'apprentissage automatique et décompose les risques et principes spécifiques à l'apprentissage automatique afin d'aider les parties prenantes non techniques à mieux comprendre, communiquer et participer à la gestion des risques liés aux modèles d'apprentissage automatique.

La gouvernance est essentielle à l'utilisation responsable des modèles d'apprentissage machine (ML). L'un des éléments de cette gouvernance est l'équité, un élément complexe mais crucial de la gestion des risques liés aux modèles d'apprentissage automatique.

Alors que de plus en plus de décisions sont automatisées dans les industries et les secteurs, la question se pose : Comment pouvons-nous nous assurer que ces décisions sont prises de manière équitable ? Il n'est pas simple de répondre à cette question. Tout d'abord, il existe de nombreuses définitions concurrentes de ce qu'est l'équité . Ensuite, même avec une définition claire, les préjugés peuvent être cachés et subtils. Même lorsque des mesures sont prises pour éliminer les préjugés, ceux-ci peuvent apparaître et causer un préjudice potentiel aux clients, aux utilisateurs et à l'organisation qui utilise le système de ML.

Cet abécédaire de l'équité dans l'apprentissage automatique présente les risques et les principes spécifiques à l'apprentissage automatique dans un langage simple afin d'aider les parties prenantes non techniques à mieux comprendre la gestion des risques liés aux modèles d'apprentissage automatique, à mieux communiquer à ce sujet et à participer à cette gestion. Aux fins du présent document, "équitable" signifie non discriminatoire à l'égard des groupes protégés, qu'il s'agisse de la race, du sexe, du genre, de la religion, de l'âge ou d'un autre attribut protégé de la même manière.

Le renforcement ou la perpétuation des préjugés historiques n'est pas souhaitable pour plusieurs raisons. La première est simplement d'ordre éthique : les valeurs sociétales modernes condamnent la marginalisation fondée uniquement sur la présence d'un attribut protégé. Une autre raison est que de tels préjugés vont probablement à l'encontre des valeurs déclarées de la plupart des organisations. Une autre raison encore est d'ordre juridique : une organisation peut être tenue responsable des décisions injustes prises par ses algorithmes. En outre, des pratiques déloyales très médiatisées - même si elles sont involontaires - peuvent entraîner d'importants risques financiers et de réputation. Enfin, si l'on considère l'adoption de l'IA en général, les cas d'injustice peuvent ébranler la confiance dans l'IA, alors que cette confiance est essentielle à l'adoption et à l'exploration de la valeur que la technologie peut apporter.

Comprendre comment les biais peuvent apparaître dans l'apprentissage automatique

Les biais dans l'apprentissage automatique peuvent survenir de différentes manières. Certaines sont directes - par exemple, lors d'une collecte de données négligente - tandis que d'autres sont plus subtiles et insidieuses. Les parties prenantes des systèmes d'apprentissage automatique et de leurs résultats doivent connaître les différentes façons dont les biais peuvent survenir, afin de pouvoir reconnaître les sources potentielles et poser des questions pour s'assurer qu'elles sont prises en compte.

Biais dans les données historiques

Les préjugés dus à des pratiques discriminatoires passées peuvent être intégrés dans les données historiques utilisées pour la formation au ML. Pour illustrer ce phénomène, prenons l'exemple du "redlining", une pratique qui consiste à refuser systématiquement ou à surtaxer un service tel qu'un prêt hypothécaire ou un plan d'assurance en fonction de la communauté dans laquelle réside le demandeur. Comme certaines communautés sont associées à des membres d'un groupe protégé, le redlining peut injustement corréler la solvabilité à un seul attribut d'une personne - par exemple, la race - alors que cet attribut ne devrait pas du tout entrer en ligne de compte dans l'évaluation. Si un système de ML est formé sur des données historiques contenant les résultats du redlining, le même groupe de personnes risque d'être discriminé à l'avenir.

Biais dans la collecte des données

Les problèmes d'échantillonnage et de mesure dans le processus de collecte des données peuvent conduire à des ensembles de données entachés de biais. Il y a biais d'échantillonnage lorsque la méthode de collecte des données aboutit à un échantillon qui n'est pas représentatif de la population en question. Par exemple, on peut collecter des données en publiant un questionnaire dans un magazine et en demandant aux lecteurs de le remplir et de le renvoyer. Cette méthode peut produire un échantillon biaisé, car le sous-ensemble de personnes prêtes à consacrer du temps et de l'énergie à remplir le questionnaire peut ne pas être représentatif de l'ensemble du lectorat. Le biais de mesure se produit lorsque des erreurs dans l'acte d'échantillonnage ont un impact sur l'ensemble des données. Par exemple, des enquêteurs mal formés collectent le bon type d'informations, mais incluent des informations ne concernant pas la période d'intérêt, ce qui fausse les données.

Biais dans la conception du modèle

Il y a biais algorithmique lorsqu'un modèle produit des résultats biaisés en raison d'hypothèses erronées formulées par le modélisateur ou d'une mauvaise application du modèle par les praticiens. Par exemple, l'exclusion de critères financiers pertinents en tant que caractéristiques peut entraîner l'application d'un taux d'intérêt plus élevé à des emprunteurs par ailleurs qualifiés, voire le refus pur et simple de leur accorder un prêt.

Biais dû à la corrélation des caractéristiques

La corrélation possible entre certaines caractéristiques sensibles et des caractéristiques non sensibles peut entraîner un biais. Une caractéristique, telle que définie dans une introduction précédente, est une propriété ou une variable individuelle utilisée comme entrée dans un système de ML. Prenons l'exemple d'un modèle qui prédit les prix des logements. Les caractéristiques peuvent inclure l'emplacement d'une maison, sa taille, le nombre de chambres, le prix de vente précédent, entre autres attributs. Dans le contexte de l'équité, une caractéristique "sensible" est un attribut qui identifie un groupe protégé - par exemple, la race, le sexe, le genre, etc. Les praticiens peuvent supprimer les caractéristiques sensibles d'un ensemble de données lors de la préparation des données dans l'intention de réduire le risque de biais. Toutefois, cela peut ne pas suffire à garantir l'équité. En effet, certaines caractéristiques non sensibles peuvent être fortement corrélées avec des caractéristiques sensibles. Par exemple, l'utilisation du revenu comme caractéristique peut être une approximation du sexe lors de l'examen d'une profession où un sexe est systématiquement sous-payé. Dans ce cas, il n'est pas nécessaire que le sexe soit une caractéristique explicite pour qu'il le devienne effectivement. En d'autres termes, le fait de classer les personnes en fonction de leur revenu dans une profession donnée peut effectivement les classer en fonction de leur sexe, que cela ait été voulu ou non.

Par ailleurs, les modèles peuvent également être en mesure de déduire des informations sensibles par l'analyse de plusieurs caractéristiques apparemment non corrélées. Les modèles d'apprentissage automatique étant excellents pour détecter des schémas, il suffit parfois de quelques éléments d'information générale, pris ensemble, pour trahir des informations sensibles sur une personne. Un incident célèbre survenu en 2000 illustre cette possibilité. Dans les années 1990, une compagnie d'assurance basée aux États-Unis a publié des données dépersonnalisées concernant les visites à l'hôpital de fonctionnaires de l'État. Ces données comprenaient la date de naissance, le sexe et le code postal. Un chercheur a montré qu'en utilisant uniquement ces trois éléments d'information, il pouvait réidentifier - par leur nom - près de 90 % de la population du pays. La leçon à tirer est qu'il ne suffit pas toujours de supprimer les informations sensibles des ensembles de données pour éviter de les découvrir.

Comment les organisations doivent-elles aborder la question de l'équité au sein du ML ?

Compte tenu du nombre d'écueils liés aux préjugés que les praticiens peuvent rencontrer, comment les organisations peuvent-elles couvrir les bases de l'équité lorsqu'elles utilisent le ML ? Bien qu'il existe des réponses très techniques à cette question, les praticiens et les parties prenantes devraient, d'une manière générale, suivre les principes énumérés ci-dessous.

  1. Examiner les exigences d'équité pour chaque cas d'utilisation en particulier

Les considérations d'équité diffèrent en fonction de l'utilisation prévue du modèle. Par exemple, les modèles qui ont un impact direct sur les clients peuvent nécessiter une approche plus stricte de l'équité que les modèles utilisés pour des processus internes à faible enjeu, comme les décisions en matière de personnel. Tenez compte de la sensibilité du cas d'utilisation en question pour déterminer ses risques, la définition appropriée de l'équité à appliquer et le niveau d'attention qu'il nécessitera.

  1. Donner la priorité à l'équité à chaque étape

Chaque partie du pipeline de ML devrait être examinée sous l'angle de l'équité. L'équité doit être une préoccupation constante lors de la définition des tâches, de la construction des ensembles de données, de la définition des modèles, de la formation et des tests, et du déploiement. Le contrôle de l'équité, des données d'entrée et des performances du modèle doit être effectué en continu.

  1. Inclure diverses parties prenantes

Impliquer diverses parties prenantes et de multiples perspectives dans la conception, l'interprétation et le suivi des modèles afin d'aider à identifier les sources de biais potentiels dans les données, la conception du modèle ou la sélection des caractéristiques. Certaines sources de biais peuvent être subtiles et sont plus susceptibles d'être repérées lorsqu'un groupe composé de personnes ayant des antécédents et des expériences différents est chargé de la tâche.

  1. Impliquer les humains si nécessaire

Pour les modèles employés dans des cas d'utilisation à enjeux élevés, il faut s'assurer d'inclure les humains dans la boucle. Les experts humains doivent avoir la possibilité d'annuler les décisions du modèle si un biais est détecté ou même suspecté dans les résultats.

En résumé

L'équité dans l'apprentissage automatique peut être un sujet compliqué. Le simple fait de déterminer ce que signifie "équitable" dans un cas donné nécessite de prendre en compte les normes sociétales et industrielles, de consulter les équipes techniques internes qui construisent les pipelines d'apprentissage automatique et mettent en œuvre les modèles, et de discuter avec un ensemble de parties prenantes diverses. Quelle que soit la complexité de la question, l'équité doit faire l'objet d'une attention particulière. Elle est essentielle pour déployer le ML de manière responsable et doit être un élément de la gouvernance des risques liés aux modèles de ML, de la génération d'idées jusqu'au déploiement et au suivi. La connaissance des concepts clés relatifs à l'équité permet aux parties prenantes n'ayant pas de formation technique de participer et de contribuer à cet élément important du processus de gouvernance.

En rapport :

Des protocoles normalisés sont essentiels pour un déploiement responsable des modèles linguistiques

Les inconnues connues : Geoff Pleiss, chercheur chez Vector, se penche sur l'incertitude pour rendre les modèles de ML plus précis.

Un homme regarde un tableau blanc sur lequel sont inscrites des formules en rouge.
Perspectives
Une IA digne de confiance

Comment mettre en œuvre des systèmes d'IA en toute sécurité