L’équité dans l’apprentissage automatique : les principes de la gouvernance 

21 mars 2022

Analyses du blogue 2022 : l’IA fiable en apprentissage automatique

Par Jonathan Woods
21 mars 2022

Cet article fait partie de notre série IA fiable. Dans le cadre de cette série, nous publierons un article par semaine autour de

  • Interprétabilité
  • Équité
  • Gouvernance

Dans l’article de cette semaine, l’équipe d’innovation industrielle de Vector examine l’équité en apprentissage automatique et décompose les risques et principes spécifiques au ML afin d’aider les parties prenantes non techniques à mieux comprendre, communiquer et participer à la gestion des risques des modèles ML.

La gouvernance est essentielle à l’utilisation responsable des modèles d’apprentissage automatique (ML). Un élément de cette gouvernance est l’équité, un élément complexe mais crucial de la gestion des risques du modèle ML.

À mesure que de plus en plus de décisions entre industries et secteurs sont automatisées, la question se pose : comment pouvons-nous nous assurer que ces décisions sont prises de manière équitable? Ce n’est pas une question simple à répondre. Pour commencer, il existe de nombreuses définitions concurrentes de ce que signifie l’équité. Deuxièmement, même avec une définition claire, les biais peuvent être cachés et subtils. Même lorsque des mesures sont prises pour éliminer les biais, ils peuvent survenir, introduisant des dommages potentiels aux clients, aux utilisateurs et à l’organisation qui utilise le système d’apprentissage automatique.

Cette introduction à l’équité en apprentissage automatique décompose les risques et principes spécifiques à l’apprentissage automatique en langage clair afin d’aider les parties prenantes non techniques à mieux comprendre, communiquer à propos et participer à la gestion des risques des modèles d’apprentissage automatique. Aux fins de cet article, « équitable » signifie non discriminatoire envers les groupes protégés, que ce soit en lien avec la race, le sexe, le genre, la religion, l’âge ou un autre attribut protégé de façon similaire.

Renforcer ou perpétuer des biais historiques est indésirable pour plusieurs raisons. La première est simplement éthique : les valeurs sociales modernes condamnent la marginalisation uniquement en raison de la présence d’un attribut protégé. Une autre raison est que ce biais va probablement à l’encontre des valeurs exprimées par la plupart des organisations. Une autre raison est légale : une organisation peut être tenue responsable des décisions injustes prises par ses algorithmes. De plus, des pratiques déloyales très médiatisées – même si elles sont involontaires – peuvent entraîner d’importants risques financiers et réputationnels. Enfin, en prenant un peu de recul pour considérer l’adoption de l’IA en général, les cas d’injustice peuvent miner la confiance envers l’IA, et cette confiance est essentielle pour une adoption et une exploration accrues de la valeur que cette technologie peut apporter.

Comprendre comment un biais en apprentissage automatique peut apparaître

Le biais en apprentissage automatique peut survenir de plusieurs façons. Certaines méthodes sont simples – par exemple, par la collecte négligente de données – tandis que d’autres sont plus subtiles et insidieuses. Les parties prenantes dans les systèmes d’apprentissage automatique et leurs résultats devraient connaître les façons suivantes dont un biais peut survenir, afin de reconnaître les sources potentielles et de poser des questions pour s’assurer qu’elles sont prises en compte.

Biais dans les données historiques

Des biais dus à des pratiques discriminatoires passées peuvent être intégrés dans les données historiques utilisées pour la formation en apprentissage automatique. Pour illustrer comment cela s’est produit, considérons le « redlining », la pratique consistant à refuser ou surfacturer systématiquement un service comme une hypothèque ou un régime d’assurance basé sur la communauté où réside un demandeur. Comme certaines communautés sont associées à des membres d’un groupe protégé, le redlining peut corréler injustement la solvabilité avec un seul attribut d’une personne – par exemple, la race – alors que cette caractéristique ne devrait pas du tout être prise en compte dans l’évaluation. Si un système d’apprentissage automatique est entraîné sur des données historiques avec les résultats du redlining intégrés, le même groupe de personnes pourrait être discriminé à l’avenir.

Biais dans la collecte de données

Les problèmes d’échantillonnage et de mesure dans le processus de collecte de données peuvent conduire à des ensembles de données entachés de biais. Le biais d’échantillon survient lorsque la méthode de collecte des données donne un échantillon qui n’est pas représentatif de la population concernée. Par exemple, on peut recueillir des données en publiant un questionnaire dans un magazine et en demandant aux lecteurs de le remplir et de le renvoyer. Cette méthode peut produire un échantillon biaisé, car le sous-ensemble de personnes prêtes à consacrer du temps et de l’énergie à remplir le questionnaire peut ne pas représenter l’ensemble du lectorat. Le biais de mesure survient lorsque des erreurs dans l’acte d’échantillonnage affectent l’ensemble de données. Un exemple serait des arpenteurs mal formés qui recueillent le bon type d’information, mais incluent des informations extérieures à la période d’intérêt et, ce faisant, déforment les données.

Biais dans la conception des modèles

Le biais algorithmique survient lorsqu’un modèle produit des résultats biaisés en raison d’hypothèses erronées faites par le modélisateur ou d’une mauvaise implémentation du modèle par les praticiens. Par exemple, l’exclusion de critères financiers pertinents en tant que caractéristiques peut entraîner des factures autrement qualifiées à se voir facturer un taux d’intérêt plus élevé ou à refuser un prêt tout simplement.

Biais dû à la corrélation des caractéristiques

Une corrélation possible entre certaines caractéristiques sensibles et non sensibles peut entraîner un biais. Une caractéristique, telle que définie dans un amorcé antérieur, est une propriété individuelle ou une variable utilisée comme entrée dans un système d’apprentissage automatique. Considérons un modèle qui prédit les prix des logements. Les caractéristiques peuvent inclure l’emplacement de la maison, la taille, le nombre de chambres, le prix de vente précédent, entre autres attributs. Dans le contexte de l’équité, une caractéristique « sensible » est un attribut qui identifie un groupe protégé – par exemple, la race, le sexe, le genre, et autres. Les praticiens peuvent retirer des caractéristiques sensibles d’un ensemble de données lors de la préparation des données dans l’intention de réduire le risque de biais. Cependant, cela peut ne pas suffire à garantir l’équité. Cela s’explique par le fait que certaines caractéristiques non sensibles peuvent être fortement corrélées à d’autres sensibles. Par exemple, l’utilisation du revenu comme caractéristique peut être un indicateur du genre lorsqu’on examine une profession où un genre est systématiquement sous-payé. Dans un tel cas, le genre n’a pas besoin d’être une caractéristique explicite pour qu’il le devienne effectivement. En d’autres termes, catégoriser les personnes selon leur revenu dans une profession particulière peut effectivement les catégoriser par genre, que ce soit intentionnel ou non.

Dans une autre variante, les modèles pourraient aussi être capables d’inférer des informations sensibles en analysant plusieurs caractéristiques apparemment non corrélées. Parce que les modèles d’apprentissage automatique sont excellents pour détecter des motifs, parfois, seules quelques informations générales, prises ensemble, peuvent trahir des informations sensibles sur un individu. Un incident célèbre datant de 2000 illustre cette possibilité. Dans les années 1990, une compagnie d’assurance basée aux États-Unis a publié des données désidentifiées concernant les visites hospitalières d’employés de l’État. Les données comprenaient la date de naissance, le sexe et le code postal. Une chercheuse a démontré qu’en utilisant seulement ces trois informations, elle pouvait réidentifier – par son nom – près de 90% de toutes les personnes du pays. La leçon, c’est que retirer des informations sensibles des ensembles de données peut ne pas suffire à en éliminer la découverte.

Comment les organisations devraient-elles aborder l’équité en apprentissage automatique?

Compte tenu du nombre de pièges liés aux biais auxquels les praticiens peuvent être confrontés, comment les organisations peuvent-elles couvrir les bases de l’équité en utilisant l’apprentissage automatique? Bien qu’il existe des réponses très techniques à cette question, de manière générale, les praticiens et les parties prenantes devraient suivre les principes énoncés ci-dessous.

  1. Considérez les exigences d’équité pour chaque cas d’utilisation individuellement

Les considérations d’équité varieront selon l’utilisation prévue du modèle. Par exemple, les modèles qui touchent directement les clients peuvent nécessiter une approche plus stricte de l’équité que les modèles utilisés pour des processus internes à moindre enjeu, comme les décisions de dotation. Considérez la sensibilité du cas d’utilisation en question pour déterminer ses risques, la définition appropriée de l’équité à appliquer, ainsi que le niveau d’attention qu’il exigera.

  1. Priorisez l’équité à chaque étape

Chaque partie du pipeline de ML devrait être examinée à travers un prisme d’équité. L’équité devrait être une préoccupation constante dans la définition des tâches, la construction des ensembles de données, la définition du modèle, la formation et les tests, ainsi que le déploiement. La surveillance de l’équité, des données d’entrée et de la performance du modèle devrait être effectuée de façon continue.

  1. Inclure des parties prenantes diverses

Impliquer des parties prenantes diverses et de multiples perspectives dans la conception, l’interprétation et le suivi des modèles afin d’aider à identifier les sources de biais potentiels dans les données, la conception du modèle ou la sélection des caractéristiques. Certaines sources de biais peuvent être subtiles et sont très probablement repérées lorsqu’un groupe composé de milieux et d’expériences différents est sur la tâche.

  1. Impliquer les humains au besoin

Pour les modèles utilisés dans des cas d’utilisation à enjeux élevés, assurez-vous d’inclure les humains dans la boucle. Les experts humains devraient avoir la capacité d’annuler les décisions du modèle si un biais est détecté ou même suspecté dans le résultat.

En résumé

L’équité en apprentissage automatique peut être un sujet complexe. Déterminer simplement les spécificités de ce que signifie « équitable » dans un cas donné nécessite de tenir compte des normes sociales et industrielles, de consulter des équipes techniques internes qui construisent des pipelines d’apprentissage automatique et de mettre en œuvre des modèles, ainsi que des discussions avec un ensemble de parties prenantes diverses. Peu importe la complexité, l’équité exige de l’attention. Il est essentiel pour déployer l’apprentissage automatique de façon responsable, et doit faire partie de la gouvernance des risques du modèle d’apprentissage automatique, de la génération des idées jusqu’au déploiement et à la surveillance. La connaissance des concepts clés liés à l’équité permet aux parties prenantes ayant une formation non technique de participer et de contribuer à cet élément important du processus de gouvernance.

À lire aussi :

2026
Réflexions
Recherche
Recherche 2026

La nouvelle cartographie de l’invisible

Logo vectoriel
2025
Réflexions

Une nouvelle étude révèle l’impact économique de 100 milliards de dollars de l’IA à travers le Canada, avec l’Ontario en tête

2025
Apprentissage automatique
Recherche
Recherche 2025

Quand l’IA intelligente devient trop intelligente : Principaux enseignements de l’atelier 2025 sur la sécurité et la vie privée en apprentissage automatique de Vector