Neutraliser les préjugés dans l'IA : le cadre UnBIAS de l'Institut Vector révolutionne l'analyse éthique des textes - Vector Institute for Artificial Intelligence

Par Mark Coatsworth et Shaina Raza

À l'ère de l'information, l'exactitude et l'impartialité du contenu sont primordiales. Les systèmes d'IA ont déjà joué un rôle déterminant dans la diffusion de l'information, augmentant ainsi le risque d'informations biaisées et incorrectes. Des données de formation biaisées peuvent conduire à des algorithmes qui perpétuent les stéréotypes et renforcent les préjugés, et des algorithmes biaisés peuvent conduire à la diffusion de fausses informations. Cette situation a de vastes répercussions sur les médias d'information, les réseaux sociaux, la conformité réglementaire, la gouvernance et d'autres questions politiques, ce qui accroît le risque de dommages importants.

Pour lutter contre ce biais et promouvoir l'utilisation éthique des grands modèles de langage (LLM), l'équipe d'ingénierie de l'IA de l'Institut Vecteur a créé UnBIAS(unbias-mkdocs.readthedocs.io), un cadre d'analyse de texte de pointe qui évalue et corrige les biais dans les données textuelles grâce à la classification des biais, à la reconnaissance des entités nommées pour l'identification des biais et au débiaisage des textes.

Avec une telle quantité de désinformation et de partialité dans les domaines de l'information, de la politique publique et de la réglementation, les médias numériques ne peuvent pas être gérés par des moyens conventionnels. La création d'UnBIAS, dirigée par Shaina Raza, chercheuse en ML appliquée à l'IA responsable chez Vector, fournit un cadre soutenu par l'IA pour identifier les préjugés dans les communications et un moyen simple de remplacer un texte biaisé par un contenu neutre et non biaisé.

Comment cela fonctionne-t-il ?

Basé sur une bibliothèque Python développée par Vector et publiée en tant que bibliothèque libre, UnBIAS s'appuie sur les LLM pour détecter les contenus biaisés. Les utilisateurs fournissent au modèle un texte (unique ou un lot de contenus textuels), par exemple "Les hommes sont naturellement meilleurs que les femmes en sport". Le modèle de classification intégré examine ce texte pour déterminer s'il est biaisé. S'il est détecté par une classification binaire, le modèle renvoie un score de confiance et un texte de remplacement, tel que "Les hommes sont naturellement meilleurs que les femmes en sport. BIASED(95%) " Ensuite, le score de confiance et la séquence passent à l'étape du classificateur de jetons. Ce classificateur de jetons est capable d'identifier et de signaler les jetons de biais, qu'ils soient flagrants ou subtils, jusqu'à des jetons de n-grammes dans le texte.

L'étape finale fait intervenir le débiaiseur: un utilitaire qui remplace le texte précédemment biaisé par un nouveau texte non biaisé. Le débiaiseur remplacerait notre exemple précédent par le texte suivant : "Les individus de sexe différent peuvent exceller dans les sports en fonction de leurs compétences uniques, de leur entraînement et de leur dévouement, plutôt que de leur sexe uniquement."

Le débiaiseur utilise un réglage fin basé sur les instructions, complété par des stratégies efficaces en termes de paramètres et des techniques de quantification à 4 bits (permettant au modèle de fonctionner même sans calcul lourd) afin de neutraliser les textes biaisés. Lors de la neutralisation d'un énoncé, l'objectif n'est pas de modifier le sens original, mais plutôt de le présenter d'une manière exempte de préjugés et de stéréotypes. Chaque mode de la boîte à outils UnBIAS qui en résulte est finement ajusté pour une inférence efficace et disposé séquentiellement pour former une architecture de pipeline rationalisée.

Préparation des données

En développant la bibliothèque Python, Raza et l'équipe d'ingénierie de l'IA se sont heurtés à un obstacle majeur : le manque de données d'entraînement de haute qualité et de source ouverte pouvant être étiquetées pour l'identification des biais. Ils ont également créé une version débiaisée des données biaisées afin d'affiner le débiaiseur, car les LLM formés sur ces ensembles de données sont aptes à détecter et à rectifier les biais.

Les ensembles de données ont été publiés sous licence libre :

L'objectif est d'intégrer de manière transparente le cadre UnBIAS avec des systèmes de recommandation et d'autres logiciels de recherche d'informations (applications d'embauche, magasins de documents, sites web d'information) afin de produire des résultats impartiaux. À cette fin, l'équipe souligne l'importance de disposer de données diversifiées et de haute qualité représentant un certain nombre d'aspects des préjugés (sexe, âge, religion, sexisme) afin de s'assurer que l'ensemble de données fonctionne pour un large éventail de tâches d'identification des préjugés. La cohérence dans l'étiquetage de la matière subjective biaisée a également constitué un défi, tandis que les considérations éthiques et de protection de la vie privée ont nécessité la sauvegarde de la confidentialité des personnes et des organisations mentionnées dans les nouvelles.

Veiller à ce que les ensembles de données et les modèles soient trouvables, accessibles, interopérables et réutilisables - les principes FAIR - est la pierre angulaire de notre approche de la préparation des données et des modèles. Les ensembles de données sont préparés à l'aide d'un étiquetage basé sur l'IA et vérifiés par de multiples itérations humaines dans la boucle où les humains classent, identifient et évaluent les résultats biaisés, fournissant ainsi une base de détection bien plus solide que celle qui pourrait être obtenue par l'entraînement régulier des modèles.

Quel est l'impact sociétal ?

Cette boîte à outils défend l'IA éthique, en s'alignant sur les idéaux d'inclusivité et d'équité. Elle est conçue pour contrecarrer les préjugés dans différents domaines, notamment la politique, la race, le sexe et l'âge, tout en abordant la désinformation dans divers domaines, tels que le changement climatique et la politique mondiale. Il est conforme aux idéaux éthiques de l'IA, notamment l'inclusivité et l'équité. Il reflète également un engagement plus large visant à aligner en permanence le travail de Vector sur les valeurs de la communauté de l'IA, tout en évaluant avec vigilance toute répercussion involontaire de l'IA.

Quelle est la prochaine étape ?

Le cadre UnBIAS représente une avancée significative dans l'analyse de texte et la correction des biais. En utilisant une combinaison de classificateurs sophistiqués et de techniques innovantes de débiaisage, UnBIAS répond au besoin urgent de diffusion d'informations précises et impartiales à l'ère numérique actuelle. Le cadre ne se contente pas de détecter et de corriger les biais dans le contenu textuel, mais préserve également l'intention et le sens originaux, favorisant ainsi l'équité et les pratiques éthiques en matière d'intelligence artificielle. Cette approche s'aligne sur les principes d'inclusivité et d'équité, et offre un fort potentiel pour atténuer de manière significative la propagation des préjugés et de la désinformation.

Raza et l'équipe AI Engineering espèrent rendre UnBIAS accessible et convivial, tant pour les professionnels de la science des données que pour les non-initiés, afin qu'ils puissent facilement détecter et, si nécessaire, atténuer les biais dans leurs documents et leurs textes. Ils travaillent actuellement à l'extension de la boîte à outils avec des outils de formation et d'évaluation plus complets, améliorant les capacités du cadre à identifier les biais dans un large éventail de domaines, y compris juridique, médical, commerce électronique, et plus encore.

Neutraliser les préjugés dans l'IA : le cadre UnBIAS de l'Institut Vecteur révolutionne l'analyse éthique des textes

Comment cela fonctionne-t-il ?

Préparation des données

Quel est l'impact sociétal ?

Quelle est la prochaine étape ?

En rapport :

Les chercheurs de Vector s'attaquent aux défis de l'IA dans le monde réel à l'occasion de l'ICML 2025

L'écosystème de l'IA en Ontario : une croissance économique réelle grâce à un nombre record d'emplois et d'investissements privés

Transformer le soutien à la santé mentale des jeunes : Le modèle de réponse à la crise du FAIIR alimenté par l'IA