Neutraliser les biais en IA : le cadre UnBIAS du Vector Institute révolutionne l’analyse éthique des textes
5 décembre 2023
5 décembre 2023
Par Mark Coatsworth et Shaina Raza
À l’ère de l’information d’aujourd’hui, le contenu exact et exempt de biais est primordial. Les systèmes d’IA sont déjà devenus essentiels dans la diffusion de l’information, augmentant le potentiel d’informations biaisées ou incorrectes. Des données d’entraînement biaisées peuvent mener à des algorithmes qui perpétuent les stéréotypes et renforcent les biais, et des algorithmes biaisés peuvent entraîner la diffusion de fausses informations. Cela a de larges implications dans les médias, les réseaux sociaux, la conformité réglementaire, la gouvernance et d’autres questions politiques, augmentant le potentiel de préjudices importants.
Pour lutter contre ce biais et promouvoir l’utilisation éthique des grands modèles de langage (LLM), l’équipe d’ingénierie de l’IA du Vector Institute a créé UnBIAS (unbias-mkdocs.readthedocs.io), un cadre d’analyse textuelle de pointe qui évalue et corrige les biais dans les données textuelles grâce à la classification des biais, la reconnaissance d’entités nommées pour l’identification des biais, et la suppression du texte.
Avec autant de désinformation, de désinformation et de biais courants dans les domaines des nouvelles, des politiques publiques et des règlements, les médias numériques ne peuvent pas être gérés par des moyens conventionnels. La création d’UnBIAS, dirigée par Shaina Raza, scientifique en apprentissage automatique appliqué en IA responsable chez Vector, offre un cadre soutenu par l’IA pour identifier les biais dans les communications et un moyen simple de remplacer le texte biaisé par du contenu neutre et impartial.
Basé sur une bibliothèque Python développée par Vector et publiée en tant que bibliothèque open source, UnBIAS utilise les LLM comme base pour détecter le contenu biaisé. Les utilisateurs fournissent au modèle du texte (soit un seul ou un lot de contenu textuel), par exemple « Les hommes sont naturellement meilleurs que les femmes en sport. » Le modèle de classificateur intégré examine ce texte pour déterminer si un biais est présent. S’il est détecté par classification binaire, le modèle retourne un score de confiance et un texte de remplacement, comme « Les hommes sont naturellement meilleurs que les femmes dans le sport. BIASED (95%)" Ensuite, le score de confiance et la séquence passent à l’étape du classificateur de jetons. Ce classificateur de jetons est habile à identifier et à signaler les jetons de biais, tant flagrants que subtils, s’étendant jusqu’à n-grammes de jetons dans le texte.
La dernière étape concerne le debiaser : un utilitaire pour remplacer le texte auparavant biaisé par un texte nouveau et impartial. Le debiaser remplacerait notre exemple précédent par le texte : « Les individus de différents genres peuvent exceller dans le sport grâce à leurs compétences uniques, leur entraînement et leur dévouement, plutôt que par leur genre. »
Le debiaser utilise un ajustement fin basé sur les instructions, complété à la fois par des stratégies efficaces en paramètres et des techniques de quantification sur 4 bits (permettant au modèle de fonctionner même sans calcul intense) pour neutraliser les textes biaisés. Lorsqu’on débarrasse une affirmation, l’objectif n’est pas de changer le sens original, mais plutôt de le présenter d’une manière exempte de biais et de stéréotypes. Chaque mode de la boîte à outils UnBIAS résultante est finement ajusté pour une inférence efficace et organisé séquentiellement pour former une architecture de pipeline rationalisée.

En développant la bibliothèque Python, Raza et l’équipe d’ingénierie de l’IA ont rencontré un obstacle majeur : le manque de données d’entraînement open source de haute qualité pouvant être qualifiées pour l’identification des biais. Pour y remédier, ils ont sélectionné des ensembles de données uniques d’articles de presse marqués pour identifier les biais; ils ont également créé une version dédebiasée des données biaisées pour affiner le debiaser, car les LLM entraînés sur ces ensembles de données sont compétents pour la détection et la rectification des biais.
Les ensembles de données ont été publiés sous des licences open source :
L’objectif est d’intégrer harmonieusement le cadre UnBIAS avec les systèmes de recommandation et d’autres logiciels de recherche d’information (applications d’embauche, boutiques de documents, sites d’actualités) afin de produire des résultats impartiaux. À cette fin, l’équipe met l’accent sur l’importance de données de haute qualité et diversifiées représentant plusieurs aspects du biais (genre, âge, religion, sexisme) afin de garantir que l’ensemble de données fonctionne pour un large éventail de tâches d’identification des biais. La cohérence dans l’étiquetage des sujets biaisés était aussi un défi, tandis que les considérations de vie privée et éthiques nécessitaient la protection de la confidentialité des individus et des organisations mentionnées dans les médias.
S’assurer que les ensembles de données et modèles sont accessibles, interopérables et réutilisables — les principes FAIR — est une pierre angulaire de notre approche de la préparation des données et des modèles. Les ensembles de données sont préparés à l’aide d’un étiquetage basé sur l’IA et vérifiés par plusieurs itérations humaines-in-the-loop où les humains classent, identifient et évaluent des résultats biaisés, offrant une base de détection beaucoup plus solide que ce qui pourrait être obtenu avec l’entraînement régulier des modèles.

Cette boîte à outils défend une IA éthique, en accord avec les idéaux d’inclusion et d’équité. Il vise à contrer les biais dans divers domaines, notamment la politique, la race, le genre et l’âge, tout en abordant la désinformation dans divers domaines, comme le changement climatique et la politique mondiale. Il est aligné sur les idéaux éthiques de l’IA, notamment l’inclusivité et l’équité. Cela reflète aussi un engagement plus large à aligner continuellement le travail de Vector avec les valeurs de la communauté IA tout en évaluant vigileusement toute conséquence inattendue de l’IA.
Le cadre UnBIAS représente une avancée significative dans l’analyse de texte et la correction des biais. En utilisant une combinaison de classificateurs sophistiqués et de techniques innovantes de debiasing, UnBIAS répond au besoin pressant d’une diffusion précise et impartiale de l’information à l’ère numérique actuelle. Le cadre détecte et corrige non seulement les biais dans le contenu textuel, mais préserve aussi l’intention et le sens originaux, favorisant ainsi l’équité et les pratiques éthiques de l’IA. Cette approche s’aligne avec les principes d’inclusivité et d’équité, et présente un fort potentiel pour atténuer significativement la propagation des biais et de la désinformation.
Raza et l’équipe d’ingénierie IA espèrent rendre UnBIAS accessible et convivial tant pour les professionnels de la science des données que pour les non-scientifiques afin de détecter facilement, et si nécessaire, atténuer les biais dans leurs documents et textes. Ils travaillent actuellement à élargir la boîte à outils avec des formations et des outils d’évaluation plus étendus, améliorant ainsi les capacités du cadre à identifier les biais dans un large éventail de domaines, y compris le juridique, le médical, le commerce électronique, et plus encore.