Un nouvel ensemble de données multimodales contribuera au développement de systèmes d'IA éthiques

Par Shaina Raza et Deval Pandya

L'équipe d'ingénierie de l'IA de l'Institut Vecteur a développé Newsmediabias-plus (NMB+), un nouvel ensemble de données multimodales. Il comprend des articles en texte intégral ainsi que des détails complets sur la publication. Il propose également une catégorisation approfondie des préjugés, abordant des questions essentielles telles que les préjugés sexistes et raciaux, ainsi que des sujets spécifiques tels que les tendances idéologiques et le cadrage, la discrimination fondée sur le sexe et les préoccupations environnementales.

NMB+ est conçu pour les chercheurs universitaires, les ONG et les groupes à vocation sociale. Il est conforme à l'objectif de Vector, qui est de s'attaquer aux risques à court et à long terme en fournissant des outils pratiques pour des systèmes d'IA sûrs. Les utilisations potentielles sont les suivantes :

Veiller à ce que l'IA respecte les principes de confiance et de sécurité de Vector en matière d'IA
Analyser les tendances des médias et les styles de reportage dans les différents points de vente
Former l'IA à la détection et au traitement équitables de la désinformation dans les textes et les images.

Développé par Shaina Raza, chercheur en apprentissage automatique appliqué à l'institut Vector, Responsible AI, l'ensemble de données s'appuie sur le travail UnBIAS précédemment publié en incorporant des images en plus du texte.

Caractéristiques de l'ensemble de données

L'ensemble de données comprend environ 90 000 articles d'actualité, sélectionnés à partir d'un large éventail de sources fiables, y compris les principaux organes de presse du monde entier, de mai 2023 à septembre 2024. Ces articles ont été recueillis dans des sources de données ouvertes à l'aide de Google RSS, dans le respect des règles d'éthique de la recherche^{.1, 2}

Divers modèles d'apprentissage automatique ont été élaborés pour évaluer l'efficacité de l'ensemble de données dans la détection des biais et des faux contenus, démontrant ainsi sa polyvalence et son utilité. Ce processus d'évaluation comparative montre comment l'ensemble de données fonctionne dans différentes modalités, y compris le texte et les images, soulignant son potentiel pour l'entraînement de modèles d'IA avancés conçus pour lutter contre la désinformation.

Chaque entrée de l'ensemble de données comprend le texte intégral de l'article, les détails de la publication (date, point de vente, URL), l'évaluation des biais pour le texte et les images, ainsi que la catégorisation des sujets et la description et l'analyse des images. Un engagement en faveur d'une gouvernance éthique de l'IA exige de concevoir des systèmes d'IA transparents qui peuvent être compris et vérifiés, de tenir les développeurs responsables du contenu généré par leurs outils d'IA et d'établir des normes éthiques claires pour le développement et le déploiement des technologies d'IA. Les développeurs et les chercheurs devraient s'attacher à élaborer des algorithmes robustes et transparents, à intégrer des considérations éthiques et la protection des informations personnelles dans les données, et à collaborer avec des experts de différentes disciplines pour améliorer les techniques de détection de la désinformation. Il faut également adapter en permanence les outils d'IA pour contrer l'évolution des tactiques de désinformation.

Le développement et l'utilisation de NMB+ sont régis par des normes éthiques strictes afin d'aligner les exigences réglementaires sur le travail technique. Des examens humains complets ont été mis en œuvre pour garantir l'exactitude et la fiabilité des données et de leurs étiquettes. L'ensemble des données a fait l'objet d'audits approfondis afin de valider les méthodologies de collecte et d'étiquetage des données. Ces audits font appel à des réviseurs indépendants qui évaluent le respect des normes éthiques et l'exactitude de l'ensemble des données. Ils examinent les sources de données, les procédures de collecte et les critères d'étiquetage pour s'assurer que tous les éléments sont conformes aux lignes directrices établies en matière d'intégrité et de fiabilité de la recherche. Cet examen approfondi permet de confirmer que l'ensemble de données est à la fois solide et fiable pour être utilisé dans la formation et l'évaluation des systèmes d'IA.

Les chercheurs, les technologues et le grand public sont invités à explorer l'ensemble de données NMB+ et à se pencher sur les résultats. L'ensemble de données est accessible sur la page Hugging Face de Vector sous licence non commerciale. Les détails sont disponibles sur la page News Media Bias Plus.

Références

[1] Mon activité de collecte de données doit-elle faire l'objet d'une évaluation éthique ? | Recherche sur la santé publique | Université de Waterloo

[2] À quoi peuvent servir les données ouvertes ?

Caractéristiques de l'ensemble de données

Références

En rapport :

Transformer le soutien à la santé mentale des jeunes : Le modèle de réponse à la crise du FAIIR alimenté par l'IA

Percée de l'IA dans les prévisions météorologiques : comment l'innovation canadienne transforme les prévisions climatiques | Aardvark Weather

Explorer l'intelligence : Le parcours de Kelsey Allen, membre de la faculté Vector, de la physique des particules à l'apprentissage cognitif des machines