Un nouvel ensemble de données multimodal aidera au développement de systèmes d’IA éthiques

23 octobre 2024

Recherche 2024Recherche 2024

Par Shaina Raza et Deval Pandya

L’équipe d’ingénierie IA du Vector Institute a développé Newsmediabias-plus (NMB+), un nouveau jeu de données multimodal. Il comprend des articles en texte intégral accompagnés de détails complets sur la publication. Il présente également une vaste catégorisation des biais, abordant des enjeux cruciaux tels que les biais de genre et raciaux, ainsi que des sujets spécifiques tels que les penchants idéologiques et le cadrage, la discrimination de genre et les préoccupations environnementales. 

NMB+ est conçu pour les chercheurs universitaires, les ONG et les groupes à vocation sociale. Cela s’inscrit dans l’objectif de Vector de traiter les risques à court et à long terme en fournissant des outils pratiques pour des systèmes d’IA sécuritaires. Les utilisations potentielles incluent :

  • S’assurer que l’IA respecte les principes de confiance et de sécurité de l’IA de Vector
  • Analyse des tendances médiatiques et des styles de reportage à travers différents médias
  • Entraîner l’IA à détecter et traiter équitablement la désinformation dans les textes et les images.

Développé par Shaina Raza, scientifique en apprentissage automatique appliqué à Vector Institute, Responsible AI, ce jeu de données s’appuie sur les travaux publiés précédemment sur UnBIAS en incorporant des images aux côtés du texte.

Caractéristiques de l’ensemble de données

L’ensemble de données comprend environ 90 000 articles de presse, sélectionnés à partir d’un large éventail de sources fiables, y compris de grands médias du monde entier, de mai 2023 à septembre 2024. Ces articles ont été recueillis via des sources de données ouvertes utilisant Google RSS, en respectant les directives d’éthique en recherche. 1, 2    

Divers modèles d’apprentissage automatique ont été construits pour évaluer l’efficacité de l’ensemble de données à détecter les biais et le contenu faux, démontrant ainsi sa polyvalence et son utilité. Ce processus de benchmarking montre comment l’ensemble de données se comporte à travers différentes modalités, incluant le texte et les images, mettant en lumière son potentiel pour entraîner des modèles d’IA avancés conçus pour combattre la désinformation.

Chaque entrée dans l’ensemble de données comprend le texte complet de l’article, les détails de publication (date, sortie, URL), des évaluations de biais pour le texte et les images, ainsi que des catégorisations thématiques et des descriptions et analyses d’images. Un engagement envers une gouvernance éthique de l’IA exige de concevoir des systèmes d’IA transparents qui peuvent être compris et audités, de tenir les développeurs responsables du contenu généré par leurs outils d’IA, et d’établir des normes éthiques claires pour le développement et le déploiement des technologies d’IA. Les développeurs et chercheurs devraient se concentrer sur la construction d’algorithmes robustes et transparents, l’intégration des considérations éthiques et la protection des renseignements personnels dans les données, et la collaboration avec des experts de toutes disciplines pour améliorer les techniques de détection de la désinformation. Cela exige aussi d’adapter continuellement les outils d’IA pour contrer l’évolution des tactiques de désinformation.

Le développement et l’utilisation de NMB+ sont régis par des normes éthiques strictes afin d’aligner les exigences réglementaires avec les travaux techniques. Des examens humains complets ont été mis en œuvre pour assurer l’exactitude et la fiabilité des données et de leurs étiquettes. L’ensemble de données a fait l’objet d’audits approfondis pour valider les méthodologies de collecte et d’étiquetage des données. Ces audits impliquent des évaluateurs indépendants qui évaluent le respect des normes éthiques et l’exactitude du jeu de données. Ils examinent les sources de données, les procédures de collecte et les critères d’étiquetage afin de s’assurer que tous les éléments respectent les lignes directrices établies sur l’intégrité et la fiabilité de la recherche. Cette revue approfondie permet de confirmer que l’ensemble de données est à la fois robuste et fiable pour l’entraînement et l’évaluation des systèmes d’IA.

Les chercheurs, les technologues et le grand public sont invités à explorer l’ensemble de données NMB+ et à approfondir les résultats. L’ensemble de données est accessible sur la page Hugging Face de Vector sous une licence non commerciale. Les détails sont disponibles à la page News Media Bias Plus .

Références

[1] Mon activité de collecte de données nécessite-t-elle un examen éthique? | Recherche | Université de Waterloo

[2] À quoi servent les données ouvertes?

À lire aussi :

2026
Réflexions
Recherche
Recherche 2026

La nouvelle cartographie de l’invisible

Les femmes écrivent sur un tableau blanc. Il y a un homme à sa gauche qui regarde le tableau.
2025
Recherche
Recherche 2025

Les chercheurs en vecteurs font avancer les frontières de l’IA avec 80 articles au NeurIPS 2025

2025
Apprentissage automatique
Recherche
Recherche 2025

Quand l’IA intelligente devient trop intelligente : Principaux enseignements de l’atelier 2025 sur la sécurité et la vie privée en apprentissage automatique de Vector