Quand l’IA rencontre les affaires humaines : évaluer les modèles multimodaux à travers une perspective centrée sur l’humain – Voici HumaniBench

8 août 2025

Recherche en ingénierie de l’IA 2025

Par Shaina Raza et Veronica Chatrath

Les modèles d’IA deviennent rapidement plus grands, plus rapides et plus capables de comprendre les images et le texte ensemble. Cependant, bien que la précision et la rapidité soient souvent célébrées, une question clé demeure : dans quelle mesure ces modèles s’alignent-ils avec les valeurs humaines? L’équité, l’empathie, l’inclusivité et le jugement éthique restent insaisissables pour de nombreux systèmes à la fine pointe. C’est là que HumaniBench entre en jeu.

Développé comme le premier repère complet pour l’évaluation centrée sur l’humain de grands modèles multimodaux (LMM), HumaniBench représente une avancée majeure dans notre façon d’évaluer les systèmes d’IA. Il va au-delà des métriques traditionnelles, remettant en question les modèles sur sept principes essentiels alignés sur l’humain : l’équité, l’éthique, la compréhension, le raisonnement, l’inclusivité linguistique, l’empathie et la robustesse

HumaniBench repose sur un ensemble de données méticuleusement sélectionné de 32 000 paires images-questions sélectionnées à partir d’articles d’actualité réels sur divers sujets socialement pertinents. Pour chaque image, nous générons une légende et attribuons une balise d’attribut social (âge, genre, race, sport ou profession) afin de créer des métadonnées riches pour l’annotation des tâches en aval. Le pipeline d’annotation exploite un flux de travail évolutif GPT-4o, suivi d’une vérification rigoureuse d’experts, garantissant que chaque échantillon répond aux normes les plus élevées de qualité et de pertinence.

Pour refléter la complexité des contextes humains, HumaniBench propose sept tâches diverses, chacune correspondant à un ou plusieurs principes centrés sur l’humain :

  • Compréhension de la scène (T1) : Le modèle peut-il raisonner sur les scénarios sociaux du quotidien?
  • Identité d’instance (T2) : Peut-elle reconnaître les individus et leurs rôles dans leur contexte?
  • VQA à choix multiples (T3) : Capte-t-il des attributs visuels nuancés?
  • Multilinguisme (T4) : La performance est-elle constante entre les langues à haute et faible qualité de ressources? Les LMM traitent-elles équitablement les langues sous-représentées?
  • Ancrage visuel (T5) : Peut-il détecter des objets visuels dans les images et connecter le texte aux bonnes parties d’une image?
  • Sous-titrage empathique (T6) : Répond-il avec une intelligence émotionnelle?
  • Image Resilience (T7) : Est-elle robuste lorsque les images sont perturbées ou sollicitées sous des distorsions réelles?

Grâce à ce cadre, l’équipe a testé 15 LMM de premier plan, à la fois open source comme Phi4, Gemma, Llama 3.2, CogVLM2 et LLaVA, ainsi que des modèles propriétaires comme GPT-4o et Gemini 2.0. Les résultats du benchmarking ont montré des résultats surprenants : les modèles propriétaires ont bien performé sur les tâches de raisonnement, d’empathie et de compréhension générale du langage provenant des LMM, mais des modèles open source comme Qwen, Phi4 ont très bien performé dans les tâches d’ancrage visuel et de robustesse. Aucun modèle n’a performé à la perfection; presque tous présentaient des divergences dans leur traitement des différents groupes démographiques, particulièrement selon l’âge, la race et la langue.

Tableau 1 : Comparaison des repères LMM avec nos sept principes centrés sur l’humain. Les colonnes sont marquées ✓ si couvertes, ✗ si non, ou ∼ si elles sont partiellement couvertes. « HC » désigne une couverture centrée sur l’humain; « Source de données » indique si les images sont réelles (R) ou synthétiques (S), avec (SD) pour diffusion stable.

L’empathie, en tant que tâche sociale et cognitive complexe, demeure une référence essentielle pour évaluer l’alignement de l’IA centrée sur l’humain. Les résultats de HumaniBench montrent que les modèles à source fermée généraient généralement des sous-titres avec plus d’empathie et conservaient un ton équilibré, reflétant à la fois l’intelligence émotionnelle et la sensibilité au contexte. Cela établit un précédent précieux à suivre pour les modèles open source. Mais, en même temps, la capacité de détection visuelle de certains modèles open source comme Qwen et Phi est bien plus que des classificateurs de détection d’objets auto-supervisés aléatoires. Dans l’ensemble, ces résultats mettent en lumière à la fois le potentiel et les limites des LMM actuels, et mettent en lumière des opportunités claires pour la communauté open source de faire progresser des systèmes d’IA responsables, équitables et émotionnellement intelligents.

Figure 2 : Scores alignés sur les principes de HumaniBench. Chaque entrée est la note moyenne des tâches assignées à ce principe (↑ plus c’est élevé, mieux c’est). † Source fermée; tous les autres open source.

En résumé, HumaniBench offre plus qu’un simple tableau de pointage, c’est un outil diagnostique pour comprendre où les modèles réussissent, où ils échouent, et pourquoi cela importe réellement pour les humains. Le jeu de données complet, le code et la suite d’évaluation sont disponibles publiquement ici, dans un esprit de transparence et de collaborations open source. Alors que nous progressons vers une IA plus centrée sur l’humain, HumaniBench demeure une référence opportune, invitant le secteur non seulement à viser plus haut, mais aussi à mieux s’aligner.

Pour les chercheurs, les développeurs et toute personne investie dans l’avenir de l’IA responsable, HumaniBench offre une voie à suivre : mesurable, significative et centrée sur l’humain.

À lire aussi :

2026
Réflexions
Recherche
Recherche 2026

La nouvelle cartographie de l’invisible

Les femmes écrivent sur un tableau blanc. Il y a un homme à sa gauche qui regarde le tableau.
2025
Recherche
Recherche 2025

Les chercheurs en vecteurs font avancer les frontières de l’IA avec 80 articles au NeurIPS 2025

Logo vectoriel
2025
Réflexions

Une nouvelle étude révèle l’impact économique de 100 milliards de dollars de l’IA à travers le Canada, avec l’Ontario en tête