Quand l'IA rencontre l'humain : Évaluer les modèles multimodaux à travers une lentille centrée sur l'humain - Présentation de HumaniBench
8 août 2025
8 août 2025
Par Shaina Raza et Veronica Chatrath
Les modèles d'IA deviennent rapidement plus grands, plus rapides et plus aptes à comprendre les images et le texte ensemble. Cependant, si la précision et la rapidité sont souvent célébrées, une question clé demeure : Dans quelle mesure ces modèles s'alignent-ils sur les valeurs humaines ? L'équité, l'empathie, l'inclusivité et le jugement éthique échappent encore à de nombreux systèmes de pointe. C'est pourquoi HumaniBench entre en jeu.
Développé comme le premier benchmark complet pour l'évaluation centrée sur l'humain des grands modèles multimodaux (LMM), HumaniBench représente une avancée significative dans la manière dont nous évaluons les systèmes d'intelligence artificielle. Il va au-delà des mesures traditionnelles et évalue les modèles en fonction de sept principes humains essentiels : l 'équité, l'éthique, la compréhension, le raisonnement, l'inclusion du langage, l'empathie et la robustesse.
HumaniBench s'appuie sur un ensemble de données méticuleusement sélectionnées de 32 000 paires image-question tirées d'articles d'actualité du monde réel sur des sujets divers et socialement pertinents. Pour chaque image, nous générons une légende et attribuons une étiquette d'attribut social (âge, sexe, race, sport ou profession) afin de créer de riches métadonnées pour l'annotation des tâches en aval. Le pipeline d'annotation s'appuie sur un flux de travail GPT-4o évolutif, suivi d'une vérification rigoureuse par des experts, garantissant que chaque échantillon répond aux normes les plus strictes en matière de qualité et de pertinence.
Pour refléter la complexité des contextes humains, HumaniBench propose sept tâches différentes, chacune étant liée à un ou plusieurs principes centrés sur l'homme :
À l'aide de ce cadre, l'équipe a comparé 15 LMM de premier plan, à la fois des modèles open-source comme Phi4, Gemma, Llama 3.2, CogVLM2 et LLaVA, et des modèles propriétaires comme GPT-4o et Gemini 2.0. Les résultats de l'analyse comparative ont été surprenants : les modèles propriétaires ont obtenu de bons résultats dans les tâches de raisonnement, d'empathie et de compréhension du langage général des LMM, mais les modèles open source tels que Qwen et Phi4 ont obtenu d'excellents résultats dans les tâches d'ancrage visuel et de robustesse. Aucun modèle n'a été parfait ; presque tous ont présenté des divergences dans leur traitement des différents groupes démographiques, en particulier en fonction de l'âge, de la race et de la langue.
Tableau 1 : Comparaison des références LMM avec nos sept principes centrés sur l'humain. Les colonnes sont marquées ✓ si elles sont couvertes, ✗ si elles ne le sont pas, ou ∼ si elles sont partiellement couvertes. "HC" indique une couverture centrée sur l'humain ; "Data Source" indique si les images sont réelles (R) ou synthétiques (S), avec (SD) pour Stable Diffusion (diffusion stable).
L'empathie, en tant que tâche sociale et cognitive complexe, reste un critère essentiel pour évaluer l'alignement de l'IA centrée sur l'humain. Les résultats de HumaniBench montrent que les modèles à source fermée génèrent généralement des légendes avec plus d'empathie et conservent un ton équilibré, reflétant à la fois l'intelligence émotionnelle et la sensibilité au contexte. Cela constitue un précédent précieux pour les modèles à source ouverte. Dans le même temps, la capacité de détection visuelle de certains modèles open-source, comme Qwen et Phi, est supérieure à celle des classificateurs aléatoires de détection d'objets auto-supervisés. Dans l'ensemble, ces résultats mettent en évidence à la fois les promesses et les limites des LMM actuels et indiquent clairement les possibilités pour la communauté des logiciels libres de faire progresser les systèmes d'IA responsables, équitables et émotionnellement intelligents.
Figure 2 : scores alignés sur les principes du HumaniBench. Chaque entrée est le score moyen des tâches liées à ce principe (↑ plus c'est élevé, mieux c'est). †Source fermée ; toutes les autres sources ouvertes.
En résumé, HumaniBench est plus qu'un tableau de bord, c'est un outil de diagnostic qui permet de comprendre où les modèles réussissent, où ils échouent, et pourquoi cela a de l'importance pour les humains. L'ensemble des données, le code et la suite d'évaluation sont accessibles au public ici, dans un esprit de transparence et de collaboration open-source. Alors que nous nous dirigeons vers une IA plus centrée sur l'humain, HumaniBench constitue une référence opportune, invitant le domaine à ne pas seulement viser plus haut, mais à mieux s'aligner.
Pour les chercheurs, les développeurs et tous ceux qui s'investissent dans l'avenir de l'IA responsable, HumaniBench offre une voie à suivre : mesurable, significative et centrée sur l'humain.