Le Vector Institute dévoile une évaluation complète des principaux modèles d’IA

10 avril 2025

Nouvelles 2025

En un coup d’œil :

  • L’Institut Vector du Canada a évalué 11 modèles d’IA de premier plan à travers le monde, en utilisant 16 benchmarks de performance, y compris ceux initiés par des chercheurs en vecteurs.
  • L’étude State of Evaluation marque la première fois que des modèles open source et fermés sont évalués selon un ensemble élargi de benchmarks, révélant des leaders et des retardataires en matière de performance des modèles. 
  • Les résultats indépendants peuvent aider les organisations à développer, déployer et appliquer l’IA de manière sécuritaire et responsable.
  • Pour une première dans ce type de recherche, Vector a partagé les références, le code sous-jacent et les résultats en open source afin de favoriser la responsabilité, la transparence et la collaboration qui renforcent la confiance envers l’IA. 

TORONTO, ON, 10 avril 2025 — L’Institut canadien des vecteurs a dévoilé les résultats de son évaluation indépendante des grands modèles de langage (LLM) de premier plan, offrant un regard objectif sur la performance des modèles d’IA de pointe par rapport à une gamme complète de benchmarks. L’étude, résumée dans un nouvel article sur son site web, évalue les capacités dans des tests de plus en plus complexes de connaissances générales, de codage, de cybersécurité et d’autres domaines critiques, fournissant des informations clés sur les forces et les limites des meilleurs agents de l’IA.

Les entreprises d’IA lancent de nouveaux LLM plus puissants à un rythme sans précédent, chaque nouveau modèle promettant de plus grandes capacités, allant de la génération de texte plus humaine à la résolution de problèmes avancée et à la prise de décision. Le développement de benchmarks largement utilisés et fiables améliore la sécurité de l’IA; Il aide les chercheurs, les développeurs et les utilisateurs à comprendre comment ces modèles fonctionnent en termes de précision, de fiabilité et d’équité, permettant leur déploiement responsable.

Dans son étude State of Evaluation, l’équipe d’ingénierie de l’IA de Vector a évalué 11 LLM de premier plan à travers le monde, incluant à la fois des modèles publics (« ouverts ») comme DeepSeek-R1 et Command R+ de Cohere, ainsi que des modèles commerciaux (« fermés ») comme GPT-4o d’OpenAI et Gemini 1.5 de Google. Chaque agent a été testé selon 16 critères de performance, ce qui en fait l’une des évaluations les plus complètes et indépendantes réalisées à ce jour. 

« Une évaluation indépendante et objective de ce type est essentielle pour comprendre comment les modèles fonctionnent en termes de précision, de fiabilité et d’équité », explique Deval Pandya, vice-président de l’ingénierie IA chez Vector. « Des repères robustes et des évaluations accessibles permettent aux chercheurs, organisations et décideurs de mieux comprendre les forces, faiblesses et l’impact concret de ces modèles et systèmes d’IA hautement performants et en évolution rapide, et, ultimement, de favoriser la confiance envers l’IA. »

Pour une première dans ce type de recherche, Vector a partagé les résultats de l’étude, les références et le code sous-jacent dans un classement interactif et open source afin de promouvoir la transparence et de favoriser les avancées en matière d’innovation en IA. « Les chercheurs, les développeurs, les régulateurs et les utilisateurs finaux peuvent vérifier de façon indépendante les résultats, comparer la performance des modèles et élaborer leurs propres repères et évaluations pour favoriser des améliorations et une reddition de comptes », explique John Willes, gestionnaire de l’infrastructure IA et de l’ingénierie de la recherche chez Vector, qui a dirigé le projet.

Le projet est une extension naturelle du leadership de Vector dans l’élaboration des benchmarks désormais largement utilisés dans la communauté mondiale de la sécurité de l’IA, incluant MMLU-Pro, MMMU et OS-World, développés par les membres du corps professoral de l’Institut Vector et les présidents canadiens de l’IA CIFAR, Wenhu Chen et Victor Zhong. Elle s’appuie également sur les travaux récents de l’équipe d’ingénierie IA de Vector pour développer Inspect Evals — une plateforme open source de tests de sécurité de l’IA créée en collaboration avec l’Institut britannique de sécurité de l’IA afin de standardiser les évaluations mondiales de sécurité et de faciliter la collaboration entre chercheurs et développeurs.

« Alors que les organisations cherchent à libérer les avantages transformateurs de l’IA, Vector est dans une position unique pour fournir une expertise indépendante et fiable qui leur permet de le faire de manière sécuritaire et responsable », explique Pandya, citant les programmes de l’institut dans lesquels ses partenaires de l’industrie collaborent avec des chercheurs experts à l’avant-garde de la sécurité et de l’application de l’IA. « Qu’ils soient dans les services financiers, l’innovation technologique, la santé ou plus encore, nos partenaires industriels ont accès à l’environnement bac à sable inégalé de Vector où ils peuvent expérimenter et tester des modèles et des techniques pour aider à relever leurs défis d’affaires liés à l’IA. »

  • Lisez-en plus sur « l’état d’évaluation » du Vector Institute ici.
  • Découvrez ici un classement interactif.

À propos de Vector Institute : Le Vector Institute est une entreprise indépendante à but non lucratif dédiée à l’avancement de l’intelligence artificielle, excellant dans l’apprentissage automatique et l’apprentissage profond. Notre vision est de favoriser l’excellence et le leadership dans la connaissance, la création et l’utilisation de l’IA au Canada afin de favoriser la croissance économique et d’améliorer la vie des Canadiens. L’Institut des vecteurs est financé par la province de l’Ontario, le gouvernement du Canada via la Stratégie pancanadienne d’IA du CIFAR, ainsi que par des commanditaires industriels à travers le Canada.

Pour plus d’informations ou pour toute question médiatique, veuillez contacter : media@vectorinstitute.ai

À lire aussi :

Les femmes écrivent sur un tableau blanc. Il y a un homme à sa gauche qui regarde le tableau.
2025
Recherche
Recherche 2025

Les chercheurs en vecteurs font avancer les frontières de l’IA avec 80 articles au NeurIPS 2025

Logo vectoriel
2025
Réflexions

Une nouvelle étude révèle l’impact économique de 100 milliards de dollars de l’IA à travers le Canada, avec l’Ontario en tête

2025
Apprentissage automatique
Recherche
Recherche 2025

Quand l’IA intelligente devient trop intelligente : Principaux enseignements de l’atelier 2025 sur la sécurité et la vie privée en apprentissage automatique de Vector