L'Institut Vecteur dévoile une évaluation complète des principaux modèles d'IA - Vector Institute for Artificial Intelligence

En un coup d'œil :

L'Institut Vecteur du Canada a évalué 11 modèles d'IA de premier plan provenant du monde entier, à l'aide de 16 critères de performance, dont ceux mis au point par les chercheurs de l'Institut Vecteur.
L'étude sur l'état de l'évaluation marque la première fois que des modèles ouverts et fermés ont été évalués par rapport à une série élargie de critères de référence, révélant les leaders et les retardataires en matière de performance des modèles.
Les résultats indépendants peuvent aider les organisations à développer, déployer et appliquer l'IA de manière sûre et responsable.
Pour la première fois dans ce type de recherche, Vector a partagé les critères de référence, le code sous-jacent et les résultats en open-source afin de favoriser la responsabilité, la transparence et la collaboration qui renforcent la confiance dans l'IA.

TORONTO, ON, 10 avril 2025 - L'Institut Vecteur du Canada a dévoilé les résultats de son évaluation indépendante des principaux grands modèles de langage (LLM), offrant un regard objectif sur la performance des principaux modèles d'IA d'avant-garde par rapport à une série complète de points de référence. L'étude, résumée dans un nouvel article sur son site web, évalue les capacités dans des tests de plus en plus complexes de connaissances générales, de codage, de cybersécurité et d'autres domaines critiques, fournissant des informations clés sur les forces et les limites des meilleurs agents d'intelligence artificielle.

Les entreprises d'IA mettent sur le marché de nouveaux LLM plus puissants à un rythme sans précédent, chaque nouveau modèle promettant de plus grandes capacités, allant de la génération de textes plus proches de l'humain à la résolution de problèmes et à la prise de décision avancées. L'élaboration de critères de référence largement utilisés et fiables fait progresser la sécurité de l'IA ; elle aide les chercheurs, les développeurs et les utilisateurs à comprendre les performances de ces modèles en termes de précision, de fiabilité et d'équité, ce qui permet de les déployer de manière responsable.

Dans son étude sur l'état de l'évaluation, l'équipe d'ingénierie IA de Vector a évalué 11 LLM de premier plan provenant du monde entier, y compris des modèles accessibles au public (" ouverts ") tels que DeepSeek-R1 et Cohere's Command R+, ainsi que des modèles commerciaux (" fermés ") tels que OpenAI's GPT-4o et Gemini 1.5 de Google. Chaque agent a été testé sur la base de 16 critères de performance, ce qui en fait l'une des évaluations indépendantes les plus complètes réalisées à ce jour.

"Une évaluation indépendante et objective de ce type est essentielle pour comprendre comment les modèles fonctionnent en termes de précision, de fiabilité et d'équité ", explique Deval Pandya, vice-président de l'ingénierie de l'IA chez Vector. "Des repères solides et des évaluations accessibles permettent aux chercheurs, aux organisations et aux décideurs de mieux comprendre les forces, les faiblesses et l'impact sur le monde réel de ces modèles et systèmes d'IA qui évoluent rapidement et sont très performants, et finalement de renforcer la confiance dans l'IA."

Pour la première fois dans ce type de recherche, Vector a partagé les résultats de l'étude, les critères de référence et le code sous-jacent dans un tableau de classement interactif en libre accès, afin de promouvoir la transparence et de favoriser les progrès de l'innovation en matière d'IA. "Les chercheurs, les développeurs, les régulateurs et les utilisateurs finaux peuvent vérifier les résultats de manière indépendante, comparer les performances des modèles et élaborer leurs propres repères et évaluations afin de favoriser les améliorations et la responsabilisation", explique John Willes, responsable de l'infrastructure de l'IA et de l'ingénierie de la recherche chez Vector, qui a dirigé le projet.

Ce projet est une extension naturelle du leadership de Vector dans le développement des benchmarks aujourd'hui largement utilisés par la communauté mondiale de la sécurité de l'IA, y compris MMLU-Pro, MMMU, et OS-World, qui ont été développés par les membres de la faculté de l'Institut Vector et les chaires d'IA du CIFAR Canada Wenhu Chen et Victor Zhong. Il s'appuie également sur les travaux récents de l'équipe d'ingénierie de l'IA du Vector pour développer Inspect Evals - une plateforme open-source de tests de sécurité de l'IA créée en collaboration avec l'AI Security Institute du Royaume-Uni pour normaliser les évaluations de sécurité au niveau mondial et faciliter la collaboration entre les chercheurs et les développeurs.

"Alors que les organisations cherchent à exploiter les avantages transformateurs de l'IA, Vector est dans une position unique pour fournir une expertise indépendante et fiable qui leur permet de le faire de manière sûre et responsable", explique Pandya, citant les programmes de l'institut dans lesquels ses partenaires industriels collaborent avec des chercheurs experts à la pointe de la sécurité et de l'application de l'IA. "Qu'ils soient dans les services financiers, l'innovation technologique, ou la santé ou plus, nos partenaires industriels ont accès à l'environnement de bac à sable inégalé de Vector où ils peuvent expérimenter et tester des modèles et des techniques pour aider à relever leurs défis commerciaux spécifiques liés à l'IA."

Pour en savoir plus sur l'état de l'évaluation de l'Institut Vecteur ici.
Découvrez le classement interactif ici.

À propos de l'Institut Vecteur : L'Institut Vecteur est une société indépendante à but non lucratif qui se consacre à l'avancement de l'intelligence artificielle, en excellant dans l'apprentissage machine et l'apprentissage profond. Notre vision est de stimuler l'excellence et le leadership dans la connaissance, la création et l'utilisation de l'IA au Canada afin de favoriser la croissance économique et d'améliorer la vie des Canadiens. L'Institut Vecteur est financé par la province de l'Ontario, le gouvernement du Canada par l'intermédiaire de la stratégie pancanadienne du CIFAR en matière d'IA, et des sponsors de l'industrie à travers le Canada.

Pour de plus amples informations ou des demandes de renseignements de la part des médias, veuillez contacter : media@vectorinstitute.ai

L'institut Vector dévoile une évaluation complète des principaux modèles d'IA

En un coup d'œil :

En rapport :

Les chercheurs de Vector s'attaquent aux défis de l'IA dans le monde réel à l'occasion de l'ICML 2025

L'écosystème de l'IA en Ontario : une croissance économique réelle grâce à un nombre record d'emplois et d'investissements privés

Transformer le soutien à la santé mentale des jeunes : Le modèle de réponse à la crise du FAIIR alimenté par l'IA