L’Institut Vecteur dévoile une évaluation exhaustive de modèles d’IA de premier plan

Aperçu :

L’Institut Vecteur du Canada a évalué 11 modèles d’IA de premier plan provenant du monde entier à l’aide de 16 critères de référence en matière de rendement, donc ceux mis au point par les chercheurs de Vecteur.
L’étude sur l’état de l’évaluation a permis d’évaluer pour la première fois des modèles à source ouverte et fermée en fonction d’une gamme élargie de critères de référence, révélant ainsi les modèles les plus performants et ceux en retard.
Ces résultats indépendants peuvent aider les organisations à concevoir, à déployer et à appliquer l’IA de façon sûre et responsable.
Une première pour ce type de recherche, Vecteur a publié les critères de référence, le code sous-jacent et les résultats en libre accès pour favoriser la redevabilité, la transparence ainsi qu’une collaboration qui renforce la confiance à l’égard de l’IA.

TORONTO (ONTARIO), 10 avril 2025 — L’Institut Vecteur du Canada a dévoilé les résultats de son évaluation indépendante de modèles de langage de grande taille (LLM), qui offre un regard objectif sur le rendement des modèles d’IA les plus en vue en fonction d’une série exhaustive de critères de référence. L’étude, résumée dans un nouvel article sur son site Web, évalue les capacités des meilleurs agents d’intelligence artificielle dans le cadre de tests de plus en plus complexes portant sur les connaissances générales, le codage, la cybersécurité et d’autres domaines critiques, offrant ainsi des renseignements clés sur leurs forces et leurs limites.

Les entreprises spécialisées dans l’IA développent et commercialisent de nouveaux modèles de langage de grande taille plus puissants à un rythme sans précédent. Chaque nouveau modèle promet des capacités accrues, allant de la production de textes encore plus naturels à la résolution de problèmes et à la prise de décision avancée. L’élaboration de critères de référence largement utilisés et fiables permet d’accroître la sûreté de l’IA; elle permet aux chercheurs, aux développeurs et aux utilisateurs d’évaluer la performance de ces modèles sous les angles de la précision, de la fiabilité et de l’équité, favorisant ainsi un déploiement responsable.

Dans son étude de l’état de l’évaluation, l’équipe d’ingénierie de l’IA de Vecteur a évalué 11 modèles de langage de grande taille de premier plan du monde entier, y compris des modèles publics (à source ouverte) comme DeepSeek-R1 et Command R+ de Cohere, ainsi que des modèles commerciaux (à source fermée) comme GPT-4o d’OpenAI et Gemini 1.5 de Google. Chaque agent a été évalué en fonction de 16 critères de référence en matière de rendement, ce qui en fait l’une des évaluations les plus exhaustives et indépendantes réalisées à ce jour.

« Une évaluation indépendante et objective du genre est essentielle pour comprendre comment les modèles se comportent en ce qui a trait à la précision, à la fiabilité et à l’équité », explique Deval Pandya, vice-président de l’ingénierie de l’IA chez Vecteur. « Des critères de référence robustes et des évaluations accessibles permettent aux chercheurs, aux organisations et aux décideurs politiques de mieux comprendre les forces, les faiblesses et les répercussions concrètes de ces modèles et systèmes d’IA hautement performants et à l’évolution rapide et, en fin de compte, de renforcer la confiance à l’égard de l’IA. »

Une première pour ce type de recherche, Vecteur a publié les résultats de l’étude, les critères de référence et le code sous-jacent dans un tableau de classement interactif à source ouverte pour encourager la transparence et favoriser les avancées en innovation dans le domaine de l’IA. « Les chercheurs, les développeurs, les organismes de réglementation et les utilisateurs peuvent vérifier les résultats de façon indépendante, comparer le rendement des modèles et élaborer leurs propres critères de référence et évaluations pour favoriser les améliorations et la redevabilité », affirme John Willes, responsable de l’équipe technique du projet à l’Institut Vecteur.

Le projet est un prolongement naturel du leadership de Vecteur dans l’élaboration de critères de référence maintenant largement utilisés dans la communauté mondiale de la sûreté de l’IA, y compris MMLU-Pro, MMMU et OS-World, qui ont été élaborés par Wenhu Chen et Victor Zhong, membres du corps professoral de l’Institut Vecteur et titulaires des chaires en IA Canada-CIFAR. Le projet s’appuie également sur les travaux réalisés récemment par l’équipe d’ingénierie de l’IA de Vecteur pour concevoir Inspect Evals – une plateforme de vérification de la sûreté de l’IA à source ouverte créée en collaboration avec l’AI Security Institute du Royaume-Uni pour standardiser les évaluations de la sûreté à l’échelle mondiale et faciliter la collaboration entre les chercheurs et les développeurs.

« À mesure que les organisations cherchent à exploiter les avantages transformateurs de l’IA, Vecteur se trouve dans une position privilégiée pour offrir une expertise indépendante et de confiance qui leur permet d’agir de façon sécuritaire et responsable », explique Pandya, citant les programmes de l’Institut dans lesquels les partenaires de l’industrie collaborent avec des chercheurs experts à l’avant-garde de la sûreté et de l’application de l’IA. « Qu’ils œuvrent dans le domaine des services financiers, de l’innovation technologique, de la santé ou autre, nos partenaires de l’industrie ont accès à l’environnement de test inégalé de Vecteur, où ils peuvent expérimenter avec des modèles et des techniques et les mettre à l’essai afin de résoudre leurs problèmes commerciaux particuliers liés à l’intelligence artificielle. »

Apprenez-en plus ici à propos de l’étude; consultez le tableau de classement interactif sur l’état de l’évaluation de l’Institut Vecteur ici.

À propos de l’Institut Vecteur : L’Institut Vecteur est une société indépendante et sans but lucratif qui se consacre à l’avancement de l’intelligence artificielle ainsi qu’à l’excellence en apprentissage automatique et apprentissage profond. Sa vision consiste à stimuler l’excellence et le leadership dans les connaissances, la création et l’utilisation de l’intelligence artificielle (IA) au Canada afin de favoriser la croissance économique et d’améliorer la vie des Canadiens. L’Institut Vecteur est financé par la province de l’Ontario, par le gouvernement du Canada au moyen de la Stratégie pancanadienne en matière d’intelligence artificielle ainsi que par des commanditaires de l’industrie partout au Canada.

Pour de plus amples renseignements ou pour des questions des médias, veuillez écrire à l’adresse : media@vectorinstitute.ai

Aperçu :

Related:

Real World Multi-Agent Reinforcement Learning – Latest Developments and Applications