Benchmarking du Grok-1 de xAI

26 mars 2024

Recherche en IA générative 2024

xAI vient de lancer un modèle MoE 314B appelé Grok-1. Et alors?

Par Adil Asif, Matthew Choi, Mark Coatsworth, Jacob Junqi Tian et John Willes

Grok-1 a été rendu open source par xAI le 17 mars 2024. À ce jour, c’est le plus grand modèle de langage jamais rendu accessible au public, avec un poids impressionnant de 314 milliards de paramètres. Grok-1 met en œuvre l’architecture de plus en plus populaire Mixture of Experts (MoE), qui est supposée être à la base des plus grands modèles de Google et OpenAI, Gemini et GPT-4.
Grok-1 représente-t-il le nouvel état de l’art en open source? Le modèle a d’abord été annoncé dans un billet de blogue en novembre 2023, mais les poids du modèle ont été discrètement publiés la semaine dernière, accompagnés d’une implémentation d’inférence basique. Dans le but de déterminer si Grok-1 représente un nouvel état de l’art en open source, les membres de l’équipe d’ingénierie IA de Vector ont évalué le modèle, le comparant à des modèles leaders tout en examinant les considérations pour son utilisation responsable.

Jetons d’abord un coup d’œil à Grok-1 sous le capot.

Grok-1 : Expliqué

Grok-1 est un modèle MoE à 314B paramètres avec une longueur de contexte maximale de 8192 jetons. Cela place Grok-1 à ~4,5 fois la taille de Llama-2-70B et ~6,7 fois la taille de Mixtral 8x7B. xAI n’a encore publié aucune information détaillant les données ou le matériel utilisés pour entraîner Grok-1, bien qu’ils affirment avoir été entraîné en 2 mois à l’aide d’une pile d’entraînement personnalisée basée sur Jax, Rust et Kubernetes.

L’architecture MoE implémente huit experts, dont deux par jeton. Cela signifie que seulement ~25% (ou ~79B) de paramètres sont actifs pour un jeton donné. Les modèles MoE remplacent les couches denses à avance par des couches MoE clairsemées et un mécanisme de routage. Les avantages des modèles MoE sont qu’ils sont capables à la fois d’un préentraînement et d’une inférence significativement plus rapides que les modèles denses avec des comptes de paramètres similaires. 

Les poids de Grok-1 sont la sortie brute de la phase pré-entraînement. Les poids du modèle n’ont subi aucun ajustement fin ni entraînement à l’alignement utilisant des méthodes telles que l’apprentissage par renforcement avec rétroaction humaine (RLHF). Sans ces étapes de formation supplémentaires, on ne devrait pas s’attendre à ce que Grok-1 soit performant dans les applications de clavardage.

Grok-1 a été lancé avec la licence permissive Apache 2.0, ce qui signifie que vous pouvez utiliser les poids des modèles à des fins commerciales.

Grok-1 : En pratique

Pour exécuter l’inférence Grok-1, les utilisateurs ont besoin de 8 GPU A100 de 80 Go ou du matériel avec une VRAM équivalente. Bien que seulement deux des huit experts soient utilisés pour un jeton donné, et que les poids de la version officielle aient été quantifiés pour réduire l’empreinte mémoire, une VRAM importante reste nécessaire pour charger tous les experts en mémoire.

En plus des poids du modèle, xAI a publié un script d’inférence léger qui priorisait la justesse de l’implémentation de la couche MoE plutôt que l’optimisation. Attendez-vous à ce que l’inférence soit lente — même sur du matériel puissant — jusqu’à ce qu’une inférence JAX optimisée soit publiée ou développée par la communauté open source.

Pour avoir un aperçu précoce des capacités de performance de Grok-1, il a été évalué sur le jeu de données Massive Multi-task Language Understanding (MMLU). En raison de contraintes de vitesse d’inférence, nous n’avons évalué que trois matières de la MMLU : les mathématiques du secondaire, les mathématiques universitaires et les faits globaux. En utilisant le schéma d’évaluation en 5 tirs, nous avons comparé Grok-1 à quelques générations de grands modèles des dernières années.

MMLU (5 shots)

Modèle (Paramètres)Mathématiques au secondaireMathématiques universitairesFaits mondiaux
BLOOM (176B)27.0%25.0%
OPT (175B)24.4%33.0%
Llama-2 (70B)35.56%40%48%
Mixtral 8x7B (47B)38.5%46.0%51%
Grok-1 (314B)39.63%41%44%

Pour un modèle nécessitant un matériel aussi important, les résultats sont décevants. Grok-1 surpasse les anciens modèles, mais n’atteint pas les modèles open source de pointe actuels sur ce sous-ensemble de MMLU.

Lors de l’évaluation d’un nouveau modèle, la performance n’est qu’une dimension à considérer. Il est tout aussi important de comprendre si un modèle est sécuritaire à déployer. Le modèle produira-t-il des résultats toxiques, biaisés ou d’autres produits dangereux? À l’instar du benchmarking de performance, nous évaluons Grok-1 sur le sous-ensemble Challenging du jeu de données RealToxicityPrompts . Nous calculons le score moyen de toxicité des complétions de prompts et comparons avec les meilleurs modèles issus des logiciels fermés et open source. Les scores de toxicité sont obtenus à partir de l’API Perspective.

Toxicité moyenne – RealToxicityPrompts – Difficile 

ModèleScore moyen de toxicité
GPT-3.50.255
GPT-40.222
Mixtral 8x7B0.378
Grok-10.355

Nos résultats suggèrent que Grok-1 pourrait être nettement plus toxique que les modèles à source fermée, mais similaire aux modèles open source de pointe. Ce niveau de toxicité peut être intentionnel; xAI présentait Grok comme un mannequin avec « un peu d’esprit et un côté rebelle ». Une mise en garde importante à retenir est que Grok-1 est le modèle brut pré-entraîné et ne bénéficie pas des étapes d’entraînement secondaires qui visent souvent la réduction de la toxicité.

Conclusion

À l’heure actuelle, Grok-1 est le plus grand modèle d’IA open source jamais mis à disposition. Il est plusieurs fois plus grand que les modèles ouverts de pointe actuels tels que Llama-2-70B ou Mixtral 8x7B, cependant, les premiers résultats suggèrent que Grok-1 échoue dans les comparaisons de performance avec l’état de la technologie open source et que la production générée est nettement plus toxique que les alternatives open source.

À lire aussi :

2026
Réflexions
Recherche
Recherche 2026

La nouvelle cartographie de l’invisible

Les femmes écrivent sur un tableau blanc. Il y a un homme à sa gauche qui regarde le tableau.
2025
Recherche
Recherche 2025

Les chercheurs en vecteurs font avancer les frontières de l’IA avec 80 articles au NeurIPS 2025

2025
Apprentissage automatique
Recherche
Recherche 2025

Quand l’IA intelligente devient trop intelligente : Principaux enseignements de l’atelier 2025 sur la sécurité et la vie privée en apprentissage automatique de Vector