Benchmarking du Grok-1 de xAI
26 mars 2024
26 mars 2024
Par Adil Asif, Matthew Choi, Mark Coatsworth, Jacob Junqi Tian et John Willes
Grok-1 a été rendu open source par xAI le 17 mars 2024. À ce jour, c’est le plus grand modèle de langage jamais rendu accessible au public, avec un poids impressionnant de 314 milliards de paramètres. Grok-1 met en œuvre l’architecture de plus en plus populaire Mixture of Experts (MoE), qui est supposée être à la base des plus grands modèles de Google et OpenAI, Gemini et GPT-4.
Grok-1 représente-t-il le nouvel état de l’art en open source? Le modèle a d’abord été annoncé dans un billet de blogue en novembre 2023, mais les poids du modèle ont été discrètement publiés la semaine dernière, accompagnés d’une implémentation d’inférence basique. Dans le but de déterminer si Grok-1 représente un nouvel état de l’art en open source, les membres de l’équipe d’ingénierie IA de Vector ont évalué le modèle, le comparant à des modèles leaders tout en examinant les considérations pour son utilisation responsable.
Jetons d’abord un coup d’œil à Grok-1 sous le capot.
Grok-1 est un modèle MoE à 314B paramètres avec une longueur de contexte maximale de 8192 jetons. Cela place Grok-1 à ~4,5 fois la taille de Llama-2-70B et ~6,7 fois la taille de Mixtral 8x7B. xAI n’a encore publié aucune information détaillant les données ou le matériel utilisés pour entraîner Grok-1, bien qu’ils affirment avoir été entraîné en 2 mois à l’aide d’une pile d’entraînement personnalisée basée sur Jax, Rust et Kubernetes.
L’architecture MoE implémente huit experts, dont deux par jeton. Cela signifie que seulement ~25% (ou ~79B) de paramètres sont actifs pour un jeton donné. Les modèles MoE remplacent les couches denses à avance par des couches MoE clairsemées et un mécanisme de routage. Les avantages des modèles MoE sont qu’ils sont capables à la fois d’un préentraînement et d’une inférence significativement plus rapides que les modèles denses avec des comptes de paramètres similaires.
Les poids de Grok-1 sont la sortie brute de la phase pré-entraînement. Les poids du modèle n’ont subi aucun ajustement fin ni entraînement à l’alignement utilisant des méthodes telles que l’apprentissage par renforcement avec rétroaction humaine (RLHF). Sans ces étapes de formation supplémentaires, on ne devrait pas s’attendre à ce que Grok-1 soit performant dans les applications de clavardage.
Grok-1 a été lancé avec la licence permissive Apache 2.0, ce qui signifie que vous pouvez utiliser les poids des modèles à des fins commerciales.
Pour exécuter l’inférence Grok-1, les utilisateurs ont besoin de 8 GPU A100 de 80 Go ou du matériel avec une VRAM équivalente. Bien que seulement deux des huit experts soient utilisés pour un jeton donné, et que les poids de la version officielle aient été quantifiés pour réduire l’empreinte mémoire, une VRAM importante reste nécessaire pour charger tous les experts en mémoire.
En plus des poids du modèle, xAI a publié un script d’inférence léger qui priorisait la justesse de l’implémentation de la couche MoE plutôt que l’optimisation. Attendez-vous à ce que l’inférence soit lente — même sur du matériel puissant — jusqu’à ce qu’une inférence JAX optimisée soit publiée ou développée par la communauté open source.
Pour avoir un aperçu précoce des capacités de performance de Grok-1, il a été évalué sur le jeu de données Massive Multi-task Language Understanding (MMLU). En raison de contraintes de vitesse d’inférence, nous n’avons évalué que trois matières de la MMLU : les mathématiques du secondaire, les mathématiques universitaires et les faits globaux. En utilisant le schéma d’évaluation en 5 tirs, nous avons comparé Grok-1 à quelques générations de grands modèles des dernières années.
MMLU (5 shots)
| Modèle (Paramètres) | Mathématiques au secondaire | Mathématiques universitaires | Faits mondiaux |
|---|---|---|---|
| BLOOM (176B) | 27.0% | 25.0% | – |
| OPT (175B) | 24.4% | 33.0% | – |
| Llama-2 (70B) | 35.56% | 40% | 48% |
| Mixtral 8x7B (47B) | 38.5% | 46.0% | 51% |
| Grok-1 (314B) | 39.63% | 41% | 44% |
Pour un modèle nécessitant un matériel aussi important, les résultats sont décevants. Grok-1 surpasse les anciens modèles, mais n’atteint pas les modèles open source de pointe actuels sur ce sous-ensemble de MMLU.
Lors de l’évaluation d’un nouveau modèle, la performance n’est qu’une dimension à considérer. Il est tout aussi important de comprendre si un modèle est sécuritaire à déployer. Le modèle produira-t-il des résultats toxiques, biaisés ou d’autres produits dangereux? À l’instar du benchmarking de performance, nous évaluons Grok-1 sur le sous-ensemble Challenging du jeu de données RealToxicityPrompts . Nous calculons le score moyen de toxicité des complétions de prompts et comparons avec les meilleurs modèles issus des logiciels fermés et open source. Les scores de toxicité sont obtenus à partir de l’API Perspective.
Toxicité moyenne – RealToxicityPrompts – Difficile
| Modèle | Score moyen de toxicité |
|---|---|
| GPT-3.5 | 0.255 |
| GPT-4 | 0.222 |
| Mixtral 8x7B | 0.378 |
| Grok-1 | 0.355 |
Nos résultats suggèrent que Grok-1 pourrait être nettement plus toxique que les modèles à source fermée, mais similaire aux modèles open source de pointe. Ce niveau de toxicité peut être intentionnel; xAI présentait Grok comme un mannequin avec « un peu d’esprit et un côté rebelle ». Une mise en garde importante à retenir est que Grok-1 est le modèle brut pré-entraîné et ne bénéficie pas des étapes d’entraînement secondaires qui visent souvent la réduction de la toxicité.
À l’heure actuelle, Grok-1 est le plus grand modèle d’IA open source jamais mis à disposition. Il est plusieurs fois plus grand que les modèles ouverts de pointe actuels tels que Llama-2-70B ou Mixtral 8x7B, cependant, les premiers résultats suggèrent que Grok-1 échoue dans les comparaisons de performance avec l’état de la technologie open source et que la production générée est nettement plus toxique que les alternatives open source.