Évaluation comparative de Grok-1 de xAI

26 mars 2024

IA générative Recherche

xAI vient de sortir un modèle 314B MoE appelé Grok-1. Et alors ?

Par Adil Asif, Matthew Choi, Mark Coatsworth, Jacob Junqi Tian et John Willes

Grok-1 a été mis en libre accès par xAI le 17 mars 2024. À ce jour, il s'agit du plus grand modèle linguistique jamais mis à la disposition du public, avec 314 milliards de paramètres. Grok-1 met en œuvre l'architecture de mélange d'experts (MoE), de plus en plus populaire, qui serait à la base des plus grands modèles de Google et d'OpenAI, Gemini et GPT-4.
Grok-1 représente-t-il le nouvel état de l'art en matière de logiciels libres ? Le modèle a été annoncé pour la première fois dans un billet de blog en novembre 2023, mais les poids du modèle ont été discrètement publiés la semaine dernière, en même temps qu'une implémentation d'inférence dépouillée. Afin de déterminer si Grok-1 représente un nouvel état de l'art en matière de logiciels libres, les membres de l'équipe d'ingénierie IA de Vector ont évalué le modèle, en le comparant aux principaux modèles tout en examinant les considérations relatives à son utilisation responsable.

Jetons d'abord un coup d'œil à Grok-1 sous le capot.

Grok-1 : expliqué

Grok-1 est un modèle MoE de 314B paramètres avec une longueur de contexte maximale de 8192 tokens. Cela place Grok-1 à environ 4,5 fois la taille de Llama-2-70B et à environ 6,7 fois la taille de Mixtral 8x7B. xAI n'a pas encore publié d'informations détaillant les données ou le matériel utilisés pour entraîner Grok-1, bien qu'ils affirment qu'il a été entraîné en 2 mois en utilisant une pile d'entraînement personnalisée basée sur Jax, Rust et Kubernetes.

L'architecture MoE met en œuvre huit experts, dont deux sont utilisés par jeton. Cela signifie que seuls ~25% (ou ~79B) des paramètres sont actifs pour un jeton donné. Les modèles MoE remplacent les couches denses de type feed-forward par des couches MoE clairsemées et un mécanisme de routage. Les avantages des modèles MoE sont qu'ils sont capables d'un pré-entraînement et d'une inférence significativement plus rapides que les modèles denses avec un nombre de paramètres similaire. 

Les poids de Grok-1 sont les résultats bruts de l'étape de pré-entraînement. Les poids du modèle n'ont pas fait l'objet d'un réglage fin ou d'une formation à l'alignement à l'aide de méthodes telles que l'apprentissage par renforcement avec retour d'information humain (RLHF). Sans ces étapes de formation supplémentaires, il ne faut pas s'attendre à ce que Grok-1 soit performant dans les applications de chat.

Grok-1 a été publié sous la licence permissive Apache 2.0, ce qui signifie que vous pouvez utiliser les poids du modèle à des fins commerciales.

Grok-1 : en pratique

Pour exécuter l'inférence Grok-1, les utilisateurs ont besoin de 8x A100 80GB GPU ou d'un matériel avec une VRAM équivalente. Bien que seuls deux des huit experts soient utilisés pour un jeton donné et que les poids de la version officielle aient été quantifiés pour réduire l'empreinte mémoire, une quantité importante de VRAM est toujours nécessaire pour charger tous les experts en mémoire.

Parallèlement aux poids des modèles, xAI a publié un script d'inférence léger qui privilégie l'exactitude de l'implémentation de la couche MoE par rapport à l'optimisation. Il faut s'attendre à ce que l'inférence soit lente - même sur du matériel puissant - jusqu'à ce que l'inférence JAX optimisée soit publiée ou développée par la communauté open-source.

Pour avoir un premier aperçu des performances de Grok-1, nous l'avons testé sur l'ensemble de données Massive Multi-task Language Understanding (MMLU). En raison des contraintes liées à la vitesse d'inférence, nous n'avons procédé à l'évaluation comparative que sur trois sujets MMLU : les mathématiques de l'enseignement secondaire, les mathématiques de l'enseignement supérieur et les faits globaux. En utilisant le schéma d'évaluation à 5 coups, nous avons comparé Grok-1 à quelques générations de grands modèles des deux dernières années.

MMLU (5 coups)

Modèle (paramètres)Mathématiques au lycéeMathématiques de l'enseignement supérieurFaits mondiaux
BLOOM (176B)27.0%25.0%-
OPT (175B)24.4%33.0%-
Llama-2 (70B)35.56%40%48%
Mixtral 8x7B (47B)38.5%46.0%51%
Grok-1 (314B)39.63%41%44%

Pour un modèle nécessitant un matériel aussi important, les résultats sont décevants. Grok-1 surpasse les anciens modèles, mais n'est pas à la hauteur des modèles open-source les plus récents sur ce sous-ensemble de MMLU.

Lors de l'évaluation d'un nouveau modèle, la performance n'est qu'une des dimensions à prendre en compte. Il est tout aussi important de savoir si un modèle peut être utilisé en toute sécurité. Le modèle produira-t-il des résultats toxiques, biaisés ou dangereux ? Comme pour l'analyse comparative des performances, nous évaluons Grok-1 sur le sous-ensemble Challenging de l'ensemble de données RealToxicityPrompts. Nous calculons le score de toxicité moyen des réponses aux invites et le comparons aux meilleurs modèles fermés et libres. Les scores de toxicité sont obtenus à partir de l'API Perspective.

Toxicité moyenne - RealToxicityPrompts - Challenging 

ModèleScore moyen de toxicité
GPT-3.50.255
GPT-40.222
Mixtral 8x7B0.378
Grok-10.355

Nos résultats suggèrent que Grok-1 pourrait être significativement plus toxique que les modèles à source fermée, mais similaire aux modèles à source ouverte les plus récents. Ce niveau de toxicité peut être intentionnel ; xAI a présenté Grok comme un modèle avec "un peu d'esprit et un côté rebelle". Il est important de rappeler que Grok-1 est le modèle brut pré-entraîné et qu'il ne bénéficie pas des étapes d'entraînement secondaires qui visent souvent à réduire la toxicité.

Conclusion

À l'heure actuelle, Grok-1 est le plus grand modèle d'IA à code source ouvert jamais mis à disposition. Il est plusieurs fois plus grand que les modèles ouverts de pointe actuels tels que Llama-2-70B ou Mixtral 8x7B. Cependant, les premiers résultats suggèrent que Grok-1 n'est pas à la hauteur des comparaisons de performances avec les modèles ouverts de pointe et que les résultats générés sont significativement plus toxiques que les alternatives à code source fermé.

En rapport :

Recherche
Une IA digne de confiance

Des experts de renommée mondiale en matière de confiance et de sécurité de l'IA publient un article majeur sur la gestion des risques liés à l'IA dans la revue Science

Apprentissage automatique
Recherche

Les inconnues connues : Geoff Pleiss, chercheur chez Vector, se penche sur l'incertitude pour rendre les modèles de ML plus précis.

Homme tapant sur son ordinateur portable
IA générative

Comment les entreprises peuvent-elles concilier l'innovation en matière d'IA et la cybersécurité ?