Wenhu Chen, chercheur en sciences vectorielles, sur l'amélioration et l'étalonnage des modèles de fondation
20 août 2024
20 août 2024
Par Wenhu Chen
Au cours de l'année écoulée, les modèles de fondation ont réalisé des progrès considérables en atteignant des performances de niveau expert dans la résolution de problèmes difficiles du monde réel. Au début de l'année 2023, les meilleurs modèles 7B à source ouverte, comme Llama-2-7B, ne pouvaient résoudre que 10 % des problèmes algébriques simples de l'école primaire dans l'ensemble de données GSM8K. Un an plus tard, Qwen2-7B peut déjà résoudre près de 56 % des problèmes du concours de mathématiques américain dans l'ensemble de données MATH. De même, en 2023, les modèles de diffusion vidéo, tels que ModelScope, produisaient encore des clips vidéo de mauvaise qualité et hautement irréels. À la mi-2024, plusieurs modèles de diffusion vidéo, comme Sora et Kling, peuvent produire des vidéos longues, fluides et très réalistes. Cette vitesse de développement est sans précédent. Ces progrès sont principalement attribués au pré-entraînement et à l'ajustement des instructions sur des ensembles de données plus importants et de meilleure qualité.
Mon laboratoire, TIGER-lab, à l'Université de Waterloo, se consacre principalement à trois axes de recherche :
Je voudrais mettre en lumière quelques articles publiés sur ces questions.
The post-training phase plays an instrumental role in achieving remarkable performance in different down-stream applications. Instruction tuning is the most commonly adopted post-training enhancement. Previously, instruction tuning was done at small scales (< 1M examples). There was a common belief that instruction tuning is not meant to improve models’ core capabilities. In “MAmmoTH2: Scaling instructions from the web,” we attempted to scale up instruction tuning to 10M size to show whether instruction tuning can improve models’ core capabilities. Specifically, we propose an approach to automatically mine educational web documents from pre-training data and then utilize open LLMs to extract large scale naturally existing instruction-response pairs. Through instruction tuning on these massive instruction data, we can significantly improve the reasoning capabilities of LLMs like Mistral or Llama-3. Our model MAmmoTH2 obtained state-of-the-art performance on a wide array of reasoning benchmarks.
Dans un autre travail intitulé "MANTIS : Interleaved Multi-Image Instruction Tuning", nous avons créé un ensemble de données de réglage des instructions, MANTIS-instruct, pour permettre aux modèles multimodaux existants de traiter des entrées multimodales entrelacées. Nous montrons qu'avec une quantité limitée de réglages d'instructions, notre réglage d'instructions Mantis-Instruct peut augmenter de manière significative la performance du modèle sur des tâches impliquant des entrées multi-images entrelacées. Notre meilleur modèle atteint même les performances de GPT-4V.
Dans "StructLM : Towards Building Generalist Models for Structured Knowledge Grounding", nous construisons un ensemble de données de haute qualité pour améliorer la capacité des LLM à s'appuyer sur des connaissances structurelles. En s'entraînant sur les LLM existants, nous pouvons construire un modèle de base solide pour traiter différents types de connaissances structurelles comme les tableaux et les graphiques. StructLM atteint des performances de pointe sur huit ensembles de données différents de mise à la terre de structures.
"C'est une période très excitante pour travailler et repousser les limites de ces modèles. Les modèles de fondation modernes vont complètement révolutionner la façon dont nous utilisons l'IA."
Wenhu Chen
Membre de la faculté Vector ; professeur adjoint, David Cheriton School of Computer Science, University of Waterloo ; chaire canadienne CIFAR d'intelligence artificielle
Pour mieux comparer les modèles linguistiques modernes et les modèles multimodaux, le laboratoire TIGER travaille également à la construction de meilleures suites d'évaluation. Notre objectif est de tester les limites des capacités réelles des modèles existants à gérer les tâches du monde réel.
Dans "MMMU : A Massive Multi-discipline Multimodal Understanding and Reasoning Benchmark for Expert AGI", nous élaborons le premier benchmark multimodal multidisciplinaire massif pour évaluer les capacités de perception et de raisonnement des modèles multimodaux. Le nouveau benchmark se caractérise par sa diversité et inclut une grande variété d'entrées visuelles telles que des photographies, des diagrammes, des icônes, des logos, des tracés et des graphiques. Cet ensemble de données est largement adopté par la communauté comme l'une des références standard.
Dans "MMLU-Pro : Un banc d'essai de compréhension linguistique multitâche plus robuste et plus stimulant", nous visons à résoudre les problèmes de l'ensemble de données MMLU actuel, tels que la sensibilité et la simplicité. Ces problèmes sont principalement dus au fait que MMLU ne comporte que quatre options, ce qui permet au modèle de faire des suppositions correctes. Pour réduire le caractère aléatoire, nous proposons d'augmenter chaque problème pour qu'il contienne 10 options. Cette augmentation réduit considérablement les raccourcis et accroît donc la robustesse du test de référence. En outre, nous ajoutons au test des problèmes de niveau universitaire afin d'en accroître la difficulté. Grâce à ces améliorations, MMLU-Pro peut discriminer efficacement entre les modèles. Cet ensemble de données a également été largement adopté et utilisé comme référence d'évaluation officielle dans le classement LM de huggingface.
Dans "Long-context LLMs Struggle with Long In-context Learning", nous proposons une nouvelle approche pour évaluer les LLMs à contexte long. Contrairement aux précédents LLMs à contexte long (résumé ou document-QA), qui évaluent principalement les capacités de recherche des LLMs à partir d'un contexte d'entrée long, nous proposons d'évaluer leurs capacités de compréhension à travers un contexte long. Nous proposons d'évaluer leurs capacités de compréhension en contexte long par le biais de l'apprentissage en contexte. Avec les tâches de classification d'étiquettes extrêmes, les LLMs à contexte long sont forcés de comprendre la séquence longue entière pour capturer l'espace d'étiquettes complet. Cela permet de réduire le biais de position dans les repères existants afin d'évaluer réellement les capacités des LLM en contexte long.
La modélisation générative est également une orientation majeure de TIGER-Lab. Notre objectif est de construire des modèles génératifs plus fidèles et contrôlables pour les images et les vidéos.
Dans les tâches de génération d'image à vidéo, l'un des problèmes majeurs est l'infidélité de la vidéo générée par rapport à l'image initiale donnée. Dans "ConsistI2V : Enhancing Visual Consistency for Image-to-Video Generation", nous proposons une nouvelle couche d'attention temporelle dilatée pour aider les modèles de génération vidéo à être plus fidèles au conditionnement de l'image.
Un autre problème du modèle de génération vidéo est sa rapidité. La majorité des modèles de génération vidéo doivent consommer plus de deux minutes pour produire une vidéo. Différentes approches de distillation permettent d'accélérer ce processus, mais la qualité de la génération s'en ressent. Dans "T2V-Turbo : Breaking the Quality Bottleneck of Video Consistency Model with Mixed Reward Feedback", nous proposons une cohérence mixte et une formation RL pour équilibrer ces deux aspects. Notre modèle T2V-Turbo est capable de maintenir à la fois l'efficacité et la qualité.
Outre la génération de vidéos, l'édition vidéo est également une application pratique, où l'utilisateur cherche à éditer une vidéo donnée d'une certaine manière, par exemple en remplaçant des sujets, en changeant de style, en ajoutant ou en supprimant des sujets. Cependant, les approches existantes en matière d'édition vidéo sont très ad hoc. Dans "AnyV2V : A Plug-and-Play Framework For Any Video-to-Video Editing Tasks", nous proposons de construire un cadre unifié pour satisfaire les différents besoins des utilisateurs finaux. Notre approche ne nécessite pas de formation et est hautement compatible avec différentes méthodes d'édition d'images. Nous montrons que notre méthode peut surpasser les autres méthodes existantes avec une marge considérable. AnyV2V a également été largement adopté comme une base solide dans la communauté GenAI.
Avec le rythme rapide du développement des modèles de fondation, nous adoptons chaque jour des modèles plus solides. C'est une période très excitante pour travailler et repousser les limites de ces modèles. Les modèles de base modernes vont complètement révolutionner la façon dont nous utilisons l'IA. Notre laboratoire continuera à travailler sur différents aspects des modèles de base, comme le réglage des instructions, l'optimisation des préférences, l'évaluation, l'augmentation de la recherche et la génération de contenu visuel.