Le chercheur en vecteurs Wenhu Chen sur l’amélioration et l’étalonnage des modèles de fondation
20 août 2024
20 août 2024
Par Wenhu Chen
L’année écoulée a été marquée par de grands progrès dans les modèles de fondation, qui atteignent des performances de niveau expert dans la résolution de problèmes concrets et complexes. Au début de 2023, les meilleurs modèles open source 7B, comme Llama-2-7B, ne pouvaient résoudre que 10% des problèmes algébriques simples de l’école primaire dans le jeu de données GSM8K. Un an plus tard, Qwen2-7B peut déjà résoudre près de 56% des problèmes des concours mathématiques américains dans l’ensemble de données MATH. De même, en 2023, les modèles de diffusion vidéo, comme ModelScope, produisaient encore des clips vidéo de mauvaise qualité et très irréels. À la mi-2024, plusieurs modèles de diffusion vidéo, comme Sora et Kling, peuvent produire des vidéos longues, fluides et très réalistes. Cette rapidité de développement est sans précédent. Ces avancées sont principalement attribuées à la pré-entraînement et à l’ajustement des instructions sur des ensembles de données plus vastes et de meilleure qualité.
Mon laboratoire, TIGER-lab à l’Université de Waterloo, est principalement consacré à trois axes de recherche :
Je veux mettre en lumière quelques articles publiés concernant ces directions.
The post-training phase plays an instrumental role in achieving remarkable performance in different down-stream applications. Instruction tuning is the most commonly adopted post-training enhancement. Previously, instruction tuning was done at small scales (< 1M examples). There was a common belief that instruction tuning is not meant to improve models’ core capabilities. In “MAmmoTH2: Scaling instructions from the web,” we attempted to scale up instruction tuning to 10M size to show whether instruction tuning can improve models’ core capabilities. Specifically, we propose an approach to automatically mine educational web documents from pre-training data and then utilize open LLMs to extract large scale naturally existing instruction-response pairs. Through instruction tuning on these massive instruction data, we can significantly improve the reasoning capabilities of LLMs like Mistral or Llama-3. Our model MAmmoTH2 obtained state-of-the-art performance on a wide array of reasoning benchmarks.

Dans un autre travail, « MANTIS : Interleaved Multi-Image Instruction Tuning », nous avons sélectionné un ensemble de données d’ajustement d’instructions, MANTIS-instruct, afin de permettre aux modèles multimodaux existants de gérer les entrées multimodales entrelacées. Nous montrons qu’avec une quantité limitée d’ajustement d’instructions, notre Mantis-Instruct d’ajustement d’instructions peut considérablement améliorer la performance du modèle sur des tâches impliquant des entrées multi-images entrelacées. Notre meilleur modèle égale même la performance de GPT-4V.
Dans « StructLM : Vers la construction de modèles généralistes pour l’ancrage structuré des connaissances », nous construisons un ensemble de données de haute qualité pour améliorer la capacité des LLM à s’ancrer sur les connaissances structurées. En nous entraînant sur les LLM existants, nous pouvons bâtir un modèle de base solide pour gérer divers types de connaissances structurales comme les tableaux et les graphiques. StructLM atteint des performances de pointe sur huit ensembles de données différents d’ancrage structurel.
« C’est une période très excitante pour travailler et repousser les frontières de ces modèles. Les modèles de fondation modernes vont complètement révolutionner notre façon d’utiliser l’IA. »
Wenhu Chen
membre du corps professoral Vector; professeur adjoint, David Cheriton School of Computer Science, Université de Waterloo; Chaire d’intelligence artificielle au Canada CIFAR
Pour mieux comparer les modèles de langage modernes et les modèles multimodaux, TIGER-lab travaille également à la construction de meilleures suites d’évaluation. Notre objectif est de tester les limites réelles des capacités des modèles existants à gérer des tâches réelles.
Dans « MMMU : Une référence massive multidisciplinaire de compréhension et de raisonnement multimodal pour l’AGI d’experts », nous organisons la première référence multidisciplinaire massive pour évaluer les capacités perceptuelles et de raisonnement des modèles multimodaux. Ce nouveau benchmark présente sa diversité en incluant une grande variété d’entrées visuelles comme des photographies, des diagrammes, des icônes, des logos, des graphiques et des graphiques. Cet ensemble de données est largement adopté par la communauté comme l’un des repères standards.
Dans « MMLU-Pro : Un benchmark de compréhension des langages multitâches plus robuste et plus exigeant », nous visons à aborder les problèmes liés à l’ensemble de données actuel de MMLU, tels que. sensibilité et simplicité. Ces problèmes sont principalement dus au fait que MMLU n’a que quatre options, ce qui offre des raccourcis pour que le modèle puisse deviner correctement. Pour réduire l’aléa, nous proposons d’augmenter chaque problème pour qu’il contienne 10 options. Cette augmentation réduit considérablement le raccourci et augmente donc la robustesse du benchmark. De plus, nous complançons aussi le repère avec plus de problèmes de niveau collégial pour augmenter sa difficulté. Grâce à ces améliorations, MMLU-Pro peut efficacement discriminer les modèles. Cet ensemble de données a également été largement adopté et utilisé comme référence officielle d’évaluation dans le classement Huggingface LM.
Dans « Les LLM à long contexte ont du mal avec l’apprentissage long en contexte », nous proposons une approche novatrice pour évaluer les LLM à long contexte. Contrairement aux précédents LLM à long contexte (summarization ou document-QA), qui évaluent principalement les capacités de recherche des LLM à partir d’un long contexte d’entrée. Nous proposons d’évaluer leurs capacités de compréhension à long contexte à travers le prisme de l’apprentissage en contexte. Avec les tâches de classification extrême des étiquettes, les LLM à long contexte sont forcés de comprendre toute la longue séquence pour capturer l’espace complet des étiquettes. Cela aide à réduire le biais de position dans les benchmarks existants afin d’évaluer véritablement les capacités de contexte long des LLM.
La modélisation générative est également une orientation majeure de TIGER-Lab. Notre objectif est de construire des modèles génératifs plus fidèles et contrôlables pour les images et les vidéos.
Dans les tâches de génération image-vidéo, un gros problème est l’infidélité de la vidéo générée par rapport à l’image initiale donnée. Dans « ConsistI2V : Améliorer la cohérence visuelle pour la génération image-vidéo », nous proposons une nouvelle couche d’attention temporelle dilatée pour aider les modèles de génération vidéo à être plus fidèles au conditionnement des images.
Un autre problème du modèle de génération vidéo est sa rapidité. La majorité des modèles de génération vidéo doivent consommer plus de deux minutes pour produire une vidéo. Différentes approches de distillation peuvent aider à accélérer cela, mais avec un gros impact sur la qualité de production. Dans « T2V-Turbo : Briser le goulot d’étranglement de qualité du modèle de cohérence vidéo avec une rétroaction de récompense mixte », nous proposons un entraînement mixte à la cohérence et à la vie réelle pour équilibrer les deux aspects. Notre modèle T2V-Turbo est capable de maintenir à la fois efficacité et qualité.
Outre la génération vidéo, le montage vidéo est aussi une application pratique, où l’utilisateur vise à monter une vidéo donnée d’une certaine façon, comme remplacer des sujets, changer de style, ajouter ou supprimer des sujets. Cependant, les approches existantes de montage vidéo sont très improvisées. Dans « AnyV2V : Un cadre plug-and-play pour toute tâche de montage vidéo-vidéo », nous proposons de construire un cadre unifié pour répondre aux besoins différents des utilisateurs finaux. Notre approche est sans entraînement et très compatible avec différentes méthodes de retouche d’image. Nous démontrons que notre méthode peut surpasser largement les autres méthodes existantes. AnyV2V a également été largement adopté comme une référence solide dans la communauté GenAI.
Avec le rythme rapide du développement des modèles de fondation, nous adoptons des modèles plus solides chaque jour. C’est une période très excitante pour travailler et repousser les frontières de ces modèles. Les modèles modernes de fondation vont complètement révolutionner notre façon d’utiliser l’IA. Notre laboratoire continuera de travailler sur différents aspects des modèles de fondation, comme l’ajustement des instructions, l’optimisation des préférences, l’évaluation, la récupération-augmentation et la génération de contenu visuel.