Blogue de recherche vectorielle : grands modèles de langage, incitations et PEFT

20 octobre 2023

Recherche

Par David Emerson

Introduction

Avec l’émergence récente de grands modèles de langage (LLM) à haute performance et à usage général, tels que ChatGPT et LLaMA, on observe une expansion rapide tant de la recherche que de l’intérêt public pour les capacités et l’application de ces LM. Alors qu’une quantité croissante de ressources est concentrée sur l’avancement des frontières du traitement du langage naturel (NLP), et des LLM en particulier, il devient difficile de suivre ces changements. Dans cet article, nous proposons une discussion sur certaines tendances récentes des LLM et des techniques pour les appliquer aux tâches en aval, grâce à l’ingénierie des prompts. Nous discuterons également de nouvelles méthodes pour améliorer leurs performances au-delà du cadre traditionnel de l’ajustement fin du modèle complet. De telles approches incluent l’ajustement fin des instructions et l’ajustement fin efficace par paramètres. L’objectif est de mieux comprendre comment les LLM sont formés et comment ils peuvent être utilisés pour résoudre des problèmes concrets.

Les modèles de langage deviennent plus grands et s’entraînent plus longtemps

Au cours des dernières années, deux tendances importantes se sont développées en ce qui concerne les architectures LM et la formation, renforcées par de nombreuses avancées et des efforts d’ingénierie importants. Ces deux tendances sont présentes dans le diagramme d’échelle montré à la Figure 1. Bien que certains modèles dans la figure soient de type encodeur uniquement, comme BERT et RoBERTa, la majorité des LLM contemporains sont des modèles génératifs-encodeur-décodeur ou transformateurs uniquement à décodeur. Par conséquent, ces architectures seront le principal sujet de la discussion à venir.

Schéma de points intitulé « Taille du modèle de langage au fil du temps » montrant une croissance exponentielle des paramètres du modèle de langage de 2018 à 2024. Les premiers modèles comme ELMo avaient des paramètres de ~94M, tandis que les modèles récents comme PaLM et GLaM dépassaient les paramètres 500B–1T. L’axe des y est logarithmique. Les marqueurs verts indiquent les modèles où des périodes d’entraînement plus longues ont été remplacées par des modèles plus grands.

La première tendance visible à la Figure 1 est que les LLM ont connu une croissance rapide au fil du temps. La mise à l’échelle de ces modèles a été facilitée de plusieurs façons, notamment de meilleures techniques de pré-entraînement, des corpus pré-entraînement plus grands, ainsi que des avancées en matériel et en méthodes d’entraînement distribuées, entre autres. Cependant, cette augmentation de la taille du modèle n’est pas simplement pour des raisons d’échelle. Les capacités de ces modèles, en particulier leurs capacités de zéro et peu de tirs (discutées en détail ci-dessous), augmentent considérablement avec l’échelle. Cela a été souligné de façon poignante dans [2]. Deux résultats de ce travail sont présentés à la Figure 2. À la Figure 2A, la performance de GPT-3 sur le benchmark SuperGLUE, dans des configurations à zéro ou peu de plans, augmente en douceur avec la taille du modèle. De même, dans la Figure 2B, la capacité humaine à distinguer entre des articles courts générés par GPT-3 et ceux écrits par des humains diminue progressivement vers le hasard à mesure que le modèle grandit en taille. Ces observations, ainsi que d’autres, ont suscité un intérêt important pour l’échelle LM comme moyen d’acquérir des capacités générales en tâches en PNL.

Figure 2 contenant deux graphiques. (A) Graphique linéaire intitulé « SuperGLUE Performance » montrant les scores SuperGLUE de GPT-3 (axe y, environ 40–90) sur des tailles de modèles allant de 0,1 à 175 milliards de paramètres (axe x). Trois lignes sont tracées : zéro coup (bleu), one-shot (vert) et few-shot avec K=32 (orange). Les trois s’améliorent avec l’échelle, avec des performances en peu de tirs approchant des benchmarks BERT Large et BERT++ affinés à 175B de paramètres. Les lignes de référence indiquent la performance humaine (~90), le SOTA finement réglé, le BERT++ finement ajusté et le BERT Grand et Aléatoire (~40). (B) Diagramme de points avec courbe de régression intitulé « Capacité humaine à détecter des articles de presse générés par des modèles ». L’axe des y indique une précision (%) d’environ 50 à 80% et l’axe des x montre le nombre de paramètres du modèle sur une échelle logarithmique. À mesure que la taille du modèle augmente, la précision humaine dans l’identification du texte généré par l’IA diminue vers le hasard (50%), la condition de contrôle étant de 88%. Une bande de confiance ombragée entoure la ligne de régression.

Le deuxième thème qui émerge dans les LLM est plus subtilement présent à la Figure 1. Sur le côté droit, mis en évidence en vert, se trouvent plusieurs modèles récemment sortis et performants. Bien que ces modèles restent assez grands, dans les dizaines de milliards de paramètres, ils ne suivent pas nécessairement la tendance d’échelle qui pourrait être déduite des modèles en rouge. Les modèles échangent une certaine taille en échange de plus grands ensembles de données pré-entraînement et de phases de pré-entraînement plus longues. Ce changement est motivé par l’étude de [8], qui a suggéré que, malgré les ressources déjà importantes utilisées pour entraîner de nombreux LLM, les modèles précédents sont sous-entraînés par rapport à leur taille. Cela a mené, par exemple, au cadre d’entraînement LLaMA [22], qui a vu 1,4 billion de jetons pendant l’entraînement. Ce total représente un bond important par rapport aux 300 milliards de jetons observés par l’OPT-175B [29], un modèle beaucoup plus grand, durant sa phase de pré-entraînement. Les résultats sont présentés à la Figure 3. Malgré sa taille plus petite, LLaMA surpasse les modèles avec jusqu’à 0,5 billion de paramètres.

Figure 3. Un tableau montrant les scores de performance zéro sur huit benchmarks de raisonnement de bon sens – BoolQ, PIQA, SIQA, HellaSwag, WinoGrande, ARC-e, ARC-c et OBQA – pour LLaMA et plusieurs autres grands modèles de langage. Les modèles comparés incluent GPT-3 (175B), Gopher (280B), Chinchilla (70B), PaLM (62B), PaLM-cont (62B) et PaLM (540B). LLaMA est évalué à quatre échelles : paramètres 7B, 13B, 33B et 65B. Les valeurs en gras indiquent le meilleur score par colonne. Résultats notables : LLaMA 65B obtient les meilleurs scores en PIQA (82,8), SIQA (52,3), HellaSwag (84,2) et OBQA (60,2). Le PaLM 540B mène sur WinoGrande (81,1). LLaMA 33B obtient les meilleurs résultats en ARC-c (57,8). Plusieurs entrées sont marquées par un tiret, indiquant qu’aucun résultat n’est rapporté. La légende note que certains modèles de comparaison sont des centaines de milliards de paramètres plus grands que les variantes LLaMA.

Incitation : Motivation, avantages et construction

Formellement, le prompting est le processus consistant à utiliser des phrases ou des modèles soigneusement élaborés pour construire un texte d’entrée qui conditionne un gestionnaire de logiciel préentraîné à accomplir une tâche en aval. Nous avons déjà vu, dans les Figures 2A et B, que les LLM à demande sont capables d’effectuer des tâches avec un degré surprenant de précision sans nécessiter d’ajustements fins. Avant d’en discuter davantage, considérez le modèle d’invite suivant et la demande complétée associée pour la tâche BoolQ, tirée de [2].

Figure montrant le modèle d’invite utilisé pour les tâches de compréhension de lecture accompagnée d’un exemple rempli. Le côté gauche affiche la structure abstraite du modèle : l’entrée commence par un titre temporaire et un passage, suivi du mot « question :' en violet et d’un « réponse :' en vert avec le jeton [X] indiquant où la réponse du modèle est attendue. Le côté droit montre un exemple concret : le passage dit : « La transmission de la rage – La transmission entre humains est extrêmement rare, bien qu’elle puisse se produire par transplantation d’organes ou par morsures. » La question affichée en violet est « une personne peut-elle transmettre la rage à une autre personne? » avec le champ de réponse vide, indiquant que c’est la cible de prédiction.

À gauche se trouve un exemple de modèle de prompt. Chaque composant entre crochets inclinés est rempli d’informations provenant de la tâche que nous espérons accomplir. Le texte lavande est une structure créée pour présenter clairement le modèle avec les informations requises. Enfin, l’objectif est que le modèle génère du texte à la place du « X » de la marine avec la bonne réponse à la question. À droite se trouve un exemple du modèle rempli pour une question, avec du contexte, provenant de l’ensemble de données BoolQ.

Incitation à zéro ou peu de coups

La consigne ci-dessus est connue sous le nom de demande « zero-shot ». Il n’inclut aucun exemple « marqué », également appelé démonstrations ou tirs, dans l’entrée du LM. Peu de prompts fournissent des exemples identifiés dans le modèle de prompt, dans le but de fournir des conseils supplémentaires spécifiques à chaque tâche au LM. Des exemples de prompts one-shot et few-shot pour une tâche de classification par sentiment sont ci-dessous. 

Figure montrant une comparaison côte à côte de deux formats d’invite pour une tâche de classification par sentiment. À gauche, le sujet One-shot inclut l’instruction « Classifier le sentiment » en violet, suivie d’un seul exemple également marqué en violet : « C’était un excellent film et une excellente expérience : positive. » La requête que le modèle doit compléter est affichée en gras noir : « Je n’ai pas aimé la nourriture et l’ambiance » sans étiquette fournie. À droite, le prompt Few-shot utilise la même instruction et la même requête, mais inclut trois exemples marqués en violet avant la requête : « C’était un excellent film et une excellente expérience : positive », « Les cabines étaient bondées et c’était beaucoup trop bruyant : négatif », et « Je me suis bien amusé : positif. » La question noire et audacieuse « Je n’aimais pas la nourriture et l’ambiance » suit les exemples, encore une fois sans étiquette. Le codage couleur distingue le contexte fourni (violet) de la prédiction cible (noir gras).

Il y a plusieurs avantages à inclure des démonstrations dans les consignes. La principale d’entre elles est que la performance des tâches en aval est souvent améliorée, comme le montre la Figure 2. L’écart entre les indications à zéro et à peu de plans s’élargit souvent avec l’échelle du modèle. De plus, l’inclusion d’exemples identifiés encourage fortement le modèle à répondre de manière à faciliter le mappage du texte généré sur une étiquette, ce qui est un défi courant avec les invitations. Considérez la tâche d’analyse de sentiment ci-dessus. L’espace d’étiquette pour la tâche est « positif » et « négatif ». Cependant, le modèle, laissé à lui-même, pourrait plutôt répondre par « agréable » ou « décevant », compliquant le processus de détermination programmatique de l’étiquette prédite. Inclure des exemples aide le modèle à réagir comme on s’y attend.

La façon dont les LM intègrent les démonstrations dans le processus prédictif est nuancée. Plusieurs études ont démontré que la qualité, la distribution et même l’ordre des démonstrations fournies ont un impact fort et parfois imprévisible sur la capacité d’un modèle à accomplir une tâche en aval [17,18,26]. À cette fin, certaines recherches ont envisagé des stratégies pour sélectionner des démonstrations optimales à inclure dans une invite afin de maximiser la performance des tâches en aval plutôt que la simple sélection et l’ordre aléatoires [1,15].

Bien que l’incitation à quelques coups soit très efficace, il y a plusieurs inconvénients à garder en tête. Premièrement, les démonstrations occupent un espace précieux dans la capacité d’entrée des LM (aussi appelée contexte). En général, les transformateurs peuvent consommer un nombre fixe de jetons pour conditionner le processus de génération. Par exemple, LLaMA a une longueur de contexte fixe de 2048 jetons. Bien que cela semble être beaucoup de jetons, injecter plusieurs démonstrations s’accumule rapidement, surtout pour une tâche comme le résumé de documents où chaque démonstration peut incorporer un gros morceau de texte. Cela limite le nombre d’exemples pouvant être inclus dans les suggestions. Plus important encore, les grands contextes entraînent des coûts de calcul élevés et ralentissent l’inférence. C’est parce que, par exemple, l’attention dans les transformateurs est un N² opération, où N est le nombre de jetons dans le contexte.

Un autre inconvénient est que les données étiquetées peuvent être privées. Dans [6], les attaques d’inférence par adhésion ont été conçues avec succès pour révéler des données étiquetées utilisées dans des prompts à peu de shots. Bien que ce travail ait aussi proposé une approche pour protéger ces données, l’inclusion de données sensibles dans les consignes demeure un risque. Enfin, plusieurs travaux ont démontré que, pour certaines tâches, l’incitation à peu de coups n’est pas suffisante pour obtenir une bonne performance d’un LM [12,25]. Cela a motivé une recherche importante sur la chaîne de pensée incitation, qui sera discutée en détail dans un prochain billet de blogue.

Tableau 1 montrant les scores de validation F1 pour une tâche de reconnaissance d’entité nommée basée sur BART après un réglage complet du modèle sur quatre modèles d’invites différents. Le tableau comporte trois colonnes : Modèle positif, Modèle négatif (étiqueté « sic ») et score F1 de validation. Rangée 1 : Positif – « ⟨ texte⟩ ⟨candidat ⟩ est une entité [X] »; Négatif – « ⟨ texte⟩ ⟨candidat ⟩ n’est pas une entité nommée »; Val. F1 : 95,27. Ligne 2 : Positif – « ⟨texte ⟩ Le type d’entité de ⟨ candidat ⟩ est [X] »; Négatif – « ⟨texte ⟩ Le type d’entité du ⟨ candidat ⟩ n’est aucune entité »; Val. F1 : 95,15. Ligne 3 : Positif – « ⟨text⟩ ⟨candidat⟩ appartient à la catégorie [X] »; Négatif – « ⟨ texte ⟩ ⟨candidat ⟩ n’appartient à aucune catégorie »; Val. F1 : 88,42. Ligne 4 : Positif – « ⟨candidat⟩ ⟨texte ⟩ doit être étiqueté comme [X] »; Négatif – « ⟨⟩ ⟨candidat texte⟩ doit être étiqueté comme aucune entité »; Val. F1 : 76,80. Le jeton [X] apparaît mis en évidence dans les modèles positifs, indiquant la cible de prédiction du modèle. Les deux premiers modèles obtiennent les scores les plus élevés, tous deux supérieurs à 95.

La façon dont vous posez la question est importante

Pour la plupart des tâches en aval, l’objectif d’une invite est de maximiser la capacité des LM à effectuer cette tâche avec peu ou pas besoin de données indiquées. Cependant, même les LM les plus performants sont sensibles à la structure du prompt fourni. La façon dont vous demandez au modèle d’accomplir la tâche cible est importante, et parfois c’est même le facteur déterminant qui assure l’achèvement complet de la tâche. Considérons les exemples détaillés dans le tableau 1 de [4]. Chaque ligne du tableau correspond à un modèle potentiel pour une tâche de reconnaissance d’entité nommée. Il y a une grande différence de performance entre un modèle utilisant le meilleur prompt (rangée du haut) et le pire (rangée du bas). Cette différence est encore plus marquée lorsqu’on considère que le modèle est en fait affiné pour cette tâche à l’aide de ces structures d’invites. La sensibilité des LM à la structure des prompts est bien documentée et implique qu’une conception réfléchie des prompts peut avoir un impact important sur la performance du modèle.

Figure 4. Diagramme de balises comparant la perplexité des prompts (axe des x, échelle logarithmique allant de 8×10⁰ à 10¹) à la précision des tâches en aval (axe des y, allant d’environ 0,3 à 0,7) pour l’ensemble de données News de l’AG en utilisant OPT-175B comme modèle de langage de base. Chaque point bleu représente un prompt distinct. Trois prompts sont explicitement annotés : « Dans quelle section du journal vous attendriez-vous à trouver cet article? » apparaît dans le groupe en haut à gauche avec une faible perplexité et une grande précision (~0,55), accompagné d’une petite icône robotique illustrée; « Qu’est-ce que c’est que cette nouvelle? » apparaît dans la région du centre-droit avec une perplexité plus élevée et une précision modérée (~0,45); et « Qu’est-ce qui se passe? Que se passe-t-il? » apparaît en bas à gauche avec une faible perplexité mais une faible précision (~0,3). La distribution globale suggère une tendance générale à des prompts de perplexité plus faibles afin d’atteindre une plus grande précision, bien qu’avec une variance considérable à travers l’ensemble des données.

Dans cette optique, plusieurs études ont examiné la question : « qu’est-ce qui fait qu’une consigne est une bonne consigne? » La question est complexe, car certains types de prompts conviennent mieux à certains types de modèles. Par exemple, les auteurs de l’OPT ont observé que le modèle ne répondait pas bien aux « instructions déclaratives ou aux interrogatifs directs [29] ». Ce n’est pas nécessairement le cas pour les modèles à réglage précis de l’instruction, discutés ci-dessous, comme Vicuna [3]. Néanmoins, plusieurs études ont mis en lumière certains principes à garder en tête lors de la création de prompts. Dans [7], la relation entre l’efficacité d’un prompt et sa perplexité – une mesure proximale de la fluidité et de la simplicité d’un prompt du point de vue des LM – est étudiée. Cette relation est affichée pour les consignes destinées à classer les articles de presse en catégories dans la Figure 4. Le travail suggère empiriquement que les consignes simples, fluides et spécifiques à une tâche fonctionnent le mieux. Un autre ensemble d’études dans [19] a compilé un ensemble de suggestions de conception de prompts basées sur des expérimentations avec la famille GPT de LM. Celles-ci incluent :

  • Utiliser des schémas de bas niveau plutôt que des concepts sophistiqués qui nécessitent une compréhension préalable
  • Décomposer des tâches complexes en plusieurs tâches plus simples lorsque c’est possible
  • Fournir les sorties et contraintes attendues et transformer les énoncés niés en énoncés d’assertion

Bien que ces recommandations aident à cibler l’exploration et la conception des prompts optimaux, il est important de reconnaître qu’il est souvent nécessaire d’expérimenter la construction des prompts pour obtenir une performance optimale d’un LM sur une tâche donnée.

Optimisation par prompt discret

Parce que la conception manuelle des invites peut être difficile et aussi cruciale pour la réussite d’une tâche en aval, une quantité importante de recherches a visé à améliorer le processus de recherche grâce à diverses procédures d’optimisation. Les approches les plus simples visent à générer un ensemble diversifié de prompts sur lesquels la performance peut être évaluée. Parmi les exemples, on retrouve le prompt mining [10], où la formulation et le texte courant sont extraits de grands corpus textuels pour construire des prompts variés, et la paraphrase des prompts [7,10,28], dans laquelle une grande variété de prompts est créée à partir de prompts « seed » via des traductions aller-retour, le remplacement de thésaurus ou des modèles de paraphrases. Chacune de ces méthodes vise à élargir les incitations conçues par l’humain afin d’évaluer un plus grand bassin de candidats. Une variante sophistiquée de ces approches est GrIPS [20], qui combine ces approches, ainsi que plusieurs schémas d’édition de texte, pour rechercher de manière itérative des conceptions optimales de prompts.

Une approche d’optimisation intéressante, connue sous le nom d’AutoPrompt, est proposée dans [21]. L’approche recherche un ensemble de jetons « déclencheurs » de la forme

Une expression mathématique définissant la structure d’un modèle d’invite pour les tâches du modèle de langage masqué. La formule se lit comme suit : x-subscripte-invite égale ⟨texte⟩ [t₁] ... [tn] [MASQUE], suivi d’un point. Dans la formule, x-subscript-prompt est rendu en gras pour indiquer l’entrée complète de l’invite; ⟨ texte ⟩ représente le texte d’entrée temporaire; [t₁] à [tn] représentent une séquence de n jetons d’invite apprenables; et [MASK] est la position du jeton masqué où le modèle de langage est censé générer une prédiction. Tous les éléments de place et de jetons sont rendus en bleu.

Soit 𝒱 représentent le vocabulaire du LM considéré. Pour une étiquette y et la portion associée du vocabulaire, les prompts sont notés comme

Equation 3.1 defining the probability of a label given a prompt in a masked language model setting. The equation reads: P of y given x-subscript-prompt equals the sum over all w belonging to V-subscript-y of P of [MASK] equals w given x-subscript-prompt. In this expression, y is the predicted label, x-subscript-prompt is the structured prompt input, V-subscript-y is the vocabulary of words associated with label y, w is a candidate word from that vocabulary and [MASK] is the masked token position the model is asked to fill. The equation defines the label probability as the aggregated probability mass the model assigns to all vocabulary terms associated with that label at the mask position.

À chaque itération, un jeton, ti, avec l’immersion ŵi est sélectionné pour modification. Nous cherchons t̃i ∈ Vcand, avec l’immersion ŵ̃i, avec le plus grand potentiel d’augmentation de la probabilité d’étiquette, telle qu’exprimée dans l’équation (3.1),

Une équation définissant le vocabulaire candidat : ensemble V-indice-cand pour la recherche de jetons par invite basée sur le gradient. L’équation se lit comme suit : V-indice-cand est égal à top-k sur t appartenant à V de ŵi-transposé multiplié par le gradient par rapport à ŵi de log P de y étant donné x-indice-prompt. Le terme ŵi-transposé multiplié par le gradient de ŵi log P de y étant donné x-indice-prompt est sous-appuyé par l’annotation « dérivée dans la direction ŵi ». L’équation identifie les jetons du vocabulaire en top k dont les dérivées directionnelles augmentent le plus la probabilité logarithmique de l’étiquette correcte y, utilisés pour sélectionner les jetons de remplacement candidats lors de l’optimisation par invite guidée par gradient.

k est le nombre de jetons de remplacement candidats à considérer. Modification de la i-th jeton de prompt avec t̃i ∈ Vcand pour former x̃prompt, on sélectionne le x̃prompt qui maximise les probabilités d’étiquette sur un lot d’entraînement dessiné indépendamment B comme

Une expression mathématique partielle montrant une somme sur l’ensemble B de P de y étant donné x-indice-demande, suivie d’un point. Cela représente la probabilité agrégée d’étiquette y donnée l’invite à travers tous les éléments de l’ensemble B, faisant probablement partie d’une fonction objectif plus large ou d’un critère de notation défini dans le texte environnant.

Cette approche peut être très productive pour augmenter l’efficacité rapide, comme on le voit dans le tableau 2. La précision induite par les indications manuelles des modèles BERT et RoBERTa pour le sentiment SST-2 est améliorée respectivement de 19,1% et 6,2%. Bien que ces améliorations soient assez importantes, il y a quelques inconvénients à cette approche. La première est que la méthode nécessite le calcul d’un gradient par rapport aux plongements du vocabulaire du modèle. Bien qu’aucun paramètre ne soit mis à jour dans ce processus, le calcul du gradient pour les LLM, même pour un petit sous-ensemble des paramètres, peut être très gourmand en ressources. De plus, les invites résultant de cette approche d’optimisation basée sur les jetons sont souvent difficiles à lire et ont tendance à ne pas ressembler à des prompts qu’un humain pourrait créer. Cela est mis en évidence dans le tableau 3. Certaines recherches actuelles visent à aborder ce problème, qui, en général, affecte de nombreuses autres approches d’optimisation discrète des prompts comme RLPrompt [5]. Cependant, cela reste un domaine d’enquête actif.

Deux tables présentées ensemble. Le tableau 2 montre la performance sur la tâche de classification du sentiment SST-2 en comparant les invites manuelles et générées par AutoPrompt sur quatre configurations de modèles. Le tableau comporte trois colonnes : Modèle, Compte de développement et Compte de test Ligne 1 : BERT (invite manuelle) – 63.2 / 63.2. Rangée 2 : BERT (AutoPrompt) – 80,9 / 82,3. Rangée 3 : RoBERTa (invite manuelle) – 85,3 / 85,2. Rangée 4 : RoBERTa (AutoPrompt) – 91,2 / 91,4. L’Autoprompt surpasse constamment les invitations manuelles pour les deux modèles, RoBERTa (AutoPrompt) obtenant les meilleurs scores dans l’ensemble. Le tableau 3 présente trois tâches avec leurs modèles d’invites associés et les prompts optimaux découverts par AutoPrompt. Les colonnes sont : Tâche, Modèle et Invite trouvés par AutoPrompt. Rangée 1 : Analyse du sentiment – modèle « ⟨texte ⟩ [t₁] ... [tn] [MASK] » – prompt « implacablement sombre et désespéré Écrivain universitaires où l’étranger apparaîtra [X] ». Rangée 2 : NLI – modèle de « ⟨ prémisse ⟩ [MASQUE] [t₁] ... [tn] (hypothèse) » – invite « Deux chiens se battent et s’embrassent [X] lieu de travail concret Il n’y a pas de lutte et de câlins de chiens ». Rangée 3 : Recherche de faits – modèle « ⟨sujet ⟩ [t₁] ... [tn] [MASK] » – prompt « Hall Overton fireplacemade antique son alto [X] ». Dans la colonne AutoPrompt, les jetons d’invite optimisés sont mis en évidence en lavande. La légende note que, bien que ces prompts fonctionnent bien selon leurs métriques respectives, ils sont difficiles à interpréter ou à comprendre sémantiquement.

IFT et PEFT

L’incitation présente plusieurs avantages importants. Grâce aux incitations, les LLM démontrent une capacité remarquable à accomplir des tâches pour lesquelles ils n’ont jamais été formés. De plus, le multi-tâche par lots est facilement réalisé grâce à des incitations. C’est-à-dire que le même LLM peut être utilisé pour de nombreuses tâches différentes, même au sein d’un même lot, simplement en modifiant l’invite. De plus, l’interaction et l’inférence des modèles sont obtenues uniquement par le langage naturel, ce qui réduit les barrières à l’utilisation des modèles. D’un autre côté, nous savons que la performance des tâches reste assez sensible à la conception des prompts. De plus, la recherche d’incitations optimales est difficile et souvent fastidieuse. Enfin, et peut-être le plus important, pour de nombreuses tâches, un grand écart subsiste entre la performance des LLM à demande et des modèles spécifiques à une tâche entraînés pour effectuer une seule tâche avec une haute fidélité. Ces inconvénients ont motivé d’autres approches visant à améliorer la capacité des LLM à accomplir des tâches spécifiques en aval, tout en tentant de préserver autant que possible les avantages de l’approche par incitation.

Réglage fin des instructions

L’observation selon laquelle l’OPT ne répond pas bien aux « instructions déclaratives ou interrogatives à bout portant », brièvement évoquée plus haut, est à la fois une affirmation vraie à propos du LLM et un fait qui rend plus difficile d’inciter le modèle à effectuer des tâches en aval. Des instructions directes et des questions directes sont souvent une façon naturelle de commencer à interagir avec un gestionnaire de gestion génératif. L’ajustement fin des instructions (IFT) vise à améliorer la performance des indications tout en rendant le processus plus intuitif. L’idée de base est de fournir à un LM cible des exemples supplémentaires, au-delà de ceux vus lors de la pré-entraînement, avec une structure spéciale. Pour l’IFT, cette structure spéciale prend la forme d’invites d’instruction jumelées à une réponse générée souhaitée à travers une grande variété de tâches de PLN. L’échelle et la qualité de ces ensembles de données sont importantes pour le succès du processus IFT. L’une de ces collections de données est le jeu de données Natural Instruction V2 introduit par [24]. Cet ensemble de données comprend plus de 1600 tâches différentes, issues de 76 catégories de tâches différentes, chacune jumelée à une consigne basée sur des instructions. Une illustration des différentes tâches et de leur représentation relative dans l’ensemble de données est présentée à la figure 5.

Figure 5. Un diagramme à bulles montrant la composition du jeu de données Natural Instruction V2 utilisé pour l’ajustement fin des instructions, où la taille de la bulle représente le nombre de tâches de chaque type sur une échelle logarithmique. Le graphique contient des dizaines de bulles étiquetées de couleurs variées, notamment sarcelle, bleu, beige, orange et gris. Les deux plus grandes bulles, placées en bonne place au centre, sont Translation et Question Answering, ce qui indique qu’elles représentent le plus grand nombre de tâches dans l’ensemble de données. Les bulles de taille moyenne incluent la génération de questions, l’analyse de sentiment, la reconnaissance d’entités nommées, la correspondance de texte, l’extraction d’informations, l’exécution de programmes, la catégorisation de texte et la classification de bon sens. Les bulles plus petites visibles autour du groupe incluent la synthèse, l’implication textuelle, la détection de langage toxique, la paraphrase, la génération de dialogues, la classification cause-effet, la vérification des faits, la génération de titres, la complétion de texte, la sémantique des mots, l’analogie des mots, la perturbation des phrases, le marquage de texte et divers, entre autres. D’autres bulles plus petites, non marquées ou partiellement visibles, apparaissent le long des bords extérieurs de l’amas. La forme générale du tableau est approximativement circulaire, avec des catégories de tâches plus grandes regroupées vers le centre et des catégories plus petites rayonnant vers l’extérieur.

Pour l’IFT, le LM cible est encore affiné (aussi appelé méta-ajustement) à partir de texte tiré de l’ensemble de données IFT. L’inconvénient de cette approche est qu’elle nécessite des ressources computationnelles équivalentes à l’ajustement fin complet du modèle, bien que pour une période beaucoup plus courte que les cycles de pré-entraînement de la plupart des LLM. D’un autre côté, il a été démontré que cette approche améliore la capacité d’un LM à incorporer des invites et à effectuer les tâches en aval selon les instructions. Voyez, par exemple, les résultats de [24] présentés dans les Figures 6A et B. L’IFT conserve bon nombre des avantages de l’incitation tout en visant à améliorer l’efficacité de l’incitation pour les modèles cibles. Les principaux inconvénients sont que l’IFT reste essentiellement un réglage fin, nécessite des critères d’arrêt rigoureux pour éviter de perdre les capacités générales du modèle (oublis catastrophiques), et ne comble pas nécessairement l’écart « à la fine pointe » grâce à l’ajustement fin spécifique à la tâche.

Figure 6 contenant deux parties. (A) Un tableau comparant la performance moyenne ROUGE-L de divers modèles sur des tâches invisibles après l’ajustement fin des instructions à l’aide des instructions naturelles V2, évalué sur des colonnes anglais (En) et cross-lingual (X-lingual). Les modèles sont regroupés en quatre catégories. Références heuristiques : Copie des scores d’entrée d’instance 14,2 / 5,4; Copie des résultats de démo : 28,5 / 50,3. LMs préentraînés : T5-LM (11B) scores 30,2 / – (aucun résultat); GPT3 (175B) obtient un score de 45,0 / 51,3. Modèles ajustés selon l’instruction : T0 (11B) scores 32,3 / –; InstructGPT (175B) scores 52,1 / 52,8; Tk-INSTRUCT (le nôtre, 11B) note 62,0 (gras) / –; mTk-INSTRUCT (le nôtre, 13B) obtient 57,1 / 66,1 (gras). Estimation supérieure via formation supervisée : 74,3 / 94,0. Les valeurs en gras indiquent les meilleurs scores par colonne parmi les modèles sans borne supérieure. (B) Un graphique linéaire comparant les scores d’évaluation humaine (ligne orange avec des marqueurs circulaires) et les scores ROUGE-L (ligne turquoise avec marqueurs carrés) pour Tk-Instruct sur des tâches invisibles sur cinq points de contrôle du modèle sur l’axe x : Copier l’entrée d’instance, T0 (11B), InstructGPT (3B), Tk-Instruct (3B) et Tk-Instruct (11B). Les deux indicateurs augmentent avec l’échelle du modèle, les scores humains passant d’environ 15,2 à 78,9 et les scores ROUGE-L passant d’environ 14,2 à 62,0. Les scores humains dépassent systématiquement les scores ROUGE-L à des modèles plus grands, l’écart s’élargissant notablement à Tk-Instruct (3B) et (11B).

Réglage fin efficace par les paramètres

L’ajustement fin complet des LLM devient souvent complètement irréalisable en raison des ressources informatiques massives nécessaires pour effectuer la formation, même pour de courtes périodes [27]. De plus, même avec les ressources nécessaires pour produire une version spécifique d’un LLM, il est probable qu’un modèle distinct doive être affiné pour chaque tâche distincte, nécessitant la duplication de l’infrastructure de stockage, de calcul et d’hébergement pour réellement utiliser ces modèles. Par conséquent, des approches alternatives pour combler l’écart mentionné plus haut dans la performance des LLM incités ont été envisagées.

Une extension naturelle de l’optimisation par prompts discrets est la relaxation de l’espace de recherche des jetons discrets vers l’espace continu des embeddings de jetons par manipulation ou augmentation de la couche d’embedding des LM. Ces méthodes sont connues sous le nom de techniques d’optimisation continue des prompts et incluent des méthodes telles que le Prompt-Tuning [13], le Prefix-Tuning [14], et le P-Tuning [16], entre autres. Ces méthodes constituent une sous-catégorie de l’ajustement fin à efficacité paramétrique (PEFT). Les méthodes PEFT entraînent une petite fraction des paramètres globaux du modèle tout en visant à récupérer la précision obtenue grâce à l’ajustement fin complet du modèle. Les approches d’optimisation continue des prompts se concentrent sur la modification ou l’augmentation des paramètres du modèle d’une manière qui coïncide ou imite les indications d’injection en langage naturel. Grâce à cette technique, il a été démontré que ces approches rivalisent avec la performance de l’ajustement fin complet du modèle à travers plusieurs tâches de PLN, surtout à mesure que la taille du LM sous-jacent augmente, voir la Figure 7 de [13]. Les méthodes réalisent un multi-lot en s’assurant que les poids appropriés, spécifiques à chaque tâche et « associés à l’invite » accompagnent chaque exemple du lot lors de l’inférence. Cependant, l’interprétabilité des « consignes » apprises demeure un enjeu et une question ouverte [11].

Figure 7. Un graphique linéaire comparant les scores SuperGLUE (axe des y, allant de 50 à 100) à travers les échelles des paramètres du modèle (axe x, échelle logarithmique de 10⁸ à 10¹¹) pour quatre approches utilisant T5 comme modèle sous-jacent. Quatre lignes sont tracées : Réglage de modèles (ligne rouge avec marqueurs circulaires), Réglage de modèles Multi-tâche (ligne orange avec marqueurs circulaires), Conception de prompts (ligne bleu foncé avec marqueurs carrés) et Réglage de prompt (ligne verte avec marqueurs X), ce dernier étant entouré d’une bande de confiance ombrée. À des modèles plus petits (10⁸ paramètres), les quatre méthodes se regroupent entre environ 59 et 65. À mesure que l’échelle du modèle augmente, le réglage du modèle et le multitâche du réglage du modèle augmentent considérablement, atteignant environ 90 à 10¹¹ de paramètres. Le réglage prompt augmente aussi fortement avec l’échelle, convergeant avec le réglage du modèle à environ 90 à 10¹¹ paramètres. La conception des prompts s’améliore plus graduellement, atteignant environ 74 à 10¹¹ paramètres – un score noté dans la légende comme point de référence pour GPT-3 175B. Le graphique démontre qu’à une échelle suffisante, l’ajustement des prompts correspond à la performance complète de l’ajustement fin des modèles, tandis que la conception des prompts sous-performe constamment les deux approches pour toutes les tailles de modèles.

Bien que les approches d’optimisation continue par prompt présentent de nombreux avantages, l’approche actuelle de pointe de la PEFT est l’adaptation à bas rang (LoRA) [9]. LoRA généralise l’adaptation de LM au-delà de l’incitation, mais se concentre toujours sur la modification du mécanisme d’attention du transformateur, comme c’est le cas dans le P-Tuning, par exemple. L’idée repose sur des observations empiriques selon lesquelles les poids des LLM sont de bas « rang intrinsèque ». C’est-à-dire que, bien que les tenseurs des LM soient de haute dimension, l’information qu’ils contiennent tend en fait à être bien approximée dans une dimension beaucoup plus basse. Cela se manifeste, par exemple, par une chute brutale des valeurs singulières associées à une décomposition singulière des poids du modèle.

Considérons une matrice de poids W₀ ∈ R^(d×d). L’hypothèse sous-jacente de LoRA est que, si ΔW est de faible « rang intrinsèque », alors les ajustements finis des mises à jour pourraient aussi l’être. Pendant l’entraînement, LoRA fige les poids originaux, W₀ et contraint les mises à jour aux matrices de bas rang BA de la forme

An equation defining the LoRA weight update. The expression reads: W-subscript-0 plus delta-W equals W-subscript-0 plus BA, followed by a comma. In this expression, W-subscript-0 represents the original frozen pretrained weight matrix, delta-W represents the weight update and BA represents the product of two low-rank matrices B and A that approximate the update. The equation establishes that rather than modifying W-subscript-0 directly, LoRA decomposes the weight update into the product of two smaller matrices.

B ∈ R^(d×r) et A ∈ R^(r×d) et r ≪ d est un petit entier. Si les mises à jour d’entraînement sont de rang inférieur, les poids dans B et A Cela devrait s’approcher approximativement de la vraie mise à jour. Cela est illustré à la figure 8.

Figure 8. Un diagramme illustrant l’adaptation de LoRA pour une transformation linéaire. En bas se trouve une barre horizontale étiquetée x représentant l’entrée. Deux chemins parallèles mènent vers le haut jusqu’à une barre horizontale étiquetée h représentant la sortie, reliée par un symbole plus. Le chemin de gauche passe par un grand rectangle bleu marqué « Poids préentraînés W ∈ R^(d×d) », représentant la matrice de poids pleine dimension figée avec la dimension d indiquée le long de la base. Le chemin de droite passe par deux formes de trapèze orange empilées représentant la décomposition de bas rang : le trapèze inférieur est étiqueté A = N(0, σ²), indiquant qu’il est initialisé avec une distribution normale; le trapèze supérieur est étiqueté B = 0, ce qui indique qu’il est initialisé à zéro. La dimension du goulot d’étranglement r est indiquée entre les deux trapèzes, illustrant la réduction de rang. La légende indique que le bloc de projection A est initialisé avec des poids distribués normalement.

Il y a quatre matrices consécutives dans l’attention à plusieurs têtes W_q, W_k, W_v, W_o. Une question importante est : « quelles matrices devraient être adaptées pendant la formation? » Les résultats présentés dans le tableau 4 suggèrent qu’adapter au moins les deux W_q et W_v offre un gain notable de performance. Il est également important de noter que la magnitude de r peut être très petit, tout en générant de bonnes performances. Le plus petit r c’est-à-dire que moins de poids sont entraînés. Adaptation des matrices d’attention de W_q et W_v dans chaque couche de GPT-3 avec des valeurs pour r de 1 et 8, LoRA est capable de capturer et de surpasser l’ajustement fin complet du modèle, comme on le voit dans le tableau 5.

Deux tables présentées ensemble. Le tableau 4 montre la précision de validation sur WikiSQL et MultiNLI après avoir appliqué LoRA à différentes combinaisons de matrices de poids d’attention dans GPT-3, avec des paramètres entraînables fixés à 18M. Les colonnes représentent sept configurations de poids avec un rang variable r : W-q (r=8), W-k (r=8), W-v (r=8), W-o (r=8), W-q et W-k (r=4), W-q et W-v (r=4) et W-q, W-k, W-v et W-o ensemble (r=2). Scores WikiSQL (±0,5%) : 70,4, 70,0, 73,0, 73,2, 71,4, 73,7 (gras), 73,7 (gras). Scores MultiNLI (±0,1%) : 91,0, 90,8, 91,0, 91,3, 91,3, 91,3, 91,3, 91,7 (gras). Les valeurs en gras indiquent les meilleures performances, en adaptant W-q et W-v ensemble ou les quatre matrices pour obtenir les meilleurs résultats WikiSQL, et adaptant les quatre matrices pour obtenir le meilleur résultat MultiNLI. Le tableau 5 compare la performance des méthodes de génération et d’inférence du langage naturel selon la précision WikiSQL, la précision MNLI-m et les scores SAMSum R1/R2/RL. Méthodes et comptages de paramètres entraînables : FT du modèle complet (175B), BitFit (14,2M), Prompt-Tuning (3,2M), P-Tuning (20,2M), Adapter-H (7,1M), Adapter-H (40,1M), LoRA r=1 (4,7M) et LoRA r=8 (37,7M). Résultats clés : Full-Model FT mène WikiSQL à 73,8 (gras); LoRA r=8 atteint 74,0 (gras), dépassant de peu le réglage fin complet sur WikiSQL. LoRA r=1 atteint le score MNLI-m le plus élevé de 91,7 (gras). LoRA r=1 obtient également les meilleurs scores SAMSum de 53,8/29,8/45,9. La légende note que LoRA surpasse les approches PEFT antérieures, y compris l’ajustement complet

Effectuer du batching multitâche avec LoRA est un peu plus compliqué comparé à des méthodes comme le Prompt-Tuning. Parce que LoRA reparamétrise essentiellement les composantes complètes du modèle à travers les matrices B et A, les entrées associées à différentes tâches doivent être acheminées à travers différentes matrices LoRA afin de produire les sorties spécifiques à chaque tâche. Une telle approche est possible, mais nécessite un niveau élevé d’orchestration de l’infrastructure. Cependant, traiter des tâches séparées en lots homogènes consiste simplement à appliquer les bons poids LoRA, ce qui reste assez flexible. L’utilisation de LoRA pour les tâches en aval s’éloigne aussi de l’idée d’interagir avec les LM par le langage naturel, ce qui augmente le niveau d’expertise nécessaire pour réaliser les tâches en aval. Cependant, les avantages de performance de la LoRA en ont fait une approche extrêmement populaire pour obtenir une grande précision efficace pour une variété de tâches personnalisées grâce aux LLM.

Conclusion

Dans cet article, nous avons couvert une grande partie des recherches actuelles et émergentes sur les LLM. Ces modèles continuent de croître en taille, s’entraînent sur des ensembles de données de plus en plus volumineux et voient des billions de jetons durant leur phase de pré-entraînement. Les incitations et la conception des prompts continuent d’évoluer à mesure que notre compréhension des meilleures pratiques pour interagir avec les LLM par le langage naturel devient plus claire et que les capacités des LLM sont explorées. Nous avons discuté de méthodes de pointe pour générer automatiquement des prompts optimaux, tant dans le contexte du langage naturel que dans les espaces de dimensions supérieures des LLM eux-mêmes. Enfin, nous avons envisagé deux approches récentes pour accomplir des tâches spécifiques en aval avec une plus grande fidélité. La première, l’IFT, vise à améliorer la capacité des LLM à effectuer des tâches par incitation directe. La seconde, LoRA, est une technique extrêmement efficace pour affiner une petite fraction des poids totaux d’un LLM afin d’exécuter une tâche en aval avec une précision similaire à l’ajustement complet du modèle, réduisant ainsi les ressources nécessaires pour obtenir des performances à la fine pointe de la technologie pour une variété de tâches.

Références

[1] S. Agrawal, C. Zhou, M. Lewis, L. Zettlemoyer et M. Ghazvininejad. Sélection d’exemples contextuels pour la traduction automatique. Dans les résultats de l’Association for Computational Linguistics : ACL 2023, pages 8857–8873, Toronto, Canada, juillet 2023. Association pour la linguistique computationnelle.

[2] T. Brown, B. Mann, N. Ryder, M. Subbiah, J.D. Kaplan, P. Dhariwal, A. Neelakantan, et al. Les modèles de langage sont des apprenants peu puissants. Dans Advances in Neural Information Processing Systems, volume 33, pages 1877–1901, 2020.

[3] W.-L. Chiang, Z. Li, Z. Lin, Y. Sheng, Z. Wu, H. Zhang, L. Zheng, S. Zhuang, Y. Zhuang, J. E. Gonzalez, et al. Vicuna : Un chatbot open source impressionnant GPT-4 avec 90%* de qualité ChatGPT, mars 2023.

[4] L. Cui, Y. Wu, J. Liu, S. Yang et Y. Zhang. Reconnaissance d’entités nommées basée sur des modèles à l’aide de BART. Dans les résultats de l’Association for Computational Linguistics : ACL-IJCNLP 2021, pages 1835–1845, en ligne, août 2021. Association pour la linguistique computationnelle.

[5] M. Deng, J. Wang, C.-P. Hsieh, Y. Wang, H. Guo, T. Shu, M. Song, E.P. Xing et Z. Hu. RLPrompt : Optimiser les prompts textuels discrets avec l’apprentissage par renforcement. Dans la conférence sur les méthodes empiriques dans le traitement du langage naturel, 2022.

[6] H. Duan, A. Dziedzic, N. Papernot et F. Boenisch. Volées de perroquets stochastiques : apprentissage différentiel privé par incitations pour de grands modèles de langage. https://arxiv.org/abs/2305.15594, mai 2023.

[7] H. Gonen, S. Iyer, T. Blevins, N. Smith et L. Zettlemoyer. Démystifier les invites dans les modèles de langage par estimation de la perplexité. https://arxiv.org/abs/2212.04037, 12 2022.

[8] J. Hoffmann, S. Borgeaud, A. Mensch, E. Buchatskaya, T. Cai, E. Rutherford, D. de Las Casas, L.A. Hendricks, J. Welbl, A. Clark, T. Hennigan, E. Noland, K. Millican, G. van den Driessche, B. Damoc, A. Guy, S. Osindero, K. Simonyan, E. Elsen, J.W. Rae, O. Vinyals et L. Sifre. Entraînement de grands modèles de langage optimaux en calcul. Dans S. Koyejo, S. Mohamed, A. Agarwal, D. Belgrave, K. Cho, et A. Oh, éditeurs, Advances in Neural Information Processing Systems, volume 35, pages 30016–30030. Curran Associates, Inc., 2022.

[9] E. Hu, Y. Shen, P. Wallis, Z. Allen-Zhu, Y. Li, L. Wang et W. Chen. Lora : Adaptation à bas rang de grands modèles de langage, 2021.

[10] Z. Jiang, F.F. Xuand J. Araki et G. Neubig. Comment pouvons-nous savoir ce que savent les modèles de langage? Transactions de l’Association for Computational Linguistics, 8:423–438, 2020.

[11] D. Khashabi, X. Lyu, S. Min, L. Qin, K. Richardson, S. Welleck, H. Hajishirzi, T. Khot, A. Sabharwal, S. Singh et Y. Choi. Égarement prompt : Le cas curieux de l’interprétation discrétisée des incitations continues. Dans les actes de la conférence 2022 du chapitre nord-américain de l’Association for Computational Linguistics : Human Language Technologies, pages 3631–3643, Seattle, États-Unis, juillet 2022. Association pour la linguistique computationnelle.

[12] T. Kojima, S.S. Gu, M. Reid, Y. Matsuo et Y. Iwasawa. Les grands modèles de langage sont des raisonnements à zéro coup. arXiv préprint arXiv :2205.11916, 2022.

[13] B. Lester, R. Al-Rfou, et N. Constant. La puissance de l’échelle pour un réglage prompt efficace en paramètres. Dans les actes de la conférence 2021 sur les méthodes empiriques en traitement du langage naturel, pages 3045–3059, en ligne et Punta Cana, République dominicaine, novembre 2021. Association pour la linguistique computationnelle.

[14] Xiang Lisa Li et Percy Liang. Préfix-tuning : Optimisation des prompts continus pour la génération. Actes de la 59e réunion annuelle de l’Association for Computational Linguistics et de la 11e Conférence internationale conjointe sur le traitement du langage naturel (Volume 1 : Long Papers), abs/2101.00190, 2021.

[15] J. Liu, D. Shen, Y. Zhang, B. Dolan, L. Carin et W. Chen. Qu’est-ce qui fait de bons exemples contextuels pour GPT-3? Dans Proceedings of Deep Learning Inside Out (DeeLIO 2022) : 3e atelier sur l’extraction et l’intégration des connaissances pour les architectures de deep learning, pages 100–114, Dublin, Irlande et en ligne, mai 2022. Association pour la linguistique computationnelle.

[16] Xiao Liu, Kaixuan Ji, Yicheng Fu, Weng Tam, Zhengxiao Du, Zhilin Yang et Jie Tang. P-tuning : L’ajustement des prompts peut être comparable à l’ajustement fin entre gammes et tâches. Dans les actes de la 60e réunion annuelle de l’Association for Computational Linguistics (Volume 2 : Courts Papers), pages 61–68, Dublin, Irlande, mai 2022. Association pour la linguistique computationnelle.

[17] Y. Lu, M. Bartolo, A. Moore, S. Riedel et P. Stenetorp. Prompts fantastiquement ordonnés et où les trouver : Surmonter la sensibilité à l’ordre des prompts en quelques shots. Dans les actes de la 60e réunion annuelle de l’Association for Computational Linguistics (Volume 1 : Long Papers), pages 8086–8098, Dublin, Irlande, mai 2022. Association pour la linguistique computationnelle.

[18] S. Min, X. Lyu, A. Holtzman, M. Artetxe, M. Lewis, H. Hajishirzi et L. Zettlemoyer. Repenser le rôle des démonstrations : Qu’est-ce qui rend l’apprentissage en contexte efficace? Dans les actes de la Conférence 2022 sur les méthodes empiriques en traitement du langage naturel, pages 11048–11064, Abu Dhabi, Émirats arabes unis, décembre 2022. Association pour la linguistique computationnelle.

[19] S. Mishra, D. Khashabi, C. Baral, C. Yejin et H. Hajishirzi. Reformuler les consignes pédagogiques dans le langage de GPTk. pages 589–612, 01 2022.

[20] A. Prasad, P. Hase, X. Zhou et M. Bansal. GrIPS : Recherche d’instructions sans gradient, basée sur des modifications, pour l’envoi de grands modèles de langage. ArXiv, abs/2203.07281, 2022.

[21] T. Shin, Y. Razeghi, R.L. Logan IV, E. Wallace et S. Singh. Autoprompt : Extraire des connaissances à partir de modèles de langage avec des invites générées automatiquement. pages 4222–4235, 01 2020.

[22] H. Touvron, T. Lavril, G. Izacard, X. Martinet, M.-A. Lachaux, T. Lacroix, B. Rozi’ere, N. Goyal, E. Hambro, F. Azhar, A. Rodriguez, A. Joulin, E. Grave et G. Lample. LLaMA : Modèles de langage fondamentaux ouverts et efficaces, 02 2023.

[23] A. Wang, Y. Pruksachatkun, N. Nangia, A. Singh, J. Michael, F. Hill, O. Levy et S.R. Bowman. SuperGLUE : Un benchmark plus collant pour les systèmes de compréhension linguistique à usage général. Curran Associates Inc., Red Hook, NY, États-Unis, 2019.

[24] Y. Wang, S. Mishra, P. Alipoormolabashi, Y. Kordi, A. Mirzaei, A. Naik, A. Ashok, A.S. Dhanasekaran, A. Arunkumar, D. Stap, E. Pathak, G. Karamanolakis, H. Lai, I. Purohit, I. Mondal, J. Anderson, K. Kuznia, K. Doshi, K.K. Pal, M. Patel, M. Moradshahi, M. Parmar, M. Purohit, N. Varshney, P.R. Kaza, P. Verma, R.S. Puri, R. Karia, S. Doshi, S.K. Sampat, S. Mishra, A.S. Reddy, S. Patro, T. Dixit et X. Shen. Instructions surnaturelles : Généralisation via des instructions déclaratives sur 1600+ tâches de PLN. Dans les actes de la Conférence 2022 sur les méthodes empiriques dans le traitement du langage naturel, pages 5085–5109, Abu Dhabi, Émirats arabes unis, décembre 2022. Association pour la linguistique computationnelle.

[25] J. Wei, X. Wang, D. Schuurmans, M. Bosma, E. Chi, Q. Le et D. Zhou. L’incitation à la chaîne de pensée suscite le raisonnement dans les grands modèles de langage. arXiv prépublication arXiv :2201.11903, 2022.

[26] J. Wei, J. Wei, Y. Tay, D. Tran, D. Webson, Y. Lu, X. Chen, H. Liu, D. Huang, D. Zhou, et T. Ma. Les modèles de langage plus larges font l’apprentissage en contexte différemment, 2023.

[27] J. Yoo, K. Perlin, S.R. Kamalakara et J.G.M Arau ́jo. Entraînement évolutif des modèles de langage utilisant jax, pjit et tpuv4. https://arxiv.org/pdf/2204.06514.pdf 2022.

[28] W. Yuan, G. Neubig et P. Liu. BARTScore : Évaluation du texte généré comme génération de texte. Dans M. Ranzato, A. Beygelzimer, Y. Dauphin, P.S. Liang et J. Wortman Vaughan, éditeurs, Advances in Neural Information Processing Systems, volume 34, pages 27263–27277. Curran Associates, Inc., 2021.

[29] S. Zhang, S. Roller, N. Goyal, M. Artetxe, M. Chen, S. Chen, C. Dewan, M. Diab, X. Li, X. V. Lin, T. Mihaylov, M. Ott, S. Shleifer, K. Shuster, D. Simig, P. S. Koura, A. Sridhar, T. Wang et L. Zettlemoyer. OPT : Ouvrir des modèles de langage transformateurs pré-entraînés. arXiv : 2205.01068, 2022.

Les grands modèles de langageLLMont incitéà la recherche