Une première étape : Le traitement du langage naturel à la une du dernier atelier de l'Institut Vecteur

13 mars 2024

Traitement du langage naturel Recherche

Par Arber Kacollja

Le récent atelier sur le traitement du langage naturel (TAL) de l'Institut Vecteur a réuni des chercheurs en TAL pour discuter de leurs intérêts communs et présenter les travaux réalisés par la communauté TAL de Vector. Le paysage de la recherche sur le traitement du langage naturel est complexe, car il permet aux machines de comprendre les nuances du langage humain. Il s'agit d'une facette essentielle de l'IA, un lien entre la linguistique et l'informatique.

Les progrès récents du TAL, en particulier l'essor des grands modèles de langage pré-entraînés (LLM), ont permis d'intégrer les systèmes de TAL dans de nombreuses facettes de notre vie quotidienne. En outre, l'évolution rapide de la recherche en matière de NLP a donné naissance à une pléthore d'applications couvrant divers domaines. Au-delà des applications conventionnelles telles que les assistants vocaux personnels et les systèmes de recommandation, les percées récentes incluent ChatGPT pour la génération de contenu et Dall-E pour la génération de texte à partir d'images.

Frank Rudzicz, membre de la faculté Vector, accueillant les participants à l'atelier.
Frank Rudzicz, membre de la faculté Vector, accueillant les participants à l'atelier.

Tout au long de la journée, les membres du corps professoral de Vector, les affiliés du corps professoral, les boursiers postdoctoraux et les chercheurs de la communauté Vector au sens large ont discuté des travaux de pointe, examiné les opportunités et les défis du NLP à l'ère des LLM, et échangé des idées sur divers sujets liés au NLP.

Les participants ont également pris part à des sessions interactives en petits groupes ainsi qu'à une session de posters où des étudiants diplômés ont présenté leurs recherches.

Les avancées rapides dans la littérature sur les modèles de langage pré-entraînés ont donné lieu à des progrès remarquables. Frank Rudzicz, membre de la faculté Vector et titulaire de la chaire CIFAR AI au Canada, qui est également professeur associé à l'université Dalhousie, a présenté des sujets liés à la méthode scientifique dans la recherche moderne en NLP, en explorant les questions liées aux mesures et à l'évaluation des performances dans la technologie de la parole profonde. 

L'exposé a également exploré le concept de dette scientifique dans le domaine du langage naturel, en se concentrant sur les défis à relever pour rendre plus honnête la recherche sur les modèles de langage pré-entraînés. La dette technique, a-t-il expliqué, apparaît lorsque les équipes techniques optent pour des solutions rapides mais sous-optimales aux problèmes, ou négligent d'investir du temps dans la construction de méthodes durables. Il peut s'agir d'adopter une approche qui ne s'adapte pas bien ou de combiner plusieurs composants à la fois sans comprendre leurs interactions. Bien que ces raccourcis puissent sembler efficaces dans un premier temps, ils entraînent souvent des problèmes importants au fil du temps.

À l'instar de la dette technique qui s'accumule généralement lors du développement rapide d'un nouveau logiciel, la dette scientifique décrit des problèmes similaires découlant du développement et de l'intégration de modèles de langage pré-entraînés. "Au lieu d'accepter hâtivement les tendances en matière de NLP, nous devons soigneusement démêler les composants interconnectés et évaluer leurs contributions individuelles aux résultats obtenus", déclare M. Rudzicz. 

Il a également formulé de nombreuses recommandations essentielles sur la voie à suivre et a tiré des enseignements visant à favoriser les progrès dans ce domaine d'activité.

Des métriques explicables et fiables et des systèmes NLP cohérents à l'ère des grands modèles de langage

Alors que les technologies d'IA générative sont déployées dans notre vie quotidienne, la communication entre l'IA et les utilisateurs humains devient plus importante que jamais. Zining Zhu, récemment titulaire d'un doctorat de l'Université de Toronto et nouveau membre de la faculté de l'Institut Stevens, a présenté un cadre de canaux de communication dans lequel l'IA en tant qu'assistant peut aider les humains à traiter des données complexes et à comprendre les résultats des prédictions automatiques. Ce cadre utilise la théorie de l'information pour révéler les mécanismes des explications générées par l'IA et intègre le public pour adapter le contenu et les formats. L'explication est un outil largement utilisé dans la communication.

Blob

"Une explication peut être générée par les MLD, mais elle doit être informative, contextuelle et utile.

Zining Zhu

Membre du corps enseignant, Stevens Institute of Technology

Sa présentation s'inscrit dans le cadre des efforts continus visant à établir des normes d'évaluation approfondies pour l'IA explicable. Outre les obstacles informatiques liés à la production de ces explications, l'évaluation des explications résultantes nécessite une perspective et des mesures centrées sur l'homme.

Dongfu Jiang, doctorant à l'université de Waterloo, a présenté TIGERScore, une mesure entraînée qui suit les instructions pour effectuer une évaluation explicable et sans référence sur un large éventail de tâches de génération de texte. Contrairement aux mesures automatiques traditionnelles, TIGERScore fournit une analyse détaillée des erreurs afin de mettre en évidence les erreurs dans le texte généré, accompagnées d'explications pour chaque erreur. Jiang a expliqué comment lui et son équipe, dirigée par Wenhu Chen, membre de la faculté Vector et titulaire de la chaire canadienne CIFAR d'IA, qui est également professeur adjoint à l'université de Waterloo, ont traité l'ensemble de données synthétiques MetricInstruct en demandant à GPT-4, qui est utilisé pour affiner LLama-13b, d'obtenir le TIGERScore. Il a décrit les stratégies d'incitation et les intuitions utilisées pour améliorer la qualité de l'ensemble de données et a présenté les scénarios d'application de TIGERScore, ainsi que les orientations futures de la recherche vers de meilleures métriques LLM.

Bien que les LLM aient démontré une capacité impressionnante à comprendre et à générer des textes de type humain, l'évaluation des tâches de génération de langage naturel est un problème ouvert de longue date. Les méthodes permettant de garantir leur pertinence et leur cohérence et de traiter leurs erreurs restent ambiguës.

L'édition de modèle dans les LLM est une tâche qui utilise un seul échantillon pour modifier directement la connaissance factuelle dans un modèle de langage pré-entraîné. Le succès des méthodes d'édition de modèles n'est actuellement évalué qu'à l'aide des quelques tokens suivants, de sorte que nous ne comprenons pas l'impact de l'édition de modèles sur la génération de formes longues, comme les textes de longueur de paragraphe. Pour résoudre ce problème, Domenic Rosati, candidat au doctorat à l'université de Dalhousie, a présenté un nouvel ensemble de protocoles d'évaluation. LEME (Long-form evaluation of model editing) est un protocole d'évaluation qui mesure l'efficacité et l'impact de l'édition de modèles dans des contextes génératifs de longue durée. Après avoir présenté le protocole, il a discuté à l'adresse de résultats tels que les problèmes de "dérive des faits" dans les méthodes basées sur l'optimisation directe comme MEMIT et ROME, la surestimation des méthodes en contexte comme IKE lorsque l'analyse n'est pas correctement contrôlée, et divers problèmes de qualité introduits par l'édition de modèles comme le manque de cohésion lexicale et la dérive des sujets, que nous ne pouvons identifier qu'à l'aide de nos techniques d'évaluation. Ce nouveau travail passionnant a été soumis pour publication et est actuellement disponible en ligne sous forme de préimpression. Enfin, il a souligné l'importance des interventions d'édition de modèles pour concevoir des techniques qui produisent des générations caractérisées par une grande cohérence.

Bien que les LLMs pré-entraînés sur des corpus à grande échelle aient montré de grandes performances dans diverses tâches de NLP, ces systèmes ont été critiqués pour leur manque de connaissances factuelles. Pascal Poupart, membre de la faculté Vector et titulaire de la chaire CIFAR AI au Canada, qui est également professeur à l'université de Waterloo, a parlé des progrès réalisés dans la représentation des connaissances pour le NLP. Il a donné un aperçu des avancées récentes réalisées par son groupe, notamment l'inférence de graphes de connaissances de croyance et de représentations d'objets latents pour les jeux basés sur le texte. M. Poupart a également présenté de nouvelles techniques pour un réglage rapide et efficace et la distillation de grands modèles en modèles traçables. Enfin, il a abordé les défis liés à l'utilisation de grands modèles de langage pour la correction des erreurs de grammaire et la découverte accélérée de matériel.

Vers un NLP universel et des systèmes d'intelligence artificielle plus inclusifs et sensibles aux différences culturelles

Les technologies de l'IA étant de plus en plus répandues dans la société, il est essentiel de mettre au point des systèmes qui s'adressent à des utilisateurs d'origines diverses et qui transcendent le prisme culturel occidental en intégrant une sensibilité culturelle. Si l'on ne tient pas compte des nuances culturelles, on risque de créer des modèles qui renforcent les inégalités et les stéréotypes sociétaux, ce qui nuirait à leur efficacité pour les utilisateurs des régions non occidentales.

Malgré leur succès étonnant, les LLM et les modèles de génération d'images souffrent de plusieurs limitations. Vered Shwartz, membre de la faculté Vector et titulaire de la chaire CIFAR AI au Canada, qui est également professeur adjoint à l'université de Colombie-Britannique, a axé son exposé sur l'optique occidentale, nord-américaine ou même américaine étroite des modèles, qui résulte de l'apprentissage de textes et d'images sur le web par des utilisateurs principalement basés aux États-Unis. En conséquence, les utilisateurs de diverses cultures qui interagissent avec ces outils peuvent se sentir incompris et les juger moins utiles. Pire encore, lorsque ces modèles sont utilisés dans des applications qui prennent des décisions concernant la vie des gens, un manque de sensibilisation culturelle peut conduire à des modèles qui perpétuent les stéréotypes et renforcent les inégalités sociétales.

Blob

"Dans mon laboratoire, nous évaluons actuellement la sensibilité culturelle des LLM et nous travaillons à les doter de compétences culturelles.

Vered Shwartz

Membre de la faculté Vector, Chaire d'IA du CIFAR au Canada

Elle a également présenté une ligne de travail de son laboratoire visant à quantifier et à atténuer ce biais.

À l'instar de la PNL multiculturelle, la PNL multilingue doit tenir compte de ces différences afin d'améliorer l'efficacité des systèmes de PNL pour les utilisateurs. La langue est au cœur des interactions et des communications humaines. Avec plus de 7 000 langues dans le monde, un système optimal de PNL universel devrait être capable de traiter et de comprendre diverses langues.

Freda Shi, doctorante au Toyota Technological Institute de Chicago, s'est concentrée sur la capacité multilingue des grands modèles de langage. À la lumière des réalisations remarquables des récents LLM, il est naturel de s'interroger sur leur capacité multilingue, en particulier lorsqu'il s'agit de langues à faibles ressources et sous-représentées. Bien que les langues du monde entier présentent de nombreuses similitudes, elles se targuent également d'une grande diversité typologique. Elle a passé en revue le multilinguisme dont font preuve les linguistes actuels, en prenant l'induction de lexiques bilingues et le raisonnement multilingue comme deux tâches représentatives. Elle a conclu en discutant des défis et des opportunités du multilinguisme à l'ère du LLM.

Pour faire avancer la recherche et les systèmes de NLP, il faut faire face aux obstacles spécifiques liés à la collecte et à l'analyse de données provenant de langues à faibles ressources. Au fur et à mesure que les techniques de NLP évoluent, il est impératif de garantir que l'identité culturelle et la langue des locuteurs natifs ne soient ni négligées ni exploitées. Au contraire, ils devraient être activement impliqués dans le processus et avoir la possibilité d'influencer la manière dont la technologie les représente, ainsi que leur langue et leur culture.

Présentation de VectorLM : Optimisation des charges de travail LLM sur le cluster de calcul Vector

John Willes, chef d'équipe technique au sein de l'équipe d'ingénierie de l'IA de Vector, a présenté VectorLM. VectorLM est un logiciel léger développé par l'équipe d'ingénierie de l'IA de l'Institut Vector pour optimiser les charges de travail courantes de réglage fin des LLM et permettre aux chercheurs de Vector d'entraîner plus efficacement des modèles de taille modérée sur le cluster Vector. M. Willes a donné un aperçu des leçons pratiques tirées de l'entraînement des LLM sur le cluster HPC de Vector. Les compromis matériels et logiciels importants ont été examinés sous l'angle des contraintes de calcul et de réseau propres au cluster.

Les progrès rapides de la PNL ont révolutionné la communication. L'interconnexion accrue à travers le monde a donné lieu à une pléthore d'applications dans divers domaines. La PNL étant désormais omniprésente et reposant de plus en plus sur des données générées par les utilisateurs, il est plus important que jamais que la recherche dans ce domaine adopte des méthodologies sûres et fiables.

Plongez dans le traitement du langage naturel

Vous souhaitez en savoir plus sur les initiatives de recherche actuelles de l'Institut Vecteur dans le domaine du traitement du langage naturel, regardez la liste complète des conférences sur YouTube

En rapport :

Recherche
Une IA digne de confiance

Des experts de renommée mondiale en matière de confiance et de sécurité de l'IA publient un article majeur sur la gestion des risques liés à l'IA dans la revue Science

Trois personnes regardent fixement un ordinateur portable portant un logo Vector.
IA générative
Recherche

Évaluation comparative de Grok-1 de xAI

Deux personnes jouant aux échecs
Perspectives
Recherche

Blogue de Vector Research : Votre réseau neuronal est-il en danger ? Le piège des optimiseurs de gradient adaptatifs