Innover : le traitement du langage naturel titres Le dernier atelier de l’Institut Vector
13 mars 2024
13 mars 2024
Par Arber Kacollja
Le récent atelier sur le traitement du langage naturel (PNL) de l’Institut Vectoriel a réuni des chercheurs en PNL pour discuter de leurs intérêts communs et présenter les travaux réalisés par la communauté du PNL vectoriel. Le paysage de la recherche en PNL est complexe et complexe, permettant aux machines de saisir les nuances du langage humain. C’est un aspect crucial de l’IA, un nexus entre la linguistique et l’informatique.
Les progrès récents en PNL, en particulier l’essor des grands modèles de langage (LLM) pré-entraînés, ont intégré les systèmes de PLN dans de nombreux aspects de notre vie quotidienne. De plus, l’évolution rapide de la recherche en PNL a engendré une multitude d’applications couvrant divers domaines. Au-delà des applications conventionnelles comme les assistants vocaux personnels et les systèmes de recommandation, les percées récentes incluent ChatGPT pour la génération de contenu et Dall-E pour la génération de texte en image.

Tout au long de l’événement d’une journée, les membres du corps professoral de Vector, les membres affiliés du corps professoral, les chercheurs postdoctoraux et les chercheurs issus de la communauté élargie de Vector ont discuté de travaux de pointe, examiné les opportunités et les défis de la PNL à l’ère des LLM, et échangé leurs perspectives sur divers sujets liés à la PNL.


Les participants ont également participé à des séances interactives en petits groupes ainsi qu’à une séance d’affiches où des étudiants diplômés présentaient leurs recherches.
Les avancées rapides dans la littérature sur les modèles de langage pré-entraînés ont entraîné des progrès remarquables. Frank Rudzicz, membre du corps professoral de Vector et président canadien de l’IA au CIFAR, également professeur agrégé à l’Université Dalhousie, a présenté des sujets liés à la méthode scientifique dans la recherche moderne en PNL en explorant des enjeux liés aux métriques et à l’étalonnage dans la technologie de la parole profonde.
La conférence a également exploré le concept de dette scientifique en PNL, en mettant l’accent sur les défis liés à l’honnêteté de la recherche sur des modèles de langage pré-entraînés. La dette technique, a-t-il expliqué, apparaît lorsque les équipes techniques optent pour des solutions rapides mais sous-optimales aux problèmes, ou négligent d’investir du temps dans la construction de méthodes durables. Cela peut impliquer d’adopter une approche qui ne s’adapte pas bien ou de confondre plusieurs composants en même temps sans comprendre leurs interactions. Bien que ces raccourcis puissent sembler efficaces au départ, ils entraînent souvent des défis importants avec le temps.
De manière similaire à la façon dont la dette technique s’accumule couramment lors du développement rapide de nouveaux logiciels, la dette scientifique décrit des problèmes similaires découlant du développement et de l’intégration de modèles de langage pré-entraînés. « Au lieu d’accepter à la hâte les tendances en PNL, nous devons démêler soigneusement les composants interconnectés et évaluer leurs contributions individuelles aux résultats rapportés », affirme Rudzicz.
Il a également présenté de nombreuses recommandations clés pour la suite et en a tiré des leçons visant à favoriser le progrès dans ce domaine.
À mesure que les technologies d’IA générative sont déployées dans notre vie quotidienne, la communication entre l’IA et les utilisateurs humains devient plus importante que jamais. Zining Zhu, récemment diplômé en doctorat à l’Université de Toronto et nouveau professeur à l’Institut Stevens, a présenté un cadre de canaux de communication où l’IA, en tant qu’assistants, peut aider les humains à traiter des données complexes et à comprendre les résultats automatiques de prédiction. Ce cadre utilise la théorie de l’information pour révéler les mécanismes des explications générées par l’IA, et intègre le public pour adapter le contenu et les formats. L’explication est un outil largement utilisé en communication.
« Une explication peut être générée par les LLM, mais elles doivent être informatives, contextuelles et utiles »
Zining Zhu
Membre du corps professoral, Stevens Institute of Technology
Sa présentation fait partie des efforts continus visant à établir des normes d’évaluation rigoureuses pour l’IA explicable. En plus des obstacles computationnels à la production de ces explications, l’évaluation des explications résultantes nécessite une vision centrée sur l’humain et des métriques.
En passant à la création d’une métrique explicable pour toutes les tâches de génération de texte, Dongfu Jiang, doctorant à l’Université de Waterloo, a présenté TIGERScore, une métrique entraînée qui suit des instructions pour effectuer une évaluation explicable et sans référence sur un large éventail de tâches de génération de texte. Contrairement aux métriques automatiques traditionnelles, TIGERScore fournit une analyse détaillée des erreurs pour identifier les erreurs dans le texte généré, accompagnée d’explications de chaque erreur. Jiang a expliqué comment lui et son équipe, dirigée par Wenhu Chen, membre du corps professoral de Vector et président de l’IA au Canada CIFAR, également professeur adjoint à l’Université de Waterloo, ont sélectionné le jeu de données synthétique MetricInstruct en incitant GPT-4, utilisé pour affiner LLama-13b, à obtenir TIGERScore. Il a exposé des stratégies d’incitation et des intuitions utilisées pour améliorer la qualité de l’ensemble de données, a présenté les scénarios d’application de TIGERScore et a exposé les orientations de recherche futures vers de meilleures métriques LLM.
Bien que les LLM aient démontré une capacité impressionnante à comprendre et à générer des textes de type humain, l’évaluation des tâches de génération de langage naturel demeure un problème ouvert de longue date. Les méthodes pour garantir leur pertinence et leur cohérence et corriger leurs erreurs demeurent ambiguës.
L’édition de modèles dans les LLM est une tâche qui utilise un seul échantillon pour modifier directement les connaissances factuelles dans un modèle de langage pré-entraîné. Le succès des méthodes d’édition de modèles est actuellement évalué uniquement à l’aide des jetons suivants, donc nous ne comprenons pas encore l’impact de l’édition de modèles sur la génération de longs formats comme le texte de longueur de paragraphe. Pour résoudre ce problème, Domenic Rosati, doctorant à l’Université Dalhousie, a présenté un nouvel ensemble de protocoles d’évaluation. L’évaluation longue forme de l’édition de modèles (LEME) est un protocole d’évaluation qui mesure l’efficacité et l’impact de l’édition de modèles dans des contextes génératifs de longue durée. Après avoir introduit le protocole, il a discuté des découvertes telles que des problèmes de « dérive de faits » dans des méthodes basées sur l’optimisation directe telles que MEMIT et ROME, la surestimation de méthodes contextuelles comme IKE lorsque l’analyse n’est pas correctement contrôlée, ainsi que divers problèmes de qualité introduits par l’édition du modèle, comme le manque de cohésion lexicale et la dérive des sujets, que nous ne pouvons identifier qu’avec nos techniques d’évaluation. Cette nouvelle œuvre passionnante a été soumise pour publication et est actuellement disponible en ligne en prépublication. Enfin, il a souligné l’importance des interventions d’édition de modèles pour concevoir des techniques qui produisent des générations caractérisées par une grande cohérence.
Bien que les LLM pré-entraînés sur des corpus à grande échelle aient démontré d’excellentes performances dans diverses tâches de PLN, ces systèmes ont été critiqués pour leur manque de connaissances factuelles. Pascal Poupart, membre du corps professoral de Vector et président canadien de l’IA au CIFAR, également professeur à l’Université de Waterloo, a discuté des avancées dans la représentation des connaissances pour le NLP. Il a présenté un aperçu des avancées récentes réalisées par son groupe, incluant l’inférence, les graphes de connaissance et les représentations d’objets latents pour les jeux textuels. Poupart a également présenté de nouvelles techniques pour l’ajustement rapide efficace et la distillation de grands modèles en modèles manipulables. Enfin, il a discuté des défis liés à l’utilisation de grands modèles de langage pour la correction d’erreurs grammaticales et la découverte accélérée de matériel.
Avec la prolifération croissante des technologies d’IA dans la société, il est essentiel de développer des systèmes qui répondent à des utilisateurs issus de milieux divers et qui transcendent le prisme culturel occidental en intégrant la conscience culturelle. Ne pas tenir compte des nuances culturelles pourrait entraîner des modèles qui renforcent les inégalités et stéréotypes sociétaux, nuisant ainsi à leur efficacité pour les utilisateurs provenant de régions non occidentales.
Malgré leur succès incroyable, les LLM et les modèles de génération d’images présentent plusieurs limites. Vered Shwartz, membre du corps professoral de Vector et présidente de l’IA au Canada au CIFAR, également professeure adjointe à l’Université de la Colombie-Britannique, a concentré sa présentation sur la perspective étroite des modèles vers l’Ouest, l’Amérique du Nord ou même les États-Unis, résultat d’une formation sur le texte web et les images par des utilisateurs principalement basés aux États-Unis. En conséquence, les utilisateurs de cultures diverses qui interagissent avec ces outils peuvent se sentir incompris et les percevoir comme moins utiles. Pire encore, lorsque de tels modèles sont utilisés dans des applications qui prennent des décisions sur la vie des gens, un manque de conscience culturelle peut mener à des modèles qui perpétuent les stéréotypes et renforcent les inégalités sociales.
« Dans mon laboratoire, nous évaluons actuellement la sensibilité culturelle des LLM et travaillons à les compléter avec une compétence culturelle. »
Vered Shwartz
Membre du corps professoral Vector, Chaire IA du CIFAR Canada
Elle a également présenté une série de travaux de son laboratoire visant à quantifier et atténuer ce biais.
Analogue au NLP multiculturel, le NLN multilingue devrait tenir compte de ces différences afin d’améliorer l’efficacité des systèmes de NLP pour les utilisateurs. Le langage est au cœur des interactions et des communications humaines. Avec plus de 7 000 langues à l’échelle mondiale, un système de traitement naturel universel optimal devrait démontrer une compétence dans le traitement et la compréhension de langues diverses.
Freda Shi, doctorante à l’Institut technologique Toyota de Chicago, s’est concentrée sur la capacité multilingue des grands modèles de langage. Compte tenu des réalisations remarquables des LLM récents, une question naturelle se pose quant à leur capacité multilingue, surtout en ce qui concerne les langues à faible ressources et sous-représentées. Bien que les langues présentent de nombreuses similitudes dans le monde, elles présentent aussi une grande diversité typologique. Elle a passé en revue le multilinguisme démontré par les LLM actuels, en prenant l’induction du lexique bilingue et le raisonnement multilingue comme deux tâches représentatives. Elle a conclu en discutant des défis et des opportunités du multilinguisme à l’ère du LLM.
Faire avancer la recherche et les systèmes en PNL nécessite de relever les obstacles distincts liés à la collecte et à l’analyse de données issues de langues à faible ressource. À mesure que les techniques de PNL évoluent, il est impératif de garantir que l’identité culturelle et la langue des locuteurs natifs ne soient ni négligées ni exploitées. Au contraire, ils devraient être activement engagés dans le processus et habilités à influencer la façon dont la technologie les représente, leur langue et leur culture.
John Willes, chef technique de l’équipe d’ingénierie IA de Vector, a présenté VectorLM. VectorLM est un paquet léger développé par l’équipe d’ingénierie IA du Vector Institute afin d’optimiser les charges de travail d’ajustement fin des LLM courantes et de permettre aux chercheurs Vector d’entraîner plus efficacement des modèles de taille moyenne sur le cluster Vector. Willes a présenté un aperçu des leçons pratiques apprises lors de la formation des LLM sur le cluster HPC de Vector. D’importants compromis matériels et logiciels ont été examinés à travers le prisme des contraintes de calcul et de réseau propres au cluster.
L’avancée rapide du PLN a révolutionné la communication. L’interconnexion accrue à travers le monde a mené à une multitude d’applications dans divers domaines. Avec la PNL désormais omniprésente et de plus en plus dépendante des données générées par les utilisateurs, il est plus important que jamais que la recherche dans le domaine adopte des méthodologies sûres et dignes de confiance.
Si vous souhaitez en savoir plus sur les initiatives de recherche actuelles du Vector Institute en traitement du langage naturel, regardez la liste complète des conférences sur YouTube