Exploiter la puissance du traitement du langage naturel (PLN) : Perspectives tirées du projet collaboratif industrie-universitaire de Vector

16 décembre 2020

Analyses 2020Grands modèles de langage Partenariat de traitement du langage naturelRecherchede recherche 2020IA fiable

16 décembre 2020

Le développement et l’utilisation de modèles de traitement du langage naturel (PLN) dans l’industrie est devenu de plus en plus difficile à mesure que la complexité des modèles augmente, les ensembles de données s’élargissent et les exigences de calcul augmentent. Ces obstacles limitent la capacité de nombreuses organisations à accéder et à tirer parti des capacités de PLN, rendant leurs avantages importants hors de portée. 

Pour les surmonter, à partir de juin 2019, Vector a mené un projet collaboratif avec des commanditaires et des chercheurs de l’industrie afin d’aider les entreprises à apprendre comment recréer des modèles de PLN pour les déployer dans leurs entreprises. Le projet Recreation of Large Scale Pre-Trained Language Models (le projet NLP) a familiarisé les commanditaires de l’industrie participantes avec les techniques avancées de NLP, ainsi que les flux de travail pour développer de nouvelles méthodes permettant d’atteindre de hautes performances tout en utilisant des ensembles de données relativement petits et des ressources informatiques largement accessibles.

Alors que la plupart des collaborations de recherche en PNL sont conçues pour produire des modèles de pointe avec des taux d’erreur compétitifs faibles, l’objectif du projet de PNL était de créer un environnement d’apprentissage collaboratif et évolutif permettant à plusieurs entreprises d’acquérir l’expérience pratique nécessaire pour créer et étendre des modèles de TALN dont l’objectif principal est de produire de la valeur pour les affaires. Ainsi, le projet a impliqué 60 participants : 23 chercheurs et membres du personnel de Vector ayant une expertise en apprentissage automatique et en PNL, ainsi que 37 professionnels techniques de l’industrie issus de 16 entreprises sponsorisées par Vector. Les participants ont établi 11 groupes de travail, chacun ayant développé et réalisé des expériences pertinentes aux besoins existants de l’industrie. De plus, au début de la pandémie de COVID19, un groupe d’intérêt spécial (SIG-Kaggle-COVID19) a été créé dans le but de développer des approches de réponse aux questions pouvant aider la communauté médicale à trouver des réponses à des questions scientifiques prioritaires.

Dans le but d’aider d’autres organisations à bâtir, déployer et tirer profit du projet, l’Institut Vector, avec les participants du projet, a présenté leurs résultats et perspectives dans un rapport technique et un symposium : 

  • Le rapport technique du projet NLP« Exploiter la puissance du traitement du langage naturel (NLP) : un projet collaboratif industriel de l’Institut Vectoriel »
  • Le Symposium NLP, du 15 au 16 septembre 2020 – une rencontre virtuelle de deux jours comprenant des présentations et des ateliers pratiques, animés par les participants au projet et les chercheurs en Vector. Les conférenciers principaux comprenaient He He, professeur adjoint en informatique et science des données à l’Université de New York; Khalid Al-Kofahi, vice-président principal et chef des investissements personnels en IA, les membres du corps professoral de Fidelity et Vector Jimmy Ba, Gennady Pekhimenko et Frank Rudzicz.

Travaux publiés basés sur des recherches du projet NLP et présentés au symposium NLP :

Ensemble, grâce au projet NLP, les participants de l’industrie ont bénéficié de l’expérience préalable à la formation de modèles de langage à grande échelle, de la participation à des conférences d’experts menant à un transfert efficace des connaissances, de l’accès aux ressources informatiques scientifiques de Vector, de l’établissement de collaborations fructueuses avec d’autres organisations commanditaires, et de l’utilisation de leur expertise pour accélérer la diffusion des connaissances scientifiques et aider la communauté médicale dans la lutte contre la COVID-19. Notamment, les connaissances acquises dans le cadre du projet NLP ont orienté les programmes et le développement de produits dans certaines organisations participantes.

À lire aussi :

2026
Réflexions
Recherche
Recherche 2026

La nouvelle cartographie de l’invisible

Les femmes écrivent sur un tableau blanc. Il y a un homme à sa gauche qui regarde le tableau.
2025
Recherche
Recherche 2025

Les chercheurs en vecteurs font avancer les frontières de l’IA avec 80 articles au NeurIPS 2025

Logo vectoriel
2025
Réflexions

Une nouvelle étude révèle l’impact économique de 100 milliards de dollars de l’IA à travers le Canada, avec l’Ontario en tête