Exploiter la puissance du traitement du langage naturel (NLP) : perspectives du projet de collaboration industrie-université de Vector - Institut Vector pour l'Intelligence Artificielle

16 décembre 2020

Le développement et l'utilisation de modèles de traitement du langage naturel (NLP) dans l'industrie sont devenus de plus en plus difficiles à mesure que la complexité des modèles augmentait, que les ensembles de données prenaient de l'ampleur et que les exigences en matière de calcul s'accroissaient. Ces obstacles limitent la capacité de nombreuses organisations à accéder aux capacités de traitement du langage naturel et à les exploiter, mettant ainsi leurs avantages considérables hors de portée.

Pour aider à les surmonter, à partir de juin 2019, Vector a mené un projet de collaboration avec des sponsors industriels et des chercheurs pour aider les entreprises à apprendre à recréer des modèles de NLP pour les déployer au sein de leur entreprise. Le projet Recreation of Large Scale Pre-Trained Language Models (projet NLP) a permis aux sponsors industriels participants de se familiariser avec les modèles NLP. sponsors industriels participants avec les techniques avancées de TAL, ainsi qu'avec les flux de travail pour développer de nouvelles méthodes qui peuvent atteindre des performances élevées tout en utilisant des ensembles de données relativement petits et des ressources informatiques largement accessibles.

Alors que la plupart des collaborations de recherche en matière de NLP sont conçues pour produire des modèles de pointe avec des taux d'erreur compétitivement bas, l'objectif du projet NLP était de créer un environnement d'apprentissage collaboratif et évolutif qui permettrait à plusieurs entreprises d'acquérir l'expérience pratique nécessaire pour créer et mettre à l'échelle des modèles NLP dont l'objectif principal est de produire de la valeur pour l'entreprise. Le projet a donc impliqué 60 participants : 23 chercheurs et membres du personnel de Vector spécialisés dans l'apprentissage automatique et le NLP, ainsi que 37 professionnels techniques de l'industrie provenant de 16 entreprises sponsors de Vector. Les participants ont créé 11 groupes de travail, chacun d'entre eux développant et réalisant des expériences en rapport avec les besoins existants de l'industrie. En outre, au début de la pandémie de COVID19, un groupe d'intérêt spécial (SIG-Kaggle-COVID19) a été créé dans le but de développer des approches de réponse aux questions pouvant aider la communauté médicale à trouver des réponses à des questions scientifiques hautement prioritaires..

Dans le but d'aider d'autres organisations à construire, déployer et valoriser le projet, l'Institut Vecteur, en collaboration avec les participants au projet, a présenté ses conclusions et ses idées dans un rapport technique et un symposium :

Rapport technique du projet NLP - Exploiter la puissance du traitement du langage naturel (NLP) : Un projet de collaboration entre l'Institut Vector et l'industrie"
Le symposium NLP, les 15 et 16 septembre 2020 - une réunion virtuelle de deux jours comprenant des présentations et des ateliers pratiques, animés par les participants au projet et les chercheurs de Vector. Les orateurs principaux étaient He He, professeur adjoint, informatique et science des données, New York University ; Khalid Al-Kofahi, vice-président principal et responsable des investissements personnels en IA, Fidelity et les membres de la faculté Vector Jimmy Ba, Gennady Pekhimenko, et Frank Rudzicz.

Travail publié basé sur les recherches du projet NLP et présenté au symposium NLP :

Entraînement multi-nœuds de Bert : Approche rentable
Système intelligent pour générer et valider des paires de questions-réponses pour la littérature COVID-19
Formation multi-nœuds de modèles linguistiques à grande échelle
Découverte d'interventions non pharmaceutiques à l'aide de la modélisation thématique
Personnalisation des modèles linguistiques contextualisés pour l'examen des documents juridiques
Une réplication partielle de la représentation du langage dans le domaine biomédical, Symposium sur l'évolution de l'apprentissage profondPrésentation de posters
Évaluation expérimentale de modèles de langage basés sur des transformateurs dans le domaine biomédical
Exploiter la puissance de la PNL : un projet de collaboration industrielle de l'Institut Vecteur
Soumissions au défi Kaggle CORD19 Dataset :

Dans l'ensemble, grâce au projet NLP, les participants de l'industrie ont pu acquérir de l'expérience dans le domaine du pré-entraînement de modèles de langage à grande échelle, assister à des conférences d'experts permettant un transfert efficace des connaissances, accéder aux ressources informatiques scientifiques de Vector, établir des collaborations fructueuses avec d'autres organismes de parrainage et utiliser leur expertise dans le domaine pour accélérer la diffusion des connaissances scientifiques et aider la communauté médicale dans la lutte contre le COVID-19. En particulier, les connaissances acquises dans le cadre du projet NLP ont permis d'orienter les programmes et le développement de produits dans les domaines suivants certains participants participants.

Exploiter la puissance du traitement du langage naturel (NLP) : aperçu du projet de collaboration industrie-université de Vector

En rapport :

L'écosystème de l'IA en Ontario : une croissance économique réelle grâce à un nombre record d'emplois et d'investissements privés

Transformer le soutien à la santé mentale des jeunes : Le modèle de réponse à la crise du FAIIR alimenté par l'IA

Percée de l'IA dans les prévisions météorologiques : comment l'innovation canadienne transforme les prévisions climatiques | Aardvark Weather