Exploiter la puissance du traitement du langage naturel (NLP) : aperçu du projet de collaboration industrie-université de Vector
16 décembre 2020
16 décembre 2020
16 décembre 2020
Le développement et l'utilisation de modèles de traitement du langage naturel (NLP) dans l'industrie sont devenus de plus en plus difficiles à mesure que la complexité des modèles augmentait, que les ensembles de données prenaient de l'ampleur et que les exigences en matière de calcul s'accroissaient. Ces obstacles limitent la capacité de nombreuses organisations à accéder aux capacités de traitement du langage naturel et à les exploiter, mettant ainsi leurs avantages considérables hors de portée.
Pour aider à les surmonter, à partir de juin 2019, Vector a mené un projet de collaboration avec des sponsors industriels et des chercheurs pour aider les entreprises à apprendre à recréer des modèles de NLP pour les déployer au sein de leur entreprise. Le projet Recreation of Large Scale Pre-Trained Language Models (projet NLP) a permis aux sponsors industriels participants de se familiariser avec les modèles NLP. sponsors industriels participants avec les techniques avancées de TAL, ainsi qu'avec les flux de travail pour développer de nouvelles méthodes qui peuvent atteindre des performances élevées tout en utilisant des ensembles de données relativement petits et des ressources informatiques largement accessibles.
Alors que la plupart des collaborations de recherche en matière de NLP sont conçues pour produire des modèles de pointe avec des taux d'erreur compétitivement bas, l'objectif du projet NLP était de créer un environnement d'apprentissage collaboratif et évolutif qui permettrait à plusieurs entreprises d'acquérir l'expérience pratique nécessaire pour créer et mettre à l'échelle des modèles NLP dont l'objectif principal est de produire de la valeur pour l'entreprise. Le projet a donc impliqué 60 participants : 23 chercheurs et membres du personnel de Vector spécialisés dans l'apprentissage automatique et le NLP, ainsi que 37 professionnels techniques de l'industrie provenant de 16 entreprises sponsors de Vector. Les participants ont créé 11 groupes de travail, chacun d'entre eux développant et réalisant des expériences en rapport avec les besoins existants de l'industrie. En outre, au début de la pandémie de COVID19, un groupe d'intérêt spécial (SIG-Kaggle-COVID19) a été créé dans le but de développer des approches de réponse aux questions pouvant aider la communauté médicale à trouver des réponses à des questions scientifiques hautement prioritaires..
Dans le but d'aider d'autres organisations à construire, déployer et valoriser le projet, l'Institut Vecteur, en collaboration avec les participants au projet, a présenté ses conclusions et ses idées dans un rapport technique et un symposium :
Travail publié basé sur les recherches du projet NLP et présenté au symposium NLP :
Dans l'ensemble, grâce au projet NLP, les participants de l'industrie ont pu acquérir de l'expérience dans le domaine du pré-entraînement de modèles linguistiques à grande échelle, assister à des conférences d'experts permettant un transfert efficace des connaissances, accéder aux ressources informatiques scientifiques de Vector, établir des collaborations fructueuses avec d'autres organismes de parrainage et utiliser leur expertise dans le domaine pour accélérer la diffusion des connaissances scientifiques et aider la communauté médicale dans la lutte contre le COVID-19. En particulier, les connaissances acquises dans le cadre du projet NLP ont permis d'orienter les programmes et le développement de produits dans les domaines suivants certains participants participants.