Comment Thomson Reuters utilise le NLP pour permettre aux travailleurs du savoir de prendre des décisions plus rapides et plus précises - Institut Vecteur pour l'Intelligence Artificielle

2 avril 2020

Injustice cachéeUn récent rapport d'enquête de Reuters a révélé comment les décisions des tribunaux civils fédéraux ont occulté le rôle joué par les entreprises pharmaceutiques dans l'épidémie croissante d'opioïdes. Ce rapport est novateur par ce que les journalistes ont découvert, mais aussi par la manière dont ils l'ont fait. Ils ont utilisé l'apprentissage automatique et le traitement du langage naturel (NLP) pour examiner 3,2 millions de procès civils fédéraux et plus de 90 millions d'actions en justice afin d'identifier les documents déposés sous scellés. Ils ont ensuite pu se concentrer sur la recherche de cas où "des informations relatives à la santé et à la sécurité publiques ont été gardées secrètes sans explication"[1].

La série a remporté le premier prix des Philip Meyer Journalism Awards 2019, qui récompensent les travaux de "journalisme de précision, de reportage assisté par ordinateur et de recherche en sciences sociales"[2].

Pour Thomson Reuters - la société mère de l'agence de presse - les techniques d'IA telles que l'apprentissage automatique et le NLP sont au cœur de ce qu'elle fait le mieux : permettre aux professionnels du droit, des médias, de la fiscalité et de la comptabilité de trouver des informations, de les comprendre et de les utiliser pour prendre des décisions.

Khalid Al-Kofahi, qui dirigeait auparavant le Center for AI and Cognitive Computing de Thomson Reuters, déclare : "D'une manière générale, les travailleurs du savoir, tels que les avocats et les comptables, font essentiellement trois choses. Ils ont besoin d'informations et s'engagent donc dans un parcours de recherche et de découverte. Ce faisant, ils commencent à analyser l'information pour la comprendre. Puis, à un certain stade, ils passent à l'action ou à la décision. Nous utilisons la technologie de l'IA pour soutenir toutes ces activités".

Le parcours de Thomson Reuters en matière de recherche et de découverte l'a amené à parrainer l'Institut Vecteur, et ce pour trois raisons : rester en première ligne de la recherche fondamentale, soutenir l'écosystème de l'IA au Canada et développer des approches pour relever les défis communs de l'IA en collaborant avec d'autres acteurs de l'industrie.

L'un des points forts de la collaboration est le projet du consortium Vector sur le NLP, une technique utilisée pour atteindre le "Saint-Graal" de l'IA : la compréhension fluide du langage. Ce projet implique 25 participants de l'industrie qui travaillent avec les chercheurs de Vector dans des groupes de travail axés sur diverses expériences liées au NLP. Thomson Reuters a participé à un groupe de travail visant à reproduire de manière rentable BERT - représentations bidirectionnelles d'encodeurs à partir de transformateurs - un modèle avancé de représentation du langage. La création de BERT nécessite le préentraînement d'un réseau neuronal profond sur un grand nombre de textes non étiquetés - comme ceux que l'on trouve sur Wikipédia, Twitter ou un site d'information - afin de créer un modèle général du fonctionnement de la langue. Ce BERT pré-entraîné peut ensuite être affiné pour des tâches telles que la traduction automatique, l'analyse des sentiments et la réponse à des questions dans des domaines spécifiques tels que le droit, la santé et la finance.

Cependant, cet utilitaire a souvent un coût assez élevé. Le pré-entraînement d'un BERT nécessite généralement des jours de traitement sur du matériel dont le coût d'accès peut être prohibitif pour la plupart des organisations. La mise au point d'un BERT pré-entraîné d'un fournisseur sur des processeurs spécialisés basés sur le cloud, tels que les unités de traitement graphique (GPU) ou les unités de traitement tensoriel (TPU), est beaucoup moins exigeante, mais elle nécessite encore souvent beaucoup de temps et d'argent.

"Lorsque l'on examine certains de ces modèles linguistiques, leur construction nécessite une quantité énorme de ressources", explique M. Al-Kofahi. "Une partie du défi pour nous était de savoir si nous pouvions entraîner ces modèles à l'aide d'architectures plus distribuées : Pouvons-nous entraîner ces modèles à l'aide d'architectures plus distribuées et trouver des algorithmes capables de réduire la demande de nombreux GPU ?" La première phase d'expérimentation, menée sur le propre cluster de GPU de Vector, s'est révélée prometteuse.

Selon M. Al-Kofahi, ce projet de consortium est "une marée qui soulève tous les bateaux", car les participants en tirent des avantages sans avoir à risquer de perdre leur avantage concurrentiel. Il explique : "Il s'agit d'un domaine dans lequel il est très logique que l'industrie collabore, car nous trouvons des solutions à des problèmes horizontaux : comment mettre à l'échelle les modèles d'apprentissage en profondeur. Ensuite, chacun d'entre nous, une fois qu'il a trouvé une solution à ce problème, peut s'en inspirer et adapter ces modèles."

M. Al-Kofahi poursuit : "Nous avons pris ces enseignements et les avons adaptés à différents domaines. Nous avons l'ORET pour le domaine juridique, l'ORET pour le domaine fiscal, l'ORET pour d'autres domaines également, et nous sommes en train d'étudier comment incorporer certains de ces modèles dans certains de nos produits. C'est une situation gagnant-gagnant.

L'un des produits pour lesquels les résultats sont prometteurs est WestLaw, la suite de services de recherche juridique de Thomson Reuters et la technologie qui a permis aux journalistes de Reuters d'analyser des millions de documents juridiques pour Hidden Justice. Il jouera bientôt un rôle clé dans une arène judiciaire beaucoup plus large : Thomson Reuters a récemment été choisi par l'Administrative Office of the U.S. Courts pour fournir des outils de recherche juridique à la magistrature fédérale, y compris la Cour suprême et les défenseurs publics fédéraux.

Ces prix illustrent l'un des avantages potentiels de la recherche de nouvelles idées en matière d'IA et de la proximité avec la pointe de la recherche sur l'IA : le développement de technologies qui renforcent la justice et améliorent l'accès à celle-ci.

En 2017, l'organisation à but non lucratif Legal Services Corporation, créée par le Congrès, a publié un rapport déclarant que "le manque de ressources disponibles représente la grande majorité des problèmes juridiques civils éligibles non ou mal desservis" et que "les ressources insuffisantes représentent entre 85 % et 97 % de tous les problèmes éligibles non ou mal desservis"[3].

"Comment pouvons-nous améliorer l'accès ? explique M. Al-Kofahi. "Il existe d'importantes possibilités d'utiliser l'IA et l'apprentissage automatique pour améliorer la prise en charge des affaires, fournir des résolutions qui sont aidées par un arbitre en aval, et ainsi de suite. Je pense que l'IA en ce sens transformera l'industrie juridique et la façon dont les services juridiques sont fournis."

Il ajoute : "Nous faisons déjà partie de la transformation".

[1] Reuters Investigates. Injustice cachée. Comment nous avons procédé à l'analyse des données. www.reuters.com/investigates/special-report/usa-courts-secrecy-how/
[2] Investigative Reporters & Editors. The Philip Meyer Awards. https://www.ire.org/awards/philip-meyer-awards/
[3] Legal Services Corporation. The Justice Gap : Measuring the Unmet Civil Legal Needs of Low-income Americans. 2017. Pg. 44

Pour en savoir plus sur les possibilités de parrainage industriel de Vector, cliquez ici.

Comment Thomson Reuters utilise le NLP pour permettre aux travailleurs du savoir de prendre des décisions plus rapides et plus précises.

En rapport :

Du stage à l'institut Vector à l'emploi de rêve : Une histoire de réussite dans le domaine de l'apprentissage automatique

Comment Vector aide Evolving Intelligence à construire une plateforme fintech révolutionnaire

Les ateliers Vector donnent un aperçu du déploiement responsable de l'IA dans le domaine de la santé