Comment Thomson Reuters utilise le TALN pour permettre aux travailleurs du savoir de prendre des décisions d’affaires plus rapides et plus précises
2 avril 2020
2 avril 2020
2 avril 2020
Hidden Injustice, un récent reportage d’enquête de Reuters, a révélé comment les décisions des tribunaux civils fédéraux ont obscurci le rôle joué par les compagnies pharmaceutiques dans la montée de l’épidémie d’opioïdes. C’était révolutionnaire pour ce que les journalistes ont découvert, mais aussi pour la façon dont ils l’ont découvert. Ils ont utilisé l’apprentissage automatique et le traitement du langage naturel (PLN) pour examiner 3,2 millions de poursuites civiles fédérales et plus de 90 millions d’actions judiciaires afin d’identifier du matériel déposé sous scellés. Ils pourraient alors concentrer leur attention sur des cas où « des informations de santé et sécurité publiques ont été gardées secrètes sans explication ». [1]
La série a remporté le premier prix aux Philip Meyer Journalism Awards 2019, qui récompensent des œuvres de « journalisme de précision, de reportage assisté par ordinateur et de recherche en sciences sociales ». [2]
Pour Thomson Reuters — la société mère de l’organisation de presse — des techniques d’IA comme l’apprentissage automatique et le NLP sont au cœur de ce qu’elle fait de mieux : permettre aux professionnels juridiques, médiatiques et fiscaux et comptables de trouver de l’information, de la comprendre et de l’utiliser pour prendre des décisions.
Khalid Al-Kofahi, qui a auparavant dirigé le Center for AI and Cognitive Computing de Thomson Reuters, déclare : « De manière générale, les travailleurs du savoir comme les avocats et les comptables font essentiellement trois choses. Ils ont des besoins en information, donc ils s’engagent dans un parcours de recherche et de découverte. En faisant cela, ils commencent à l’analyser pour le comprendre. Puis, à un moment donné, ils passent à une sorte d’action ou de décision. Nous utilisons la technologie IA pour soutenir toutes ces activités. »
Le parcours de recherche et de découverte de Thomson Reuters a inclus le parrainage de l’Institut Vector, ce qu’il a fait pour trois raisons : rester en première ligne de la recherche fondamentale, soutenir l’écosystème canadien de l’IA et développer des approches pour les défis communs de l’IA grâce à la collaboration avec d’autres acteurs de l’industrie.
Un point fort de la collaboration est le projet du consortium Vector sur le PLN, une technique utilisée pour poursuivre « le saint Graal » de l’IA : la compréhension fluide du langage. Ce projet implique 25 participants de l’industrie qui travaillent avec des chercheurs en vecteurs dans des axes axés sur diverses expériences liées au NLP. Thomson Reuters a participé à un flux de travail visant à reproduire de façon rentable BERT — représentations bidirectionnelles d’encodeur à partir de transformers — un modèle avancé de représentation linguistique. Créer BERT nécessite d’entraîner un réseau neuronal profond sur un grand volume de texte non étiqueté — comme celui que l’on trouve sur Wikipédia, Twitter ou un site d’actualités — afin de créer un modèle général du fonctionnement du langage. Ce BERT pré-entraîné peut ensuite être peaufiné pour des tâches comme la traduction automatique, l’analyse de sentiment et la réponse à des questions dans des domaines spécifiques comme le droit, la santé et la finance.
Cette utilité a souvent un coût élevé, cependant. La pré-formation d’un BERT nécessite généralement plusieurs jours de traitement sur du matériel qui peut être prohibitif à l’accès pour la plupart des organisations. Ajuster le BERT pré-entraîné d’un fournisseur sur des processeurs spécialisés basés sur le nuage comme les unités de traitement graphique (GPU) ou les unités de traitement tensoriel (TPU) est beaucoup moins exigeant, mais cela implique souvent beaucoup de temps et de coûts.
« Quand on regarde certains de ces modèles de langage, ils nécessitent énormément de ressources pour être construits », explique Al-Kofahi. « Une partie du défi pour nous était : pouvons-nous entraîner ces modèles avec des architectures plus distribuées et trouver des algorithmes capables de réduire la demande pour de nombreux GPU? » La première phase des expériences, menée sur le propre cluster GPU de Vector, était prometteuse.
Selon Al-Kofahi, ce projet de consortium est « une marée qui soulève tous les bateaux », puisque les participants en bénéficient sans risquer leurs avantages concurrentiels. Il explique : « C’est un domaine où il est très logique pour l’industrie de collaborer, car nous établissons des solutions à des problèmes horizontaux : comment mettre à l’échelle des modèles d’apprentissage profond. Ensuite, chacun de nous, une fois qu’il aura trouvé une solution à ce problème, pourra prendre cela et adapter ces modèles. »
Al-Kofahi poursuit : « Nous avons pris ces enseignements et les avons adaptés à différents domaines. Nous avons BERT pour le juridique, BERT pour la fiscalité, BERT pour d’autres domaines également, et nous explorons maintenant comment intégrer certains de ces modèles dans certains de nos produits. C’est une situation gagnant-gagnant. »
Un produit dont les résultats montrent un potentiel est WestLaw, la suite de services de recherche juridique de Thomson Reuters et la technologie qui a permis aux journalistes Reuters d’analyser des millions de documents juridiques pour Hidden Justice. Elle jouera bientôt aussi un rôle clé dans un domaine judiciaire beaucoup plus large : Thomson Reuters a récemment été choisie par le Bureau administratif des tribunaux américains pour fournir des outils de recherche juridique à la magistrature fédérale, y compris à la Cour suprême et aux défenseurs publics fédéraux.
Ces prix illustrent l’un des avantages potentiels de poursuivre de nouvelles connaissances en IA et de rester proche de la pointe de la recherche en IA : le développement de technologies qui améliorent la justice et y accèdent.
En 2017, l’organisme à but non lucratif créé par le Congrès, Legal Services Corporation, a publié un rapport déclarant que « le manque de ressources disponibles explique la grande majorité des problèmes juridiques civils admissibles qui ne sont pas traités ou sous-traités », et que « les ressources insuffisantes représentent entre 85% et 97% de tous les problèmes admissibles non desservis ou sous-desservis. » [3]
« Comment peut-on améliorer l’accès? » dit Al-Kofahi. « Il existe d’importantes opportunités d’utiliser l’IA et l’apprentissage automatique pour améliorer la prise de matières, fournir des solutions aidées par un arbitre en aval, et ainsi de suite. Je pense que l’IA, dans ce sens, transformera l’industrie juridique et la façon dont les services juridiques sont fournis. »
Il ajoute : « Nous faisons déjà partie de la transformation. »
[1] Reuters enquête. Injustice cachée. Comment nous avons fait l’analyse des données. www.reuters.com/investigates/special-report/usa-courts-secrecy-how/
[2] Journalistes et rédacteurs d’enquête. Les prix Philip Meyer. https://www.ire.org/awards/philip-meyer-awards/
[3] Société des services juridiques. L’écart de justice : mesurer les besoins juridiques civils non satisfaits des Américains à faible revenu. 2017. P. 44
Pour en savoir plus sur les opportunités de parrainage industriel de Vector, cliquez ici.