Utiliser l’IA pour aider à résoudre le casse-tête du COVID long
11 février 2022
11 février 2022
Par Jonathan Woods
La condition porte plusieurs noms : syndrome post-COVID, COVID long et séquelles post-aiguës du SARS-CoV-2. C’est l’écho douloureux de la COVID-19, et beaucoup ont eu la malchance de l’expérimenter. Plus de la moitié des personnes ayant eu la COVID-19 ont signalé au moins un symptôme persistant trois mois après l’infection. Selon l’Agence de la santé publique du Canada, les symptômes courants de la COVID longue incluent la fatigue, l’essoufflement et des troubles de la mémoire, bien que « plus de 100 symptômes ou difficultés dans les activités quotidiennes » aient été rapportés. Pour certains, la condition est invalidante et semble indéfinie. [1]
La COVID longue n’est pas bien comprise. « Nous ne savons pas ce qui cause l’état post-COVID-19 », indique le site web de l’agence de santé publique. « Il n’y a actuellement pas une seule façon de diagnostiquer une condition post-COVID-19 », et « [i]l n’existe actuellement aucun traitement. » [1]
L’IA peut-elle aider à accélérer la découverte de réponses?
Les équipes d’innovation industrielle et d’ingénierie IA de l’Institut Vector ont collaboré avec Roche Canada, Deloitte et TELUS pour explorer cette question. Leur projet : appliquer des techniques de traitement du langage naturel (NLP) aux publications sur les réseaux sociaux faites par des personnes atteintes de COVID long afin de voir si des schémas apparaissent. Cela a impliqué la création d’un pipeline d’apprentissage automatique et le test des capacités de divers modèles de PLN sur la base de témoignages directs provenant des médias sociaux. L’espoir est que ces schémas, s’ils sont identifiés, pourraient révéler des indices sur le moment et la fréquence des symptômes qui apparaissent ainsi que sur les regroupements de la condition. Toute information pourrait être partagée avec les cliniciens pour affiner leurs questions de recherche, identifier les tendances tôt ou orienter les stratégies de traitement.
« Les médias sociaux sont souvent utilisés par les patients pour exprimer leur expérience de la maladie », indique Social Media Use in Healthcare, un article de recherche sur la façon dont les patients utilisent les réseaux sociaux. Le soutien informationnel, émotionnel et d’estime sur les réseaux sociaux « mène souvent à l’autonomisation des patients », poursuit l’article. [2] Cela encourage le partage et peut faire des médias sociaux une ressource riche pour les chercheurs ― mais seulement s’ils peuvent filtrer de manière fiable l’océan de publications quotidiennes et identifier celles avec un langage pertinent.
Même pour les modèles avancés d’apprentissage automatique, c’est un défi.
Elham Dolatabadi, scientifique en apprentissage automatique appliqué à l’Institut Vector et responsable technique du projet, déclare : « Extraire des entités médicales des médias sociaux est difficile en raison de la nature non structurée du contenu, qui est souvent bruyant, informel et court. Sans compter que la complexité des termes médicaux entraîne parfois des fautes d’orthographe. » Les publications générées par les utilisateurs sont loin d’être uniformes, et leur brièveté ainsi que leur manque de structure (qui inclut l’utilisation d’argot et les différences de ton) rendent difficile d’identifier, d’extraire et de classer les témoignages de première main sur la COVID longue.
Pour relever ces défis, l’équipe a développé un pipeline personnalisé d’apprentissage automatique (ML) spécialement conçu pour trouver, commander et afficher des termes liés à la COVID longue qui auraient autrement été enfouis dans une montagne de publications sur les réseaux sociaux. Le pipeline organise le processus d’un bout à l’autre, intégrant la collecte et le filtrage des données, l’entraînement de divers modèles pour extraire et classifier les termes clés des publications, ainsi que la visualisation des résultats sur tableaux de bord en un processus sur mesure pour la tâche.
La première étape dans le développement du pipeline a été de créer des ensembles de données composés de publications provenant de Twitter et Reddit. En utilisant l’interface de programmation d’applications (API) de Twitter, l’équipe a recherché des tweets contenant des hashtags pertinents ― comme #longcovid, #postcovidsyndrome et #covidlonghauler ― ainsi que des termes similaires sans hashtags. Une fois collectées, ils ont passé les données à travers un filtre à longue distance conçu pour identifier les récits à la première personne. Ce processus impliquait aussi la suppression de publications contenant des titres de nouvelles ou des noms de produits propriétaires. Les tweets restants ont été désidentifiés, et toutes les informations personnelles concernant l’auteur ont été retirées (bien que les horodatages, les informations géographiques et les descriptions générales des profils utilisateurs soient restées).

Figure 1. L’équipe a construit un pipeline d’apprentissage automatique personnalisé pour collecter, filtrer, analyser et visualiser les informations sur la COVID longue recueillies à partir des publications sur les réseaux sociaux.
Avec les ensembles de données en main, l’équipe a testé un ensemble de modèles spécialisés entraînés dans une technique de PNL appelée reconnaissance d’entités nommées (NER). La NER identifie des entités spécifiques (comme les personnes, les lieux et les objets) dans le texte, puis les classe en catégories prédéfinies. Ces expériences visaient à voir si des modèles, entraînés spécifiquement pour extraire des termes médicaux, pouvaient identifier un langage désignant un symptôme, un test ou un traitement de COVID long, puis le classer avec précision comme tel. La figure 2 illustre comment cela fonctionne sur deux tweets types.

Figure 2. Parmi les modèles explorés par l’équipe figurait Stanza, un modèle NER créé par Stanford. Stanza a été formé à partir d’un corpus de textes biomédicaux et cliniques et est utilisé pour identifier les symptômes ou traitements dans les publications sur les réseaux sociaux, ainsi que pour les extraire, classifier et normaliser de manière appropriée. Notez que les exemples sont créés synthétiquement.
L’un des modèles testés par l’équipe était UmlsBERT, un modèle déjà entraîné sur un grand corps de métathésaurus clinique (UMLS Metathesaurus). Une partie de l’expérience consistait à affiner ce modèle sur des ensembles de données cliniques fournis par le National Center for Biomedical Computing (NCBC) appelé i2b2, ainsi qu’à l’augmentation des données pour permettre une extraction plus granulaire des entités. En utilisant les ensembles de données MetaMapLite et AMIA Task3 de l’UMLS, l’équipe a amélioré l’extraction d’entités afin de pouvoir repérer même des termes familiers et informels, comme « brouillard cérébral » et « fatigue écrasante ».
Après avoir mené une série d’expériences, les résultats préliminaires ont montré que des motifs liés à la fréquence des symptômes, à la cooccurrence et à la distribution au fil du temps pouvaient être détectés et visualisés avec succès. Les chercheurs peuvent effectivement trouver des signaux dans le bruit des réseaux sociaux.

Figure 3. La fréquence d’apparition des cinq (5) principaux symptômes au fil du temps en utilisant le modèle Stanza et les données Twitter avec un filtre et une normalisation COVID spécifiques.
Avec la confirmation de l’efficacité du pipeline pour l’extraction d’entités liées à la COVID des médias sociaux, la prochaine étape est de travailler avec les chercheurs et les cliniciens pour interpréter ces tendances et déterminer quelles orientations de recherche prometteuses ils peuvent révéler.
« Nous pouvons utiliser cette approche pour donner aux cliniciens plus de perspectives et fournir des signaux précoces qui les aideront à planifier leurs études cliniques, traitements, thérapies, etc. », explique Sedef Akinli Kocak, chef de projet chez Vector. « C’est un excellent exemple de collaboration entre les chercheurs, les experts du domaine et les entreprises qui souhaitent contribuer à la lutte contre la COVID-19. »
Les entreprises participantes, les experts médicaux et les contributions des doctorants de diverses institutions canadiennes méritent un crédit particulier. Ensemble, au cours du projet, Roche Canada, Deloitte, TELUS et des chercheurs au doctorat ont fourni une expertise clinique et en apprentissage automatique qui a permis au pipeline de fonctionner. Les contributions clés de ces entreprises commanditaires de Vector et de leurs chercheurs au doctorat incluent l’idéation des projets originaux; une revue de la littérature clinique sur les personnes à long termeni liées à la COVID; la collecte de données, le nettoyage et l’annotation; implémentation du filtre; la normalisation; Modélisation NER; l’ingénierie de la visualisation; et interprétation des résultats.
La valeur de ces contributions ira au-delà de cette pandémie. Les chercheurs disposent maintenant d’un outil et d’un processus permettant de faire des médias sociaux une ressource clé pour comprendre d’autres événements de santé à l’échelle de la population, comme les nouvelles maladies infectieuses émergentes, les maladies rares ou les effets des doses de rappel sur l’infection dans diverses régions et à différents moments.
Pour aujourd’hui, cependant, l’attention reste portée sur ceux qui vivent la COVID longue. L’espoir est que cette nouvelle capacité puisse rapprocher les chercheurs et les cliniciens de la résolution des mystères de la COVID longue et jouer un rôle dans l’atténuation de la souffrance de ceux qui en ressentent les effets.
Un article technique lié au projet a été accepté pour présentation lors du 6e atelier international sur l’intelligence en santé à la conférence AAAI 2022. Un rapport complet du projet avec les résultats sera publié au début de 2022. Pour l’instant, le projet est toujours en cours.
Références :
[2] Smailhodzic, Edin, et al. « Utilisation des médias sociaux en soins de santé : une revue systématique des effets sur les patients et sur leur relation avec les professionnels de la santé. » Recherche sur les services de santé à la BMC 16.1 (2016): 1-14. LIEN : https://