IA et santé publique : utilisation du traitement du langage naturel pour la gestion des bases de données cliniques
6 novembre 2023
6 novembre 2023
Par Natasha Ali
Un nouvel article propose un nouveau modèle de traitement du langage naturel pour la détection et le suivi des maladies infectieuses. Co-écrit par Shaina Raza, scientifique spécialiste de l'apprentissage automatique appliqué au vecteur, "Constructing a disease database and using natural language processing to capture and standardize free text clinical information" (Construction d'une base de données sur les maladies et utilisation du traitement du langage naturel pour saisir et normaliser des informations cliniques en texte libre), utilise les connaissances du COVID-19 comme base et propose une approche NLP pour accélérer le processus d'obtention d'informations sur les maladies à partir de sources en ligne et produire une base de données structurée sur les maladies à des fins cliniques.
Grâce à l'expérience qu'elle a acquise en travaillant avec des épidémiologistes, des experts en santé publique et des chercheurs médicaux pendant la pandémie de COVID-19, Mme Raza a constaté un décalage critique entre le rythme de la recherche clinique et de l'analyse des données et celui de la mutation virale et de la propagation de la maladie.
"Tout allait si vite [en particulier avec les nouvelles variantes de COVID]", explique M. Raza, qui travaille à l'interface de l'IA et de la santé des populations. "Selon moi, la recherche était un peu à la traîne.
La capacité à obtenir des informations sur la santé en temps opportun est cruciale pour contrôler les épidémies à grande échelle. Les cliniciens, les épidémiologistes et les experts en santé publique s'appuient sur des ensembles de données provenant des médias sociaux, des dossiers médicaux électroniques et des résultats de recherches antérieures pour orienter les stratégies d'intervention et de traitement des maladies.
Ce processus méticuleux d'analyse des données est généralement réalisé par des services spécialisés dans les soins de santé et les maladies infectieuses. En examinant les sources en ligne et les sources basées sur la recherche, les analystes peuvent identifier les informations pertinentes sur les maladies et constituer des bases de données cliniques destinées aux experts en soins de santé.
Mais des difficultés surgissent lorsqu'il s'agit de rassembler des statistiques sur des maladies très répandues, comme le COVID-19, qui se développent constamment et ont des effets variables sur chaque patient. La gestion des bases de données cliniques, qui constitue un aspect essentiel de l'intervention sur les maladies, doit être considérée comme une priorité, mais l'absence de systèmes de structuration efficaces peut bloquer le processus.
Pour accélérer cette étape intermédiaire dans les situations où le temps est compté, la recherche de Raza propose un modèle NLP élaboré qui peut interpréter du texte libre provenant de sources en ligne telles que des blogs, des messages sur les médias sociaux, des forums publics et des notes médicales, et convertir des données non structurées en bases de données prêtes à l'utilisation clinique.
En procédant à un examen approfondi des rapports de cas médicaux, de la littérature publiée et des blogs, Raza, dont le travail se concentre généralement sur l'application de l'IA et des stratégies d'apprentissage automatique pour évaluer l'apparition des maladies et développer les initiatives de santé publique, a compilé un ensemble de données préliminaires d'informations non structurées. Une étape d'annotation a été nécessaire pour étiqueter les entités de l'ensemble de données, formant ainsi la base de l'apprentissage automatique.
Le cadre NLP étendu comprenait un modèle de reconnaissance des entités nommées - un modèle basé sur un transformateur multicouche qui entraîne des réseaux neuronaux profonds sur des ensembles de données annotées, y compris des symptômes, des informations sur les médicaments, des déterminants sociaux de la santé, des facteurs de risque et des dépendances à l'égard des maladies. À l'aide d'un modèle d'extraction de relations, l'algorithme NLP a pu déduire les connexions entre les entités correspondantes et les classer en fonction d'identifiants cliniques et non cliniques.
Une méthode d'évaluation en deux phases a suivi, dans laquelle le modèle proposé a été évalué par rapport aux méthodes existantes de détection et de surveillance des maladies et un évaluateur humain a été déployé pour confirmer la validité du cadre NLP dans son ensemble.
La nouveauté de l'étude réside dans l'utilisation de rapports de patients et d'études de cas pour évaluer les facteurs non cliniques tels que l'âge, le sexe, la race, la situation géographique, le statut économique et d'autres déterminants sociaux de la santé qui pourraient influencer l'apparition de la maladie et la reconnaissance des symptômes.
En mettant en œuvre une stratégie NLP adaptative pour produire un ensemble de données structuré, les professionnels de la santé peuvent extraire des détails clés sur les facteurs de risque et les options de traitement au fur et à mesure de l'évolution de la maladie. L'intégration d'éléments d'évaluation non cliniques, tels que les déterminants sociaux de la santé, renforce encore la précision du cadre dans l'identification des modèles et la prédiction des résultats médicaux.
Cela ne veut pas dire que le modèle NLP remplacera les analystes de données ou supprimera des emplois, ni qu'il supplantera les efforts en cours dans le secteur de la santé publique - cette méthodologie NLP est uniquement destinée à améliorer la surveillance des pandémies et à atténuer la propagation des maladies dans les situations d'urgence en matière de santé publique.
"Mon objectif n'est pas de remplacer les départements de données", dit-elle. "Mon objectif est de tirer parti de l'IA [pour automatiser l'étape de conservation des données], car il s'agit de quelque chose de très lié à la vie des gens.
L'inconvénient de cette technologie, dit-elle, est le risque d'erreur de la machine et d'inexactitude des liens entre les données, d'où la nécessité d'une vérification humaine constante. "Une boucle de contrôle de la qualité humaine doit toujours être présente, car il y a parfois quelque chose qui n'est pas bien détecté par le modèle d'intelligence artificielle.
En ce qui concerne les utilisations potentielles du modèle NLP pour d'autres maladies, M. Raza estime qu'en procédant à des mises à jour périodiques des algorithmes d'apprentissage automatique, le cadre pourrait être adapté à l'étude d'autres conditions et de futures épidémies.
"En termes de généralisation, cet ensemble de données particulier a été préparé en relation avec le COVID-19 et le COVID long. Toutefois, ce cadre peut être utilisé pour d'autres maladies, mais les données doivent être reconstruites", explique-t-elle. "Si quelqu'un veut faire des recherches sur le cancer, le diabète ou l'hépatite, il doit trouver les données qui appartiennent à ces maladies particulières.
Encore en phase expérimentale, Mme Raza espère que ce nouveau cadre NLP pourra être déployé dans les hôpitaux et les organismes de santé publique afin de consolider l'analyse des bases de données et le suivi des maladies. Mais, dit-elle, le plus grand obstacle est de réunir suffisamment de ressources informatiques, de soutien multidisciplinaire et d'appui nécessaire pour former les algorithmes de NLP, et de recruter des experts en apprentissage automatique dans les établissements de soins de santé.
"Ce n'est pas une tâche simple", ajoute-t-elle. "Si, par exemple, une organisation souhaite le déployer, elle aura besoin d'un environnement de recyclage et d'un environnement de déploiement. Mais il existe bel et bien un plan.