IA et santé publique : utilisation du traitement du langage naturel pour la gestion de bases de données cliniques
6 novembre 2023
6 novembre 2023
Par Natasha Ali
Un nouvel article propose un nouveau modèle de PLN pour la détection et la surveillance des maladies infectieuses. Coécrit par Shaina Raza, scientifique en apprentissage automatique appliqué chez Vector, « Construire une base de données sur les maladies et utiliser le traitement du langage naturel pour capturer et standardiser l’information clinique en texte libre », utilise les connaissances sur la COVID-19 comme base et propose une approche NLP pour accélérer le processus d’obtention d’informations sur les maladies à partir de sources en ligne et produire une base de données structurée à des fins cliniques.
Grâce à sa vaste expérience avec des épidémiologistes, des experts en santé publique et des chercheurs médicaux pendant la pandémie de COVID-19, Raza a remarqué un retard crucial entre le rythme de la recherche clinique et de l’analyse des données et le taux de mutations virales et de propagation des maladies.
« Tout allait tellement vite [surtout avec les nouveaux variants de la COVID] », dit Raza, qui travaille à l’interface entre l’IA et la santé des populations. « La recherche était, selon moi, un peu en retard. »
La capacité d’obtenir des informations de santé en temps opportun est cruciale pour contrôler les éclosions à grande échelle. Les cliniciens, épidémiologistes et experts en santé publique s’appuient sur des ensembles de données sélectionnés issus des médias sociaux, des dossiers de santé électroniques et des résultats de recherches antérieures pour orienter les stratégies d’intervention et de traitement des maladies.
Ce processus méticuleux d’analyse des données est généralement réalisé par des départements spécialisés en soins de santé et en maladies infectieuses. En examinant des sources en ligne et basées sur la recherche, les analystes peuvent identifier des informations pertinentes sur les maladies et constituer des bases de données cliniques destinées aux experts en santé.
Mais des défis surviennent lorsqu’on tente de recueillir des statistiques sur des maladies répandues, comme la COVID-19, qui se développent constamment et ont des effets variables sur chaque patient. En tant qu’aspect clé de l’intervention contre les maladies, la gestion des bases de données cliniques doit être priorisée, mais le manque de systèmes de structuration efficaces peut freiner le processus.
Pour accélérer cette étape intermédiaire dans des situations sensibles au temps, la recherche de Raza propose un modèle de traitement naturel élaboré capable d’interpréter le texte libre provenant de sources en ligne telles que des blogs, des publications sur les réseaux sociaux, des forums publics et des notes médicales, et de convertir des données non structurées en bases de données prêtes à être utilisées cliniquement.
En menant un examen approfondi des rapports de cas médicaux, de la littérature publiée et des blogs, Raza, dont le travail porte généralement sur l’application de stratégies d’IA et d’apprentissage automatique pour évaluer l’apparition des maladies et élargir les initiatives de santé publique, a compilé un ensemble de données préliminaire d’informations non structurées. Une étape d’annotation était nécessaire pour étiqueter les entités du jeu de données, formant la base de l’entraînement des machines.
Le cadre étendu de PLN comprenait un modèle de reconnaissance d’entités nommées — un modèle multicouche basé sur un transformateur qui entraîne des réseaux neuronaux profonds sur des ensembles annotés de données, incluant les symptômes, l’information sur les médicaments, les déterminants sociaux de la santé, les facteurs de risque et les dépendances à la maladie. À l’aide d’un modèle d’extraction de relations ultérieur, l’algorithme NLP a pu déduire des liens entre les entités correspondantes et les tabular à partir d’identifiants cliniques et non cliniques.
Une méthode d’évaluation en deux phases a suivi, dans laquelle le modèle proposé a été évalué par rapport aux méthodes existantes de détection et de surveillance des maladies, et un évaluateur humain a été déployé pour confirmer la validité du cadre NLP dans son ensemble.
La nouveauté de l’étude réside dans l’utilisation des rapports de patients et des études de cas pour évaluer des facteurs non cliniques tels que l’âge, le sexe, la race, la localisation géographique, le statut économique et d’autres déterminants sociaux de la santé pouvant influencer l’apparition de la maladie et la reconnaissance des symptômes.
En mettant en œuvre une stratégie adaptative de PNL pour produire un ensemble de données structuré, les professionnels de la santé peuvent extraire des détails clés sur les facteurs de risque et les options de traitement au fur et à mesure que la maladie évolue. L’intégration d’éléments non cliniques comme les déterminants sociaux de la santé renforce davantage la précision du cadre pour identifier les tendances et prédire les résultats médicaux.
Cela ne veut pas dire que le modèle de PNL remplacera les analystes de données ou éliminera des emplois, ni qu’il supplantera les efforts en cours dans le secteur de la santé publique — cette méthodologie de PNL vise seulement à améliorer la surveillance pandémique et à atténuer la propagation des maladies lors d’urgences de santé publique.
« Ma motivation n’est pas de remplacer les départements de données », dit-elle. « Mon objectif est de profiter de l’IA [pour automatiser l’étape de curation des données] parce que c’est quelque chose de très lié à la vie des gens. »
Une mise en garde avec cette technologie, dit-elle, est le risque d’erreur machine et de liaisons de données inexactes, ce qui impose un besoin constant de vérification humaine. « Une boucle de contrôle qualité humaine devrait toujours exister, parce que parfois, il y a quelque chose qui n’est pas bien détecté par le modèle IA. »
En discutant des usages potentiels du modèle NLP pour d’autres maladies, Raza estime qu’en effectuant des mises à jour périodiques des algorithmes d’apprentissage automatique, le cadre pourrait être adapté pour étudier d’autres conditions et de futures éclosions.
« En termes de généralisabilité, cet ensemble de données particulier a été préparé en lien avec la COVID-19 et la COVID longue. Cependant, ce cadre peut être utilisé pour d’autres maladies, mais les données doivent être reconstruites », dit-elle. « Si quelqu’un veut faire de la recherche sur le cancer, le diabète ou l’hépatite, il doit trouver les données qui correspondent à ces maladies en particulier. »
Encore en phase expérimentale, Raza espère que ce nouveau cadre de PLN pourrait être déployé pour une utilisation dans les hôpitaux et les organisations de santé publique afin de consolider l’analyse de bases de données et la surveillance des maladies. Mais, dit-elle, le plus grand obstacle est de rassembler suffisamment de ressources informatiques, de soutien multidisciplinaire et de soutien nécessaire pour entraîner les algorithmes de PLN, ainsi que de recruter des experts en apprentissage automatique dans les milieux de santé.
« Ce n’est pas une tâche simple, » ajoute-t-elle. « Si, par exemple, une organisation veut le déployer, elle aura besoin d’un environnement de réentraînement et d’un environnement de déploiement. Mais il y a définitivement un plan. »