Exploiter les grands modèles de langage pour améliorer l'efficacité des revues systématiques en médecine et au-delà

25 mars 2025

2025 ANDERS Santé Recherche Recherche 2025

Les nouveaux travaux de David Emerson, chercheur appliqué chez Vector, montrent comment les grands modèles de langage (LLM) généralistes peuvent être utilisés pour automatiser l'examen des revues systématiques. L'article "Development of prompt templates for LLM-driven screening in systematic reviews", co-écrit par Emerson, Christian Cao, Jason Sang et Rohit Arora, démontre comment des stratégies d'incitation sophistiquées peuvent considérablement améliorer les performances des LLM pour les tâches de classification de texte essentielles aux processus d'examen systématique. En créant des modèles d'incitation généralisés (par opposition à des solutions spécifiques à l'examen), les chercheurs établissent une approche accessible de l'automatisation de l'examen systématique qui permet de réaliser d'importantes économies de temps et d'argent.

TLDR : Découvrez la recherche révolutionnaire sur l'IA en 3 minutes

Ce résumé concis comble le fossé entre les avancées scientifiques complexes et la compréhension de tous les jours. Idéal pour les passionnés et les non-chercheurs, commencez à écouter dès maintenant.

Les applications antérieures des LLM pour les tâches d'examen systématique et de classification de texte reposaient principalement sur des méthodes d'incitation à zéro coup, qui sous-estimaient fortement les capacités réelles des LLM pour les tâches en aval. Ainsi, les LLM ont été caractérisés jusqu'à présent comme incapables d'effectuer ces tâches suffisamment bien pour être utilisés efficacement dans les revues systématiques. En appliquant les meilleures pratiques en matière d'incitation, ainsi que de nouvelles techniques d'incitation, les auteurs ont été en mesure d'exploiter toutes les capacités des MFR.

Contexte et motivation

En médecine, les revues systématiques (RS) résument les résultats d'études cliniques et de recherche, fournissant des preuves de l'efficacité d'une intervention. Elles constituent l'étalon-or de la pratique fondée sur des données probantes. Cependant, elles sont exceptionnellement gourmandes en ressources, leur réalisation nécessitant généralement un an et plus de 100 000 dollars. L'objectif d'une RS est de passer au crible de vastes collections de recherches, d'identifier les articles pertinents et de synthétiser de nouvelles idées qui, dans leur ensemble, répondent à une question importante et spécifique. Un exemple simplifié pourrait être : "L'intervention X améliore-t-elle les résultats pour le patient ?" La phase de sélection initiale des RS est particulièrement exigeante, car elle nécessite que deux chercheurs examinent indépendamment les articles en fonction des critères d'admissibilité en deux étapes. Dans un premier temps, les chercheurs examinent les résumés des articles, ce qui constitue un premier filtrage des articles. Dans un second temps, les chercheurs examinent l'intégralité de l'article ("texte intégral") afin de déterminer si les articles répondent aux critères prédéterminés pour l'inclusion finale.

Malgré les outils existants, l'automatisation des RS reste insaisissable car les solutions actuelles ne font que compléter les flux de travail humains, n'ont pas les performances nécessaires pour une prise de décision indépendante et nécessitent de nombreuses données historiques de formation. L'émergence des LLM offre de nouvelles opportunités pour l'automatisation de la sélection des RS, réduisant potentiellement les exigences en termes de temps et de ressources de manière significative.

Méthodologie

Dans ce travail, les chercheurs ont développé des modèles génériques d'invite pour la sélection de revues systématiques pilotées par le LLM, à la fois pour les résumés et les articles en texte intégral. Ils ont d'abord créé BenchSR, une base de données de 10 revues systématiques déjà publiées couvrant neuf domaines cliniques, qui a servi de terrain d'essai. Grâce à une expérimentation itérative de diverses techniques d'incitation, ils ont mis au point "Framework Chain-of-Thought", une nouvelle approche qui guide les LLM pour qu'ils raisonnent systématiquement par rapport à des critères prédéfinis - imitant les processus cognitifs humains en évaluant chaque critère avant de prendre des décisions finales. Pour le filtrage du texte intégral, ils ont découvert que la répétition des instructions au début et à la fin des messages-guides améliorait de manière significative les performances avec les documents longs, ce qui permet d'aborder efficacement le phénomène de "perte au milieu", où les LLM ont généralement du mal à retenir les informations au milieu des textes volumineux. Ces observations ont abouti à la création de deux modèles optimisés : "Abstract ScreenPrompt" pour la sélection des résumés et "ISO-ScreenPrompt" (Instruction-Structure-Optimisée) pour la sélection du texte intégral, tous deux conçus pour maximiser la sensibilité tout en maintenant une spécificité acceptable pour divers types d'examens systématiques.

Dispositif expérimental

L'étude a comparé plusieurs approches d'incitation, y compris les techniques de zéro-coup, de quelques-coups et de la chaîne de pensée, sur un large éventail de LLM (GPT-3.5, GPT-4 variantes, Gemini Pro, Mixtral, Mistral, et Claude-3.5-Sonnet). Les performances ont été évaluées à l'aide de mesures de précision, de sensibilité et de spécificité. Les décisions finales de sélection humaine issues des revues systématiques originales ont servi de référence de référence à laquelle toutes les décisions des modèles ont été comparées, tant pour la phase de sélection des résumés que pour celle des articles complets. Le protocole expérimental a suivi des flux de travail de formation-validation-test : les messages-guides ont été initialement optimisés à l'aide d'échantillons de formation provenant d'une seule revue systématique (SeroTracker), validés sur un échantillon SeroTracker distinct, et enfin testés en profondeur sur un ensemble de test SeroTracker et neuf ensembles de données de revues systématiques supplémentaires. Pour la sélection des résumés, les chercheurs ont examiné l'ensemble des titres/résumés issus des recherches originales, tandis que la sélection du texte intégral a porté sur tous les articles PubMed Central librement accessibles. L'équipe a également effectué des analyses de temps et de coûts comparant le filtrage basé sur le LLM aux approches humaines traditionnelles, fournissant ainsi des informations pratiques sur la mise en œuvre pour les équipes de recherche.

Principaux résultats

  • Le modèle optimisé d'Abstract ScreenPrompt a obtenu de bons résultats dans 10 revues différentes(97,7 % de sensibilité pondérée, 85,2 % de spécificité pondérée), surpassant de manière significative l'invite zéro(49,0 % de sensibilité pondérée, 97,9 % de spécificité pondérée) et les outils de sélection précédents, car une sensibilité élevée tout en maintenant une bonne spécificité est la mesure la plus importante pour la sélection des résumés. 
  • Le modèle ISO-ScreenPrompt pour le dépistage en texte intégral a démontré des performances élevées similaires (sensibilité pondérée de 96,5 %, spécificité pondérée de 91,2 %). 
  • Les performances des modèles de résumé et de texte intégral ont dépassé les estimations précédentes de la littérature concernant les performances d'un seul évaluateur humain (sensibilité de 86,6 % et spécificité de 79,2 %). 
  • La sélection basée sur le LLM a considérablement réduit les coûts et le temps requis - selon le SR, Abstract ScreenPrompt a coûté entre 16,74 et 157,02 dollars contre 194,83 et 1 666,67 dollars pour une sélection humaine unique, tandis que ISO-ScreenPrompt a coûté 14,53 et 622,12 dollars contre 676,35 et 25 956,40 dollars pour une sélection humaine de textes intégraux. Les deux approches LLM ont achevé la sélection en 24 heures, contre 9,74-83,33 heures (résumés) et 33,82-1 297,82 heures (textes intégraux) pour les examinateurs humains.

Conclusion et implications

Cette recherche démontre que des invites LLM bien conçues peuvent atteindre une sensibilité et une spécificité élevées pour la sélection de revues systématiques à travers diverses revues sans nécessiter de réglage fin du modèle ou de données de formation étiquetées. L'étude propose des voies de mise en œuvre immédiates : Les LLM peuvent servir de réviseurs uniques indépendants, compléter les réviseurs humains pour réduire de moitié la charge de travail, ou servir d'outils de présélection pour réduire le volume de sélection humaine de 66 à 95 %. Les recherches futures permettront de valider ces modèles dans un plus large éventail d'examens systématiques, d'évaluer leurs performances par rapport à celles des examinateurs humains dans des études prospectives et d'explorer l'application de techniques d'incitation similaires à d'autres tâches fondées sur des critères dans le domaine des sciences médicales.

Créé par l'IA, édité par des humains, à propos de l'IA

Ce billet de blog fait partie de notre série "ANDERS - AI Noteworthy Developments Explained & Research Simplified". Nous utilisons ici des agents d'intelligence artificielle pour créer les premières ébauches de documents de recherche, qui sont ensuite soigneusement éditées et affinées par nos collaborateurs. L'objectif est de vous fournir des explications claires et concises sur les recherches de pointe menées par les chercheurs de Vector. Grâce à ANDERS, nous nous efforçons de combler le fossé entre les avancées scientifiques complexes et la compréhension de tous les jours, en soulignant pourquoi ces développements sont importants et comment ils influencent notre monde.

En rapport :

Logo vectoriel
2025
Actualités

L'Institut Vecteur annonce la nomination de Glenda Crisp au poste de présidente-directrice générale

Logo vectoriel
2025
Actualités

L'institut Vector dévoile une évaluation complète des principaux modèles d'IA

2025
Ingénierie de l'IA
Recherche
Recherche 2025

Étude sur l'état de l'évaluation : L'Institut Vecteur apporte une nouvelle transparence dans l'évaluation comparative des modèles mondiaux d'IA