Tirer parti des grands modèles de langage pour des revues systématiques plus efficaces en médecine et au-delà

25 mars 2025

Recherche en santé ANDERS 2025

De nouveaux travaux du scientifique appliqué en vecteurs David Emerson mettent en lumière comment les grands modèles de langage généralistes (LLM) peuvent être utilisés pour automatiser le criblage systématique des revues. « Development of prompt templates for LLM-driven screening in systematic reviews », coécrit par Emerson, Christian Cao, Jason Sang et Rohit Arora, démontre comment des stratégies sophistiquées d’incitation peuvent considérablement améliorer la performance des LLM pour les tâches de classification de texte essentielles aux processus d’évaluation systématique. En créant des modèles d’incitations généralistes (plutôt que des solutions spécifiques à la revue), les chercheurs établissent une approche accessible pour l’automatisation des revues systématiques qui permet d’économiser des coûts et des économies de temps significatives.

TLDR : Découvrez des recherches révolutionnaires en IA en 3 minutes

Ce résumé concis fait le pont entre les avancées scientifiques complexes et la compréhension quotidienne. Idéal pour les passionnés et les non-chercheurs, commencez à écouter dès maintenant.

Les applications antérieures des LLM pour le criblage systématique des revues et la classification de textes reposaient principalement sur des méthodes d’incitation zéro-shot, ce qui sous-estimait fortement les véritables capacités des LLM pour les tâches en aval. Ainsi, les LLM avaient, jusqu’à présent, été qualifiés d’incapables d’accomplir ces tâches suffisamment bien pour être utilisés efficacement dans des revues systématiques. En appliquant les meilleures pratiques d’incitation ainsi que des techniques novatrices, les auteurs ont pu tirer pleinement parti des capacités des LLM.

Contexte et motivation

En médecine, les revues systématiques (RE) résument les résultats des études cliniques et de recherche, fournissant des preuves de l’efficacité d’une intervention. Ils sont la référence en matière de pratiques fondées sur des preuves. Cependant, ils sont exceptionnellement gourmands en ressources, nécessitant généralement un an et plus de 100 000 $ pour être complétés. L’objectif d’un SR est de trier de vastes collections de recherches, d’identifier des articles pertinents et de synthétiser de nouvelles perspectives qui, dans leur ensemble, répondent à une question importante et spécifique. Un exemple simplifié pourrait être : « L’intervention X améliore-t-elle les résultats des patients? » La phase initiale de sélection des SR est particulièrement exigeante, nécessitant que deux chercheurs examinent indépendamment les articles selon les critères d’admissibilité en deux étapes. Premièrement, les chercheurs examinent les résumés des articles comme filtre de premier passage. Dans la deuxième phase, les chercheurs examinent l’article complet (« texte intégral ») afin de déterminer si les articles répondent aux critères prédéterminés pour l’inclusion finale.

Malgré les outils existants, l’automatisation de la SR demeure insaisissable puisque les solutions actuelles ne font que compléter les flux de travail humains, manquent de performance nécessaire à la prise de décision indépendante et nécessitent des données historiques d’entraînement étendues. L’émergence des LLM offre de nouvelles opportunités pour l’automatisation du criblage des SR, réduisant potentiellement de façon significative les besoins en temps et en ressources.

Méthodologie

Dans ce travail, les chercheurs ont développé des modèles génériques de prompts pour le tri des revues systématiques pilotées par LLM, tant pour les résumés que pour les articles en texte intégral. Ils ont d’abord créé BenchSR, une base de données de 10 revues systématiques déjà publiées couvrant neuf domaines cliniques, qui a servi de terrain d’essai. Grâce à des expérimentations itératives avec diverses techniques d’incitation, ils ont développé la « chaîne de pensée du cadre », une approche novatrice qui guide les LLM à raisonner systématiquement selon des critères prédéfinis — imitant les processus cognitifs humains en évaluant chaque critère avant de prendre des décisions finales. Pour le prévisionnage en texte intégral, ils ont découvert que répéter les instructions d’invite au début et à la fin des prompts améliorait considérablement la performance avec des documents longs, répondant efficacement au phénomène du « perdu au milieu » où les LLM ont généralement du mal à retenir l’information au milieu de grands textes. Ces observations ont abouti à deux modèles optimisés : « Abstract ScreenPrompt » pour le présélection abstraite et « ISO-ScreenPrompt » (Instruction-Structure-Optimised) pour le criblage en texte intégral, tous deux conçus pour maximiser la sensibilité tout en maintenant une spécificité acceptable entre divers types de revues systématiques.

Installation expérimentale

L’étude a comparé plusieurs approches d’incitation, incluant les techniques zero-shot, few-shot et Chain-of-Thought à travers un large éventail de LLM (variantes GPT-3.5, GPT-4, Gemini Pro, Mixtral, Mistral et Claude-3.5-Sonnet). La performance a été évaluée à l’aide de métriques de précision, de sensibilité et de spécificité. Les décisions finales de sélection humaine issues des revues systématiques originales ont servi de référence d’excellence pour comparer toutes les décisions du modèle, tant pour les phases de sélection du résumé que de l’article complet. Le protocole expérimental suivait des flux de travail d’entraînement-validation-test : les prompts ont d’abord été optimisés à partir d’échantillons d’entraînement issus d’une seule revue systématique (SeroTracker), validés sur un échantillon SeroTracker séparé, puis finalement testés en profondeur sur un ensemble de tests SeroTracker et neuf ensembles de données supplémentaires de revues systématiques. Pour le filtrage des résumés, les chercheurs ont examiné l’ensemble complet des titres/résumés issus des recherches originales, tandis que le filtrage en texte intégral a évalué tous les articles de PubMed Central librement accessibles. L’équipe a également mené des analyses de temps et de coûts comparant le dépistage basé sur les LLM aux approches humaines traditionnelles, fournissant des perspectives pratiques de mise en œuvre pour les équipes de recherche.

Principales conclusions

  • Le modèle optimisé Abstract ScreenPrompt a obtenu une haute performance à travers 10 critiques diverses (97,7% de sensibilité pondérée, 85,2% de spécificité pondérée), surpassant nettement le zéro déclenchement (49,0% de sensibilité pondérée, 97,9% de spécificité pondérée) et les outils de dépistage précédents, car une haute sensibilité tout en maintenant une bonne spécificité est la métrique la plus importante pour le criblage abstrait. 
  • Le modèle ISO-ScreenPrompt pour le prévisionnage en texte intégral a démontré une performance élevée similaire (sensibilité pondérée de 96,5%, spécificité pondérée de 91,2%). 
  • La performance des modèles de résumés et de prompts en texte intégral a dépassé les estimations antérieures de la performance humaine-évaluatrice (86,6% de sensibilité et 79,2% de spécificité). 
  • Le dépistage basé sur le LLM a considérablement réduit les coûts et les besoins en temps — Selon le SR, le ScreenPrompt Abstrait coûtait entre 16,74 $ et 157,02 $ contre 194,83 $ à 1 666,67 $ pour le dépistage individuel, tandis que l’ISO-ScreenPrompt coûtait entre 14,53 $ et 622,12 $ contre 676,35 $ à 25 956,40 $ pour le dépistage en texte complet humain. Les deux approches LLM ont terminé le dépistage en 24 heures, comparativement à 9,74 à 83,33 heures (résumés) et 33,82 à 1 297,82 heures (texte intégral) pour les évaluateurs humains.

Conclusion et implications

Cette recherche démontre que des invites LLM bien conçus peuvent atteindre une grande sensibilité et spécificité pour le criblage systématique des revues à travers diverses revues sans nécessiter d’ajustement fin du modèle ou de données d’entraînement marquées. L’étude offre des voies de mise en œuvre immédiates : les LLM peuvent servir d’évaluateurs indépendants uniques, compléter les évaluateurs humains pour réduire de moitié la charge de travail, ou servir d’outils de présélection pour réduire le volume de dépistage humain de 66 à 95%. Les recherches futures valideront ces modèles à travers un spectre plus large de revues systématiques, évalueront leur performance par rapport aux évaluateurs humains dans des études prospectives, et exploreront l’application de techniques d’incitation similaires à d’autres tâches basées sur des critères en sciences médicales.

Créé par l’IA, édité par des humains, à propos de l’IA

Cet article de blogue fait partie de notre série « ANDERS – IA Développements notables expliqués & recherche simplifiée ». Ici, nous utilisons des agents d’IA pour créer des brouillons initiaux à partir de travaux de recherche, qui sont ensuite soigneusement édités et affinés par nos humains. L’objectif est de vous offrir des explications claires et concises des recherches de pointe menées par des chercheurs en Vector. Grâce à ANDERS, nous nous efforçons de combler le fossé entre les avancées scientifiques complexes et la compréhension quotidienne, en soulignant pourquoi ces développements sont importants et comment ils impactent notre monde.

À lire aussi :

2026
Réflexions
Recherche
Recherche 2026

La nouvelle cartographie de l’invisible

Les femmes écrivent sur un tableau blanc. Il y a un homme à sa gauche qui regarde le tableau.
2025
Recherche
Recherche 2025

Les chercheurs en vecteurs font avancer les frontières de l’IA avec 80 articles au NeurIPS 2025

Logo vectoriel
2025
Réflexions

Une nouvelle étude révèle l’impact économique de 100 milliards de dollars de l’IA à travers le Canada, avec l’Ontario en tête