Actualités

Apport de l’intelligence artificielle générative pour aider les chercheurs à synthétiser les données de la science

En recherche, il est souvent nécessaire de faire la synthèse de l’ensemble des études existantes sur un sujet donné, c’est le principe des revues systématiques. Ces revues systématiques sont aujourd’hui principalement réalisées à la main.

Le Pr Viet-Thi Tran au sein de l’équipe METHODS du Centre de Recherche Epidémiologie et StatistiqueS (CRESS, Université Paris Cité / INSERM), a développé un ensemble d’instructions pour le modèle GPT 3.5 (OpenAI, modèle utilisé dans ChatGPT) afin d’automatiser le tri des études devant être inclues dans les revues systématiques. Les performances de cette approche étaient proches de celles des chercheurs humains.

Cette étude a fait l’objet d’une publication scientifique dans la revue Annals of Internal Medicine, le 21 mai 2024.

Chaque jour, un médecin devrait lire soixante-quinze études cliniques pour tenir à jour ses connaissances scientifiques sur la prise en charge des maladies (1). La croissance exponentielle des connaissances scientifiques (on estime que la quantité d’articles scientifiques publiés double tous les 15 ans (2)) rend nécessaire la réalisation de revues systématiques, c’est-à-dire, des synthèses rigoureuses et reproductibles de toutes les études existantes répondant à une même question de recherche.

A ce jour, les revues systématiques sont encore principalement réalisées manuellement par des chercheurs qui trient, lisent et évaluent toute la littérature scientifique sur un sujet. Réaliser une revue systématique représente plusieurs milliers d’heures de travail de chercheurs expérimentés (3). Une étape est, en particulier, très fastidieuse : sélectionner, parmi les milliers études publiées, celles répondant spécifiquement à la question de recherche et devant être inclues dans la revue systématique. Plus encore, face au risque d’erreur, ce tri est généralement réalisé par deux chercheurs en double et de manière indépendante afin d’être certains de ne manquer aucune étude importante.

Dans la présente recherche, une équipe de recherche menée par le Pr Viet-Thi Tran du Centre de Recherche Epidémiologie et StatistiqueS (CRESS, Université Paris Cité / INSERM) a évalué les performances de GPT 3.5 (OpenAI, modèle utilisé dans ChatGPT) pour réaliser le tri des études à inclure ou non dans les revues systématiques en utilisant les données de cinq revues provenant des Centres Cochrane France, Autriche et Allemagne et incluant plus de 22,000 études. Les chercheurs ont évalué deux scénarios : 1) l’utilisation de GPT 3.5 comme « deuxième relecteur » (remplaçant un des deux chercheurs habituellement impliqués dans le tri) ; et 2) l’utilisation de GPT 3.5 comme d’un outil de tri, utilisé préalablement à l’évaluation par un chercheur. Les performances de l’intelligence artificielle ont été exprimées en termes de sensibilité (c’est-à-dire de capacité à identifier correctement les études pertinentes ; et donc essentiel pour ne pas biaiser les résultats de la revue systématique en omettant des études sur le sujet) et de spécificité (c’est-à-dire de capacité à ne garder « que » ces études pertinentes lors du tri).

Dans le premier scénario, GPT 3.5 était utilisé comme « deuxième relecteur », pour confirmer les choix d’un chercheur humain. La sensibilité de l’IA variait de 81.1% à 96.5% et était comparable aux performances d’un chercheur entraîné. La spécificité de l’IA variait de 25.8% à 80.4%, en deçà des performances d’un chercheur entraîné. Cette plus faible spécificité demanderait donc un temps de travail additionnel pour vérifier le tri réalisé par l’IA.

Dans le second scénario, où GPT 3.5 était comme d’un « outil de tri », utilisé préalablement à l’évaluation par un chercheur humain. L’IA avait une sensibilité >94.6%, supérieure à un chercheur seul et comparable à deux chercheurs réalisant le tri en double et de manière indépendante. Une telle utilisation permettrait de réduire le nombre d’études à trier pour la revue systématique jusqu’à 45% (i.e., plusieurs milliers d’études en moins à évaluer), au risque de manquer au maximum 3.8% études inclues par deux humains. Une telle utilisation de l’IA pour réduire la charge de travail des chercheurs est particulièrement intéressante lorsqu’il y a un besoin urgent de synthétiser l’évidence disponible (comme ce fut le cas lors de la COVID-19) ; ou lorsque le champ de recherche est très large avec un trop grand nombre d’articles à trier par des humains.

Cependant les chercheurs ont également montré que les réponses du modèle variaient avec le temps, nuisant à la reproductibilité des revues systématiques.

Cette recherche illustre le potentiel des IA génératives pour faciliter et accélérer les tâches de synthèse de données scientifiques, ouvrant la voie à une automatisation partielle de ces processus.

  1. Bastian H, Glasziou P, Chalmers I. Seventy-five trials and eleven systematic reviews a day: how will we ever keep up? PLoS Med. 2010;7(9):e1000326.
  2. Bornmann L, Haunschild R, Mutz R. Growth rates of modern science: a latent piecewise growth curve approach to model publication numbers from established and new literature databases. Humanities and Social Sciences Communications. 2021;8(224).
  3. Allen IE, Olkin I. Estimating time to conduct a meta-analysis from number of citations retrieved. Jama. 1999;282(7):634-5.

Membres

Right
Back to top