Recherche médicale : homme vs IA

 
" ChatGPT, pour Chat Generative Pre-trained Transformer, est un agent conversationnel (chatbot) utilisant l'intelligence artificielle générative, développé par OpenAI et spécialisé dans le dialogue. " Wikipédia

"Le chirurgien fait tout, mais ne sait rien ; le médecin sait tout, mais ne fait rien ; le psychiatre ne sait ni ne fait rien ; et le médecin légiste sait tout, mais il est trop tard." Wayne Miller
 
Holland AM, Lorenz WR, Cavanagh JC, Smart NJ, Ayuso SA, Scarola GT, Kercher KW, Jorgensen LN, Janis JE, Fischer JP, Heniford BT. Comparison of Medical Research Abstracts Written by Surgical Trainees and Senior Surgeons or Generated by Large Language Models. Comparaison des résumés de recherche médicale rédigés par des stagiaires en chirurgie et des chirurgiens expérimentés ou générés par de grands modèles linguistiques
JAMA Netw Open. 2024 Aug 1;7(8):e2425373. doi: 10.1001/jamanetworkopen.2024.25373. PMID: 39093561; PMCID: PMC11297395.
https://www.ncbi.nlm.nih.gov/pmc/articles/PMC11297395/
Article libre d'accès

Cette étude transversale compare les résumés de recherche médicale rédigés par des stagiaires en chirurgie ou des chirurgiens seniors aux résumés générés par l’intelligence artificielle.

Les grands modèles linguistiques peuvent-ils générer des résumés de recherche médicale convaincants ?

Résultats

Dans cette étude transversale comparant 10 résumés médicaux rédigés par des stagiaires en chirurgie et des chirurgiens expérimentés ou générés par de grands modèles linguistiques, des chirurgiens experts examinateurs en aveugle ont été invités à noter et classer ces résumés. Aucune différence statistique n'a été observée dans les notes ou les rangs des résumés générés par le modèle linguistique par rapport aux résumés rédigés par des stagiaires en chirurgie ou des chirurgiens expérimentés.

 

Signification

Ces résultats suggèrent que lorsqu’ils sont correctement formés avec la littérature de base, le formatage des résumés, les données de recherche primaires et une invite complète, les chatbots peuvent générer des résumés de recherche médicale difficiles à distinguer des résumés rédigés par des chirurgiens-chercheurs.


L'intelligence artificielle (IA) a envahi le monde universitaire, en particulier OpenAI Chat Generative Pretrained Transformer (ChatGPT), un modèle de langage à grande échelle. Cependant, peu de choses ont été rapportées sur son utilisation dans la recherche médicale.

Objectif

 

Évaluer la capacité d’un chatbot à générer et à noter des résumés de recherche médicale.

Conception, cadre et participants

 

Dans cette étude transversale, les versions 3.5 et 4.0 de ChatGPT (appelées chatbot 1 et chatbot 2) ont été entraînées à générer 10 résumés en fournissant de la documentation de base, des invites, des données analysées pour chaque sujet et 10 résumés non associés précédemment présentés pour servir de modèles. L'étude a été menée entre août 2023 et février 2024 (analyse des données comprise).

Exposition

Les versions des résumés utilisant le même sujet et les mêmes données ont été rédigées par un stagiaire en chirurgie ou un médecin senior ou générées par le chatbot 1 et le chatbot 2 à des fins de comparaison. Les 10 résumés de formation ont été rédigés par 8 résidents ou boursiers en chirurgie, édités par le même chirurgien senior, dans un hôpital à volume élevé du sud-est des États-Unis, mettant l'accent sur la recherche axée sur les résultats. La comparaison des résumés a ensuite été basée sur 10 résumés rédigés par 5 stagiaires en chirurgie au cours des 6 premiers mois de leur année de recherche, édités par le même auteur senior

Nouveau projet 2024 08 12T175201.270

Principaux résultats et mesures

Les principaux critères de jugement étaient les notes des résumés à l'aide d'échelles de 10 et 20 points et de rangs (du premier au quatrième). Les versions des résumés du chatbot 1, du chatbot 2, des résidents juniors et de l'auteur principal ont été comparées et jugées par des chirurgiens-réviseurs en aveugle ainsi que par les deux modèles de chatbot. Cinq chirurgiens universitaires du Danemark, du Royaume-Uni et des États-Unis, dotés d'une vaste expérience dans les organisations chirurgicales, la recherche et l'évaluation des résumés, ont servi de réviseurs.

Résultats

Les chirurgiens examinateurs n'ont pas été en mesure de faire la différence entre les différentes versions des résumés. Chaque examinateur a classé au moins une fois en premier une version générée par l'IA. Les résumés n'ont montré aucune différence dans leurs scores médians (IQR) de 10 points (résident, 7,0 [6,0-8,0] ; auteur principal, 7,0 [6,0-8,0] ; chatbot 1, 7,0 [6,0-8,0] ; chatbot 2, 7,0 [6,0-8,0] ; P  = 0,61), de 20 points (résident, 14,0 [12,0-7,0] ; auteur principal, 15,0 [13,0-17,0] ; chatbot 1, 14,0 [12,0-16,0] ; chatbot 2, 14,0 [13,0-16,0] ; P  = 0,50), ou de rang (résident, 3,0 [1,0-4,0] ; auteur principal, 2,0 [1,0-4,0] ; chatbot 1, 3,0 [2,0-4,0] ; chatbot 2, 2,0 [1,0-3,0] ; P  = 0,14). Les notes des résumés données par le chatbot 1 étaient comparables aux notes des chirurgiens-examinateurs. Français Cependant, le chatbot 2 a été noté plus favorablement que les chirurgiens-réviseurs et le chatbot 1. Les notes médianes (IQR) des réviseurs du chatbot 2 étaient plus élevées que les notes des chirurgiens-réviseurs des 4 versions de résumés (résident, 14,0 [12,0-17,0] contre 16,9 [16,0-17,5] ; P  = 0,02 ; auteur principal, 15,0 [13,0-17,0] contre 17,0 [16,5-18,0] ; P  = 0,03 ; chatbot 1, 14,0 [12,0-16,0] contre 17,8 [17,5-18,5] ; P  = 0,002 ; chatbot 2, 14,0 [13,0-16,0] contre 16,8 [14,5-18,0] ; P  = 0,04). Français Lors de la comparaison des notes des 2 chatbots, le chatbot 2 a donné des notes médianes (IQR) plus élevées pour les résumés que le chatbot 1 (résident, 14,0 [13,0-15,0] contre 16,9 [16,0-17,5] ; P  = 0,003 ; auteur principal, 13,5 [13,0-15,5] contre 17,0 [16,5-18,0] ; P  = 0,004 ; chatbot 1, 14,5 [13,0-15,0] contre 17,8 [17,5-18,5] ; P  = 0,003 ; chatbot 2, 14,0 [13,0-15,0] contre 16,8 [14,5-18,0] ; P  = 0,01).


Conclusions et pertinence

Dans cette étude transversale, des chatbots formés ont généré des résumés médicaux convaincants, indifférenciables des brouillons rédigés par des résidents ou des auteurs seniors. Le chatbot 1 a noté les résumés de la même manière que les chirurgiens-réviseurs, tandis que le chatbot 2 était moins rigoureux.

 

Ces résultats peuvent aider les chirurgiens-chercheurs à mettre en œuvre avec succès l'IA dans la recherche médicale.

Commentaire 

Il ne faut pas jeter le bébé et l'eau du bain ! 
Arrêtons de critiquer un outil de qualité qui s'améliore régulièrement
Les critiques émanent de personnes qui n'ont jamais testé les ChatGPT
Un nouvel outil est disponible et c'est tout, utilisons le à bon escient  et en le faisant évoluer