IA en médecine : le bon choix !


« Certaines personnes craignent que l’intelligence artificielle nous fasse nous sentir inférieurs, mais toute personne saine d’esprit devrait avoir un complexe d’infériorité chaque fois qu’elle regarde une fleur. » Alan Kay

"L'intelligence artificielle est un domaine en constante évolution qui suscite à la fois l'excitation et les questionnements. Il est essentiel de reconnaître les limites actuelles de l'IA et de rester vigilant quant à son développement futur. L'objectif devrait être de créer une IA qui soit un outil pour l'humanité, favorisant notre compréhension du monde plutôt que de nous rendre dépendants de machines incompréhensibles."
 https://www.toolify.ai/fr/ai-new-fr/15-citations-clbres-sur-lintelligence-artificielle-qui-vous-feront-rflchir-2597083

Guni A, Whiting P, Darzi A, Ashrafian H. The next generation of evidence synthesis for diagnostic accuracy studies in artificial intelligence.

La prochaine génération de synthèse de données probantes pour les études de précision diagnostique en intelligence artificielle

Lancet Digit Health. 2024 Jun 25:S2589-7500(24)00115-8. doi: 10.1016/S2589-7500(24)00115-8. Epub ahead of print. PMID: 38926009.
https://www.thelancet.com/journals/landig/article/PIIS2589-7500(24)00115-8/fulltext
Article libre d'accès
 
Article in extenso

Le paysage actuel de l’intelligence artificielle (IA) dans le diagnostic clinique est dominé par les efforts visant à établir la précision diagnostique des outils d’IA dans des applications telles que l’imagerie et la pathologie.
 
Cependant, à mesure que des systèmes d’IA propriétaires continuent d’être déployés et perfectionnés, une considération plus importante sera de différencier les outils d’IA comparables pour offrir une plus grande capacité de diagnostic et améliorer la prise de décision clinique.
 
La confluence des technologies d’IA dans des cas d’utilisation comparables impose le développement d’outils d’évaluation de la qualité sur mesure pour évaluer le risque de biais, l’utilisation de tests d’indice et de normes de référence avec des seuils appropriés, et l’applicabilité dans les études de précision diagnostique. Une telle approche pourrait éclairer l’utilité clinique dans le monde réel et, par la suite, les décisions en matière de politique de santé.
 
Cette notion de différenciation entre les outils d’IA est particulièrement importante dans la mesure où les dispositifs médicaux basés sur l’IA continuent d’être approuvés par les organismes de réglementation, plusieurs centaines de dispositifs étant actuellement autorisés par la Food and Drug Administration (FDA) des États-Unis.
 
La plupart des dispositifs sont conçus pour faciliter la détection de lésions ou d’anomalies dans diverses applications diagnostiques, principalement en radiologie.
 
Par exemple, un certain nombre de dispositifs de détection de lésions approuvés par la FDA pour les mammographies de dépistage utilisent des technologies d’IA distinctes, notamment ProFound AI Software (iCAD, États-Unis), Transpara (ScreenPoint Medical, Pays-Bas) et INSIGHT MMG (Lunit, Corée du Sud).
 
Plusieurs essais indépendants de grande envergure sont actuellement en cours pour évaluer les outils d’IA dans les mammographies de dépistage, rapportant des résultats préliminaires positifs.

Des résultats prometteurs ont également été démontrés dans d’autres essais de grande envergure, comme un essai évaluant l’utilisation de l’IA dans l’interprétation de l’électrocardiogramme.
 
Une fois les résultats concluants de toutes ces études publiés, la question n’est plus de savoir si l’IA peut être intégrée dans les flux de travail de diagnostic clinique, mais quel dispositif d’IA est le plus utile cliniquement pour un cas d’utilisation particulier ou une cohorte de population.
 
La réponse dépendra d’un certain nombre de facteurs différents, caractérisés de manière plus efficace par des stratégies de synthèse des données probantes rigoureusement menées.
 
Cependant, les revues systématiques actuellement publiées sur la précision du diagnostic de l’IA ne font pas systématiquement état des normes d’évaluation de la qualité.
 
De plus, la majorité des revues systématiques utilisent l’outil d’évaluation de la qualité des études de précision diagnostique 2 (QUADAS-2), qui ne tient pas pleinement compte des biais propres à la technologie de l’IA.

Nous avons précédemment décrit les biais potentiels pertinents pour les études de précision diagnostique de l’IA, notamment l’utilisation de référentiels open source à grande échelle ; le manque de validation externe des tests d’index et l’explication inadéquate de leur formation, des détails algorithmiques et des ensembles de tests ; l’utilisation de normes de référence inappropriées et incohérentes ; et le manque de clarté des rapports sur le calendrier entre les tests d’index et les normes de référence.
 
Le défi pour les organismes de réglementation est d’interpréter la sécurité et l’efficacité des dispositifs dans le contexte de ces biais.

Pour simplifier l’autorisation des dispositifs cliniquement utiles, la majorité des approbations récentes de dispositifs d’IA par la FDA ont été effectuées via la voie 510(k), qui facilite l’autorisation si les dispositifs sont substantiellement similaires à un dispositif précédemment approuvé (appelé le prédicat). Par ailleurs, le cadre réglementaire proposé par la FDA pour les modifications des logiciels d’IA/d’apprentissage automatique en tant que dispositif médical
 
L'accent est mis sur la nécessité de permettre aux technologies adaptatives d'apprendre et de s'améliorer en temps réel, en exploitant la nature inhérente des dispositifs d'IA pour s'améliorer progressivement par itération.

L'Agence de réglementation des médicaments et des produits de santé du Royaume-Uni et l'Agence européenne des médicaments n'ont pas encore produit de directives détaillées sur les cadres réglementaires des dispositifs de santé d'IA, mais visent globalement à favoriser l'innovation conformément aux États-Unis.
 
Toutefois, le recours aux prédicats pour approuver les itérations futures ou les produits de nouvelle génération pose plusieurs problèmes :

* l’utilisation de sources de données et d’ensembles d’entraînement distincts pour valider les algorithmes
* l’impact de la dérive des données qui dégrade la précision du modèle au fil du temps 
* la reproduction et l’enracinement de biais existants qui peuvent être à l’échelle de la population et non représentatifs
* les différences d’applicabilité clinique, de mise en œuvre et d’interopérabilité. 
 
Sans une appréciation de ces facteurs et de la manière dont ils affectent la validité des résultats rapportés, la capacité d’évaluer l’utilité clinique est entravée ; en effet, les organismes de réglementation et les décideurs politiques en matière de santé ne seront pas en mesure de conclure en toute confiance que ces outils peuvent être déployés en toute sécurité dans la pratique clinique.

Pour faciliter la prochaine génération de synthèse de preuves pour les études de diagnostic par IA face à ces défis, notre groupe a commencé à développer une extension de QUADAS-2 pour une utilisation spécifique dans les études de précision diagnostique par IA, appelée QUADAS-AI.

Il est important de noter que cet outil sera développé grâce à un consensus international sur les principaux biais qui pourraient limiter la traduction dans les flux de travail cliniques. Le rôle de l'évaluation des preuves dans les diagnostics par IA reposera de plus en plus sur l'intégration de données provenant de multiples itérations d'un large éventail d'outils d'IA hétérogènes. Par la suite, le besoin d'une synthèse de preuves robuste et transparente au moyen d'outils tels que QUADAS-AI sera crucial pour la qualité, la sécurité et la valeur des outils de diagnostic clinique adoptés.
 
AD est président de l'Initiative de médecine préventive et de sécurité sanitaire chez Flagship Pioneering. HA est directeur scientifique de la santé et de la médecine préventives chez Flagship Pioneering. PW et AG ne déclarent aucun conflit d'intérêts.

QUADAS-2

7u7u.jpeg

  1. Identifier les domaines : L' outil QUADAS-2 comprend quatre domaines :
    * test d'index
    * sélection des patients,
    * norme de référence,
    * flux et timing.

    Les examinateurs doivent prendre en compte chaque domaine pour chaque étude incluse dans la revue systématique. 
  1. Évaluer le risque de biais : les évaluateurs doivent évaluer le risque de biais pour chaque domaine à l’aide de questions de signalisation spécifiques à chaque domaine. Les questions de signalisation sont utilisées pour déterminer le risque de biais pour les domaines individuels comme « faible », « élevé » ou « peu clair ». 
  1. Évaluer l’applicabilité : Les examinateurs doivent évaluer l’applicabilité des études en considérant si la population étudiée, le test d’index et la norme de référence sont similaires à la population, au test et à la norme d’intérêt dans la revue systématique. 
  1. Résumer les résultats : Les évaluateurs doivent résumer les résultats des évaluations d’applicabilité et le risque de biais pour chaque étude et domaine. 

  1. Interpréter les résultats : les examinateurs doivent interpréter les résultats de l’évaluation QUADAS-2 dans le contexte de la revue systématique. Cela peut impliquer d’identifier les études présentant un faible risque de biais et une applicabilité élevée et d’exclure les études présentant un risque élevé de biais ou une applicabilité peu claire. 

L'outil QUADAS-2 peut être utilisé pour évaluer la qualité des études individuelles incluses dans une revue systématique des études sur l'exactitude diagnostique et pour identifier les sources d'hétérogénéité entre les études. L'outil a été validé et est largement utilisé dans les revues systématiques des études sur l'exactitude diagnostique. 

https://pubrica.com/academy/meta-analysis/how-to-assess-the-quality-of-the-studies-using-the-quadas-2-tool/

QUADAS AI


Sounderajah, V., Ashrafian, H., Rose, S. et al. Un outil d'évaluation de la qualité pour les études de précision des tests diagnostiques centrées sur l'intelligence artificielle : QUADAS-AI. Nat Med 27 , 1663–1665 (2021). https://doi.org/10.1038/s41591-021-01517-0

Pour s’attaquer à ces sources de biais, ainsi qu’à des exemples spécifiques à l’IA tels que le biais algorithmique, nous proposons une extension spécifique à l’IA de QUADAS-2 et QUADAS-C https://doi.org/10.17605/OSF.IO/HQ8MF (2018)." data-track="click" data-track-action="reference anchor" data-track-label="link" data-test="citation-ref" aria-label="Référence 5">5 , un outil de risque de biais qui a été développé pour les études comparatives de précision. Ce nouvel outil, appelé QUADAS-AI, fournira aux chercheurs et aux décideurs politiques un cadre spécifique pour évaluer le risque de biais et l’applicabilité lors de la réalisation d’examens qui évaluent les DTA de l’IA et d’examens d’études comparatives de précision qui évaluent au moins un test d’indice centré sur l’IA.

QUADAS-AI viendra compléter les initiatives en cours en matière d’outils de lignes directrices pour la production de rapports, telles que STARD-AI 6 et TRIPOD-AI 7 . QUADAS-AI est coordonné par une équipe de projet mondiale et un comité directeur composé de cliniciens-chercheurs, d’informaticiens, d’épidémiologistes, de statisticiens, de rédacteurs de revues, de représentants du réseau EQUATOR https://www.equator-network.org/ (consulté le 27 septembre 2021)." data-track="click" data-track-action="reference anchor" data-track-label="link" data-test="citation-ref" aria-label="Référence 11">11 , de responsables de la réglementation, de chefs de file de l’industrie, de bailleurs de fonds, de décideurs politiques en matière de santé et de bioéthiciens. Compte tenu de la portée des technologies de l’IA, nous considérons que la mise en relation des parties prenantes mondiales est de la plus haute importance pour cette initiative. 

Jayakumar, S., Sounderajah, V., Normahani, P. et al. Quality assessment standards in artificial intelligence diagnostic accuracy systematic reviews: a meta-research study. npj Digit. Med. 5, 11 (2022). https://doi.org/10.1038/s41746-021-00544-y

41746 2021 544 Fig6 HTMLTypes de biais affectant la qualité et l’applicabilité des études de précision diagnostique basées sur l’intelligence artificielle.

 Commentaire 

Tout système d'IA et quelque soit ses applications doit faire l'objet d'un contrôle qualité draconien et encore plus en médecine. Demain l'interprétation des IRM et des scanners sera peut être réalisé par une IA !

Il est donc important de passer par ces contrôles, contrôles dédiés à l'IA. Il s'agit là d'un passage obligé comme un marquage CEE. 

La conception des IA est très compliquée, leur contrôle le sera de plus en plus. 

Est ce qu'une IA pourra être contrôlée par une autre IA demain ou après demain ?