IA et AHA

"L’intelligence artificielle ne remplacera pas les médecins. Mais, les médecins qui utiliseront l’IA remplaceront ceux qui ne le feront pas." Xavier Comtesse  et Daniel Walch

L’IA est un outil pour augmenter nos capacités, pas pour nous remplacer "Yann LeCun


OIG2

Approches pragmatiques de l'évaluation et du suivi de l'intelligence artificielle dans les soins de santé : un avis scientifique de l'American Heart Association

Circulation Volume 152, Numéro 23, 2025
https://www.ahajournals.org/doi/10.1161/CIR.0000000000001400
Article en libre accès

Le développement et l'intégration rapides de l'intelligence artificielle (IA), y compris les outils d'agents prédictifs, génératifs et émergents, dans les soins cardiovasculaires et les accidents vasculaires cérébraux dépassent les cadres d'évaluation traditionnels et la génération de preuves cliniques solides.
 
Cet avis scientifique aborde le besoin urgent d'approches pragmatiques et proportionnelles au risque pour l'évaluation et le suivi de l'IA en matière de soins de santé.
 
Les pratiques de mise en œuvre de l'IA s'appuient souvent sur des preuves réelles ou anecdotiques, avec une variabilité considérable de la validation locale, de l'évaluation des biais et de la surveillance post-déploiement. Il existe plusieurs cadres d'évaluation, mais ils peuvent être difficiles à opérationnaliser, en particulier en dehors des systèmes de santé bien dotés de ressources.

Nous proposons et discutons de l'évaluation en 3 phases : pré-déploiement, mise en œuvre et post-déploiement.

Nous fournissons également 4 principes directeurs pragmatiques pour les systèmes de santé qui commencent à mettre en place des processus de gouvernance de l'IA. Il s'agit de l'alignement stratégique, de l'évaluation éthique, de celle de l'utilité et de l'efficacité et de la performance financière. Ces principes visent à éclairer la sélection, la validation, le déploiement et la surveillance exploitable des outils d'IA du système de santé.

Le vaste réseau hospitalier et bénévole de l'American Heart Association et son engagement en faveur d'une pratique fondée sur des preuves la positionnent comme un leader de confiance dans l'avancement de la gouvernance responsable de l'IA. En s'assant sur l'évaluation et la surveillance sur ces principes, ce conseil scientifique vise à garantir que l'adoption de l'IA dans les soins de santé est sûre, efficace, équitable et durable, améliorant en fin de compte les résultats des patients et soutenant des soins de haute qualité basés sur l'IA.
 
Les grands modèles de langage, tels que les transformateurs pré-entraînés génératifs, ont rapidement émergé lors des dernières années, ce qui a conduit à une adoption généralisée.
 
Cette croissance a alimenté un cycle de développement et de déploiement d'outils d'intelligence artificielle (IA) dans les soins cardiovasculaires et d'accidents vasculaires cérébraux qui dépasse la génération de preuves cliniques qui précèdent généralement les changements dans la prestation des soins.Les outils d'IA en matière de soins de santé (c'est-à-dire les produits ou les systèmes dans lesquels ≥1 modèles d'IA sont intégrés) peuvent intégrer des modèles prédictifs, génératifs ou agents (tableau supplémentaire 1) dans les applications logicielles, les dispositifs médicaux ou les systèmes de dossiers de santé électroniques. Leur performance dépend en partie des flux de travail cliniques et des populations locales, et leur évaluation et leur suivi nécessitent des approches qui diffèrent fondamentalement des méthodes traditionnelles auxquelles la communauté clinique est habituée.
Plusieurs cadres conceptuels pour l'évaluation et la gouvernance optimales des outils d'IA ont été développés, mais peu de systèmes de santé ont complètement traduit ces cadres en pratique.la Commission mixte et la Commission d'accréditation de l'examen de l'utilisation ont récemment commencé à travailler sur le développement d'une compréhension partagée du déploiement et de l'utilisation responsables des outils d'IA dans les organisations de soins de santé qui constituent la base des programmes de certification autour de l'utilisation responsable de l'IA.
Les systèmes de santé s'appuient de plus en plus sur des preuves réelles recueillies à partir des déploiements d'outils d'IA par des pairs, des fournisseurs ou des validations locales plutôt que sur des études cliniques évaluées par des pairs, une approche qui comporte à la fois des forces et des risques.

Dans une enquête de l'American Hospital Association en 2024 auprès de 2425 systèmes de santé américains, 65 % des hôpitaux ont déclaré utiliser des outils d'IA prédictive dans la pratique.

Parmi les déployeurs, seulement 61 % avaient évalué l'outil sur les données locales, et moins de la moitié avaient été testés pour les biais dans certains groupes de patients, l'évaluation étant la moins courante parmi les institutions plus petites, rurales et non académiques.

 La tension entre l'adoption rapide et l'évaluation appropriée appelle une approche proportionnée et basée sur le risque de la fréquence et de la profondeur de la surveillance. Nous proposons un processus d'évaluation itératif qui s'étend sur 3 phases : pré-déploiement, mise en œuvre et post-déploiement. Dans cette approche, les systèmes de santé doivent faire correspondre la profondeur de l'évaluation au niveau de risque, surveiller les performances des outils d'IA et les flux de travail réels dans lesquels ils sont intégrés, et mettre à jour ou retirer les outils si les performances, l'impact ou la sécurité se dégradent au fil du temps.
En outre, l'IA peut être utilisée dans les soins cliniques de nombreuses façons, et bien que de nombreux outils soient clairement étiquetés comme intégrant l'IA, d'autres outils peuvent être intégrés de manière invisible dans les applications logicielles existantes. Certains outils sont ouvertement cliniques (par exemple, la prédiction de maladies ou d'événements, triage clinique augmenté par l'IA) ; d'autres sont des outils opérationnels adjacents à la clinique (par exemple, des prédicteurs de rendez-vous non-présentation), mais peuvent toujours affecter les soins aux patients ou l'accès aux soins. Les outils d'IA génératif diffèrent de manière fondamentale des outils d'IA d'apprentissage automatique plus traditionnels ou prédictifs,et l'orchestration de plusieurs outils d'IA ou d'agents différents interagissant les uns avec les autres devient de plus en plus courante. Cette évolution rapide des outils d'IA exige que les méthodes de gouvernance, d'évaluation et de surveillance de l'IA respectent un ensemble de principes directeurs fondamentaux, comme indiqué dans cet avis, tout en restant agiles, réactives et itératives dans leur application pratique.
Les membres de la communauté des soins de santé doivent exiger une utilisation responsable de l'IA qui repose sur un véritable besoin clinique,améliore les soins et les résultats, est guidée par une gouvernance lucide, est soutenue par la formation de la main-d'œuvre et fonctionne avec une responsabilité partagée. La gouvernance responsable de l'IA ne s'arrête pas après l'évaluation ou la mise en œuvre préalable au déploiement, mais doit s'étendre à la surveillance de la performance et de l'impact au fil du temps. En outre, le fardeau de la surveillance ne peut pas reposer uniquement sur l'utilisateur final, mais est plutôt une responsabilité partagée entre plusieurs parties de la chaîne de prestation des soins de santé.
Notre objectif avec cet avis est triple :

(1) décrire pourquoi l'IA doit être évaluée différemment de la technologie clinique précédente et donner un aperçu du paysage actuel de l'évaluation et de la surveillance de l'IA, y compris les défis et les lacunes ;
(2) mettre en évidence les activités et les priorités évolutives de l'American Heart Association (AHA) dans le soutien à l'évaluation responsable de l'IA et la surveillance et la génération de preuves du monde réel de son réseau d'hôpitaux et de registres à réintégrer dans la pratique
(3) fournir des principes directeurs fondamentaux pour les systèmes de santé à prendre en compte lors de l'établissement de leurs structures de gouvernance de l'IA pour sélectionner, valider, déployer et surveiller les outils d'IA.

Attributs uniques des outils d'IA et du paysage évolutif de l'évaluation et de la surveillance de l'IA

Pourquoi l'IA exige un nouveau paradigme d'évaluation

L'intégration de l'IA est très prometteuse pour améliorer la précision du diagnostic, la prise de décision clinique et les résultats pour les patients en général. C'est particulièrement le cas dans les soins cardiovasculaires et les accidents vasculaires cérébraux, où de nombreux modèles d'IA sont déjà utilisés.
Cependant, les outils d'IA diffèrent fondamentalement des technologies cliniques précédentes en raison de 3 qualités clés : l'opacité mécaniste et les changements potentiels des performances au fil du temps, l'échelle de portée et les effets de l'interaction homme-IA.
Ces nouveaux risques nécessitent une nouvelle approche de l'évaluation et du suivi.

Opacité mécanique et changements de performance

Les outils traditionnels comme les calculateurs de risque sont basés sur des règles et interprétables - leur logique interne est connaissable. Les outils d'IA, en particulier certains outils prédictifs basés sur des modèles d'apprentissage en profondeur, l'IA générative et l'IA agentique, sont axés sur les données mais non transparents. En outre, la performance de l'outil d'IA peut dériver à mesure que la pratique clinique change, lorsque les populations de patients diffèrent des données de formation et que l'utilisation du mot réel "hors étiquette" diverge des conditions ou des flux de travail initialement prévus Par conséquent, la surveillance de la performance des outils au fil du temps devient essentielle.

Échelle d'impact

Une fois intégrés, les outils d'IA peuvent influencer des milliers de décisions par jour. Les erreurs ou les biais peuvent donc se propager à l'échelle du système à une vitesse sans précédent.

Effets de l'interaction homme-IA

Certains outils sont très sensibles aux flux de travail cliniques, ce qui se traduit par des performances très variables dans différents contextes de soins. Des études ont montré que le même outil de prédiction de la septicémie de l'IA peut soit aider, soit n'avoir aucun effet sur les patients, soit nuire, en fonction de l'utilisation de l'outil et de la manière dont les prédictions ont été mises en œuvre dans ces systèmes de santé.Une autre considération est de savoir s'il existe une capacité d'agir sur les informations glanées à partir des outils d'IA - par exemple, si un outil d'IA a identifié des patients atteints d'une maladie valvulaire non diagnostiquée, l'avantage de cet outil dépend de la capacité de traiter ces patients. En outre, les outils d'IA peuvent directement affecter la performance humaine. Par exemple, l'IA générative ou les systèmes d'IA agentique peuvent façonner le jugement des cliniciens par le biais d'un langage persuasif ou d'un biais d'automatisation (c'est-à-dire la tendance à trop s'en fier aux recommandations automatisées malgré des preuves cliniques ou une intuition contradictoires)
Contrairement à d'autres outils, l'IA informe non seulement les décisions, mais peut également changer la façon dont les cliniciens pensent.

Paysage actuel et lacunes persistantes

Compte tenu de ces nouvelles qualités, de nombreux cadres sont en cours de développement pour évaluer les outils d'IA et leur impact ; cependant, l'opérationnalisation de ces cadres pour déployer des outils d'IA de manière responsable peut être coûteuse et difficile, en particulier en dehors des centres médicaux universitaires bien dotés En outre, des lacunes fondamentales persistent dans les systèmes actuels pour évaluer la sécurité, l'efficacité, l'équité et l'impact des systèmes d'IA (tableau 1). La Food and Drug Administration a fait des progrès dans l'évaluation préalable au déploiement en adaptant les cadres réglementaires existants des dispositifs médicaux pour s'adapter à des logiciels en tant que dispositif médical, notamment par le biais de programmes tels que le programme de précertification des logiciels de santé numériques.Cependant, seule une fraction des outils d'IA devraient suivre cette voie d'approbation de la Food and Drug Administration (la plupart optent pour un statut d'aide à la décision clinique non réglementée pour les dispositifs) et, parmi ceux qui ont obtenu l'autorisation, seulement la moitié environ ont fourni une validation du modèle, et seulement un quart avait des données validées prospectivement.Un plan d'évaluation itérative des outils prédictifs est décrit par le Food and Drug Administration, mais la conduite pratique de ces évaluations est en cours de développement. En l'absence de réglementations fédérales établies, de nombreux États envisagent des mesures réglementaires ou législatives pour assurer une utilisation responsable de l'IA.En partie parce que les mécanismes réglementaires sont dépassés par la rapidité et la complexité du développement de l'IA, et que les outils d'IA sont souvent omniprésents, les systèmes de santé ont besoin d'une gouvernance forte de l'IA pour s'assurer que la surveillance continue des outils d'IA mène à l'action si la performance dérive, si de nouveaux risques émergent ou si l'impact est sous-optimal.

 

 Tableau 1. Lacunes dans l'évaluation et le suivi des systèmes d'intelligence artificielle

Incapacité à établir des critères universels pour évaluer les résultats de divers outils d'IA
Présence de multiples acteurs de l'écosystème des soins de santé promouvant des cadres d'évaluation concurrents
Défis liés aux ressources pour soutenir le déploiement et la surveillance des outils d'IA émergents rapides
Sous-évaluation des effets concrets du déploiement de l'IA, notamment sur les plans financier et éthique, pour les patients, les professionnels de la santé et les systèmes de santé.
Variation injustifiée dans la rigueur de l'évaluation des outils d'IA
Le défaut d'intégrer l'équité comme principe dans la conception, le développement et l'évaluation
Le manque de confiance entre les nombreuses parties prenantes de l'écosystème des soins de santé
Disponibilité limitée des données issues du suivi post-déploiement et des résultats cliniques en situation réelle
Absence d'une approche fondée sur les risques pour déterminer l'intensité minimale requise de l'évaluation
Absence de normes informatiques consensuelles publiées ou d'exigences réglementaires pour la collecte et la visualisation des données de surveillance post-déploiement
Absence de systèmes de surveillance à haute fiabilité capables de réduire la charge de vigilance pesant sur les utilisateurs humains pour détecter les comportements anormaux ou les événements potentiellement dangereux
Les outils d'IA diffèrent considérablement par leurs conditions cibles, la rigueur de leur annotation de vérité au sol, leur utilisation prévue et l'étendue de leur formation prédéploiement et de leur validation indépendante. Certains outils sont formés sur de grands ensembles de données multicentriques diversifiés et font l'objet d'une validation externe rigoureuse ; d'autres sont formés et validés sur des sources de données limitées, ce qui soulève des inquiétudes quant à la reproductibilité et à la généralisabilité s'ils sont utilisés dans d'autres contextes. De nombreux outils prédictifs d'apprentissage automatique ont des indications de cas d'utilisation limitées, mais les outils d'IA générative sont souvent largement utilisés dans tous les domaines.Cela empêche le développement d'un ensemble de mesures universelles spécifiques et exploitables appropriées à toutes les évaluations d'IA, car la tolérance à la performance erronée dépend du degré de risque de la prochaine meilleure action ou classification diagnostique recommandée. Un certain degré d'évaluation locale avant la mise en œuvre et de suivi post-déploiement sont essentiels pour s'assurer que l'utilisation de l'IA est juste, appropriée, valide, efficace et sûreet intégrée aux programmes locaux d'assurance qualité existants. Une lacune cruciale est l'accent mis sur l'équité dans le développement et l'évaluation des outils d'IA, car les outils d'IA peuvent amplifier ou atténuer les biais en matière de santé en fonction de la façon dont ils sont construits ou utilisés.

De nombreux outils d'IA sont développés et validés à l'aide d'ensembles de données non divers provenant d'un petit nombre d'institutions ou de régions géographiques, et peuvent donc manquer de représentation complète des personnes issues de groupes raciaux ou ethniques sous-représentés, des populations rurales ou urbaines, des populations desservies par des hôpitaux communautaires ou à accès critique, la représentativité de la qualité des données (par exemple, les différences dans les scanners, les dispositifs, les styles de documentation, l'absence) et la diversité phénotypique, y compris les sous-types de maladies, les stades et les comorbidités
En plus des critères justes, appropriés, valides, efficaces et sûrs, les implications financières et de valeur de l'adoption de l'IA doivent également être évaluées.Compte tenu de la spirale des coûts des soins de santé aux États-Unis, il est impératif que les outils d'IA produisent une valeur démontrable en matière de soins de santé, mesurée par la rentabilité, les coûts globaux des soins de santé plus élevés, un meilleur accès et un meilleur accès et l'abordabilité, ou l'amélioration de la qualité ou de l'expérience du patient Les coûts d'intégration d'un nouvel outil d'IA et de la surveillance de sa performance au fil du temps dépendent de facteurs tels que les flux de travail cliniques et informatiques existants et les technologies de soutien requises, le nombre d'équipes de soins et opérationnelles touchées, Et comment le modèle affecte l'efficacité de ces équipes
Au niveau du patient, si un patient est identifié par un outil d'IA validé comme étant à risque de maladie en l'absence de facteurs de risque traditionnels, les tests de diagnostic de confirmation peuvent ne pas être couverts par l'assurance, ce qui expose les patients à un stress financier supplémentaire malgré l'utilisation appropriée de la technologie.
La nature dynamique et fragmentée du marché des soins de santé de l'IA lui-même contribue également à la complexité de toute évaluation d'outil d'IA. Un large éventail de parties prenantes joue des rôles distincts dans le développement, le déploiement et la supervision de l'IA, chacune avec des priorités et des incitations différentes (tableau supplémentaire 2) qui façonnent le contenu et la nature souhaités de tout cadre d'évaluation recommandé. Cette complexité souligne la nécessité d'un engagement clair, transparent et partagé envers un ensemble de principes directeurs fondamentaux qui permettent l'évaluation et la surveillance pratiques de l'IA par les systèmes de santé qui ont la responsabilité ultime de la prestation sûre et responsable des soins cliniques.

Avancer l'évaluation, la surveillance et la gouvernance de l'IA responsables et basées sur les risques

Pour renforcer la confiance et l'applicabilité de l'IA dans les soins de santé, les sociétés professionnelles et d'autres organisations de défense des patients devraient fonder l'évaluation et la surveillance sur la pratique réelle, et idéalement dans des domaines spécifiques à la maladie (par exemple, l'AHA pour les soins cardiovasculaires et vasculaires cérébraux) où les directives cliniques et pratiques établies peuvent définir les résultats significatifs par rapport auxquels ces outils d'IA clinique devraient être mesurés. Il est également essentiel d'impliquer les patients, les cliniciens et les autres utilisateurs finaux de la technologie dans le processus de développement, d'évaluation et de suivi.Ces actions favoriseront une plus grande confiance des patients dans l'IA et les nouvelles interventions de santé numérique en général, permettant aux patients de s'engager plus profondément dans leur propre gestion des soins de santé.
Les stratégies basées sur le risque peuvent aider à déterminer l'intensité de l'évaluation et la fréquence du suivi, en équilibrant la rigueur appropriée avec la durabilité. Les systèmes de santé devraient tenir compte des risques financiers, cliniques et de réputation des outils d'IA lors de la détermination du niveau d'évaluation requis avant le déploiement, pendant la mise en œuvre et après le déploiement de chaque outil envisagé. Le fait de ne pas calibrer correctement l'allocation des ressources aux évaluations des outils d'IA en utilisant cette approche proportionnée au risque augmente les risques de surévaluation et de sous-évaluation et met ainsi les patients, les cliniciens et les systèmes de santé en danger. Des exemples d'outils d'IA pour la santé à faible risque comprennent les outils d'IA qui aident à la planification des patients ou qui signalent l'acquisition d'images d'échocardiogrammes sous-optimales pour les vues répétées pendant un balayage. Les outils à risque modéré peuvent inclure des modèles basés sur l'ECG qui signalent les patients présentant une possible cardiomyopathie hypertrophique ou une amyloïdose cardiaque pour d'autres tests de diagnostic de confirmation. Les outils d'IA à risque plus élevé peuvent inclure des outils prédictifs qui déterminent automatiquement l'escalade des soins ou des outils d'IA agentique qui recommandent le titrage des médicaments contre l'insuffisance cardiaque sur la base d'études de laboratoire et de signes vitaux destinés à être utilisés de manière semi-autonome.
Pour réaliser pleinement le potentiel de l'IA à améliorer les résultats et l'efficacité des soins de santé, nous préconisons 4 actions clés dans l'écosystème des soins de santé :
(1) l'AHA et d'autres organisations devraient faciliter une évaluation de haute qualité mais efficace des outils d'IA qui sont destinés à être généralisés entre les populations

(2) les systèmes de santé doivent développer une gouvernance interne de l'IA adaptée à l'objectif pour soutenir une prise de décision réfléchie et fondée sur les données

(3) les systèmes de santé doivent tenir compte des effets techniques, cliniques, de flux de travail et de la population active des nouveaux outils d'IA

(4) les systèmes de santé doivent surveiller les performances des outils d'IA au fil du temps, y compris les effets d'un outil et Son flux de travail clinique associé sur les soins aux patients, l'efficacité et les mesures des résultats cliniques.

Priorités pour l'AHA à l'appui d'une évaluation et d'un suivi appropriés de l'IA

Les initiatives actuelles de l'AHA sur l'IA

L'AHA s'engage à soutenir les processus d'évaluation et de surveillance appropriés à travers les phases de pré-déploiement, de mise en œuvre et de post-déploiement. Une grande partie de cette évaluation est gourmande en ressources et peut être financièrement difficile à mettre en œuvre et à maintenir pour de nombreux systèmes de santé. Alors que tous les systèmes de santé qui déploient des outils d'IA devraient avoir leur propre structure locale de gouvernance de l'IA, beaucoup peuvent avoir besoin de s'appuyer sur des sociétés professionnelles ou des partenaires externes pour obtenir un soutien, par exemple par le biais de collaborations sur les systèmes de santé qui favorisent l'apprentissage entre pairs, le partage des meilleures pratiques et d'autres stratégies visant à réduire le risque d'utilisation d'outils d'IA.
Des organisations telles que l'AHA ont joué un rôle crucial en tant que défenseurs des patients pour la prestation responsable de soins cardiovasculaires et vasculaires cérébraux de haute qualité et en tant qu'innovatrices dans la génération de preuves et leur transptition dans la pratique. Ce travail doit maintenant s'étendre à l'évaluation responsable et à l'introduction d'outils d'IA (Figure 1). L'AHA est engagée dans une transformation numérique axée sur l'IA, en commandant un rapport de groupe de travail sur l'IA d'un groupe diversifié d'experts en 2023, en organisant un sommet sur l'IA sur le cadre éthique de la mise en œuvre de l'IA dans les soins de santé, en développant un laboratoire indépendant de validation d'outils d'IA et en engageant >12 millions de dollars de financement de la recherche en 2025 pour tester de nouvelles stratégies de prestation d'IA en matière de soins de santé pour la sécurité et l'efficacité. À plus long terme, la pratique de la génération de preuves et la voie de la preuve à la pratique devront probablement être réinventées, renforcées par l'utilisation responsable de l'IA.

 

 


 L'American Heart Association a fait ses preuves en matière de génération de preuves scientifiques de haute qualité, de développement de lignes directrices cliniques et d'engagement de matériel éducatif largement diffusé, et d'accélération de la traduction de ces connaissances en action grâce au vaste réseau d'hôpitaux participant à ses registres et collaborations d'amélioration de la qualité.
 

Ce modèle opérationnel positionne l'American Heart Association comme un leader de confiance dans le développement, les tests et la mise en œuvre de processus pour soutenir l'utilisation responsable de l'intelligence artificielle dans les soins de santé.
 

Méthodes d'évaluation de l'IA

L'AHA s'engage à respecter des normes de validation appropriées, en particulier pour les outils d'IA destinés à être utilisés de manière large dans tous les systèmes et populations. Lorsque cela est approprié pour des outils à risque modéré ou élevé, cela peut parfois inclure une validation prospective, multisite, multicontextuelle par le biais de méthodes telles que des essais cliniques randomisés. Cependant, les essais cliniques randomisés se limitent généralement à l'évaluation d'un petit ensemble d'interventions à la fois, et peuvent être coûteux et prendre du temps dans sa forme actuelle. Il est essentiel de repenser le processus de génération de preuves cliniques et le moment d'une telle évaluation ; il n'est pas nécessaire de générer des preuves avant le déploiement, et les méthodes d'accumulation de preuves après le déploiement dans tous les systèmes de santé doivent être explorées.Les conceptions pragmatiques telles que les conceptions en grappes ou en coins échelonnée pour la mise en œuvre échelonnée de systèmes d'IA sur les sites peuvent parfois être appropriées, ou même des stratégies plus nouvelles d'essais intégrées dans le dossier de santé électronique.Cette réimagination de la génération de preuves cliniques est particulièrement pertinente pour certaines technologies (par exemple, les outils d'IA générative à invite ouverte où il n'y a pas d'invite ou de tâche fixe) qui font ne se prêtent pas bien aux conceptions d'essais existantes et peuvent bénéficier de tests A/B qui sont courants en dehors des soins de santé. Il est également nécessaire d'explorer l'utilisation appropriée de conceptions quasi-expérimentales (par exemple, séries temporelles interrompues, estimation de la différence de différence, variables instrumentales) pour parvenir à une inférence causale à partir de données d'observation, ce qui est une pratique courante dans des domaines tels que l'économie.

Preuves et diffusion du monde réel

 
Ce travail doit être couplé à un véhicule de diffusion des résultats et du matériel d'éducation professionnelle et des patients afin d'assurer la transparence, la confiance et la crédibilité de l'utilisation de l'IA dans les soins de santé. L'AHA a construit un réseau national et diversifié de près de 3000 hôpitaux à travers les États-Unis, dont plus de 500 hôpitaux d'accès rural et critique, pour évaluer la qualité des soins et les résultats et mener des recherches. Ce réseau de cliniques et d'hôpitaux peut bénéficier de nouvelles méthodes d'évaluation des outils d'IA fournies par l'AHA, fournir des sites de validation externes pour les outils d'IA destinés à partir d'un large déploiement dans un large éventail de systèmes de santé et aider à diffuser des outils fondés sur des preuves au-delà des grands centres universitaires pour bénéficier aux patients, quel que soit leur lieu de vie. La portée de l'AHA est amplifiée par ses 32 millions de bénévoles, de partisans et de donateurs, qui peuvent soutenir la recherche scientifique de confiance, fournir de l'éducation et de la formation, promouvoir la discussion et faire progresser l'adoption d'outils d'IA fondés sur des preuves. L'AHA est fortement positionnée pour servir de courtier honnête dans ce domaine en allégeant le fardeau de l'évaluation prédéploier sur les systèmes hospitaliers, en faisant progresser les méthodes axées sur les résultats pour la surveillance des outils d'IA, en facilitant la génération de preuves dans le monde réel et en fournissant des conseils sur la gouvernance de l'IA qui gardent les intérêts des patients au centre de l'innovation et de l'évaluation. Une priorité clé est la formulation d'un ensemble de principes directeurs fondamentaux pour soutenir la gouvernance de l'IA dans la pratique, qui est discutée dans ce qui suit.
 

Les 4 principes directeurs fondamentaux de l'évaluation de l'IA

 
Les décisions d'acheter ou de construire, puis de déployer des outils d'IA précèdent souvent des preuves scientifiques définitives d'avantages. Pour aider les systèmes de santé à mettre en place leurs processus de gouvernance de l'IA, nous décrivons 4 principes directeurs pour l'évaluation et la surveillance pragmatiques dans la pratique à travers les 3 phases (tableau 2) : alignement stratégique, évaluation éthique, évaluation de l'utilité et de l'efficacité et performance financière (Fig. 2). De nombreux facteurs doivent être pris en compte par les institutions en ce qui concerne le coût, la sécurité, l'efficacité, l'éthique et l'impact sur les cliniciens et les patients avant la sélection ou le déploiement de l'outil d'IA. Chaque système de santé pèsera ces dimensions différemment en fonction de ses priorités locales, de ses contraintes et du niveau de risque attribué à l'outil, et ces poids devront être revus périodiquement à mesure que les preuves s'accumulent, que les priorités stratégiques institutionnelles changent ou que les outils d'IA et que leurs performances évoluent.


Tableau 2. Exemples illustratifs de l'application des principes directeurs aux 3 phases et à travers les 4 domaines d'évaluation et de surveillance des outils d'intelligence artificielle en matière de soins de santé
 
 
Phase d'évaluation de l'IADomaines d'évaluation de l'IA
Alignement stratégiqueÉthiqueUtilité et efficacitéPerformance financière
Pré-déploiement Alignement sur les priorités stratégiques de l'organisation Évaluation complète du biais algorithmique, des besoins de formation de la main-d'œuvre et de la transparence Confirmation qu'un outil d'IA proposé aborde un énoncé de problème clinique clairement défini Connaise commerciale crédible et retour sur investissement tangible et intangible réalisable
Mise en œuvre Large engagement et approbation des parties prenantes Validation des performances du modèle local et assurance de la sécurité, de la sécurité, de la confidentialité et de la confiance Démonstration du flux de travail et de l'intégration technique L'allocation des ressources est appropriée et approuvée avant le déploiement
Post-déploiement Responsabilité du leadership par rapport aux objectifs définis Évaluation et surveillance par niveaux de risque pour la sécurité, les modes d'échec et les biais ; identification des résultats involontaires et atténuation des dommages possibles Surveillance de l'efficacité clinique, de l'adoption, de la dérive du modèle ou du comportement anormal ; le propriétaire du modèle d'IA est responsable de l'examen des performances et de l'action basée sur les données Utilisation continue en fonction de la confirmation du retour sur investissement de la valeur financière et de la santé
 
L'IA indique l'intelligence artificielle.

Évaluation et suivi dans les soins de santé La gestion du cycle de vie de l'outil d'intelligence artificielle comprend les phases de pré-déploiement, de mise en œuvre et de post-déploiement.
 

Les principes directeurs sont pertinents pour chaque phase de l'évaluation. L'intensité de l'évaluation devra être proportionnelle au risque, et les plans de suivi devraient inclure des critères de performance et des seuils de déclassement minimum. L'IA indique l'intelligence artificielle.

Tableau 3. Synthèse des 4 principes directeurs pour l'évaluation et le suivi des outils d'intelligence artificielle dans le domaine de la santé en questions concrètes et exploitables pouvant éclairer l'acquisition, le déploiement et le suivi continu de l'impact sur la qualité, la valeur et les effectifs.
 
Cet outil d'IA répond-il à une priorité stratégique ?
Les outils d'IA doivent apporter un bénéfice clairement défini, en adéquation avec les priorités stratégiques de chaque système de santé acquéreur. Voici quelques exemples :
 Soutien aux équipes cliniques : L'outil réduit-il la charge administrative, diminue-t-il l'épuisement professionnel ou améliore-t-il la prise de décision clinique ?
 Qualité des soins : L'outil d'IA, une fois intégré aux flux de travail, améliorera-t-il sensiblement la sécurité, réduira-t-il les erreurs ou optimisera-t-il les résultats pour les patients ?
 Expérience patient : L'outil d'IA améliore-t-il l'accès aux soins, la communication ou la satisfaction ?
Cet outil d'IA et son utilisation prévue sont-ils éthiques ?
 Autonomie : L’outil d’IA soutient-il la prise de décision humaine plutôt que de la remplacer ?
 Responsabilité : La gouvernance, le contrôle qualité et les besoins en formation continue sont-ils clairement définis ?
 Équité : L’outil d’IA a-t-il été développé à partir de données représentatives et de stratégies d’atténuation des biais ? Existe-t-il des conséquences financières ou éthiques imprévues pour les patients ?
 Sécurité : Les informations de santé protégées et les autres données des patients sont-elles protégées et utilisées uniquement conformément aux politiques de partage de données établies ? L’outil est-il conforme aux réglementations en matière de confidentialité et de sécurité ?
 Fiabilité : Les parties prenantes, y compris les patients, peuvent-elles comprendre quelles données d’entraînement ont été utilisées, comment l’outil a été validé et comment il sera surveillé ?
 Transparence : Les méthodes et les résultats de la validation sont-ils communiqués dans des formats compréhensibles par tous, tels que des fiches modèles et des documents adaptés aux patients ?
 Innovation : L’utilisation de l’outil d’IA contribue-t-elle à l’apprentissage institutionnel continu et à l’amélioration du système ?
Cet outil d'IA et ses flux de travail cliniques associés sont-ils utiles et efficaces ?
 Clarté du cas d'usage : Le problème que l'outil est censé résoudre est-il clairement identifié ?
 Base de données probantes : Les méthodes utilisées pour valider l'outil d'IA (par exemple, données en situation réelle, études évaluées par les pairs, études de simulation, méthodes alternatives) ont-elles été sélectionnées de manière appropriée ? L'outil d'IA a-t-il été validé plus en profondeur avec des données locales et institutionnelles lorsque cela était possible et disponible ?
 Intégration : Dans quelle mesure l'outil s'intègre-t-il aux systèmes existants (par exemple, systèmes de dossiers médicaux électroniques, équipements médicaux, plateformes/enclaves de données) ?
 Preuves de son efficacité : L'outil a-t-il été déployé dans d'autres systèmes de santé avec des résultats probants ? Si seules des données pilotes sont disponibles, son utilisation continue est-elle conditionnée par l'atteinte des seuils attendus pour les résultats précoces et tardifs ?
 Suivi : Des systèmes sont-ils en place pour détecter les dérives de performance, les erreurs et les non-conformités ? Les indicateurs de suivi post-déploiement, notamment la fréquence et l'intensité, sont-ils bien définis, avec des plans d'action clairs en cas de dégradation des performances (par exemple, recyclage, mise hors service) ?
 Personnalisation : L'outil peut-il être adapté localement à des populations de patients spécifiques, à des objectifs d'accès aux soins ou à des exigences réglementaires ?
 Évolutivité : L’outil est-il conçu et robuste pour un déploiement à grande échelle ou en entreprise ?
 Références de pairs : A-t-on sollicité l’expérience d’autres clients ayant validé son efficacité et sa facilité d’utilisation dans leurs environnements ?
Cet outil d'IA et son utilisation offrent-ils un retour sur investissement financier et sanitaire ?
 Retour sur investissement financier : L’outil d’IA permet-il de générer des revenus, de réduire les coûts ou d’améliorer l’efficacité opérationnelle ? Les coûts de mise en œuvre, de maintenance et de suivi sont-ils inclus dans le calcul du retour sur investissement ?
 Retour sur investissement qualitatif : L’outil d’IA et son déploiement contribuent-ils à la fidélisation des professionnels de santé, à la satisfaction des patients ou à la réputation de l’établissement ?
 Retour sur investissement en termes de valeur pour la santé : Après déploiement, l’outil atteint-il l’impact clinique escompté ?

Bien qu'il existe de nombreux cadres d'évaluation de l'IA, ils peuvent sembler abstraits ou difficiles à opérationnaliser, en particulier pour les systèmes de santé aux ressources limitées. Les principes directeurs sont résumés dans le tableau 2 à travers les 3 phases ; le tableau 3 distille ces cadres en questions concrètes et exploitables qui peuvent éclairer l'approvisionnement, le déploiement et la surveillance continue de la qualité, de la valeur et de l'impact sur la main-d'œuvre. En retransformant le processus d'évaluation en un ensemble de questions directrices, nous visons à fournir un point de départ aux systèmes de santé qui développent leurs processus de gouvernance de l'IA, leurs approches d'évaluation et leurs plans de suivi.
 
 
Un élément central de l'utilisation responsable de l'IA est la surveillance appropriée. En plus des performances techniques, la surveillance doit évaluer l'impact réel pour déterminer si un outil ou son flux de travail associé doit être mis à jour ou, si nécessaire, mis hors service. Pour chaque outil d'IA de la santé, nous recommandons aux systèmes de santé de déterminer la cadence requise de surveillance et de désigner une partie responsable pour recevoir les résultats de la surveillance, les évaluer par rapport à des critères prédéfinis et déclencher des mesures correctives ou une retraite lorsque les seuils ne sont pas respectés.
 
En outre, les outils d'IA générative et les outils d'IA agentique nécessiteront le développement de meilleures pratiques pour la collaboration homme-IA. Alors que ceux-ci évolueront probablement avec le temps, il y a certaines garanties de base à prendre en compte, y compris des garde-corps pour s'assurer que les systèmes d'agents n'agissent que dans des domaines préapprouvés et avec des pistes d'audit complètes. Pour l'instant, une surveillance humaine significative est nécessaire pour les actions cliniques à fort impact et les soins conséquents. Les cliniciens doivent être informés sur les limites de l'IA et les patients informés lorsque l'IA influence substantiellement leurs soins.
Ces directives de gouvernance, d'évaluation et de suivi visent à aider les systèmes de santé à établir des processus de gouvernance efficaces à une époque où la génération de preuves est à la traîne. L'AHA continuera à diriger les efforts pour inaugurer une nouvelle ère d'évaluation de l'IA et de génération de preuves dans le monde réel afin de soutenir l'évaluation et la surveillance appropriées des outils d'IA à haut risque à travers les 3 phases.
 

Conclusion

L'IA transforme les soins cardiovasculaires et les soins vasculaires vasculaires cérébraux dans la pratique réelle, mais son plein potentiel ne sera réalisé que si une évaluation et une surveillance responsables et durables peuvent suivre le rythme du déploiement.

Malgré les descriptions de nombreux cadres d'évaluation de l'IA publiés, la présence et l'exhaustivité des pratiques de gouvernance de l'IA varient considérablement selon les systèmes de soins de santé. Une approche proportionnelle au risque de l'évaluation avant le déploiement et pendant la mise en œuvre, avec une surveillance par niveau de risque après le déploiement, est essentielle pour assurer une utilisation responsable et efficace de l'IA qui conduit à un impact clinique réel et durable.

L'AHA est particulièrement bien placée pour faire progresser des méthodes d'évaluation et de surveillance fiables pour les outils d'IA, fournir des conseils sur la gouvernance de l'IA pour les systèmes de santé et les professionnels de la santé qui en sont aux premiers stades de l'établissement de processus et de protocoles, et de soutenir des initiatives visant à permettre des soins de haute qualité et compatibles avec l'IA pour tous les patients.

Cet avis scientifique décrit le paysage actuel de l'évaluation de l'IA, décrit les priorités de l'AHA pour une utilisation responsable de l'IA et fonde les efforts de gouvernance, d'évaluation et de surveillance de l'IA pour les systèmes de santé sur 4 principes directeurs : alignement stratégique, évaluation éthique, évaluation de l'utilité et d'efficacité et performance financière.

Ces principes s'appliquent à toutes les modalités d'IA et placent les résultats pour les patients et les soins de santé durables au centre de la prise de décision pour une IA cliniquement efficace.

SYNTHÈSE / NOTEBOOKLM
Le texte présente un avis scientifique de l'American Heart Association (AHA) concernant les approches pragmatiques pour l'évaluation et la surveillance de l'intelligence artificielle (IA) dans les soins de santé, en particulier pour les maladies cardiovasculaires et les AVC. Il souligne que le développement rapide de l'IA dépasse les cadres d'évaluation traditionnels, entraînant une adoption qui repose souvent sur des preuves anecdotiques plutôt que sur des essais cliniques robustes. L'AHA propose un processus d'évaluation itératif qui se déroule en trois phases (prédéploiement, implémentation et postdéploiement). Ce document fournit également quatre principes directeurs pour la gouvernance de l'IA dans les systèmes de santé, notamment l'alignement stratégique, l'évaluation éthique, l'utilité et l'efficacité, et la performance financière. L'objectif principal est de s'assurer que l'adoption de l'IA est sûre, efficace, équitable et durable afin d'améliorer les résultats pour les patients.