Collaborations : humain/IA

 
 
 
 

"L’avenir ne sera pas une opposition entre les humains et l’IA. Il s’agira d’humains assistés par l’IA. La technologie doit être une extension de nos propres capacités." Tim Cook, PDG d’Apple


" La sécurité de l’IA doit être notre priorité absolue. Nous construisons des systèmes de plus en plus puissants, et il est impératif que nous comprenions et contrôlions leur comportement." Dario Amodei, PDG d’Anthropic

" L’intelligence artificielle n’a pas de valeurs propres. Elle hérite des valeurs des données que nous lui fournissons. Si nous ne faisons pas attention, nous risquons d’encoder et de perpétuer nos propres biais à une échelle sans précédent " Kate Crawford, chercheuse spécialisée dans les implications sociales de l’IA


 papaol.jpeg
 
Zöller N, Berger J, Lin I, Fu N, Komarneni J, Barabucci G, Laskowski K, Shia V, Harack B, Chu EA, Trianni V, Kurvers RHJM, Herzog SM. Human-AI collectives most accurately diagnose clinical vignettes.

Les collaborations humain-IA permettent de diagnostiquer avec une précision remarquable les vignettes cliniques.

Proc Natl Acad Sci U S A. 2025 Jun 17;122(24):e2426153122. doi: 10.1073/pnas.2426153122. Epub 2025 Jun 13. PMID: 40512795; PMCID: PMC12184336.
Article en libre accès
 
 Les systèmes d'IA, et notamment les grands modèles de langage (GML), sont de plus en plus utilisés pour des décisions cruciales ayant un impact sur les individus et la société dans son ensemble, souvent sans garanties suffisantes pour assurer la sécurité, la qualité et l'équité.
 
Or, les GML peuvent présenter des dysfonctionnements, un manque de bon sens et des biais – des lacunes qui reflètent leurs limitations intrinsèques et qui ne peuvent donc être corrigées par des architectures plus sophistiquées, davantage de données ou un retour d'information humain accru. S'appuyer uniquement sur les GML pour des décisions complexes et à forts enjeux est par conséquent problématique. Nous présentons ici un système d'intelligence collective hybride qui atténue ces risques en tirant parti des atouts complémentaires de l'expérience humaine et de la vaste quantité d'informations traitées par les GML. Nous appliquons notre méthode à des diagnostics médicaux ouverts, en combinant 40 762 diagnostics différentiels établis par des médecins avec les diagnostics de cinq GML de pointe sur 2 133 vignettes cliniques textuelles.
 
Nous montrons que les collectifs hybrides de médecins et de GML surpassent les médecins isolés et ceux des médecins, ainsi que les GML isolés et les ensembles de GML. Ce résultat se vérifie dans diverses spécialités médicales et pour différents niveaux d'expérience professionnelle, et peut être attribué à la complémentarité des contributions humaines et artificielles, qui engendrent différents types d'erreurs. Notre approche met en lumière le potentiel de l'intelligence collective humaine et artificielle pour améliorer la précision dans des domaines complexes et ouverts comme le diagnostic médical.

RESUME GENERATIF

Cet article présente une approche hybride combinant l'intelligence humaine et l'intelligence artificielle pour améliorer le diagnostic médical.

Contexte et Problématique

    • Les modèles de langage de grande taille (LLMs) sont de plus en plus utilisés dans des décisions critiques, mais présentent des limitations telles que des hallucinations, des biais et un manque de bon sens.
    • `Les erreurs de diagnostic sont une préoccupation majeure en médecine, entraînant des conséquences graves, notamment des décès et des handicaps.
    • `L'intégration de l'IA dans le diagnostic médical doit être prudente, car les LLMs peuvent ne pas être fiables sans l'expertise humaine.

Méthodologie de l'Étude

    • `L'étude utilise un système d'intelligence collective hybride, combinant les diagnostics de 40 762 médecins avec ceux de cinq LLMs sur 2 133 vignettes cliniques.
    • `Les contributions des médecins et des LLMs sont harmonisées et agrégées pour produire un diagnostic collectif.
    • `La performance des collectifs hybrides est comparée à celle des médecins seuls, des LLMs seuls et des collectifs de médecins.

Résultats principaux

    • `Les collectifs hybrides de médecins et de LLMs surpassent les performances des médecins individuels, des collectifs de médecins et des LLMs seuls.
    • `Cette supériorité est attribuée à la complémentarité des erreurs commises par les humains et les LLMs, permettant une réduction des erreurs globales.
    • `Les résultats sont cohérents à travers différentes spécialités médicales et niveaux d'expérience professionnelle.

Analyse des Performances

    • `Les LLMs individuels montrent des performances variées, mais les ensembles de LLMs améliorent généralement l'exactitude diagnostique.
    • `L'ajout d'un LLM aux diagnostics humains augmente systématiquement la performance, même lorsque le LLM est moins performant qu'un médecin individuel.
    • `Les erreurs des LLMs et des médecins sont souvent différentes, ce qui permet aux collectifs hybrides de compenser les lacunes de chacun.

Implications et perspectives

    • `L'approche hybride pourrait transformer le diagnostic médical en intégrant l'expertise humaine avec les capacités analytiques des LLMs.
    • `Bien que l'étude soit prometteuse, des recherches supplémentaires sont nécessaires pour évaluer la sécurité et l'efficacité de cette méthode dans des contextes cliniques réels.
    • `Des préoccupations subsistent concernant l'équité et les biais potentiels dans les systèmes d'IA, nécessitant une attention particulière lors de leur déploiement.

Limitations et recherches futures

    • `L'étude repose sur des vignettes cliniques, ce qui peut ne pas refléter la complexité des situations cliniques réelles.
    • `Les cas sélectionnés peuvent ne pas représenter la diversité des diagnostics rencontrés en pratique.
    • `Des recherches futures devraient explorer l'impact des recommandations des collectifs hybrides sur les décisions cliniques finales et leur influence sur les résultats des patients.

Conclusion

    • L'intégration de l'intelligence humaine et de l'IA dans le diagnostic médical montre un potentiel significatif pour améliorer l'exactitude et réduire les erreurs.
    • Les collectifs hybrides, en tirant parti des forces complémentaires des médecins et des LLMs, pourraient offrir une voie vers des applications plus sûres et équitables de l'IA en médecine.


Cette analyse est disponible sur LinkedIn.
Lien graphique pour voir le cadre de Mehdi Moussaid


Qui obtient le meilleur score à un test de diagnostics médicaux ?
Le médecin, l’IA… ou le collectif ?

Dans cette étude conduite par mes collègues du Max Planck Institute, l’exercice est simple : retrouver la bonne maladie à partir du dossier d’un patient (sans examen physique, ce n’est pas aussi complexe qu'une vraie consultation ⚠️).

Et voici les résultats :

1️⃣ Individuellement, les LLM dépassent le médecin moyen.
Pas si étonnant finalement : ils ont ingéré toute la littérature médicale.

2️⃣ L’intelligence collective cartonne
Deux médecins = une IA.
Cinq médecins = excellent score.
Et, fait intéressant : on peut construire des collectifs d’IA, qui obtiennent aussi un très bon score.

3️⃣ Mais le meilleur de tous… c’est le collectif *hybride* : humain + IA en même temps
En fusionnant les diagnostics des deux, on obtient les performances les plus élevées.

Pourquoi ? Parce que les humains et les machines font des erreurs différentes. Leurs biais ne sont pas corrélés. C’est précisément cette diversité qui rend le mélange si puissant.

👉 Ce n’est donc ni l’humain, ni la machine, quisont lese plus fort, mais la combinaison des deux : le collectif augmenté.

Bref, plutôt que d’opposer humains et IA, apprenons à les faire collaborer :)

TEST1

TEST2TEST3SYNTHÈSE / NOTEBOOKLM

Cet extrait de recherche explore l'efficacité de la combinaison des connaissances de l'homme et de l'intelligence artificielle (IA) dans le domaine du diagnostic médical. Il présente une étude approfondie utilisant des vignettes cliniques pour démontrer que les collectifs hybrides d'humains et de grands modèles de langage (LLMs) surpassent les performances des médecins seuls ou des LLMs seuls. Les auteurs expliquent que les erreurs commises par les médecins et les LLMs sont complémentaires, ce qui permet au système hybride d'atténuer les faiblesses distinctes de chaque entité, telles que les hallucinations des LLMs. L'approche utilise une méthode généraliste pour harmoniser et agréger les diagnostics à texte ouvert dans un vaste espace de solutions médicales. L'étude conclut que la collaboration homme-IA détient un potentiel transformateur pour améliorer la précision des décisions complexes et des diagnostics.


Commentaire
L'association IA / médecin était au début antinomique. Mais un  outil et un humain doivent pouvoir s'entendre avec de l'optimisation au terme de cette collaboration. Cet article objective une collaboration  efficace pour prendre des décisions complexes comme des diagnostics. Il existe donc une synergie d'action IA/MÉDECINE pour le plus grand bien des patients. Cette association hybride devra être une des clefs de la réussite HUMAIN/IA. Chacun apporte à l'autre ce qu'il n'a pas  mais ce que l'humain médecin  a "n'est pas exportable à une IA " :  l'humanité, l'intuition, l'expérience , l'écoute , la compassion, l'empathie, le partage, autant de qualités nécessaires en médecine.



Copyright : Dr Jean-Pierre Laroche/2025