IA in medicina: due studi su Nature mettono in guardia

Quando si misura un modello linguistico su un esame di medicina, i risultati sono spesso strabilianti: punteggi da primo della classe, diagnosi corrette in oltre nove casi su dieci. Ma cosa succede quando lo stesso modello finisce nelle mani di un paziente vero, o quando a usarlo è uno studente di medicina che sta ancora imparando a ragionare? Due studi pubblicati su Nature Medicine provano a rispondere, e il quadro che emerge è molto più sfumato dei titoli trionfalistici.

È un tema centrale per l'Italia e per l'Europa, dove l'IA in sanità è tra gli ambiti classificati «ad alto rischio» dall'AI Act e dove ospedali e medici di base iniziano a sperimentare assistenti basati su modelli linguistici. Capire dove questi strumenti aiutano davvero — e dove invece illudono — è una questione di salute pubblica, non solo di tecnologia.

I modelli sanno tutto, ma i pazienti non sanno chiederlo

Il primo studio affronta un problema spesso trascurato: la differenza tra le prestazioni di un modello «da solo» e quelle ottenute quando a interrogarlo è una persona comune. In una sperimentazione, i modelli linguistici testati in isolamento individuavano correttamente le condizioni mediche descritte in circa il 94,9% dei casi. Ma quando gli stessi modelli venivano usati da partecipanti reali — persone senza formazione clinica — la quota di chi riusciva a identificare le condizioni rilevanti crollava al di sotto del 34,5%.

Il divario non dipende dal modello, ma dall'interazione. I pazienti descrivono i sintomi in modo incompleto o impreciso, non sanno quali dettagli siano rilevanti, interpretano male le risposte e si fermano alla prima ipotesi. È la prova che mettere un chatbot tra le mani del pubblico non equivale a dotarlo di un medico tascabile: senza una guida, lo strumento più accurato del mondo produce decisioni sbagliate. Una lezione che vale anche per le tante app di «triage» e auto-diagnosi che proliferano negli store.

I modelli linguistici eccellono nei test, ma il loro rendimento crolla quando a usarli sono pazienti non esperti.

Il rischio "never-skilling" nella formazione dei medici

Il secondo studio sposta lo sguardo sulle nuove generazioni di camici bianchi e introduce un concetto destinato a far discutere: il «never-skilling», ovvero la mancata acquisizione di competenze. Non si parla qui di medici esperti che perdono abilità per disuso — il classico de-skilling — ma di studenti e specializzandi che, appoggiandosi all'IA fin dai primi anni di formazione, rischiano di non sviluppare mai le capacità fondamentali di ragionamento clinico.

Il ragionamento diagnostico si costruisce facendo: raccogliere un'anamnesi, formulare ipotesi, sbagliare, correggersi. Se in ciascuno di questi passaggi interviene un suggeritore automatico, l'apprendimento profondo che trasforma una nozione in competenza può non avvenire. Gli autori invitano le facoltà di medicina a ripensare la didattica perché l'IA resti un supporto e non una stampella che impedisce di imparare a camminare.

Cosa insegnano questi risultati

I due lavori non sono un atto d'accusa contro l'intelligenza artificiale in medicina. Le ricerche sull'uso degli agenti autonomi in contesti clinici reali continuano a mostrare risultati promettenti su compiti specifici, dalla refertazione di immagini alla gestione di pazienti standardizzati. Il punto è un altro: la qualità di un sistema di IA non si misura solo dal punteggio su un benchmark, ma da come si comporta nel mondo reale, con utenti imperfetti e in contesti complessi.

Per chi progetta questi strumenti, il messaggio è disegnare l'interazione con la stessa cura riservata al modello: interfacce che guidino l'utente a fornire le informazioni giuste, sistemi che chiedano chiarimenti invece di accontentarsi della prima risposta, supervisione clinica obbligatoria. Per le istituzioni sanitarie, è la conferma che l'adozione dell'IA va accompagnata da formazione e regole, non lasciata all'improvvisazione. E per i pazienti, una raccomandazione che vale più di mille benchmark: un chatbot, per quanto preparato, non sostituisce il medico.