Un approccio innovativo basato sull’intelligenza artificiale apre nuove prospettive nella diagnosi medica: lo studio “Sequential Diagnosis with Language Models“, sviluppato da Harsha Nori, Mayank Daswani, Christopher Kelly e altri esperti di Microsoft AI, promette di trasformare profondamente il processo diagnostico, migliorandone significativamente precisione ed efficienza economica.
Attualmente, molti modelli linguistici vengono testati con vignette cliniche statiche e domande a risposta multipla, metodi che non riflettono l’effettiva complessità della medicina basata sull’evidenza. La realtà clinica, invece, richiede che i medici formulino e rivedano iterativamente ipotesi diagnostiche, adattando le domande e i test in base alle informazioni che emergono gradualmente.
Per simulare fedelmente questo processo diagnostico sequenziale, gli autori hanno sviluppato il “Sequential Diagnosis Benchmark” (SDBench). Questo sistema converte 304 casi clinici complessi pubblicati sul New England Journal of Medicine in esperienze diagnostiche interattive. I medici o le AI iniziano con una breve descrizione del caso e devono richiedere ulteriori informazioni, che vengono fornite da un modello “Gatekeeper” solo su esplicita richiesta. L’accuratezza diagnostica e i costi di test e visite mediche sono i due principali criteri di valutazione del sistema.
I risultati ottenuti da questo nuovo metodo sono sorprendenti: il sistema sviluppato, chiamato MAI Diagnostic Orchestrator (MAI-DxO), utilizzando il modello linguistico OpenAI o3, raggiunge un’accuratezza diagnostica dell’80%, quattro volte superiore rispetto alla media del 20% dei medici generalisti. MAI-DxO non solo migliora l’accuratezza, ma riduce anche i costi diagnostici del 20% rispetto ai medici umani e addirittura del 70% rispetto al modello OpenAI o3 standard.
La forza di MAI-DxO deriva da una strategia orchestrata che simula un team virtuale di specialisti medici. Questo “panel virtuale” include diverse figure mediche:
- Il Dr. Hypothesis, che gestisce le ipotesi diagnostiche aggiornandole in modo bayesiano.
- Il Dr. Test-Chooser, che seleziona i test più discriminativi.
- Il Dr. Challenger, che agisce da avvocato del diavolo per evitare bias.
- Il Dr. Stewardship, che controlla e ottimizza i costi.
- Il Dr. Checklist, che garantisce la coerenza interna e la validità dei test richiesti.
Grazie a questa orchestrazione avanzata, il sistema MAI-DxO riesce a ridurre l’ancoraggio precoce sulle ipotesi iniziali, evitando test costosi inutili e ottimizzando il processo decisionale clinico.
Questi risultati non sono limitati a un singolo modello linguistico: l’approccio di orchestrazione ha infatti migliorato significativamente le performance di tutti i modelli linguistici testati, inclusi quelli di Gemini, Claude, Grok, DeepSeek e Llama, mostrando guadagni medi dell’11% nell’accuratezza diagnostica.
Il sistema è stato validato ulteriormente con un set di casi clinici pubblicati dopo la data limite di addestramento dei modelli utilizzati, confermando la robustezza delle performance e l’assenza di effetti di memorizzazione.
L’implementazione di un tale sistema nella pratica clinica potrebbe trasformare profondamente l’assistenza sanitaria, offrendo diagnostica di alto livello anche in contesti con risorse limitate. Nonostante alcune limitazioni inerenti la rappresentatività dei casi clinici usati, la mancanza di situazioni benigne e l’assenza di valutazioni di invasività e rischi associati ai test, l’approccio delineato da MAI-DxO indica chiaramente un percorso promettente per il futuro della diagnostica medica supportata dall’intelligenza artificiale.