Skip to content Skip to footer
Contenuto sviluppato con intelligenza artificiale, ideato e revisionato da redattori umani.
···

Lo studio Why language models hallucinate, pubblicato da OpenAI, affronta una delle questioni più discusse nello sviluppo dei grandi modelli di linguaggio: perché i sistemi generano affermazioni false con apparente sicurezza. Secondo gli autori, non si tratta di un malfunzionamento inspiegabile, ma di un effetto naturale delle dinamiche statistiche che guidano addestramento e valutazione. Comprendere queste dinamiche significa considerare le allucinazioni non come eccezioni misteriose, bensì come conseguenze prevedibili di un sistema ottimizzato con criteri che premiano poco l’incertezza e la cautela.

Durante la fase di pretraining, i modelli imparano a prevedere la parola successiva all’interno di quantità enormi di testo. In questa fase non ricevono etichette che distinguano tra affermazioni vere e false: ciò che viene appreso è la distribuzione del linguaggio, non la veridicità del contenuto. Questo approccio si dimostra eccellente nell’assorbire regole di ortografia, sintassi e coerenza stilistica, che seguono schemi ripetitivi e regolari, ma diventa insufficiente quando si tratta di garantire la correttezza di fatti rari o arbitrari. Se nel corpus di addestramento la data di nascita di una persona compare una sola volta, o non compare affatto, il modello non ha modo di inferire una regola che assicuri una risposta precisa. Attraverso un’analisi matematica, gli autori introducono il problema ausiliario Is-It-Valid, dimostrando che l’errore generativo di un modello non può scendere sotto una certa soglia, perché è proporzionale all’errore commesso in questo compito di classificazione. In altre parole, un certo livello di errore è inevitabile e previsto dalla teoria.

Su questo terreno già complesso si innesta un secondo fattore determinante: i sistemi di valutazione. La quasi totalità dei benchmark principali, da MMLU a SWE-bench, adottano metriche binarie. Una risposta corretta vale un punto, una risposta sbagliata o incerta vale zero. In questo contesto l’astensione diventa uno svantaggio sicuro, mentre azzardare una risposta, anche con una probabilità minima di indovinare, può fruttare punti. È il meccanismo tipico del quiz a scelta multipla: tentare conviene sempre più che ammettere di non sapere. Di conseguenza i modelli sono incentivati a preferire la congettura all’ammissione di incertezza, anche quando non dispongono di informazioni sufficienti.

Il risultato è che, anche se esistono tecniche specifiche per ridurre le allucinazioni, gli incentivi del sistema vanno nella direzione opposta. Le classifiche e valutazioni che guidano la ricerca e la competizione continuano a premiare chi azzarda più spesso, non chi dimostra di sapersi fermare davanti al dubbio. Questo crea un paradosso: modelli sempre più potenti, addestrati con enormi quantità di dati e risorse, ma comunque portati a generare risposte false pur di non restare in silenzio.

La proposta del paper è tanto semplice quanto radicale: riformulare i criteri di valutazione in modo da premiare l’onestà informativa. Introdurre soglie di confidenza nelle istruzioni dei test, riconoscere valore alle risposte che dichiarano esplicitamente incertezza e applicare meccanismi di calibrazione comportamentale cambierebbe la logica stessa con cui i modelli vengono giudicati. In questo scenario il comportamento ottimale non sarebbe più azzardare sempre, ma rispondere solo quando si ha una probabilità sufficiente di correttezza, lasciando spazio al “non lo so” come segnale positivo e non come fallimento. La calibrazione non richiede un’intelligenza superiore o una maggiore potenza computazionale: richiede piuttosto di modificare il metro con cui vengono valutate le prestazioni.

Gli autori sottolineano che non è realistico inseguire l’accuratezza assoluta. Alcune domande resteranno per definizione prive di una risposta certa, perché le informazioni non sono disponibili o perché la conoscenza stessa è incompleta o ambigua. Tuttavia, è possibile ridurre in maniera significativa le allucinazioni adottando regole di valutazione che scoraggino il bluff e incoraggino la cautela. Il cambiamento necessario è al tempo stesso tecnico e culturale: si tratta di ridefinire le regole del gioco all’interno dei benchmark più usati, trasformando l’incertezza da debolezza in valore positivo. In questo modo i modelli linguistici potranno avvicinarsi a un uso quotidiano più affidabile, in cui l’eloquenza si accompagna a un senso più autentico di responsabilità informativa.