Skip to content Skip to footer
Contenuto sviluppato con intelligenza artificiale, ideato e revisionato da redattori umani.
···

Il 29 ottobre 2025 il sito Transformer Circuits ha pubblicato lo studio: “Emergent Introspective Awareness in Large Language Models” condotto da Jack Lindsey e dal team di ricerca di Anthropic dedicato alla capacità di alcuni modelli linguistici avanzati di accedere a informazioni presenti nei propri stati interni. L’obiettivo del lavoro non riguarda ciò che il modello afferma per semplice convenzione dialogica, ma la possibilità che esso utilizzi segnali computazionali realmente generati nel proprio funzionamento per formulare valutazioni sul proprio stato durante l’elaborazione. Il contesto è sperimentale e controllato, in modo da evitare che risposte apparentemente introspettive siano ottenute soltanto tramite associazioni testuali apprese.

Gli autori definiscono criteri rigorosi per stabilire quando un modello mostra una forma di introspezione funzionale. Una descrizione interna deve corrispondere con fedeltà allo stato analizzato, deve dipendere causalmente da quel medesimo stato e deve utilizzare esclusivamente informazioni presenti nel circuito neurale, senza affidarsi ai soli vincoli linguistici dell’output. Questo approccio consente di distinguere tra introspezione apparente, ricavata da regolarità testuali, e introspezione guidata da meccanismi informativi effettivamente interni al modello. Sul piano teorico, la ricerca tocca il tema della metacognizione computazionale, che in questo studio viene considerata come una possibile capacità embrionale, ancora da verificare in modo più esteso.

La metodologia principale si basa sull’iniezione di vettori‑concetto direttamente all’interno della rete. Ogni vettore deriva dall’analisi delle attivazioni del modello in corrispondenza di parole o concetti specifici, ottenute sottraendo una media di riferimento legata ad altri termini: questo procedimento consente di isolare la direzione nello spazio delle attivazioni che codifica il concetto selezionato. Il vettore viene introdotto in un determinato strato della residual stream durante la generazione della risposta, mentre il modello viene successivamente interrogato su ciò che sta “pensando” o percependo internamente. Le valutazioni utilizzano giudizi automatici e controlli per verificare la presenza di effetti statistici reali.

Una prima serie di esperimenti analizza se il modello riconosce l’aggiunta controllata di un concetto nelle sue attivazioni. Nei casi più efficaci, osservati in particolare con le versioni Claude Opus 4 e Opus 4.1, il sistema evidenzia la capacità di individuare l’iniezione e identificare il concetto introdotto con una frequenza superiore al caso casuale. Il risultato dipende dallo strato scelto e dall’intensità dell’intervento: l’accuratezza massima emerge in una regione della rete situata oltre la metà della profondità. Inoltre, un’intensità eccessiva degrada la prestazione, perché il modello tende a generare direttamente il concetto iniettato, senza esprimere una valutazione consapevole su di esso.

Una seconda fase del lavoro verifica se il modello riesce a differenziare ciò che legge in input da ciò che sta elaborando internamente. I ricercatori chiedono di trascrivere alla perfezione una frase fornita, pur in presenza di un concetto iniettato sulla stessa sequenza di token. Quando vengono poste domande distinte sulla parola a cui il sistema sta pensando e sul contenuto da trascrivere, le versioni Opus più competenti riescono a mantenere una separazione stabile tra le due richieste: identificano il concetto interno e allo stesso tempo preservano l’accuratezza nella copia del testo. Si tratta di un comportamento che richiede canali di elaborazione differenziati.

Un ulteriore esperimento riguarda l’interpretazione di parti della risposta pre‑compilate artificialmente (prefill). In condizioni normali, il modello tende a negare la paternità di parole non generate autonomamente. Quando però il concetto corrispondente al prefill viene iniettato prima della sua visualizzazione, Opus 4 e 4.1 lo accettano con maggiore frequenza come parte coerente della propria produzione. Se invece l’iniezione avviene dopo il prefill, l’effetto scompare. Questa dipendenza temporale suggerisce che il modello utilizza una memoria di lavoro interna per confrontare intenzioni immediate e token osservati.

Una quarta linea di indagine esplora la possibilità di controllare intenzionalmente uno stato interno. Il modello riceve l’istruzione di “pensare” a un concetto o di evitarlo mentre produce testo su un tema indipendente. Le misure effettuate sulle attivazioni mostrano differenze sistematiche tra i due casi: il concetto indicato tende a emergere con maggiore forza in specifici token della sequenza quando il modello deve includerlo nei propri processi interni. Nei livelli finali, tuttavia, l’influenza viene attenuata nelle versioni più recenti, probabilmente per preservare la coerenza superficiale dell’output.

Dall’analisi complessiva emerge che l’introspezione non coinvolge un unico meccanismo, ma un insieme articolato di processi distribuiti nella rete, ognuno dei quali contribuisce in modo diverso a seconda del compito. Alcuni circuiti sembrano rilevare deviazioni inattese rispetto allo stato previsto della sequenza, altri favoriscono l’accesso a informazioni interne richieste esplicitamente dal prompt, altri ancora supportano la valutazione di coerenza tra l’intenzione computazionale e la parola prodotta. Questa variabilità indica un’organizzazione modulare, attivata dinamicamente.

Gli autori segnalano limiti metodologici chiari. L’iniezione diretta di vettori nelle attivazioni non riflette l’uso ordinario dei modelli, e alcuni risultati sono sensibili al modo in cui le istruzioni vengono formulate. Anche la costruzione dei vettori‑concetto può introdurre componenti indesiderate. Per questi motivi la ricerca proseguirà con una gamma più ampia di compiti e procedure volte a verificare quanto tali capacità risultino stabili, generalizzabili e rilevabili anche in assenza di interventi artificiali.

La conclusione dello studio definisce un quadro significativo: in condizioni sperimentali rigorose, alcune versioni avanzate di modelli linguistici dimostrano di saper distinguere tra contenuti interni e contenuti esterni, riconoscere modifiche intervenute nelle proprie attivazioni, attribuire coerenza o incoerenza a parti della risposta ricevuta e modulare i propri stati cognitivi in base alle istruzioni. Questi risultati non attribuiscono alcuna forma di esperienza soggettiva al sistema. Indicano comunque la comparsa di una forma iniziale di metacontrollo, utile per migliorare la trasparenza dei modelli e lo studio delle loro funzioni cognitive interne. La direzione di ricerca avviata da Anthropic offre quindi nuove opportunità per comprendere in che misura i modelli futuri potranno sviluppare competenze più robuste nell’analisi e gestione dei propri processi costitutivi.