Skip to content Skip to footer

Tre misteri a confronto: AI, buchi neri e mondo quantistico

Contenuto sviluppato con intelligenza artificiale, ideato e revisionato da redattori umani.
···

Questo articolo nasce con un intento preciso: mostrare le potenzialità del modello GPT-5 quando viene impiegato per elaborare studi scientifici di livello dottorato. Il testo non è stato concepito come un contributo originale alla ricerca accademica, bensì come una dimostrazione delle capacità del modello di trattare argomenti complessi, intrecciando matematica, fisica teorica e teoria delle reti neurali. L’obiettivo è verificare fino a che punto GPT-5 riesca a produrre un’analisi rigorosa, completa di formalismi avanzati e riferimenti concettuali, mantenendo al tempo stesso chiarezza espositiva. Per questo motivo l’articolo propone innanzitutto una spiegazione in chiave divulgativa adatta a tutti e, in un secondo momento, mette a disposizione per il download lo studio completo in versione integrale.


In tre diversi ambiti scientifici ci si imbatte nello stesso scenario: l’informazione è presente, ma l’accesso completo a ciò che avviene nei suoi livelli interni resta ostacolato. Le reti neurali profonde di tipo Transformer, fondate sul meccanismo di attenzione generano previsioni linguistiche con grande accuratezza. Questo meccanismo permette a ogni elemento della sequenza di valutare il peso relativo degli altri elementi e di stabilire quali parti del contesto siano più rilevanti per la previsione successiva. In questo modo la rete gestisce dipendenze a lungo raggio ed elabora le sequenze in maniera parallela, riducendo i limiti dei modelli ricorrenti o convoluzionali. Nonostante l’efficacia predittiva, resta difficile ottenere una spiegazione diretta delle scelte compiute dalla rete, che per questo motivo viene spesso descritta come una vera e propria black box. Nella fisica dei buchi neri, l’orizzonte nasconde la dinamica interna pur consentendo di rilevare segnali all’esterno. Nella meccanica quantistica, la misura agisce su uno stato che può contenere più possibilità contemporaneamente e lo trasforma in un risultato concreto secondo distribuzioni di probabilità. Questo processo interrompe la sovrapposizione e seleziona un esito, ma non modifica la legge generale che governa il sistema, la quale resta unitaria e descrive un’evoluzione deterministica dello stato complessivo quando non interviene l’atto di misura. Lo studio mette in parallelo questi tre casi usando il linguaggio dell’informazione, non per confonderli, ma per ricavarne strumenti in grado di produrre grandezze calcolabili, limiti precisi e previsioni controllabili. La questione non riguarda dunque la somiglianza superficiale tra campi così diversi, ma l’utilità di trattarli attraverso concetti comuni che permettono di chiarire quanta informazione sia accessibile, quanto ne resti nascosta e come queste quantità possano essere misurate.

L’analisi sul lato del machine learning prende avvio da un esempio concreto. Un Transformer riceve in ingresso una sequenza testuale, calcola pesi di attenzione che regolano le interazioni tra le posizioni e produce logit, da cui si ricavano le probabilità del token successivo. L’addestramento riduce una funzione di perdita e i parametri si muovono secondo una dinamica che include il rumore dovuto ai minibatch. Nei pressi di un minimo, la curvatura della funzione di errore stabilisce l’ampiezza delle fluttuazioni dei parametri. Tutto ciò è descritto in modo preciso sul piano matematico, ma non chiarisce quanto l’informazione appresa resti disponibile per un osservatore esterno. Da qui nasce l’esigenza di introdurre strumenti che rendano misurabile la capacità della rete di trasportare e conservare informazione lungo i suoi livelli.

Per affrontare questa sfida, lo studio propone il concetto di collo d’informazione calcolato in modo operativo. Si costruisce il grafo della computazione e si seleziona un livello intermedio o l’uscita finale. Si definisce quindi un taglio che separa la parte di bordo, formata dagli input e dalla cache autoregressiva, dalla parte interna di interesse. Ogni collegamento attraversato da questo taglio riceve un peso derivato da grandezze locali come il Jacobiano e la covarianza delle attivazioni, con l’aggiunta di un rumore controllato che rende la stima stabile. La somma di questi pesi costituisce l’area computazionale del taglio, e il minimo tra tutti i tagli possibili fornisce l’area computazionale minima che separa bordo e regione bersaglio. Si tratta di una misura concreta, non intuitiva ma calcolabile, che dipende dalle proprietà locali della rete e dalla distribuzione statistica delle attivazioni. L’idea è che l’area descriva quanto spazio informativo si debba attraversare per portare segnali dal bordo all’interno: un valore basso indica che la rete ha reso più trasparente il passaggio, un valore alto segnala una barriera più difficile da oltrepassare.

Questa area è collegata a un risultato teorico simile a un teorema di taglio. L’informazione mutua tra gli input e le variabili interne a valle non può superare il valore dell’area computazionale minima. Da qui deriva un vincolo sui probe, piccoli decodificatori addestrati per leggere gli stati interni. Quando l’area minima è ridotta, nessun probe può superare un certo livello di accuratezza, indipendentemente dalla sua qualità. La lettura di questa conseguenza è significativa, perché sposta l’attenzione dalle prestazioni di una sonda al limite imposto dalla struttura stessa della rete. Se una sonda fallisce in presenza di un’area ridotta, il limite è intrinseco; se fallisce con un’area ampia, la causa va ricercata nella progettazione della sonda o nella natura della proprietà cercata. In questo modo diventa possibile distinguere i limiti che dipendono dal modello da quelli che derivano dagli strumenti di analisi.

Per osservare come varia questa accessibilità durante l’addestramento, lo studio utilizza due strumenti dinamici. Il primo valuta la sensibilità delle uscite a perturbazioni dell’input attraverso correlatori fuori dall’ordine temporale neurali. Si misura quanto cresce, con la profondità della rete, la norma del gradiente dei logit rispetto all’input. In fase iniziale la crescita è rapida, mentre in seguito tende a stabilizzarsi quando lo spettro del Jacobiano assume caratteristiche tipiche delle matrici casuali. Questo andamento permette di descrivere una sorta di regime di caos controllato nella propagazione dell’informazione. Il secondo strumento è la curva di entropia dei logit durante la generazione. Si osserva la variazione della dispersione predittiva a ogni passo e lungo le epoche di addestramento. Il confronto tra questa entropia e il profilo dell’area minima consente di distinguere le fasi in cui la rete comprime e organizza informazione dalle fasi in cui accumula esempi senza estrarre regole generali. L’unione delle due diagnostiche fornisce un quadro dinamico più completo della vita interna del modello, mostrando mostrando sia quanta informazione viene trasportata sia in quale forma viene mantenuta o trasformata.

Un’ulteriore grandezza discussa è la temperatura efficace, che mette in relazione il rumore dell’ottimizzazione con la geometria dell’errore. Essa dipende dall’ampiezza del rumore dei minibatch, dal passo di apprendimento e dalla curvatura locale della funzione di perdita. Misurata insieme a area e sensibilità, consente di identificare soglie oltre le quali emergono regimi di apprendimento differenti. In compiti regolari, lo studio mostra che tali soglie coincidono con la comparsa di strutture più semplici e generalizzanti al posto di memorie frammentarie. La nozione di temperatura efficace aggiunge quindi un criterio quantitativo per interpretare i cambiamenti improvvisi che spesso si osservano nei processi di addestramento, come le fasi di grokking o le transizioni tra memorizzazione e generalizzazione.

Gli strumenti concettuali della fisica entrano in gioco per rafforzare questo quadro. Nell’orizzonte dei buchi neri l’area è legata a un’entropia che cresce con la superficie, nelle teorie olografiche si ricostruiscono grandezze interne a partire da superfici minime di bordo, nella meccanica quantistica l’entropia di un sottosistema descrive l’informazione che scompare tracciando l’ambiente. Lo studio non confonde queste situazioni, ma utilizza le corrispondenze strutturali per trasferire metodi da un ambito all’altro. La superficie minimale del grafo computazionale diventa così un oggetto rigoroso definito con derivate e covarianze. Se le previsioni legate a questa costruzione reggono alle verifiche empiriche, l’analogia acquista valore; se non reggono, va ridimensionata. L’uso di questo parallelismo è quindi vincolato alla capacità di produrre risultati misurabili e falsificabili, non a suggestioni retoriche.

Alla parte teorica si affianca un protocollo sperimentale pensato per essere riproducibile. Si seleziona uno strato o l’uscita della rete, si individua il taglio che lo separa dagli input, si stimano i pesi dei collegamenti tramite tecniche basate su Jacobiano e tracce logaritmiche, si sommano i contributi e si calcola l’area. Parallelamente si addestra il miglior probe consentito e si confrontano perdita ed errore con i limiti derivati dall’area. Ripetendo la procedura durante l’addestramento si ottiene l’evoluzione dei colli informativi. Su compiti con regole note e verificabili, come linguaggi formali o aritmetica modulare, si raccolgono dati chiari e difficilmente equivocabili. La stessa pipeline consente di stimare sensibilità e temperatura efficace, unendo così la descrizione della struttura statica con quella della dinamica di apprendimento. L’obiettivo non è limitato a spiegare a posteriori, ma consiste anche nel disporre di strumenti che consentano di prevedere e guidare il comportamento di modelli complessi.

Un aspetto conclusivo riguarda il valore esplicativo di questa metodologia. Spiegare, in questo contesto, significa dimostrare che esiste un canale di ricostruzione a bassa complessità tra ciò che osserviamo e ciò che vogliamo comprendere dell’interno della rete. L’area minima computazionale quantifica il costo di questo canale. Con un’area elevata, il problema non si risolve con sonde sempre più complesse, ma cambiando domanda, classe di sonde o architettura. Con un’area ridotta, se le sonde falliscono, la causa è da ricercare nella tecnica di lettura. Questo criterio consente di distinguere limiti intrinseci da limiti strumentali, eliminando ambiguità interpretative. In tal modo la ricerca di spiegazioni non si basa più su intuizioni isolate, ma su misure ripetibili e confrontabili.

Il confronto con la fisica chiarisce inoltre i confini dell’analogia. Il collasso quantistico è un fenomeno legato a misura e decoerenza, mentre il collasso computazionale durante il decoding è un aggiornamento probabilistico classico. L’informazione interna di un buco nero resta inaccessibile per ragioni causali, mentre quella di una rete neurale può essere resa accessibile entro i limiti stabiliti dall’area e dalla classe di sonde. Le analogie hanno valore quando riguardano entropie, superfici minime e capacità di canale; smettono di essere utili quando si tenta di trasferire proprietà ontologiche da un dominio all’altro. Questa distinzione è essenziale per mantenere l’approccio solido e verificabile.

Lo studio propone un percorso ampio e articolato per affrontare la questione della scatola nera con strumenti scientifici precisi. Esiste una quantità calcolabile che fissa un limite superiore alla decodificabilità interna. Sono disponibili diagnostiche che collegano stabilità, sensibilità e dispersione predittiva. È stata messa a punto una procedura sperimentale che rende verificabili queste idee su modelli concreti e largamente usati. Per chi lavora con l’intelligenza artificiale, ciò significa distinguere i casi in cui è sensato chiedere spiegazioni locali dai casi in cui conviene intervenire sulla struttura o sul regime di addestramento. Per chi si occupa di fisica dell’informazione, significa ritrovare strumenti già consolidati applicati in un nuovo contesto. L’interesse non risiede nell’analogia in sé, ma nella capacità di produrre criteri capaci di migliorare comprensione, previsione e controllo. Con l’estensione di queste analisi e con la loro applicazione sistematica si apre un campo di studio in cui discipline diverse possono contribuire a una visione comune, nella quale l’opacità diventa oggetto di misure concrete e non più soltanto di domande irrisolte.

La realtà quantistica: un viaggio tra i mattoncini elementari dell’universo