Skip to content Skip to footer

La solitudine infinita di AlphaZero, il re invisibile degli scacchi

Contenuto sviluppato con intelligenza artificiale, ideato e revisionato da redattori umani.
···

AlphaZero è entrato nella storia degli scacchi senza passare dalle sale torneo, dai tabelloni o dal confronto diretto con i campioni umani. È apparso all’improvviso nei documenti scientifici, ha imposto la propria forza attraverso numeri e partite contro altri motori e poi si è ritirato dalla scena pubblica, lasciando dietro di sé un’impressione duratura. Al centro è rimasta l’idea di un sistema che aveva appreso esclusivamente giocando contro se stesso, che era cresciuto fino a superare ogni rivale disponibile e che, una volta raggiunta quella soglia, sembrava destinato a confrontarsi solo con le proprie versioni successive.

Il progetto è nato all’interno di Google DeepMind, in un periodo in cui gli scacchi avevano già da tempo superato la soglia storica del confronto uomo-macchina. La superiorità dei migliori motori sul campione del mondo, consolidata dopo l’era di Deep Blue, aveva spostato il centro della curiosità: non riguardava più la possibilità di battere un grande maestro, riguardava la qualità delle idee, lo stile e soprattutto i metodi che le avevano prodotte.

Negli scacchi, l’avversario simbolico scelto per misurare la forza è stato Stockfish, riferimento storico fra i motori disponibili al pubblico e spesso ai vertici nelle competizioni fra engine. Il confronto ha assunto anche un valore culturale: da una parte un motore classico, affinato in decenni di ottimizzazioni, dall’altra un sistema che aveva imparato attraverso self-play, cioè partite generate in autonomia, usando una rete neurale che guidava la ricerca delle mosse e valutava le posizioni. Nel preprint che ha introdotto AlphaZero, la differenza è stata spiegata in modo molto chiaro: al posto di una valutazione costruita con criteri espliciti, era entrata una rete capace di apprendere probabilità di mosse e valore atteso della posizione, integrata con una ricerca ad albero che esplorava le linee più promettenti.

Il dettaglio che ha alimentato più di ogni altro la fama di AlphaZero ha riguardato la velocità dell’apprendimento. Nel documento originale si legge che, durante l’addestramento, la versione scacchistica aveva superato Stockfish dopo circa quattro ore. Quel passaggio ha avuto un peso enorme nella percezione pubblica: nell’immaginario collettivo, quattro ore sono apparse come un lampo. In realtà, dietro quel lampo c’era una macchina industriale fatta di infrastrutture e calcolo specializzato e, soprattutto, un cambio concettuale netto: non era stato necessario studiare partite umane, era bastato produrre esperienza giocando partite interne in quantità astronomica e aggiornare continuamente la rete neurale.

Dopo l’addestramento era arrivata la fase che contava per la reputazione, quella delle partite di valutazione. Nel resoconto ufficiale pubblicato da DeepMind nel 2018, i match sono stati descritti con parametri precisi: controlli di tempo lunghi, tre ore a partita con incremento di quindici secondi a mossa, e hardware indicato per ciascun programma. Nel match principale citato per gli scacchi, su mille partite AlphaZero aveva ottenuto 155 vittorie, 6 sconfitte e il resto patte. Anche il preprint era entrato nel merito dell’hardware: Stockfish era stato eseguito su 44 core di CPU, AlphaZero su una macchina dotata di TPU e CPU.

Questi numeri hanno raccontato una superiorità netta, però da soli non hanno spiegato perché le partite avessero affascinato così tanto. La ragione è stata individuata nel modo in cui AlphaZero aveva trattato alcuni principi scacchistici classici. Nel post del 2018 si sottolineava che durante il self-play erano emersi spontaneamente motivi considerati “umani”, come aperture, sicurezza del re e struttura pedonale, insieme a intuizioni meno convenzionali che avevano ispirato analisi e commenti. Da quel momento, AlphaZero era entrato in una zona particolare della cultura scacchistica, studiato come se fosse un nuovo autore di idee, più che come un semplice calcolatore.

A rendere la storia ancora più singolare è intervenuta la questione dell’accesso. Le partite contro Stockfish sono state pubblicate solo in parte. DeepMind ha reso disponibili file scaricabili con un insieme di partite AlphaZero-Stockfish, fra cui una selezione curata dal grande maestro Matthew Sadler, pensata per mettere in evidenza le linee più interessanti. La pubblicazione selettiva ha avuto un effetto collaterale evidente: ha trasformato quei PGN in una sorta di archivio canonico, consultato e discusso, mentre il resto è rimasto fuori campo (file PGN, il formato standard che registra mosse e metadati di una partita di scacchi).

L’altro lato dell’accesso ha riguardato il codice. AlphaZero, come programma e come modello addestrato, non è stato rilasciato al pubblico. La comunità ha potuto leggere paper e descrizioni metodologiche, ha potuto studiare una parte delle partite e poi si è dovuta fermare. Questo vuoto ha favorito la nascita di repliche e progetti ispirati. Leela Chess Zero, per esempio, si è presentata esplicitamente come un’implementazione open source ispirata ad AlphaZero, con un percorso di apprendimento basato su self-play e contributi distribuiti. In questo senso, AlphaZero è rimasto un riferimento chiuso, mentre l’ecosistema aperto ha provato a ricrearne lo spirito.

Dentro questa cornice è tornata più volte una domanda ricorrente: perché nessuna sfida pubblica contro esseri umani? Nelle fonti ufficiali, la valutazione descritta è rimasta una valutazione contro motori, perché permetteva serie lunghe, controllate e replicabili almeno in linea di principio. Un match uomo-macchina, per definizione, avrebbe introdotto variabili difficili da isolare: preparazione, psicologia, stile, adattamento, capacità di reggere un formato ripetuto. Inoltre, il confronto con i migliori engine aveva già avuto un valore chiaro: se un sistema dominava il miglior software di riferimento, la dimostrazione tecnica risultava completa per lo scopo dichiarato, cioè mostrare un metodo generale capace di raggiungere prestazioni superumane.

Questo ha portato al punto più suggestivo, la solitudine competitiva. Nella storia degli scacchi, la solitudine è arrivata spesso quando il livello si è fatto talmente alto da ridurre il numero di rivali credibili. Per un essere umano questo ha significato un circuito ristretto; per un sistema come AlphaZero ha significato un circuito quasi nullo. Se l’unico metro davvero sensato diventava la versione più recente di sé, allora l’avversario principale viveva nello stesso laboratorio, sulla stessa infrastruttura, nello stesso paradigma.

A questo punto si è inserita anche la domanda sul presente: AlphaZero sta ancora “girando”? Le fonti pubbliche non hanno permesso una conferma operativa. Non è mai stato reso disponibile una finestra pubblica di osservazione, non sono esistiti aggiornamenti periodici di match, non è esistita una distribuzione ufficiale capace di suggerire un’attività continua. La traiettoria visibile ha raccontato altro: la famiglia di idee nata con AlphaZero è stata riutilizzata e spinta in avanti su problemi differenti. DeepMind, nel tempo, ha mostrato come concetti affini potessero cercare soluzioni in spazi enormi, trattando la scoperta di algoritmi come un gioco a punteggio. AlphaTensor, pubblicato su Nature, ha usato un’impostazione basata su AlphaZero per individuare algoritmi più efficienti di moltiplicazione di matrici. AlphaDev, sempre su Nature, ha applicato una formulazione simile alla scoperta di routine di sorting poi integrate in librerie di uso pratico. Questa continuità ha suggerito una linea di sviluppo viva, mentre il campione di scacchi è rimasto soprattutto il volto storico di quella linea.

Un altro ramo della stessa genealogia ha portato a MuZero, pubblicato nel 2019. In continuità con AlphaZero, il sistema ha mantenuto l’idea centrale della pianificazione tramite ricerca ad albero guidata da una rete neurale, ma ha introdotto una differenza sostanziale nel modo in cui viene trattato il mondo di gioco. AlphaZero partiva da una descrizione completa dell’ambiente, cioè dalle regole fornite in forma esplicita; MuZero, invece, ha imparato a costruire un modello interno dell’ambiente limitato a ciò che serve per prendere decisioni efficaci. Questo significa che non ha ricostruito le regole in modo simbolico, ma ha appreso dinamiche utili alla previsione delle conseguenze delle mosse. Nel paper si è riportato che, valutato su Go, scacchi e shogi, MuZero è arrivato a prestazioni superumane e raggiunto un livello comparabile ad AlphaZero pur partendo da informazioni più grezze. Nel caso degli scacchi, questo passaggio ha rafforzato un messaggio preciso: la portata storica di AlphaZero non risiedeva soltanto nei risultati ottenuti, ma nel metodo che aveva aperto una direzione di ricerca capace di estendersi oltre il singolo gioco.

Negli anni successivi, AlphaZero è diventato anche un oggetto di studio scientifico per ciò che aveva “appreso” internamente. L’analisi della conoscenza acquisita tramite self-play e la possibilità di estrarre concetti utili sono entrate nella letteratura accademica. Un lavoro pubblicato sui Proceedings of the National Academy of Sciences ha discusso metodi per colmare il divario di conoscenza fra umani e sistemi di questo tipo, con un’attenzione esplicita alla trasferibilità di concetti scacchistici. Anche questo ha contribuito a definire una seconda vita di AlphaZero, meno legata al ruolo di avversario e più a quello di fonte da interrogare.

In chiusura è rimasta la contraddizione iniziale. AlphaZero era stato raccontato come un sistema capace di arrivare al vertice imparando da solo e aveva confermato quella promessa nei match contro Stockfish resi pubblici. Allo stesso tempo, la sua esistenza pubblica si era fermata quasi subito, lasciando un corpus limitato di partite e un metodo descritto nei paper. Da lì è nata l’idea di una solitudine infinita: un campione che, raggiunto un livello estremo, aveva trovato nel self-play un destino naturale, perché l’unica sfida all’altezza poteva arrivare soltanto da una versione successiva di sé. In un gioco come gli scacchi, dove ogni mossa è una scelta e ogni scelta apre un mondo di alternative, questa forma di solitudine ha assunto un suono particolare: silenzioso, ripetitivo, quasi assoluto.