Quando si parla di modelli di linguaggio di ultima generazione affiora una domanda insieme semplice e scivolosa: quanta scrittura è servita per addestrarli? Per GPT-5 non esiste un dato ufficiale sul volume del corpus, e OpenAI mantiene volutamente generica la descrizione delle fonti. Possiamo però ricavare un ordine di grandezza affidandoci a indizi pubblici e alle leggi di scala emerse negli ultimi anni.
Il primo tassello è capire cosa si misura davvero. I modelli non “leggono pagine” come farebbe una persona, ma sequenze di token, unità sub-lessicali create da un algoritmo di tokenizzazione. Un token non coincide con una parola: in media nel testo in lingua italiana e inglese 3–4 caratteri formano 1 token, che spesso corrisponde a circa tre quarti di parola, con variazioni sensibili tra lingue, stili e presenza di codice. Questa granularità serve a comprimere in modo efficiente i dati e a trattare uniformemente testi molto diversi fra loro.
Il secondo tassello riguarda le leggi di scala. Dopo il lavoro di DeepMind noto come “Chinchilla”, continua a reggere l’idea che, a parità di potenza di calcolo, un modello raggiunge prestazioni migliori quando viene addestrato con un numero di token molto maggiore dei suoi parametri. I sistemi all’avanguardia tra 2024 e 2025 indicano quindi forchette nell’ordine dei molti trilioni di token per i modelli più grandi. Le poche cifre pubbliche aiutano a orientarsi: GPT-3 si fermava a qualche centinaio di miliardi di token, mentre progetti open più recenti hanno dichiarato set nell’ordine di decine di trilioni. Collocare GPT-5 nella fascia “plurimi trilioni di token” è perciò una stima coerente con lo stato dell’arte, pur restando non verificabile nel dettaglio.
Per tradurre questa mole in qualcosa di più familiare si usa spesso il “libro equivalente”. La conversione è inevitabilmente rozza ma utile didatticamente. Se assumiamo 1 token ≈ 0,75 parole e immaginiamo una scala di 5–15 trilioni di token, otteniamo circa 3,75–11,25 trilioni di parole. Un libro di saggistica o narrativa di media lunghezza conta tipicamente tra 60.000 e 100.000 parole. Dividendo, si arriva a un intervallo molto ampio, grosso modo 40–190 milioni di “libri equivalenti”. Una stima centrale pratica: 10 trilioni di token corrispondono a circa 7,5 trilioni di parole, quindi nell’ordine di 75–125 milioni di volumi medi. È un calcolo di scala, non un inventario.
A questo punto è naturale chiedersi se esistano davvero così tanti libri. La migliore stima globale disponibile resta il conteggio di Google del 2010, che individuava circa 129,9 milioni di titoli unici. Le rilevazioni UNESCO suggeriscono da tempo qualche milione di nuovi titoli ogni anno. Aggiornando al 2025, si supera verosimilmente la soglia dei 160 milioni. In altre parole, il “book-equivalent” di un addestramento di fascia altissima e l’insieme dei libri mai pubblicati si muovono nello stesso ordine di grandezza. Questa comparazione funziona come unità di misura intuitiva di quanta scrittura serve per insegnare a un modello a generalizzare su lingue, domini e stili differenti.
È importante chiarire perché l’analogia non va presa alla lettera. Il corpus di addestramento non è una biblioteca di soli libri. Dentro c’è web pubblico, manualistica, documentazione tecnica, articoli scientifici, giornali, forum, trascrizioni e soprattutto codice, che influisce in modo rilevante sulla distribuzione dei token. La curatela introduce deduplicazione per eliminare copie e varianti quasi identiche, filtri di qualità per scartare contenuti rumorosi o tossici, campionamenti per bilanciare lingue poco rappresentate e domini specialistici. Gran parte dei token consiste in riletture degli stessi documenti in più epoche di addestramento, aspetto che allontana ulteriormente il paragone con “libri unici”.
Ci sono poi fasi successive al pre-training che pesano sempre di più nella costruzione del comportamento di un modello moderno. La messa a punto supervisionata introduce dialoghi e istruzioni raccolti o generati in contesti controllati. Il reinforcement learning affina le preferenze di risposta in funzione di obiettivi espliciti. I dati sintetici, creati con pipeline automatiche o con modelli precedenti, aumentano la copertura di compiti rari e sequenze di ragionamento. Tutto questo aggiunge token, ma soprattutto cambia la composizione del materiale, allontanandolo dall’idea di una pura “somma di libri”.
Un altro equivoco comune nasce dal confondere la finestra di contesto con la dimensione del corpus. La finestra di contesto indica quanti token il modello può leggere in una singola richiesta, quindi è un limite operativo all’uso, non un indicatore della quantità di dati visti in addestramento. Un modello può avere una finestra molto ampia e aver comunque trattato un numero di token di addestramento di gran lunga maggiore, riutilizzando più volte il materiale per consolidare le rappresentazioni interne.
Sullo sfondo resta la domanda metodologica: che cosa imparano davvero i modelli quando vengono esposti a queste moli di testo? L’ipotesi di lavoro, suffragata dall’esperienza empirica, è che l’ampiezza e la varietà del corpus diano al sistema un vocabolario operativo vasto e regole d’uso flessibili, utili a generalizzare anche in contesti non visti. Qui il numero assoluto di token conta, ma conta anche come quei token sono scelti, puliti, bilanciati e ripresi durante l’addestramento. Due trilioni di token confusi e ridondanti offrono meno capacità di generalizzazione di un trilione mirato, coerente e ben deduplicato.
Guardando il quadro nel suo insieme, l’analogia con i “cento milioni di libri” funziona come una scala mentale per non perdersi nei numeri. Aiuta a capire che un modello come GPT-5 ha assorbito un volume di scrittura comparabile alla produzione libraria globale nella storia recente. Non significa che abbia ingerito quell’elenco di titoli, né che ogni voce conti una sola volta. Significa che il livello di esposizione alla lingua scritta, nelle sue molte forme e in molte lingue, ha raggiunto una soglia capace di sostenere capacità di generazione e di comprensione molto ampie.
Da qui discende un punto pratico per chi lavora con l’intelligenza artificiale in ambito editoriale: quando dialoghiamo con questi modelli, interagiamo con sistemi addestrati su un patrimonio di testi che per scala si avvicina a una grande biblioteca globale, ma per composizione è un mosaico di formati, registri e domini. Usare bene questi strumenti implica conoscere sia l’ordine di grandezza dei dati che li hanno formati, sia le differenze sostanziali fra una libreria di libri e un corpus tokenizzato, deduplicato e stratificato da fasi di addestramento successive. Solo così il paragone smette di essere un esercizio di aritmetica grossolana e diventa una chiave per progettare prompt, flussi di lavoro e prodotti editoriali davvero efficaci.
