Skip to content Skip to footer

L’AI che ha letto tutto

Proviamo a pensare a un lettore instancabile, capace di divorare libri senza sosta giorno e notte: nemmeno in molte vite riuscirebbe ad eguagliare la mole di dati che un moderno modello di intelligenza artificiale generativa elabora durante il suo addestramento. Si stima ad esempio che una persona comune legga nell’arco di tutta la vita circa 200 milioni di parole – all’incirca solo 0,4 GB di testo. In confronto, i dataset usati per i grandi modelli linguistici odierni contengono centinaia di miliardi (migliaia di miliardi, in alcuni casi) di parole e token. OpenAI GPT-3, presentato nel 2020, è stato addestrato su un corpus gigantesco: circa 500 miliardi di token di testo, derivati da un set grezzo di oltre 45 terabyte di pagine web (Common Crawl) poi filtrate fino a ~570 GB di dati utili. È un volume testuale equivalente a decine di miliardi di parole, migliaia di volte superiore a quello che un essere umano potrebbe leggere in una vita. GPT-3 rappresentò un balzo enorme rispetto al suo predecessore GPT-2 (che si fermava a ~40 GB di testo), eppure da allora la scala non ha smesso di crescere. Il successore GPT-4 – pur non avendo dettagli pubblici completi sul dataset – si ritiene abbia impiegato un insieme di dati ancora più vasto e diversificato, includendo probabilmente oltre un trilione di token (più di mille miliardi) tra testo e altri tipi di contenuti, dato il trend seguito da modelli analoghi. Basti considerare che Google PaLM (540 miliardi di parametri, 2022) fu pre-addestrato su 780 miliardi di token di “testo di alta qualità”, mentre il più recente PaLM 2 è stato spinto fino a 3,6×10^12 token (3,6 mila miliardi), quintuplicando la già immensa base dati del predecessore. Allo stesso modo, Meta AI ha dimostrato con LLaMA che modelli più piccoli possono raggiungere prestazioni da primato se nutriti con ancora più dati: le versioni LLaMA da 33 e 65 miliardi di parametri sono state istruite leggendo 1,4 trilioni di token (1,4×10^12) ciascuna, mentre la versione da 7 miliardi ne ha letti 1,0×10^12. Questa quantità – 1,4 trilioni – corrisponde grossomodo al contenuto di 14 milioni di libri. In altre parole, un singolo modello ha assorbito l’equivalente di milioni di biblioteche personali. È evidente dunque che il volume di dati coinvolto supera di vari ordini di grandezza qualsiasi esperienza di apprendimento umano tradizionale.

Queste intelligenze artificiali generative non si nutrono solo di testi comuni come libri, articoli o pagine web. La varietà dei contenuti nei loro dataset è ormai estremamente ampia, spaziando dal codice sorgente ai contenuti multimediali. Ad esempio, GPT-4 e modelli affini includono nei loro dati di addestramento porzioni significative di codice informatico, raccolto da repository open source (come GitHub) e altri archivi: porzioni di software scritte dall’umanità in decenni di programmazione. Si stima che tutto il codice pubblico disponibile corrisponda già a centinaia di miliardi di token (circa 0,78 trilioni), e se si considerasse anche il codice proprietario non accessibile si arriverebbe addirittura a decine di trilioni. I modelli di ultima generazione hanno quindi assimilato gran parte del sapere informatico collettivo, permettendo loro di scrivere programmi in molti linguaggi a un livello che supera di gran lunga la conoscenza tecnica di qualunque singolo programmatore umano. Oltre al codice, un’altra dimensione fondamentale è quella multimediale: immagini e visioni del mondo esterno. GPT-4, ad esempio, è un modello multimodale capace di elaborare input visivi, segno che nel suo addestramento sono stati inclusi enormi insiemi di immagini associate a descrizioni testuali. Dataset come LAION-5B offrono un’idea della scala: questa collezione aperta conta 5,85 miliardi di coppie immagine-testo tratte dal web, un volume di dati senza precedenti che ha permesso di addestrare modelli generativi di immagini come Stable Diffusion. In termini di spazio, archiviare miliardi di immagini significa decine se non centinaia di terabyte di dati visivi grezzi. Anche qui il paragone umano è schiacciante: nessun individuo potrebbe mai “guardare” e ricordare miliardi di immagini, ma un modello vi riesce, distillandone gli schemi per generare a sua volta figure originali. Lo stesso vale per l’audio e il video. Audio: modelli avanzati di generazione musicale e vocale hanno bisogno di smisurate raccolte di suoni e registrazioni. Google, ad esempio, ha sviluppato MusicLM, un’AI in grado di creare musica da descrizioni testuali, addestrandola su 280.000 ore di brani audio – pari a più di 30 anni di ascolto ininterrotto. Video: trattandosi di sequenze di fotogrammi, il video è ancor più affamato di dati; si contano in petabyte le raccolte di filmati necessarie a istruire un modello generativo video affidabile, e gli approcci più recenti combinano più modalità di informazione. Ad esempio, in una sperimentazione Meta ha utilizzato un modello linguistico (LLaMA 3) per generare automaticamente le didascalie testuali dei video nel dataset di addestramento del modello MovieGen, così da sfruttare testi sintetici per descrivere ogni scena. In parallelo, OpenAI ha rivelato di aver perfezionato GPT-4 (nella sua versione con capacità visive) servendosi di dati sintetici generati ad hoc, ad esempio per abilitare la nuova funzione “Canvas” di ChatGPT che comprende e disegna immagini. Insomma, testo, codice, immagini, audio, video: nulla sfugge all’appetito di queste AI, e ogni categoria aggiunge uno strato all’impressionante piramide di dati su cui poggiano le loro capacità generative.

Ma quanto potrà crescere ancora questa montagna di dati? L’accelerazione degli ultimi anni è stata incredibile: in poco tempo si è passati da pochi gigabyte di testo a decine di terabyte e poi a frazioni significative di tutto ciò che è disponibile online. I ricercatori stanno già intravedendo il limite del possibile. Una recente analisi ha stimato che i più grandi dataset linguistici odierni – dell’ordine di 10–15 trilioni di token – si avvicinano per grandezza all’intero insieme di testo di alta qualità disponibile pubblicamente sul web. In altre parole, potremmo essere a non più di un ordine di grandezza dal punto in cui “abbiamo usato praticamente tutto” il buon testo reperibile in forma digitale. Per la lingua inglese, includendo anche fonti meno accessibili, si calcola un massimo teorico di circa 40–90 trilioni di token attingendo a ogni angolo del web; estendendo a tutte le principali lingue si potrebbe forse raggiungere 100–200 trilioni, ma non oltre. Oltre questa soglia, aggiungere dati significherebbe inevitabilmente scendere in qualità (testi duplicati o di scarso valore) oppure sconfinare in dati privati e non pubblici – un territorio eticamente e legalmente precluso. Già oggi, peraltro, la miniera di internet non è più così libera da scavare: molti grandi siti stanno limitando l’accesso ai crawler automatici per proteggere i propri contenuti. Oltre il 35% dei siti web più popolari ora blocca la scansione AI (come quella di OpenAI) nei propri file robots.txt, e in un solo anno circa il 25% delle pagine prima accessibili ai dataset è stato ritirato o reso inaccessibile dagli autori. Un fenomeno definito da alcuni uno “tsunami di data hunger” seguito da un “rapidissimo prosciugarsi” delle fonti. Organizzazioni indipendenti come Epoch AI hanno proiettato che, continuando così, i dati di addestramento disponibili si esauriranno per davvero intorno al 2026–2030. In parole povere, stiamo correndo verso il fondo del barile dei dati umani online.

Cosa significa questo per il futuro dell’AI generativa? Da un lato, spingeremo ulteriormente sulle fonti alternative: testi in lingue meno usate, archivi storici, documenti specializzati, nonché dati non testuali come immagini ad alta risoluzione, video annotati e colossali collezioni di codice – insomma, allargare la base in ogni direzione possibile. Dall’altro lato, sta emergendo con forza la soluzione dei dati sintetici. Synthetic data significa generare artificialmente nuovi dati a partire da quelli esistenti, usando modelli per creare esempi aggiuntivi che arricchiscano l’addestramento. Se “i dati sono il nuovo petrolio”, i dati sintetici si propongono come un biocarburante inesauribile creato in laboratorio. L’idea è seducente: nessun limite fisico, possibilità di ottenere infinite varianti di contenuto annotato a costo relativamente basso, e persino di colmare tipi di dati carenti (ad esempio creando conversazioni simulate in lingue rare, o scenari di realtà virtuale da cui l’AI può apprendere). Già oggi l’industria sta abbracciando questa strada. Gartner prevede che entro il 2025 oltre il 60% dei dati usati nei progetti AI sarà generato sinteticamente, e iniziano a fiorire aziende specializzate in data augmentation artificiale. Qualche esempio concreto? Una startup ha addestrato un modello linguistico di medie dimensioni quasi interamente su dati sintetici generati da altri modelli, riuscendo a contenere i costi a poche centinaia di migliaia di dollari, rispetto ai milioni necessari per raccogliere e annotare dati “veri”. Microsoft e Google hanno annunciato di aver utilizzato in parte dati sintetici per addestrare rispettivamente i modelli open-source Phi e Gemma. NVIDIA ha perfino lanciato una linea di modelli progettati specificamente per produrre dati sintetici di addestramento (ad esempio immagini generate da diverse angolazioni, per ampliare dataset visivi). E come accennato, OpenAI stessa ha sfruttato contenuti generati dall’AI per potenziare funzionalità di GPT-4. Naturalmente, l’uso massiccio di dati sintetici pone nuove sfide: bisogna evitare di alimentare i modelli solo con echo di sé stessi (il cosiddetto model collapse), garantire che i dati generati siano abbastanza originali e diversificati, e mantenere un controllo di qualità rigoroso. È probabile però che la sinergia tra dati umani e dati sintetici diventi la norma. In mancanza di quantità illimitate di informazione genuina, la chiave sarà far sì che le AI contribuiscano a generare esse stesse parte del materiale da cui imparare, in un ciclo di auto-miglioramento controllato. Già il fatto che un modello come GPT-4 possa aiutare a descrivere video per addestrarne un altro, o che ChatGPT possa inventare istruzioni e problemi con cui poi viene ri-addestrato, suggerisce un futuro in cui i confini tra “esperienza” reale e simulata si faranno sempre più sfumati.

Dunque, l’ordine di grandezza dei dati che alimentano questi modelli generativi multimodali è difficilmente concepibile: si va da centinaia di miliardi a bilioni di token linguistici, da milioni a miliardi di immagini e ore di audio, in un crescendo che surclassa di molte lunghezze l’apprendimento umano tradizionale. Un tempo si pensava che nessuna macchina potesse accumulare più conoscenza di una mente umana nell’arco di una vita; oggi osserviamo l’inverso – modelli che in pochi mesi di training assimilano l’equivalente di migliaia di vite di letture, conversazioni e osservazioni. Questa abbondanza è la fonte del loro potere, ma è anche il loro limite imminente. Per continuare a migliorare, dovranno trovare nuove fonti di sapere. A corto di dati freschi dal mondo reale, l’ingegno umano sta escogitando metodi perché le stesse AI contribuiscano a generare ulteriore conoscenza da apprendere. Sarà un delicato equilibrio: riempire i modelli di dati sintetici mantenendo la varietà e la qualità necessarie perché continuino a sorprenderci con capacità sempre maggiori. Quello che è certo è che l’era dei petabyte è solo l’inizio: la fame di dati dell’intelligenza artificiale non accenna a diminuire, e ogni ordine di grandezza conquistato spalanca le porte a nuove possibilità prima inimmaginabili – spingendo un po’ più in là il confine di ciò che queste macchine possono comprendere e creare.