Skip to content Skip to footer
Contenuto sviluppato con intelligenza artificiale, ideato e revisionato da redattori umani.
···

Quando un LLM come GPT-4o incontra una stringa, ed esempio “42”, la tratta come qualsiasi altra sequenza simbolica: viene suddivisa in token, trasformata in indici e infine proiettata in uno spazio vettoriale ad alta dimensionalità. A questo livello, non esiste un senso intrinseco di quantità o di aritmetica. Tuttavia, da questi semplici simboli iniziali emergono strategie e comportamenti sorprendenti che permettono al modello di navigare con efficacia nel dominio numerico.

La tokenizzazione è il primo passaggio: nei modelli basati su tecniche simili al Byte Pair Encoding, le sequenze frequenti possono diventare token unitari, mentre numeri più lunghi o inusuali vengono divisi in frammenti. Questa struttura dinamica permette al modello di adattarsi con flessibilità a moltissimi formati numerici: cifre, notazioni scientifiche, simboli di valuta, separatori locali. Anche quando frammentati, i numeri possono essere trattati come mini-frasi su cui il modello applica la propria capacità di astrazione contestuale. Una volta mappati a vettori, i numeri entrano nello stesso spazio semantico delle parole, ma iniziano a comportarsi in modo diverso a seconda della frequenza e del contesto. Se un certo numero compare spesso in contesti simili — date, misure, indicazioni di prezzo — il modello apprende relazioni robuste che gli consentono di prevedere e completare frasi con grande coerenza. Non si tratta di una comprensione quantitativa in senso stretto, ma di una competenza contestuale che si rafforza su scala.

Negli strati intermedi, l’attenzione del modello si concentra su cifre, simboli e parole contigue: è qui che emergono pattern regolari, conversioni tra formati, completamenti coerenti. GPT-4o e modelli simili imparano a rispondere correttamente a domande come “quanto fa 17 + 8” non attraverso un calcolo interno formale, ma grazie all’esposizione a pattern linguistici coerenti. E più questi modelli crescono in scala e varietà di dati, più riescono a ricostruire comportamenti simili a quelli aritmetici anche in assenza di un motore simbolico esplicito. L’efficacia aumenta ulteriormente nei modelli addestrati con tecniche istruttive, che insegnano a generare catene di ragionamento (“prima somma 7 e 8, poi aggiungi 10…”), rafforzando la precisione.

Questa modalità di apprendimento porta con sé una capacità di adattamento che va oltre il calcolo: il modello sa quando una cifra deve essere interpretata come anno, quantità, codice o numero d’ordine, e risponde di conseguenza. Sa anche passare con fluidità da una notazione all’altra, gestendo unità di misura, valute, sistemi di separazione numerica internazionali. L’ordine numerico viene inferito dalle sequenze apprese: elenchi, capitoli, tabelle, serie temporali. Anche in questo caso, ciò che potrebbe sembrare una forma debole di calcolo si rivela invece una forma alternativa di comprensione, fondata sulla riconoscibilità dei pattern e sulla generalizzazione linguistica. L’apparente mancanza di un “senso del numero” si compensa con un’ampia capacità di navigare in contesti realistici e caotici, dove l’aritmetica pura non sarebbe sufficiente.

La relazione tra rappresentazione vettoriale e grandezza numerica non è lineare, ma rispecchia l’uso reale del linguaggio: cifre simili tendono a raggrupparsi per via delle affinità nei dati, mentre altre sono collocate più lontano perché compaiono in contesti distinti. Anche qui, ciò che manca in rigidità simbolica viene compensato dalla ricchezza semantica. L’integrazione con strumenti esterni — calcolatrici, motori simbolici, fogli di calcolo — rafforza in modo significativo l’affidabilità. Quando GPT-4o riceve una richiesta complessa, può interpretarla correttamente, delegare il calcolo a un sistema specializzato, e reinserire il risultato in una risposta fluida e coerente. Questo approccio ibrido rappresenta una delle frontiere più interessanti dell’intelligenza artificiale generativa: la collaborazione tra linguaggio e calcolo.

In ambiti che richiedono memoria numerica precisa — come costanti matematiche o formule — il modello può essere perfezionato con addestramenti mirati, migliorando l’accuratezza in aree sensibili. E anche dove la precisione assoluta non è garantita, la capacità del modello di offrire una rappresentazione coerente, leggibile e contestualizzata dei dati numerici lo rende uno strumento formidabile. I numeri, in un LLM, nascono come simboli ma diventano comportamenti. Non sono entità astratte comprese in modo diretto, ma strumenti operativi inseriti in una rete di relazioni linguistiche, di contesti pratici, di inferenze. Da questo sistema emergono forme di competenza numerica che non imitano l’algoritmo, ma lo affiancano e lo potenziano. Capire questo processo non serve a sminuire l’intelligenza artificiale, ma ad apprezzarne il funzionamento specifico: non calcola come noi, ma ragiona con altri mezzi, e spesso arriva a destinazione lo stesso.

Ma allora, viene da chiedersi, perché si parla sempre più spesso di intelligenze artificiali capaci di risolvere problemi matematici al livello di un dottorando, o anche oltre? La risposta sta nel fatto che non tutte le AI sono progettate con gli stessi obiettivi. I modelli linguistici generativi come GPT-4o sono addestrati per comprendere e produrre linguaggio naturale, non per dimostrare teoremi o manipolare espressioni simboliche in modo formale. Così come non è realistico pensare che GPT-4o possa eccellere negli scacchi — è stato recentemente battuto da un gioco rudimentale per una console a 8 bit — sarebbe fuorviante aspettarsi prestazioni da matematico puro su problemi avanzati.

Quando si fa riferimento a intelligenze artificiali in grado di affrontare problemi complessi di matematica, fisica o logica, si parla spesso di architetture diverse, specializzate, talvolta ibride, che combinano capacità linguistiche con motori simbolici, dimostratori automatici, o sistemi di calcolo strutturato. In questi casi, l’intelligenza si avvicina di più al rigore del pensiero formale, anche se resta guidata da modelli linguistici nella parte interpretativa. Distinguere queste traiettorie non serve a delimitare, ma a comprendere: l’intelligenza artificiale non è un blocco unico, ma un arcipelago di sistemi, ognuno con le proprie forme di ragionamento e ambiti d’elezione.