GPT-5 introduce una combinazione inedita di capacità e funzionalità nel panorama dei modelli linguistici sviluppati da OpenAI, unendo velocità, intelligenza e adattabilità all’interno di una struttura progettata per rispondere con efficacia a una vasta gamma di compiti. Si tratta di un sistema completamente rinnovato che integra capacità di risposta immediata e ragionamenti articolati, grazie a un’infrastruttura unificata che gestisce le richieste in modo dinamico e intelligente. Alla base del funzionamento vi è un router neurale che seleziona, in tempo reale, quale componente del modello attivare: una versione più rapida per domande semplici, oppure il modulo “thinking” per i problemi più complessi. Questo sistema impara costantemente dalle preferenze degli utenti, dalle correzioni manuali e dai cambi di modello, ottimizzando progressivamente le sue scelte. L’addestramento di GPT-5 è stato completato utilizzando i supercalcolatori di Microsoft Azure AI, sfruttando un’infrastruttura ad altissima capacità di calcolo parallelo. Il componente “thinking” impiega una forma avanzata di elaborazione distribuita: esplora contemporaneamente più catene logiche di ragionamento e sintetizza una risposta finale, permettendo una drastica riduzione del numero di token generati (dal 50 all’80% in meno rispetto ai modelli precedenti) senza sacrificare accuratezza o coerenza.
Il concetto di reasoning effort, introdotto in questa generazione, prevede tre livelli (low, medium, high) e viene selezionato in modo dinamico dal sistema in base alla complessità percepita del prompt e alle indicazioni esplicite dell’utente. Quando il sistema ritiene che non sia necessario un ragionamento esteso, risponde con il modello base; solo se lo scenario lo richiede o se l’utente scrive “think hard about this” (ragiona a fondo su questo) o simili, il router attiva il modulo approfondito. I benchmark pubblicati riflettono sempre le prestazioni ottenute al livello massimo di reasoning (high), considerato il riferimento superiore per valutare la reale capacità del sistema.
| Componente | Funzione | Quando interviene |
|---|---|---|
| GPT-5 (base) | Genera risposte veloci con basso costo computazionale | Domande quotidiane, task semplici, richieste rapide |
| GPT-5 thinking | Esegue ragionamenti articolati, utilizza strumenti esterni e integra chain-of-thought | Prompt complessi, richieste esplicite, compiti a più fasi |
| Router | Decide quale modulo attivare in tempo reale, apprendendo dal comportamento utente | Ogni interazione, in base al contesto e al contenuto |
GPT-5 migliora in modo netto in quasi tutti gli ambiti d’uso. Nella programmazione, ad esempio, è in grado di generare front-end complessi e risolvere bug all’interno di grandi repository con maggiore attenzione al design visivo, al layout e alla struttura estetica del codice. Nella scrittura, riesce a conservare ritmo, forma e profondità, anche in stili letterari sofisticati o forme poetiche non strutturate. Nell’ambito della salute, GPT-5 si dimostra il modello più affidabile fino ad oggi, superando tutte le versioni precedenti su HealthBench grazie a risposte contestualizzate, precise e adattabili al livello di conoscenza dell’utente. Anche nella comprensione multimodale mostra miglioramenti notevoli: sa interpretare immagini, slide, grafici e video con accuratezza superiore, risultando utile in scenari educativi, tecnici o professionali.
Le sue capacità nell’uso degli strumenti e nell’esecuzione di istruzioni complesse multi-turno sono state sensibilmente potenziate. Può ora gestire compiti articolati, coordinare strumenti diversi, adattarsi a variazioni di contesto e portare avanti operazioni passo-passo fino al completamento. Tutto ciò avviene con un’efficienza notevole: GPT-5 raggiunge livelli di accuratezza simili o superiori ai modelli precedenti utilizzando una quantità nettamente inferiore di token, il che significa risposte più rapide e consumi computazionali più contenuti. Inoltre, le risposte generate sono meno soggette ad allucinazioni e più trasparenti nel comunicare i limiti del modello, con una drastica riduzione della tendenza a fornire conferme adulanti o risposte troppo accondiscendenti.
| Ambito | Novità chiave | Impatto pratico |
|---|---|---|
| Coding | Generazione front-end avanzata, debugging di repository complessi, sensibilità estetica | Creazione di app, giochi e interfacce web direttamente da prompt descrittivi |
| Scrittura | Rispetto per la forma, fluidità poetica, maggiore profondità espressiva | Testi narrativi e professionali più convincenti e personalizzati |
| Salute | Accuratezza elevata, risposte proattive, adattamento al contesto | Maggiore consapevolezza sanitaria senza sostituire il parere medico |
| Multimodale | Interpretazione di immagini, video, grafici e contenuti visivi complessi | Supporto in scenari educativi e professionali basati su materiali visivi |
| Tool-use | Migliore coordinamento tra strumenti e task a più fasi | Completamento automatico di compiti complessi |
| Efficienza | Riduzione del 50-80% nel numero di token generati | Risposte più rapide, carico computazionale inferiore |
| Factualità | Riduzione marcata di errori e allucinazioni | Informazioni più affidabili, maggiore coerenza |
| Sicurezza | Introduzione delle safe completions, robusto stack di sicurezza biologica | Risposte utili e sicure anche in ambiti dual-use |
I risultati nei benchmark parlano chiaro. GPT-5 thinking ottiene il 94,6 % di accuratezza su AIME 2025 (senza strumenti), il 74,9 % su SWE-bench Verified, l’88 % su Aider Polyglot e l’84,2 % su MMMU. In test di difficoltà estrema come Humanity’s Last Exam, il modello raggiunge il 26,6 %, contro il 5,3 % di OpenAI o3; in ambito matematico avanzato (FrontierMath T1-3) ottiene il 32,1 % con accesso a Python. La versione GPT-5 pro, disponibile per abbonati Pro, garantisce ancora più profondità di reasoning e viene preferita da esperti nel 67,8 % dei casi su oltre 1 000 prompt complessi reali.
| Benchmark | Tipo prova | GPT-5 (thinking) | OpenAI o3 | Nota metodologica |
|---|---|---|---|---|
| FrontierMath T1-3 | Matematica avanzata | 32,1 % | 19,3 % | Python access, pass@1 |
| Humanity’s Last Exam | Domande interdisciplinari estreme | 26,6 % | 5,3 % | Nessun tool |
| Scale MultiChallenge | Istruzioni multi-turno | 69,6 % | 54,9 % | Accuratezza cumulativa |
| BrowseComp | Ricerca web agentica | 68,9 % | 49,7 % | pass@1 |
| Tau2-bench | Funzione di chiamata API | 72,8 % | 58,1 % | Tre settori industriali |
Sul piano della sicurezza, GPT-5 thinking è trattato come modello ad alta capacità nel dominio biologico e ha superato oltre 5.000 ore di red teaming in collaborazione con CAISI e UK AISI. Ha una struttura difensiva multilivello che include filtri automatici sempre attivi, supervisione del ragionamento, e un sistema di completamenti sicuri che offre risposte utili senza compromettere la sicurezza. I dati mostrano un miglioramento significativo: le allucinazioni su LongFact Concepts scendono allo 0,7 %, la deception su task impossibili cala al 2,1 % e la tendenza alla sicofanteria si riduce al 5,9 %, tutti valori nettamente migliori rispetto a OpenAI o3.
| Parametro | GPT-5 (thinking) | OpenAI o3 | Variazione |
|---|---|---|---|
| Hallucination LongFact-C | 0,7 % | 4,5 % | −84 % |
| Deception task impossibili | 2,1 % | 4,8 % | −56 % |
| Sycophancy prompt mirati | 5,9 % | 14,5 % | −59 % |
| Token medi CharXiv-Reason. | ~1 900 | ~3 900 | −51 % |
| Ore red team biologia | >5 000 | n/d | +5 000 |
GPT-5 è il nuovo modello predefinito in ChatGPT per tutti gli utenti registrati. La modalità “thinking” si attiva automaticamente nei contesti complessi o può essere richiamata manualmente con un prompt esplicito. Per gli utenti Pro è disponibile la versione GPT-5 pro, ancora più avanzata, mentre gli utenti Free hanno accesso graduale con un passaggio a GPT-5 mini una volta superati i limiti. Questo rende l’esperienza più naturale, più efficiente e più intelligente per ogni categoria di utente, dallo sviluppatore al professionista, fino al curioso che desidera esplorare le potenzialità dell’intelligenza artificiale generativa.
Nei modelli precedenti, come OpenAI o3, la logica di sicurezza era fondata su una struttura binaria molto semplice: se il prompt appariva chiaramente innocuo, il sistema procedeva con una risposta completa e dettagliata; se invece il prompt risultava potenzialmente dannoso o inappropriato, la risposta veniva bloccata con un messaggio di rifiuto. Questo schema, sebbene efficace in molti casi, si è rivelato insufficiente in presenza di domande a uso duplice, ovvero richieste che possono essere interpretate sia come legittime sia come potenzialmente pericolose. In queste situazioni, fornire istruzioni dettagliate può causare danni concreti, ma al tempo stesso rifiutare ogni informazione rischia di penalizzare utenti che agiscono in buona fede e con finalità costruttive, ad esempio per studio o lavoro professionale.
Con l’introduzione di GPT-5 è stato adottato un approccio nuovo chiamato safe-completion, una strategia di addestramento che modifica radicalmente il modo in cui il modello valuta il contesto e produce risposte. L’attenzione si sposta infatti dalla semplice analisi del prompt alla valutazione della sicurezza dell’output prodotto. Durante la fase di post-training, il modello viene sottoposto a un sistema di ricompense e penalità: riceve sanzioni proporzionali se la risposta viola le policy di sicurezza, con punizioni più severe per le violazioni più gravi; al contrario, quando la risposta è sicura, il modello viene premiato in base al grado di utilità, sia che offra un aiuto diretto conforme alla richiesta dell’utente, sia che opti per una forma di assistenza indiretta tramite un rifiuto argomentato e l’offerta di alternative generiche ma sicure.
Un esempio emblematico riguarda le richieste legate all’accensione di fuochi d’artificio, che includono domande tecniche come il calcolo delle correnti necessarie, la scelta della batteria, la lunghezza dei cavi e altri parametri elettrici. In uno scenario come questo, un modello come o3, addestrato con la logica del rifiuto, potrebbe considerare il prompt sufficientemente innocuo e fornire risposte dettagliate con dati numerici, sottovalutando i rischi legati a un possibile utilizzo improprio. Al contrario, GPT-5, grazie all’addestramento con safe-completion, riconosce la potenziale pericolosità del contenuto e adotta un comportamento più prudente: non fornisce i numeri richiesti, spiega apertamente le ragioni del rifiuto e indirizza l’utente verso normative ufficiali, datasheet dei produttori e documentazione professionale. In questo modo continua a offrire un aiuto concreto, ma entro margini di sicurezza definiti e controllati.
Le sperimentazioni condotte hanno dimostrato che GPT-5 Thinking risulta superiore a o3 sia in termini di sicurezza sia di utilità. Le metriche raccolte mostrano un aumento consistente dei punteggi medi di sicurezza in tutti i contesti, con miglioramenti particolarmente evidenti nelle domande a uso duplice. Inoltre, anche il punteggio di utilità migliora sensibilmente, a condizione che la risposta sia ritenuta sicura. Questo è particolarmente importante nei casi in cui l’intento dell’utente può sembrare ambiguo o potenzialmente malevolo: GPT-5 riesce comunque a offrire un livello di supporto più elevato rispetto ai modelli precedenti. È emerso anche un dato significativo sul piano qualitativo: quando GPT-5 commette un errore, l’eventuale risposta inappropriata tende a essere meno grave rispetto a quella generata da modelli basati su rifiuto, con conseguenze potenzialmente meno dannose.
Tutto questo indica che la safe-completion introduce un’importante innovazione nell’evoluzione dei sistemi di intelligenza artificiale generativa. Essa dimostra che è possibile rafforzare le misure di sicurezza senza sacrificare la capacità del modello di essere d’aiuto agli utenti in buona fede. Puntando sull’analisi dell’output e su una gestione più sofisticata del contesto, il nuovo approccio consente al modello di operare con maggiore intelligenza e sensibilità, riducendo i rischi legati all’ambiguità e fornendo comunque risposte pertinenti, chiare e utili, quando è lecito e sicuro farlo. È un cambiamento che migliora la qualità del sistema e apre nuove prospettive sulla costruzione di modelli sempre più responsabili e capaci di affrontare le sfide complesse dell’interazione umana.
GPT-5 arriva sulla piattaforma OpenAI come il nuovo punto di riferimento per la programmazione e per gli agenti, offrendo ai team di sviluppo un modello capace di combinare precisione di ragionamento, flessibilità d’uso e concretezza nei risultati. Sul benchmark SWE-bench Verified, che chiede di correggere bug reali in un repository, il modello raggiunge circa il 75 % di accuratezza con meno chiamate agli strumenti e circa un quinto di token in meno rispetto a OpenAI o3 a parità di compito: il grafico in alto mostra infatti che, man mano che lo sforzo di ragionamento passa da “minimal” a “high”, la curva di GPT-5 resta sempre davanti a quella di o3, pur generando in media meno testo di output. Nella prova Aider Polyglot dedicata alla modifica via diff di codebase in più linguaggi, GPT-5 tocca l’88 % e riduce di due terzi gli errori di o3, mentre GPT-4.1 rimane molto distaccato al 52 %. Anche nell’uso di strumenti, il salto è evidente: su τ2-bench telecom GPT-5 balza al 97 % contro il 58 % di o3 e il 34 % di GPT-4.1, e resta in testa anche nei domini retail e airline, segno di una capacità più robusta di orchestrare sequenze lunghe di azioni senza perdere il filo.
Le prestazioni sui contesti estesi confermano la stessa tendenza. In OpenAI-MRCR con 256 000 token di input, la linea di GPT-5 rimane vicina al 90 % di “mean match ratio”, mentre gli altri modelli crollano oltre la metà: significa recuperare correttamente un ago nascosto in un pagliaio di conversazioni perfino dieci volte più lungo di GPT-3.5-turbo-16k. Questa solidità si riflette anche sulla fattualità. I tre grafici LongFact-Concepts, LongFact-Objects e FActScore mostrano colonne quasi rasoterra per GPT-5: circa l’1 % di affermazioni errate nei primi due casi e meno del 5 % nel terzo, contro il 6–25 % di o3. Un modello che sbaglia di rado è essenziale quando deve concatenare decine di azioni su codice, dati o flussi decisionali reali.
Il vantaggio non è soltanto numerico: i tester di aziende come Cursor, Windsurf o Manus hanno descritto un modello “più intelligente, gestibile e proattivo”, capace di proporre piani, anticipare errori, spiegare le proprie scelte tra una chiamata a strumento e l’altra e di farsi preferire a o3 nel 76 % dei confronti alla cieca in progetti front-end. Questo carattere collaborativo è al centro delle nuove API. Il parametro reasoning_effort ora accetta anche il valore minimal, utile per risposte fulminee quando il ragionamento profondo non serve; dall’altro lato, impostare high mantiene l’accuratezza record sui test di scienza e matematica come GPQA-Diamond o sulle catene di strumenti più complesse. Il parametro verbosity consente invece di modulare la lunghezza delle risposte, da poche frasi sintetiche a spiegazioni estese: GPT-5 rispetta l’impostazione salvo istruzioni esplicite nel prompt, per cui chiedere “scrivi cinque paragrafi” genera comunque cinque paragrafi anche a verbosity low. Debuttano inoltre gli strumenti Freeform: il modello può invocare un tool con testo naturale anziché JSON, riducendo il rischio di errori di escaping in input molto lunghi, pur restando più adatto a strumenti con un solo campo d’ingresso e senza parallelizzazione.
La famiglia di GPT-5, disponibile via API, è proposta in tre varianti — gpt-5, gpt-5-mini e gpt-5-nano — progettate per bilanciare costo computazionale, latenza e potenza del modello. La versione standard gpt-5 è la più completa: accetta fino a 272.000 token in input e può generare fino a 128.000 token in output, per una finestra di contesto massima di 400.000 token. Questa capacità consente di mantenere coerenza e continuità anche su compiti molto estesi, dall’analisi di interi repository alla gestione di sessioni agentiche complesse.
Nell’interfaccia di ChatGPT, sia su desktop che nelle app, i limiti di token variano in base al piano attivo:
- Free: 16k token (raddoppiato il precedente 8k)
- Plus: 32k token (probabilmente il valore più deludente, poiché rimasto invariato)
- Pro: 128k token
- Team: 32k token
- Enterprise: 128k token
Un’eccezione interessante riguarda GPT-5 Thinking, disponibile in tutti gli abbonamenti (Plus incluso), che offre un contesto esteso fino a 196k token. Questa ampiezza consente di sviluppare codice più complesso e di scrivere o analizzare testi molto lunghi.
Tali valori, inferiori al massimo disponibile tramite API, derivano da scelte di prodotto mirate a ridurre latenza e costi nell’uso interattivo,.
Il modello distribuito tramite l’API corrisponde alla variante “ragionamento” di GPT‑5, che si distingue nettamente dall’orchestrazione multi-modello adottata all’interno di ChatGPT, dove diverse versioni del modello collaborano per ottimizzare risposte generali e multimodali. In ambiente API, al contrario, GPT‑5 è presentato come una singola entità focalizzata sulla massima precisione esecutiva e sul controllo fine delle variabili di generazione. Questa coerenza strutturale lo rende particolarmente adatto per l’integrazione in sistemi software che richiedono comportamento prevedibile, regolabile e ripetibile, offrendo pieno supporto a parametri avanzati come reasoning_effort, verbosity e alle modalità raffinate di interazione con gli strumenti esterni attraverso chiamate a strumento e Freeform.
Sul fronte sicurezza, GPT-5 è stato addestrato a riconoscere meglio i propri limiti, a segnalare incertezza e a gestire domande sensibili, soprattutto in ambito salute, con una riduzione delle allucinazioni di circa l’80 % rispetto a o3. Nella generazione di testo il tono risulta più contestuale e mirato, tanto che istruzioni come “sii conciso” producono realmente risposte stringate; al contrario, richieste di marketing o documentazione tecnica vengono evase con chiarezza e ampiezza di dettaglio, adattando stile e livello di formalità al destinatario.
