OpenAI ha annunciato GPT‑5.4 come nuova evoluzione della propria famiglia di modelli linguistici, pensata soprattutto per attività di analisi avanzata, sviluppo software e flussi di lavoro complessi. Il modello è disponibile all’interno di ChatGPT, nell’API per sviluppatori e negli ambienti di sviluppo collegati come Codex. In ChatGPT viene introdotto principalmente nella versione GPT‑5.4 Thinking, mentre per i contesti professionali con maggiore disponibilità di risorse esiste anche GPT‑5.4 Pro, una variante progettata per ottenere le prestazioni più elevate possibili.
L’obiettivo dichiarato da OpenAI è quello di consolidare diversi miglioramenti tecnici in un unico modello capace di affrontare attività articolate con maggiore autonomia. In altre parole, GPT‑5.4 viene presentato come un sistema capace di produrre risultati completi con meno passaggi intermedi, riducendo la necessità di interventi manuali nella revisione delle risposte. Questo approccio riflette una tendenza che negli ultimi aggiornamenti è diventata sempre più evidente: i modelli non vengono sviluppati solo per generare testo, bensì per collaborare in maniera più strutturata con l’utente durante lo svolgimento di un lavoro.
Uno dei punti più evidenziati nella presentazione riguarda il miglioramento delle prestazioni in compiti che simulano attività professionali reali. OpenAI cita il benchmark GDPval, progettato per riprodurre scenari tipici del lavoro d’ufficio e dell’analisi di contenuti. In questo contesto GPT‑5.4 raggiunge l’83,0% di risultati valutati come migliori o equivalenti rispetto a quelli prodotti da altri modelli, mentre GPT‑5.2 si fermava al 70,9%. Il dato suggerisce un progresso significativo nella capacità di affrontare problemi articolati che richiedono più passaggi logici.
La stessa tendenza emerge in test più specifici. In un benchmark interno dedicato alla modellazione di fogli di calcolo, basato su attività paragonabili a quelle di un analista finanziario junior, il punteggio medio ottenuto dal modello sale all’87,3%, mentre la versione precedente si fermava al 68,4%. Anche nella generazione di presentazioni si osserva un miglioramento: in una valutazione condotta da revisori umani, le presentazioni prodotte con GPT‑5.4 vengono preferite nel 68% dei confronti diretti. I valutatori citano in particolare una maggiore varietà visiva e una migliore integrazione tra testo e immagini.
Parallelamente OpenAI segnala un progresso nella qualità fattuale delle risposte. Analizzando una serie di prompt basati su segnalazioni reali di errori, il modello mostra una riduzione del 33% nelle affermazioni false prese singolarmente e una diminuzione del 18% nelle risposte complessive che contengono errori. Si tratta di miglioramenti incrementali, ma indicano una direzione chiara nello sviluppo dei modelli della serie GPT‑5.
Un altro aspetto centrale dell’aggiornamento riguarda il cosiddetto computer use. Nell’API e negli ambienti di sviluppo collegati, GPT‑5.4 viene descritto come un modello capace di interagire direttamente con interfacce software attraverso screenshot e comandi di mouse e tastiera. In pratica il sistema può osservare un ambiente grafico e compiere azioni operative, come navigare un programma o eseguire procedure automatizzate. Per alcune automazioni il modello può anche utilizzare strumenti di scripting come Playwright, permettendo di integrare il ragionamento linguistico con operazioni concrete sul software.
Per valutare questa capacità OpenAI utilizza il benchmark OSWorld‑Verified, che misura l’abilità di un modello nel navigare un sistema operativo simulato. GPT‑5.4 raggiunge in questo test il 75,0%, superando sia GPT‑5.2 sia altri modelli di riferimento. Secondo OpenAI il risultato deriva in parte da miglioramenti nella percezione visiva. Il modello ottiene infatti punteggi più alti anche su benchmark multimodali come MMMU‑Pro, dove passa dal 79,5% all’81,2%.
La gestione delle immagini riceve a sua volta un aggiornamento tecnico. Viene introdotto un livello di input chiamato “original”, che conserva una risoluzione molto elevata fino a circa 10,24 milioni di pixel complessivi. Il livello “high”, già presente nelle versioni precedenti, viene portato a circa 2,56 milioni di pixel. Questa differenza consente di trattare con maggiore precisione documenti complessi, schermate ricche di dettagli o grafici molto densi di informazioni.
Un’altra novità riguarda il modo in cui il modello interagisce con strumenti esterni. Nell’API compare una funzione chiamata tool search, progettata per gestire contesti in cui sono disponibili numerosi strumenti diversi. Nei sistemi precedenti gli sviluppatori dovevano includere la definizione di ogni tool direttamente nel prompt, con un aumento dei costi e della latenza. Con tool search il modello può invece selezionare dinamicamente quali strumenti utilizzare, riducendo il consumo di contesto e migliorando l’efficienza generale.
La capacità di ricerca viene misurata anche attraverso il benchmark BrowseComp, che simula attività di indagine sul web. In questo test GPT‑5.4 raggiunge l’82,7%, mentre GPT‑5.2 si fermava al 65,8%. La variante GPT‑5.4 Pro arriva fino all’89,3%, segnalando una differenza significativa nelle configurazioni con maggiore potenza di calcolo.
Nel contesto di ChatGPT, GPT‑5.4 Thinking introduce anche un comportamento di interazione leggermente diverso rispetto ai modelli precedenti. Quando una richiesta è particolarmente complessa, il sistema può produrre un breve piano di lavoro prima di iniziare la risposta completa. Questo passaggio permette all’utente di intervenire mentre il processo è ancora in corso, modificando l’approccio o aggiungendo indicazioni prima che il risultato finale venga generato.
A questo punto è utile chiarire due aspetti che spesso generano confusione quando si osserva la struttura dei modelli della serie GPT‑5.
Il primo riguarda la distinzione tra le linee Thinking e Instant. L’aggiornamento alla versione 5.4 riguarda la linea Thinking, cioè i modelli progettati per analisi approfondite e ragionamenti più lunghi. La linea Instant, che privilegia velocità e reattività nelle conversazioni quotidiane, rimane invece sulla versione GPT‑5.3. Di conseguenza la combinazione più comune in ChatGPT diventa GPT‑5.3 Instant per le interazioni rapide e GPT‑5.4 Thinking per i lavori più complessi.
Il secondo punto riguarda i livelli di tempo di ragionamento disponibili all’interno dei modelli Thinking. In ChatGPT con piano Plus sono presenti due modalità principali: Standard ed Extended. La modalità Standard offre un equilibrio tra velocità e profondità dell’analisi, mentre Extended permette al modello di dedicare più tempo al ragionamento interno prima di produrre la risposta. Le modalità Light e Heavy esistono anch’esse, ma sono disponibili soltanto nei piani più avanzati e quindi non compaiono nell’interfaccia del piano Plus.
Dal punto di vista della distribuzione, il rollout di GPT‑5.4 avviene in modo graduale tra ChatGPT, Codex e l’API. Nella piattaforma per sviluppatori il modello è accessibile come gpt‑5.4, mentre la variante più potente appare come gpt‑5.4‑pro. All’interno di ChatGPT il nuovo GPT‑5.4 Thinking sostituisce progressivamente GPT‑5.2 Thinking. Quest’ultimo rimane comunque selezionabile per un periodo limitato tra i modelli legacy, con una rimozione prevista indicativamente per il 5 giugno 2026.
Gli utenti dei piani Plus, Team e Pro possono quindi accedere alla nuova versione direttamente nel selettore dei modelli. Nei contesti Enterprise ed Edu l’attivazione può essere gestita anche tramite impostazioni amministrative, consentendo un rollout controllato all’interno delle organizzazioni.
OpenAI pubblica anche indicazioni sui costi nell’API. Il modello gpt‑5.4 ha un prezzo di circa 2,50 dollari per milione di token in input, 0,25 dollari per cached input e 15 dollari per milione di token in output. La variante gpt‑5.4‑pro sale rispettivamente a 30 dollari per milione di token in input e 180 dollari in output. Per confronto, gpt‑5.2 aveva un prezzo di 1,75 dollari in input e 14 dollari in output. L’aumento riflette la maggiore capacità del modello, anche se OpenAI sostiene che l’efficienza nel numero di token utilizzati possa ridurre il costo complessivo in diversi scenari.
Il rilascio è accompagnato anche da un documento tecnico, la GPT‑5.4 Thinking System Card, che descrive le valutazioni di sicurezza e le mitigazioni applicate al modello. Nel documento GPT‑5.4 Thinking viene descritto come il nuovo reasoning model della serie GPT‑5 e come la prima versione general purpose con misure specifiche pensate per un profilo classificato come High nel campo della cybersecurity.
La system card analizza anche il comportamento del modello quando opera come agente software. Un esempio riguarda la gestione delle conferme durante l’esecuzione di azioni sensibili. Il modello viene addestrato a rispettare sia una policy generale della piattaforma sia eventuali regole definite dallo sviluppatore. Nei test riportati nel documento il sistema ottiene punteggi molto elevati nella corretta gestione delle conferme, arrivando a 1,00 nei casi di transazioni finanziarie o comunicazioni particolarmente delicate.
Un altro capitolo riguarda la resistenza a tentativi di manipolazione del modello tramite prompt injection. Questo tipo di attacco cerca di inserire istruzioni malevole all’interno di dati provenienti da strumenti esterni. Secondo i test pubblicati, GPT‑5.4 mostra miglioramenti nelle valutazioni legate ai connettori e una leggera variazione nelle valutazioni legate alle chiamate funzione, mantenendo comunque livelli di sicurezza comparabili alle versioni precedenti.
Infine la sezione Preparedness della system card descrive come OpenAI valuta le capacità potenzialmente sensibili dei modelli. GPT‑5.4 Thinking mantiene una classificazione High in ambito biologico e chimico e introduce una classificazione High anche in cybersecurity. Questa valutazione comporta l’applicazione di benchmark specifici e di salvaguardie aggiuntive durante il rilascio del modello.
GPT‑5.4 è un aggiornamento orientato a rendere i modelli più utili nei flussi di lavoro concreti. Il miglioramento delle capacità di ragionamento, l’integrazione con strumenti software e la possibilità di operare direttamente su interfacce digitali indicano una direzione in cui i modelli linguistici diventano sempre più strumenti operativi. In ChatGPT questo si traduce in un’esperienza più guidabile e adatta a compiti complessi; nell’API e negli ambienti di sviluppo l’obiettivo diventa invece costruire agenti software capaci di interagire con programmi, documenti e ambienti digitali in modo sempre più autonomo.

