Con GPT-5.5 l’intelligenza artificiale si allontana dall’essere una semplice macchina di risposta e assume il profilo di uno strumento operativo per compiti articolati. Nella pagina di lancio il modello viene descritto come il più intuitivo fin qui rilasciato da OpenAI, capace di scrivere e correggere codice, fare ricerca sul web, analizzare dati, costruire documenti e fogli di calcolo, usare software e attraversare più strumenti fino alla chiusura del lavoro. La system card conferma la stessa impostazione e aggiunge un punto importante: GPT-5.5 arriva prima al cuore del compito, richiede meno interventi da parte dell’utente, usa meglio gli strumenti e continua a verificare il proprio lavoro lungo il percorso.
Leggendo bene i materiali ufficiali, il progresso di GPT-5.5 emerge soprattutto nella sua capacità di affrontare con continuità attività lunghe, composte da più passaggi e vicine al lavoro reale. OpenAI insiste sul fatto che GPT-5.5 gestisce bene richieste composite e poco ordinate, quelle che nella pratica professionale arrivano spesso sotto forma di appunti, documenti incompleti, istruzioni parziali o obiettivi da chiarire in corso d’opera. A questo si aggiunge un dato che pesa parecchio nell’uso quotidiano: GPT-5.5 mantiene una latenza per token paragonabile a GPT-5.4, mentre in Codex usa molti meno token per portare a termine gli stessi compiti.
Nel coding l’avanzamento emerge con chiarezza. Sul benchmark Terminal-Bench 2.0 GPT-5.5 arriva all’82,7%, contro il 75,1% di GPT-5.4. Su SWE-Bench Pro sale al 58,6% contro il 57,7%, mentre nell’eval interna Expert-SWE passa dal 68,5% al 73,1%. Al di là dei numeri, il profilo descritto da OpenAI è quello di un modello più autonomo nel capire dove intervenire, quali controlli eseguire, quali parti del codice toccare e quanto lontano estendere una modifica.
Lo stesso orientamento appare nel lavoro d’ufficio e nella produzione documentale. OpenAI colloca GPT-5.5 dentro una fascia d’uso che tocca report, presentazioni, analisi operative, modellazione in spreadsheet e gestione di ambienti software reali. I numeri scelti per sostenere questa tesi sono abbastanza eloquenti: 84,9% su GDPval, 78,7% su OSWorld-Verified, 84,4% su BrowseComp e 98,0% su Tau2-bench Telecom senza prompt tuning. In parallelo, l’azienda afferma che oltre l’85% del personale usa Codex ogni settimana in attività che vanno dall’ingegneria alla finanza, fino alla comunicazione.
Anche sul versante della ricerca tecnica e scientifica GPT-5.5 mostra un profilo più maturo. OpenAI segnala un progresso netto rispetto a GPT-5.4 su GeneBench, dove passa dal 19,0% al 25,0%, e su BixBench, dove sale dal 74,0% all’80,5%. Sono benchmark lontani dall’uso generalista di tutti i giorni, eppure aiutano a capire in che direzione si muove il modello: meno concentrato sulla risposta singola, più adatto a seguire percorsi di analisi che richiedono dati, verifiche, interpretazioni e ritorni successivi.
La system card aggiunge dettagli che interessano chi immagina un uso operativo intenso. Nelle prove dedicate alle azioni potenzialmente distruttive GPT-5.5 ottiene 0,90 nell’evitare interventi accidentali sui contenuti dell’utente, contro lo 0,86 di GPT-5.4 Thinking. Ancora più evidente il dato sulla perfect reversion, che passa da 0,18 a 0,52, mentre la preservazione del lavoro utente cresce da 0,53 a 0,57. Tradotto in termini concreti, OpenAI sta cercando di rendere il modello più affidabile quando lavora in ambienti dove file, revisioni e modifiche convivono nello stesso flusso.
Quanto alla qualità informativa, il documento tecnico riporta un dato incoraggiante: nei casi già segnalati dagli utenti come inclini a errori fattuali, le singole affermazioni di GPT-5.5 risultano corrette con una probabilità superiore del 23%, mentre le risposte che contengono almeno un errore calano del 3% rispetto a GPT-5.4. Nello stesso documento compaiono anche miglioramenti nei benchmark HealthBench e HealthBench Professional, segno di un lavoro orientato verso risposte più utili anche in domini dove precisione e misura contano molto.
GPT-5.5 sembra pensato per chi deve portare avanti compiti lunghi, intrecciare fonti, usare strumenti, correggere bozze, scrivere codice, tornare sui propri passaggi e arrivare a un output pronto all’uso. Dal 23 aprile 2026 il rollout interessa gli utenti Plus, Pro, Business ed Enterprise in ChatGPT e Codex, mentre GPT-5.5 Pro arriva in ChatGPT per Pro, Business ed Enterprise. Guardando insieme annuncio e system card, l’impressione più netta è questa: OpenAI sta spostando il baricentro dalla brillantezza della singola risposta alla capacità di seguire davvero un lavoro dall’inizio alla fine.

