Durante un evento trasmesso in diretta, Sam Altman, Casey Chu, Isa Fulford, Yash Kumar e Zhiqing Sun hanno illustrato il nuovo modello agentico unificato di ChatGPT. La presentazione ha offerto uno sguardo completo sulle funzionalità di questa nuova modalità operativa, il cui obiettivo è fornire una soluzione unificata e autonoma per affrontare compiti complessi attraverso l’uso integrato di più strumenti.
Il contesto da cui nasce questo sviluppo è rappresentato da due precedenti funzionalità distinte: Deep Research, orientata all’analisi testuale e all’assimilazione rapida di contenuti scritti, e Operator, pensato per l’interazione diretta con ambienti grafici e operativi sul web. Il feedback degli utenti ha evidenziato il limite di questa separazione e ha sollecitato l’unificazione di questi strumenti in un’unica modalità capace di ragionare, pianificare e agire in modo coordinato.
Il nuovo modello agentico funziona all’interno di un ambiente virtuale completo. L’utente, attivando la modalità, consente al sistema di utilizzare liberamente strumenti come browser testuale e grafico, terminale di comando, ambienti di calcolo, interfacce per la generazione e la modifica di documenti, presentazioni e immagini. È inoltre possibile collegare servizi personali come Google Drive, Calendar, GitHub e altri, per lavorare su dati e contenuti personali in modo controllato.
L’intelligenza del sistema nel selezionare lo strumento più appropriato è frutto di un addestramento basato su reinforcement learning. Il team ha costruito task articolati che spingessero il modello a combinare strumenti differenti per ottenere risultati corretti nel minor tempo possibile. Se in una fase iniziale il sistema mostrava una tendenza a utilizzare tutte le risorse disponibili, l’addestramento ha prodotto un’evoluzione verso una scelta più efficiente, guidata dal contesto del compito.
Uno degli esempi più chiari, presentato in diretta, riguarda l’organizzazione di una partecipazione a un matrimonio. Il modello ha affrontato in autonomia la selezione degli abiti sulla base del dress code, la scelta dell’hotel in relazione al meteo e alla vicinanza con l’evento, e l’individuazione di un regalo coerente. L’interfaccia consente di seguire in tempo reale il ragionamento del sistema, verificare ogni passaggio, riprendere fasi precedenti o intervenire con nuove istruzioni.
È stata sottolineata anche la capacità dell’agent di interagire in tempo reale con l’utente. Durante l’attività, è possibile aggiungere richieste, correggere o chiarire parametri. Il sistema riconosce queste modifiche, le integra nel flusso e prosegue mantenendo coerenza e stato. Il modello è stato progettato per chiedere chiarimenti solo quando necessario e per attendere conferme esplicite prima di azioni critiche come l’invio di email o la conferma di un acquisto.
Una dimostrazione ulteriore ha coinvolto l’uso da dispositivi mobili. Il team ha chiesto all’agent, da smartphone, di progettare e ordinare 500 adesivi con una grafica specifica. Il sistema ha generato l’immagine, navigato tra le opzioni di produzione, configurato un ordine e preparato un carrello online. Le attività possono essere iniziate su desktop e riprese su mobile, o viceversa, senza perdita di dati o contesto.
Nel corso dell’evento, il team ha mostrato come l’agent possa operare su file personali. È stato chiesto di recuperare dati interni da Google Drive e sintetizzarli in slide PowerPoint. Il sistema ha effettuato l’accesso ai file, ha letto i dati, ha generato codice e grafici e infine ha restituito una presentazione modificabile. Il processo ha incluso una revisione automatica che ha migliorato l’estetica e la chiarezza dei risultati.
I benchmark condivisi dimostrano l’efficacia dell’approccio agentico. Sulla prova Humanities Last Exam, il sistema ha quasi raddoppiato le performance con l’uso degli strumenti, raggiungendo il 42%. In ambiti di logica matematica avanzata, come Front TMS, ha toccato il 27%, superando approcci precedenti. Nelle valutazioni sulle capacità operative su siti reali (WebArena) e nella ricerca online (BrowseComp), l’agent ha mostrato un vantaggio rispetto alle versioni precedenti, completando il 69% dei task in BrowseComp.
In applicazioni più orientate alla produttività, l’agent ha operato con efficacia su SpreadsheetBench, migliorando i risultati passando dall’uso dell’interfaccia a quello diretto tramite terminale. Un benchmark interno, basato su attività reali di analisti finanziari, ha confermato la capacità del sistema di generare modelli complessi, combinando dati e codice.
Durante la live è stato affrontato anche il tema della sicurezza. L’interazione con il web aperto espone il modello a potenziali rischi, motivo per cui sono stati implementati sistemi di monitoraggio in tempo reale e addestramenti specifici per evitare comportamenti pericolosi o indesiderati. Agli utenti viene suggerito di valutare con attenzione la condivisione di dati sensibili e di usare la funzione di controllo manuale nei casi più delicati.
Le dimostrazioni si sono concluse con la verifica dei risultati ottenuti nei compiti avviati all’inizio: la pianificazione del matrimonio è stata completata, il carrello per gli adesivi era pronto per l’ordine e il sistema ha anche fornito un itinerario ottimizzato per visitare tutti i trenta stadi MLB, con mappa e foglio di calcolo.
Sam Altman ha chiuso la sessione annunciando la disponibilità immediata della modalità Agent per gli abbonati Pro, con una quota di 400 query mensili. A breve seguiranno gli utenti Plus e i team, con un accesso iniziale di 40 query al mese. L’estensione a Enterprise ed Education è prevista entro la fine del mese indicato. Altman ha sottolineato che il sistema è ancora in evoluzione, ma già in grado di alleggerire il carico di lavoro degli utenti, con prospettive di miglioramento rapido.

