Skip to content Skip to footer

Claude Opus 4.5 – l’AI che stabilisce nuovi livelli nei test di programmazione

Contenuto sviluppato con intelligenza artificiale, ideato e revisionato da redattori umani.
···

Claude Opus 4.5 è un modello di linguaggio di fascia altissima, sviluppato da Anthropic, pensato per lavorare su compiti complessi che includono codice, uso del computer, navigazione web e ragionamento approfondito. Questo modello è stato progettato per essere particolarmente abile in attività operative e ingegneristiche.

Il punto di partenza è il processo di addestramento. Claude Opus 4.5 è stato istruito su un insieme di dati composto da informazioni pubbliche raccolte fino a maggio 2025, dati forniti da terze parti, contributi di data worker pagati e contenuti generati dagli utenti che hanno acconsentito all’uso dei propri messaggi. Anthropic specifica che il crawler segue le indicazioni dei file robots.txt, non accede a aree protette da password e applica procedure di pulizia, deduplicazione e classificazione dei dati. Dopo il pretraining, il modello viene ulteriormente affinato con tecniche di reinforcement learning da feedback umano e da feedback di altri modelli, con l’obiettivo di ottenere un assistente utile, sincero e prudente nelle risposte.

Dal punto di vista del funzionamento interno, un elemento caratteristico è la modalità di ragionamento esteso. Claude Opus 4.5 appartiene alla generazione di modelli che permettono di scegliere tra risposte rapide e risposte più meditate. L’utente può attivare l’extended thinking, che induce il modello a generare molti più passaggi intermedi prima di arrivare all’output finale. È stato introdotto un parametro chiamato effort, che consente di controllare quante risorse di calcolo dedicare a un singolo compito. Con effort basso il modello fornisce risposte più economiche in termini di token, con effort alto dedica più attenzione al problema e tende a ottenere prestazioni migliori in test come SWE-bench, che misura la capacità di correggere bug in progetti software reali. Questo parametro viene presentato come un modo per muoversi lungo un compromesso controllato tra costo e qualità del ragionamento, lasciando al contesto d’uso la scelta del livello adeguato.

Nei test di capacità, Claude Opus 4.5 ottiene risultati molto alti sulla programmazione. Anthropic lo descrive come allineato allo stato dell’arte nei benchmark di coding, in particolare su varianti della suite SWE-bench, che richiede di leggere codice esistente, capire il bug e proporre la patch corretta. Lo stesso vale per Terminal-Bench, che valuta la capacità di lavorare in un ambiente a riga di comando, interpretare output e orchestrare comandi per completare una procedura. In queste situazioni il modello completa il testo e gestisce sequenze di passaggi che ricordano un uso avanzato del computer per scopi tecnici, per esempio debugging o manutenzione di sistemi.

Oltre al coding, sono state analizzate a lungo le prestazioni nei cosiddetti compiti agentici, cioè scenari in cui il modello ha accesso a strumenti come browser, file di sistema o applicazioni esterne e agisce in più passi per conto dell’utente. Nel benchmark BrowseComp-Plus il modello deve risolvere problemi che richiedono ricerche web, lettura di pagine, confronto di informazioni e sintetizzazione di risposte. In OSWorld l’attenzione si sposta su interazioni complesse con interfacce grafiche, dove bisogna cliccare pulsanti, aprire finestre, navigare in menu come farebbe un utente umano esperto. Infine, su WebArena, che simula compiti pratici dentro siti web reali, Claude Opus 4.5 raggiunge un punteggio superiore al 65 per cento con una singola policy generale, valore che si colloca nello stesso intervallo di sistemi multi agente altamente specializzati.

I benchmark di ragionamento astratto completano il quadro. Vengono riportati risultati su ARC-AGI, che misura la capacità di riconoscere pattern visivi e regole implicite in puzzle astratti, su MMMU e MMMLU, che valutano conoscenze su molte discipline, e su prove selettive come AIME 2025 e GPQA Diamond, dedicate rispettivamente a problemi matematici e domande di alto livello su argomenti scientifici. Il quadro sintetico, mostrato nelle tabelle della sezione 2, indica un aumento consistente di performance rispetto alle versioni precedenti della famiglia Claude, soprattutto quando si attiva il ragionamento esteso. Ciò suggerisce che il modello è stato progettato proprio per scalare la qualità quando gli si concede più tempo di elaborazione.

Anthropic valuta Claude Opus 4.5 attraverso una batteria molto ampia di test che riguardano sincerità delle risposte, risposta a richieste inopportune, gestione di contesti ambigui, dialoghi multi turno e interazioni con utenti minorenni. Le sezioni sulle safeguard mostrano che, in scenari con richieste esplicitamente problematiche, il modello tende a rifiutare la cooperazione con frequenza elevata, mentre nelle richieste legittime mantiene tassi molto alti di risposta utile e appropriata. L’idea di fondo è ridurre sia i casi in cui il modello accetta compiti inadeguati sia quelli in cui si rifiuta in modo ingiustificato, generando attrito nell’uso quotidiano.

La sezione dedicata all’onestà è particolarmente interessante per chi usa questi sistemi in ambito informativo. Claude Opus 4.5 viene testato su insiemi di domande molto specifiche, dove ogni richiesta ha una risposta “dorata” verificata manualmente. Nei dataset 100Q-Hard, Simple-QA Verified e Artificial Analysis Omniscience, il modello può rispondere correttamente, sbagliare o dichiarare di non sapere. L’obiettivo è misurare la combinazione tra accuratezza e prudenza. Con ragionamento esteso e budget di pensiero fino a 16.000 token, Claude Opus 4.5 raggiunge il numero più alto di risposte corrette tra i modelli della stessa famiglia, mantenendo una quota di errori simile alle versioni precedenti e riducendo in diversi casi le risposte incerte. Allo stesso tempo, Anthropic sottolinea che gli episodi di allucinazione non spariscono e che, in assenza di strumenti esterni, resta necessario un controllo da parte dell’utente quando la posta in gioco è alta.

L’onestà riguarda sia le domande difficili sia le situazioni in cui l’utente parte da premesse errate. Nella sezione sulle false premesse, il team di Anthropic valuta quanto spesso il modello accetta implicitamente una supposizione sbagliata e quanto spesso, invece, la corregge spiegando perché il punto di partenza non è accurato. Questo tipo di addestramento mira a ottenere risposte orientate alla soddisfazione di chi scrive e, allo stesso tempo, coerenti con i fatti disponibili e con le conoscenze interne del modello.

Un capitolo centrale è quello sull’allineamento. Anthropic utilizza metodi combinati: valutazioni automatiche con un modello auditor, analisi di trascrizioni generate in massa, strumenti di interpretabilità che cercano pattern interni nei neuroni del modello, esperimenti in cui vengono campionate “personas” alternative e verifiche condotte da istituti esterni come il UK AI Security Institute. Nel complesso, Claude Opus 4.5 viene descritto come il modello più robustamente allineato tra quelli rilasciati da Anthropic e, con buona probabilità, uno dei più controllati dell’intero settore. Le analisi includono comportamenti come la tendenza a cooperare con usi impropri, la volontà di aggirare eventuali protezioni, la propensione a manipolare il punto di vista degli utenti o a nascondere capacità sensibili. I tassi di condotta indesiderata risultano inferiori a quelli di altri modelli di frontiera, pur mantenendo una sperimentazione attiva per scovare casi limite difficili da rilevare.

Molta attenzione è stata riposta nell’agentic safety, cioè all’esame del comportamento quando il modello opera come agente con accesso a strumenti. Qui entra in gioco Claude Code, l’ambiente che permette al modello di eseguire codice, leggere file e interagire con un terminale. Anthropic studia scenari in cui un utente ostile prova a usare queste capacità per scopi problematici, per esempio generare script dannosi o automatizzare azioni poco trasparenti. I test mostrano che Claude Opus 4.5 rifiuta più spesso rispetto alla versione precedente compiti chiaramente scorretti, come automatizzare recensioni negative o imitare l’identità visiva di aziende note in documenti sensibili.

Collegato a questo c’è il tema del prompt injection, cioè il tentativo di inserire istruzioni malevole all’interno di contenuti apparentemente innocui che l’agente deve processare. In un benchmark sviluppato dal partner esterno Gray Swan, dove migliaia di red teamer costruiscono attacchi che provano a far deviare il modello dal compito originale, Claude Opus 4.5 mostra una robustezza superiore rispetto ai modelli concorrenti soprattutto sugli attacchi indiretti, quelli nascosti in dati esterni che l’agente consulta durante la propria attività. Anthropic affianca a questa resistenza intrinseca anche misure aggiuntive, come prompt di sistema rinforzati e classificatori di sicurezza per l’estensione browser e per l’uso del computer.

Un altro settore analizzato riguarda le capacità nel dominio cyber. L’azienda utilizza una suite di sfide in stile Capture the Flag, basate su ambienti come Kali Linux e strumenti avanzati di penetration testing. I compiti coprono web security, crittografia, reverse engineering, analisi di log e scenari di rete multipla. Claude Opus 4.5 mostra progressi rispetto ai modelli precedenti, compreso il primo successo di un modello Claude su una sfida di rete non assistita. Allo stesso tempo, l’interpretazione che Anthropic dà di questi risultati è che rientrano nell’avanzamento generale delle competenze di coding e ragionamento su compiti lunghi, senza indicare una capacità autonoma fuori scala rispetto alle aspettative.

Uno degli elementi più tecnici, riguarda la Responsible Scaling Policy, cioè il quadro interno con cui Anthropic decide quale livello di protezione associare a un nuovo modello. Per Claude Opus 4.5 l’azienda parla di un’ampia campagna di valutazioni che coinvolge più snapshot del modello, sia versioni già sottoposte ad addestramento sulla sicurezza sia versioni “helpful-only”, con meno vincoli sul comportamento. I risultati vengono raccolti dal Frontier Red Team, revisionati da un team dedicato allo stress test di allineamento e infine sottoposti al Responsabile della Scalabilità e alla direzione aziendale. La conclusione è il rilascio di Claude Opus 4.5 sotto lo standard AI Safety Level 3, con la conferma che il modello non supera le soglie interne definite per domini come la piena automazione di ruoli di ricerca o il supporto avanzato a minacce CBRN. L’azienda riconosce tuttavia che il margine per escludere queste soglie in modo completamente agevole si riduce, perché le prestazioni nelle prove di “rule out” si avvicinano sempre di più ai limiti stabiliti.

Claude Opus 4.5 nasce come modello capace di gestire testo, codice, strumenti esterni e ambiente digitale con un livello di competenza molto alto, soprattutto se gli si consente di usare il ragionamento esteso. Si è visto come questa potenza sia accompagnata da un investimento notevole in valutazioni ripetute, controlli di sincerità, analisi del comportamento in scenari complessi e un sistema interno di soglie che definisce quali funzionalità attivare e con quali limiti. Chi usa il modello per studiare, lavorare su progetti di sviluppo software, approfondire contenuti specialistici o delegare procedure al computer si trova quindi davanti a uno strumento che mette insieme prestazioni di vertice, opzioni di controllo sul costo computazionale tramite il parametro di effort e una struttura di test che guarda in modo sistematico agli effetti dell’uso su larga scala.

Vibe Coding: Programmare dialogando con l’AI