Skip to content Skip to footer

Claude Opus 4.7, miglioramenti su sviluppo software, immagini e gestione del contesto

Contenuto sviluppato con intelligenza artificiale, ideato e revisionato da redattori umani.
···

Anthropic ha presentato Claude Opus 4.7, mettendo al centro dell’annuncio le capacità del modello nello sviluppo software avanzato, la gestione di compiti complessi che si estendono nel tempo e una maggiore precisione nell’esecuzione delle istruzioni. Nella descrizione diffusa dall’azienda trova spazio anche la capacità del sistema di verificare meglio i propri output prima della risposta finale.

L’azienda presenta Opus 4.7 come un modello destinato a contesti produttivi, in cui contano continuità, affidabilità e capacità di mantenere coerenza lungo sequenze di lavoro articolate. Nella sezione dedicata ai test compaiono numerose testimonianze di partner e aziende che hanno provato il modello in anticipo. I commenti insistono su una maggiore efficacia nel debugging, nella pianificazione, nell’uso degli strumenti e nella capacità di proseguire il lavoro senza interrompersi davanti a passaggi difficili o errori intermedi.

Tra gli aspetti più evidenziati c’è la componente visiva. Anthropic scrive che Opus 4.7 può elaborare immagini fino a 2.576 pixel sul lato lungo, oltre tre volte la capacità dei precedenti modelli Claude, e collega questo cambiamento a usi pratici come la lettura di schermate dense, l’estrazione di dati da diagrammi complessi e i lavori che richiedono riferimenti molto precisi. La società aggiunge inoltre che il modello offre risultati migliori anche nella produzione di interfacce, slide e documenti professionali.

Anthropic collega poi il lancio a Project Glasswing, annunciato nei giorni precedenti, e usa Opus 4.7 come primo banco di prova per nuove salvaguardie automatiche dedicate alle richieste che suggeriscono usi cyber vietati o ad alto rischio. La società precisa che le capacità informatiche di questo modello restano inferiori a quelle di Mythos Preview e spiega di voler osservare il comportamento delle nuove protezioni in un contesto reale prima di arrivare a una diffusione più ampia di modelli della stessa classe. Per i professionisti della sicurezza che operano in contesti legittimi, come vulnerability research, penetration testing e red teaming, è stato aperto anche un Cyber Verification Program.

L’azienda accompagna il rilascio con alcune funzioni aggiuntive. Arriva un nuovo livello di effort chiamato xhigh, collocato tra i livelli più alti, che indica quanto il modello deve dedicare tempo e risorse al ragionamento prima di rispondere: a questo livello intermedio il sistema approfondisce di più rispetto al livello precedente, mantenendo tempi di risposta più contenuti rispetto a quello massimo.

Nella sezione sulla sicurezza, Anthropic afferma che il profilo complessivo di Opus 4.7 resta vicino a quello di Opus 4.6. Le valutazioni interne mostrano tassi bassi di comportamenti problematici come inganno, compiacenza e cooperazione con usi impropri. La società segnala miglioramenti su onestà e resistenza agli attacchi di prompt injection, mentre indica una lieve debolezza in altri test specifici. La conclusione interna parla di un modello in larga misura ben allineato e affidabile, pur senza definirlo ideale in ogni aspetto del comportamento.

C’è infine un aspetto più tecnico che potrebbe interessare chi usa già Opus 4.6. Anthropic spiega che Opus 4.7 adotta un tokenizer aggiornato, con il possibile effetto di aumentare il numero di token consumati a parità di input, in una fascia indicata tra circa 1,0 e 1,35 volte a seconda del contenuto. La società osserva però che il modello tende anche a ragionare più a lungo ai livelli di effort più alti, soprattutto nei contesti agentici, e invita quindi a misurare l’impatto sui carichi reali prima della migrazione completa.

Anthropic colloca Opus 4.7 sul terreno del lavoro quotidiano, tra sviluppo, analisi documentale e uso multimodale. La prima valutazione si basa ancora soprattutto sulle indicazioni dell’azienda e sulle testimonianze dei partner che hanno avuto accesso anticipato, quindi saranno i test indipendenti a chiarire quanto i miglioramenti annunciati terranno anche fuori dal contesto del lancio ufficiale.