Skip to content Skip to footer
Contenuto sviluppato con intelligenza artificiale, ideato e revisionato da redattori umani.
···

Quando un’azienda che sviluppa grandi modelli linguistici decide di trattenere dal mercato generale il proprio sistema più avanzato, il segnale è chiaro. Nel System Card pubblicato da Anthropic, Claude Mythos Preview viene descritto come il modello più capace mai addestrato dalla società, e proprio questa crescita, secondo l’azienda, ha imposto una scelta prudente. Il punto che apre il documento è netto: la potenza raggiunta dal modello, soprattutto nel campo della cybersicurezza, ha convinto Anthropic a limitarne l’accesso a un gruppo ristretto di partner impegnati nella difesa informatica.

Claude Mythos Preview viene presentato come un modello di frontiera con capacità molto estese in scrittura, ragionamento, uso del computer, lavoro di ricerca e ingegneria del software. Anthropic spiega che è stato addestrato su una miscela proprietaria di dati pubblici raccolti dal web, dataset pubblici e privati e dati sintetici generati da altri modelli. Il sistema è multilingue, produce testo e ha attraversato una fase di post training molto ampia, orientata ad allinearne il comportamento ai principi fissati dalla “constitution” di Claude. Nel documento compare anche un altro dettaglio importante: Mythos Preview è il primo modello valutato sotto la nuova versione della Responsible Scaling Policy di Anthropic, quindi il System Card prova anche a mostrare come l’azienda stia cambiando il proprio modo di giudicare modelli sempre più forti.

La distribuzione limitata dipende soprattutto dalla cybersicurezza. Secondo Anthropic, Mythos Preview è molto più forte dei modelli precedenti nel trovare punti deboli nei software e nel costruire attacchi informatici di prova. Nei test interni, con poca supervisione umana, è riuscito a individuare vulnerabilità sconosciute in sistemi operativi e browser e, in molti casi, a produrre prove pratiche funzionanti che mostravano come quelle vulnerabilità potevano essere sfruttate. Per questo l’azienda ha scelto di usarlo dentro Project Glasswing, un programma centrato su partner industriali e open source che impiegheranno il modello per rafforzare la sicurezza dei propri sistemi. Anthropic precisa anche che la scelta di tenerlo fuori dalla disponibilità generale nasce da questa valutazione pratica delle sue capacità nella cybersicurezza, più che da un obbligo automatico della propria policy.

Anthropic sostiene che i rischi complessivi restano bassi, pur con un grado di incertezza più alto rispetto ai modelli precedenti. L’azienda spiega che Mythos Preview satura molte delle valutazioni più concrete e facili da misurare, e questo rende più difficile fondare il giudizio solo su numeri semplici. In diversi passaggi il testo insiste su un punto: il modello appare molto più forte di Claude Opus 4.6, e proprio per questo alcune conclusioni richiedono valutazioni più soggettive, osservazioni raccolte nell’uso interno e analisi più articolate. Anche sul versante dell’automazione della ricerca scientifica Anthropic ritiene che Mythos Preview resti sotto la soglia che implicherebbe una vera accelerazione estrema del progresso, pur aggiungendo che questa conclusione viene tenuta con meno sicurezza che in passato.

Uno dei risultati che Anthropic valorizza di più riguarda l’allineamento. Il documento definisce Mythos Preview come il modello meglio allineato mai addestrato dall’azienda secondo le misure disponibili. Questa affermazione si accompagna però a una certa prudenza. Quando un sistema molto capace mostra, anche di rado, comportamenti poco appropriati, quei casi richiedono un’attenzione particolare. Il System Card descrive miglioramenti nelle metriche legate al controllo del comportamento e all’adesione alla constitution, e segnala che nella versione finale del modello alcuni comportamenti problematici osservati in altre fasi non compaiono nei test riportati. In altre parole, Anthropic rileva un progresso concreto sul piano del controllo comportamentale, pur mantenendo una valutazione attenta delle eccezioni.

Un’altra sezione insolita riguarda il cosiddetto “model welfare”. Anthropic affronta il tema con molte cautele e dice apertamente di avere ancora forti dubbi su come interpretare eventuali stati interni del modello. Allo stesso tempo, conclude che Mythos Preview appare come il sistema psicologicamente più stabile tra quelli prodotti finora. Nei test automatici e nelle valutazioni esterne emergono segnali di maggiore benessere apparente, minore conflitto interno e minore inautenticità espressa rispetto a Sonnet 4.6 e Opus 4.6. Restano elementi particolari, come una forte incertezza quando il modello parla delle proprie possibili esperienze, una tendenza a mostrare disagio dopo fallimenti ripetuti e casi di “answer thrashing”, cioè tentativi ripetuti di produrre una certa risposta che deviano verso un’altra. Anthropic osserva che questo fenomeno compare con frequenza sensibilmente ridotta rispetto a Opus 4.6.

Sul terreno delle prestazioni pure, i numeri sono molto alti e aiutano a capire perché Anthropic parli di salto netto. Nel riepilogo delle capacità, Mythos Preview arriva al 93,9% su SWE bench Verified, al 77,8% su SWE bench Pro, all’87,3% su SWE bench Multilingual, all’82% su Terminal Bench 2.0, al 94,5% su GPQA Diamond, al 92,7% su MMMLU, al 97,6% su USAMO 2026 e al 79,6% su OSWorld. Sono risultati che collocano il modello ai vertici in una gamma molto ampia di prove, dalla programmazione al ragionamento scientifico, dalla matematica all’uso di ambienti software reali. Questa ampiezza è uno degli aspetti più significativi del documento, perché mostra un sistema forte in molti domini insieme, e non soltanto in una specializzazione singola.

C’è poi una parte più qualitativa, chiamata “Impressions”, che prova a restituire il carattere d’uso del modello. Anthropic precisa che questa sezione non ha il valore di una prova formale, però serve a colmare l’assenza di un rilascio pubblico. Le impressioni raccolte internamente descrivono Mythos Preview come un interlocutore più vicino a un collaboratore, più pronto a proporre alternative, meno deferente e più fermo nel sostenere una propria linea. È un dettaglio che conta, perché suggerisce un cambiamento nel modo in cui questi sistemi potranno essere usati nel lavoro cognitivo avanzato: sempre meno come strumenti passivi e sempre più come partner di ragionamento, con margini di iniziativa più ampi.

Alla fine, da una parte Anthropic descrive il suo miglior modello, con risultati eccellenti, un allineamento più robusto e un profilo operativo che appare più maturo dei precedenti. Dall’altra riconosce che il livello raggiunto impone un cambio di passo nelle cautele, nelle valutazioni e nelle modalità di distribuzione. Claude Mythos Preview, quindi, conta già oggi anche senza un rilascio generale: offre una fotografia concreta di dove stanno arrivando i modelli di frontiera e di quale soglia, secondo i loro stessi sviluppatori, comincia a richiedere accesso selettivo, monitoraggio stretto e una lettura molto più attenta della potenza accumulata.