Il 21 agosto 2025 DeepSeek ha annunciato DeepSeek-V3.1, un aggiornamento rilevante del proprio modello di linguaggio. La nuova versione introduce una struttura di inferenza ibrida che combina in un unico sistema due approcci: quello di ragionamento, in cui il modello esplicita passaggi intermedi prima di fornire la risposta, e quello più diretto, in cui la risposta viene generata senza fasi intermedie visibili. Questo permette di adattare l’uso del modello a seconda delle esigenze, alternando velocità e capacità di analisi più approfondita. DeepSeek ha evidenziato che nella modalità di ragionamento i tempi di elaborazione sono stati ridotti, grazie a un uso più efficiente dei token interni. Contestualmente, sono stati potenziati gli strumenti integrabili e le funzioni agentiche, cioè quelle che permettono al modello di interagire con ambienti esterni. L’azienda ha inoltre annunciato un aggiornamento del listino delle API, valido dal 5 settembre 2025.
Dal punto di vista tecnico, la nuova architettura non è basata su due modelli distinti ma su un unico checkpoint che integra entrambe le modalità operative. L’utente può selezionare l’approccio preferito tramite un template di chat o l’interruttore “DeepThink” nell’app ufficiale. In entrambi i casi è disponibile la stessa finestra di contesto da 128k token, sufficiente a gestire conversazioni e testi di lunghezza molto elevata. Sul piano dell’integrazione, le API includono due novità rilevanti: la compatibilità con il formato Anthropic, che rende più semplice utilizzare DeepSeek in ambienti già predisposti per altri modelli senza dover modificare troppo il codice, e un sistema di function calling più controllato. Quest’ultimo consente al modello di richiamare funzioni esterne – ad esempio interrogare un database o un servizio – in maniera più affidabile e con minori ambiguità. Al momento è in fase di test, ma indica un avanzamento verso un utilizzo del modello sempre più integrato nelle applicazioni reali.
DeepSeek-V3.1 mantiene la struttura di base introdotta con V3, basata su Mixture-of-Experts. In questa architettura, il modello complessivo conta 671 miliardi di parametri, ma a ogni passaggio ne vengono utilizzati circa 37 miliardi. Questa impostazione riduce il carico computazionale mantenendo un livello elevato di accuratezza. Per espandere la finestra di contesto fino a 128k token, è stato effettuato un preaddestramento aggiuntivo di circa 840 miliardi di token. Questa fase è stata suddivisa in due momenti: 630 miliardi di token per consolidare la finestra a 32k e 209 miliardi per l’estensione a 128k. Questi valori illustrano l’entità dello sforzo dedicato a migliorare la stabilità delle risposte su testi lunghi.
Un altro elemento tecnico di rilievo è l’adozione del formato numerico FP8 nella variante UE8M0. Questo tipo di rappresentazione dei numeri consente di ridurre l’uso della memoria e accelerare i calcoli, senza compromettere la precisione in modo significativo. DeepSeek ha scelto questa soluzione per rendere il modello compatibile con i nuovi chip progettati in Cina, che stanno adottando standard di calcolo basati su microscaling. Si tratta di un passo strategico, perché l’allineamento tra software e hardware favorisce sia le prestazioni sia l’indipendenza tecnologica del settore.
I benchmark pubblicati mostrano che V3.1 ottiene risultati migliori rispetto alle versioni precedenti. Nella modalità di ragionamento, il modello richiede meno passaggi interni per arrivare a una risposta, aumentando l’efficienza. Nei test di navigazione, il punteggio sul benchmark BrowseComp passa da 8,9 della versione di maggio a 30. Nei test di programmazione Aider-Polyglot, i risultati superano il 70% di accuratezza. Sono stati resi noti anche dati su prove matematiche e sul benchmark LiveCodeBench, che evidenziano miglioramenti progressivi. Sebbene si tratti di dati autoriportati, offrono indicazioni utili sull’evoluzione delle prestazioni.
Per quanto riguarda la disponibilità, DeepSeek ha messo a disposizione i pesi open-weight sia della versione base sia di quella istruita, pubblicandoli su piattaforme come Hugging Face. Insieme sono stati forniti il template di chat aggiornato e la documentazione necessaria all’esecuzione locale. Questo approccio favorisce la ricerca e la sperimentazione indipendente da parte della comunità.
Per chi vuole provare direttamente il modello, DeepSeek-V3.1 è accessibile attraverso l’app e il sito ufficiale di DeepSeek, dove è disponibile anche l’interruttore DeepThink per selezionare la modalità di utilizzo. Inoltre, i pesi open-weight sono pubblicati su Hugging Face, insieme al codice di esempio e alla documentazione tecnica per l’esecuzione locale. Questa doppia disponibilità, sia come servizio API sia come modello scaricabile, consente di sperimentare con V3.1 sia in ambienti di produzione sia in progetti di ricerca o sviluppo personale.

