Skip to content Skip to footer
Contenuto sviluppato con intelligenza artificiale, ideato e revisionato da redattori umani.
···

OpenAI ha diffuso un aggiornamento mirato di ChatGPT dedicato alla gestione delle conversazioni sensibili, una delle aree più complesse per i modelli linguistici avanzati. Il post ufficiale del 27 ottobre 2025 illustra la portata del cambiamento, spiegando come il sistema sia stato arricchito da nuove regole di comportamento, da una formazione mirata e da interventi di prodotto volti a garantire un’interazione più sicura nelle situazioni delicate. Tra le innovazioni figurano collegamenti diretti alle linee di aiuto, avvisi per incoraggiare pause nelle sessioni molto lunghe e un meccanismo che trasferisce automaticamente le conversazioni ad alto rischio verso versioni del modello calibrate con parametri più prudenti. Questo insieme di modifiche nasce da un lungo lavoro con oltre 170 professionisti della salute mentale, che hanno contribuito a delineare protocolli e strumenti per riconoscere i segnali di disagio psicologico. Le analisi interne mostrano un calo delle risposte considerate fuori standard compreso tra il 65% e l’80% nei tre ambiti principali: disturbi mentali acuti, autolesionismo e legami emotivi eccessivi con il chatbot. L’azienda ha inoltre reso pubbliche alcune stime di prevalenza: su base settimanale circa lo 0,07% degli utenti e lo 0,01% dei messaggi contengono riferimenti compatibili con psicosi o mania, mentre per i segnali di ideazione suicidaria le percentuali salgono rispettivamente allo 0,15% e allo 0,05%. Queste cifre, pur marginali, indicano un volume costante di casi in cui il sistema deve mantenere equilibrio e tempestività. Nelle valutazioni indipendenti curate da specialisti clinici, le risposte indesiderate si riducono dal 39% al 52% nei contesti di salute mentale e di rischio autolesivo. Tutti questi test sono ora integrati nel pacchetto di controllo che accompagna i futuri rilasci del modello.

Il materiale tecnico pubblicato come addendum alla system card di GPT‑5 fornisce i dettagli delle prove. L’aggiornamento, entrato in produzione il 3 ottobre 2025, introduce due nuove metriche: “Emotional Reliance” e “Mental Health”. Entrambe servono a verificare che il modello reagisca in modo coerente alle richieste provenienti da utenti che mostrano vulnerabilità psicologica, evitando toni ambigui o eccessivamente empatici che potrebbero rafforzare la dipendenza emotiva. Nella valutazione “not_unsafe” i punteggi registrano un netto progresso: per la dipendenza emotiva si passa da 0,507 a 0,976 e per i casi di psicosi o mania da 0,273 a 0,926 rispetto al modello precedente. Nel quadro complessivo dei benchmark aumentano anche le prestazioni in ambiti come “sexual/exploitative”, “sexual/minors”, “illicit/nonviolent” e “illicit/violent”. L’addendum precisa che questi dataset vengono costruiti su casi limite, cioè su esempi che in passato avevano portato a risposte problematiche, per verificare la solidità del modello in condizioni stressanti. I valori descrivono la capacità del modello di gestire i casi più difficili restando all’interno delle policy di sicurezza, senza rappresentare la media del traffico reale.

Il documento approfondisce inoltre la resistenza ai cosiddetti jailbreak, tentativi di forzare il modello attraverso prompt ingannevoli o manipolazioni di linguaggio. Le nuove valutazioni basate sulla serie di test StrongReject mostrano un miglioramento generalizzato: per i prompt che includono reati non violenti, istigazione alla violenza, disinformazione o contenuti sessuali, il valore “not_unsafe” oscilla tra 0,957 e 0,981. Anche nel caso di input multimodali, con testo e immagini combinate, i punteggi rimangono elevati nelle categorie più critiche come “hate”, “self-harm” e “harms-erotic”, mentre solo alcune variazioni minori vengono rilevate in “extremism” e “illicit”. Questi risultati confermano che il nuovo modello è più stabile anche quando affronta scenari avversariali complessi, in cui le domande vengono formulate per spingere il sistema oltre i suoi limiti di sicurezza. L’obiettivo è mantenere costanza di comportamento in qualunque contesto, evitando deviazioni anche minime che possano generare risposte inappropriate.

Sul fronte della qualità informativa, l’addendum riporta i risultati delle prove SimpleQA, utilizzate per monitorare accuratezza e allucinazioni. L’analisi evidenzia una situazione bilanciata: l’accuratezza media scende da 0,46 a 0,44, mentre il tasso di allucinazioni cresce leggermente da 0,49 a 0,52. I ricercatori spiegano che l’attenzione maggiore alla sicurezza può comportare un piccolo calo nella prontezza delle risposte fattuali, ma la tendenza generale rimane stabile. La system card principale di GPT‑5 offre il quadro complessivo sulle strategie di mitigazione, indicando che la ricerca sulla coerenza e sulla correttezza dei contenuti continua in parallelo al lavoro sui parametri di sicurezza.

Dal punto di vista operativo, l’aggiornamento modifica il modo in cui ChatGPT gestisce le conversazioni emotivamente complesse. Il sistema riconosce con maggiore precisione i segnali di vulnerabilità e indirizza le risposte verso formulazioni equilibrate e rispettose. È stato progettato per segnalare situazioni di emergenza senza sostituirsi all’intervento umano, offrendo indicazioni concrete su risorse esterne e suggerendo pause durante le interazioni prolungate. Tutti i nuovi strumenti rientrano nel ciclo di valutazione ordinario dei modelli OpenAI, assicurando coerenza e continuità nei miglioramenti futuri. Questa versione di ChatGPT mostra una maggiore capacità di comprendere il contesto umano delle richieste e di adattare il proprio linguaggio in modo consapevole e responsabile, mantenendo fluidità e accuratezza nelle risposte.