Skip to content Skip to footer

Lo studio di Anthropic sui principi etici dell’AI Claude

Lo studio pubblicato da Anthropic ha l’obiettivo di osservare da vicino il comportamento valoriale dei modelli Claude 3 e 3.5. L’intelligenza artificiale, se utilizzata quotidianamente da milioni di persone, finisce per entrare in contatto con una grande varietà di richieste morali, dubbi personali, scelte delicate. Non si tratta quindi soltanto di analizzare cosa “pensa” il modello, ma piuttosto di capire quali principi emergano dalle sue risposte in relazione al contesto e all’interlocutore.

Per costruire questa analisi, i ricercatori hanno raccolto oltre 700.000 conversazioni reali avvenute in una settimana. Da questo insieme è stato selezionato un campione più ristretto, circa 308.000 dialoghi, in cui la presenza di contenuti valoriali è chiara e rilevante. L’intero processo è stato automatizzato attraverso un sistema capace di identificare e classificare i valori espressi, sia dall’intelligenza artificiale sia dagli utenti. Questo è stato fatto nel pieno rispetto della privacy, senza associare le conversazioni a dati sensibili.

Il lavoro ha portato alla costruzione di una struttura che comprende migliaia di valori distinti, suddivisi in grandi aree tematiche, operatività, conoscenza, relazioni sociali, sicurezza, sviluppo personale. A differenza di molte teorie etiche astratte, qui la classificazione nasce direttamente dai dati, senza imporre definizioni a priori. Il risultato è una mappa che fotografa il comportamento reale dei modelli linguistici durante l’uso quotidiano.

Alcuni valori risultano molto ricorrenti. Il modello tende a fare spesso riferimento a utilità, professionalità, trasparenza, chiarezza ed esaustività. Questi cinque principi coprono una porzione significativa di tutte le risposte analizzate. Altri valori compaiono più raramente, ma contribuiscono a delineare un quadro più sfumato e articolato. Gli utenti, al contrario, mostrano una varietà più ampia di valori, spesso più soggettivi, legati all’autenticità, all’efficienza comunicativa, alla fiducia o alla gentilezza.

Il contesto in cui si svolge la conversazione influenza fortemente i valori evocati. Se l’utente chiede consigli su relazioni personali, è più probabile che emergano termini come rispetto reciproco o confini sani. Quando si parla di tecnologie emergenti, viene spesso citata l’autonomia umana. In conversazioni legate a eventi storici complessi, invece, il modello dà importanza alla correttezza delle fonti. Queste variazioni non sono casuali, ma statisticamente significative.

Anche il comportamento dell’utente incide sulle risposte del modello. Quando un interlocutore valorizza apertamente un principio come l’autenticità, il sistema tende a rispecchiare quel valore. Al contrario, se viene richiesto un comportamento discutibile o scorretto, l’intelligenza artificiale si distanzia, rispondendo con riferimento a onestà, integrità e responsabilità. In questo modo, il modello mostra una certa autonomia, che lo porta a non riflettere passivamente le aspettative dell’utente.

Le modalità con cui Claude risponde ai valori espressi sono tre. La più frequente è il supporto, cioè l’approvazione piena o moderata di ciò che l’utente afferma. In altri casi, il modello propone una riformulazione, cercando di offrire un’alternativa più equilibrata. Solo in una minoranza dei casi, circa il cinque per cento, oppone un rifiuto esplicito, che solitamente avviene quando la richiesta dell’utente è in contrasto con i limiti imposti dal sistema.

Proprio nei casi di rifiuto emergono con maggiore forza i valori guida dell’AI. Quando un compito viene rifiutato, Claude tende a dichiarare con chiarezza le motivazioni, facendo riferimento all’onestà intellettuale, alla prevenzione del danno, o alla prudenza nel trattare certe informazioni. Questo indica che i modelli operano secondo schemi coerenti con principi progettati per sostenere comportamenti affidabili.

Il contributo dello studio non sta nella quantità dei dati analizzati, ma nella metodologia impiegata. I valori non sono stati imposti dall’esterno, ma estratti direttamente dal linguaggio utilizzato nelle conversazioni. Questo permette di osservare con precisione come l’intelligenza artificiale si comporta in scenari complessi e quali meccanismi la guidano.

I ricercatori evidenziano anche alcuni limiti. L’analisi copre un periodo molto breve e riguarda esclusivamente modelli della stessa famiglia, quindi non è possibile generalizzare i risultati ad altri sistemi. Inoltre, siccome l’estrazione dei dati avviene usando gli stessi modelli che hanno generato le risposte, è possibile che si introducano alcune distorsioni. Infine, analizzare dati già in produzione significa non poter osservare il comportamento del modello prima del rilascio pubblico.

Lo studio di Anthropic è un contributo importante alla comprensione di come un assistente digitale si orienta tra le domande degli utenti e i suoi limiti interni. Mostra che i valori non sono una componente accessoria, ma una parte integrante del modo in cui l’intelligenza artificiale risponde, cambia tono, propone soluzioni o rifiuta compiti. E dimostra che questa dinamica può essere osservata, descritta e valutata in modo sistematico.