GDPval è un banco di prova creato da OpenAI per valutare i modelli di intelligenza artificiale in modo direttamente collegato all’economia reale. Il nome GDPval nasce dall’unione di GDP (Prodotto Interno Lordo) e val (valuation/evaluation). A differenza dei test tradizionali che si basano su quiz, domande a scelta multipla o problemi accademici astratti, questo progetto propone incarichi professionali concreti, completi di materiali allegati, formati di output specifici e stime dettagliate di tempo e costo. L’obiettivo principale è fornire una misura delle capacità dei modelli in contesti lavorativi reali, così da ottenere dati utili prima che gli effetti dell’adozione si riflettano nelle statistiche macroeconomiche. Si tratta quindi di un approccio che unisce rigore metodologico e attenzione al valore economico effettivo delle attività.
La definizione del perimetro di analisi parte dai settori che rappresentano almeno il 5% del PIL statunitense. All’interno di questi settori vengono individuate le professioni con volume salariale più elevato e con attività di natura prevalentemente digitale. La nozione di “digitale” viene calcolata in modo sistematico attraverso i dati O*NET: per ciascuna professione si classificano le attività come digitali o non digitali, pesando i risultati in base a frequenza, importanza e rilevanza. Solo le professioni che superano il 60% di attività digitali entrano nel campione. Questa metodologia, che rispetta criteri quantitativi e qualitativi, è coerente con classificazioni economiche consolidate come quella proposta da Acemoglu e Autor, in cui le occupazioni ad alto contenuto cognitivo non routinario risultano collocate più in alto nella scala digitale rispetto a quelle manuali o routinarie. In totale sono stati inclusi 9 settori e 44 professioni, fornendo una copertura significativa di attività economiche a forte impatto.
I compiti sono stati ideati e scritti da professionisti con una lunga esperienza media, pari a circa 14 anni di attività nel settore di riferimento. La selezione di questi esperti è avvenuta attraverso un processo accurato che ha previsto colloqui video, controlli sui curricula e verifiche di background. Ogni compito comprende una consegna chiara e dettagliata e un output atteso, pensato per rispecchiare fedelmente le attività tipiche della professione secondo la tassonomia O*NET. Il valore economico viene stimato moltiplicando il tempo medio di completamento per il salario medio della categoria, offrendo così un’indicazione diretta del peso economico di ciascun incarico. Prima di essere incluso nel benchmark, ogni compito è stato sottoposto a controlli automatici e a più cicli di revisione umana, con una media di cinque controlli per ciascuna consegna. Questo processo garantisce qualità e coerenza. Per consentire l’uso da parte della comunità, è stato reso pubblico un sottoinsieme di 220 compiti, denominato gold set, che costituisce la base aperta e accessibile del progetto.
La tipologia delle consegne è molto varia: comprende documenti testuali, fogli di calcolo complessi, presentazioni, file di immagini, registrazioni audio e video, oltre a esempi che coinvolgono software di progettazione CAD. Questa varietà assicura che la valutazione non si limiti alla scrittura, ma abbracci competenze pratiche di produttività digitale. In più di due terzi dei compiti è necessario consultare e utilizzare file di riferimento, il che riproduce condizioni di lavoro realistiche in cui i materiali forniti devono essere analizzati e integrati. Nel set completo il tempo medio di completamento stimato dai professionisti è di 8,63 ore, con una media di 4 ore. Il valore medio dei compiti si colloca intorno ai 147 dollari, ma la distribuzione mostra una coda lunga che include incarichi di durata molto maggiore.
La fase di valutazione della qualità è strutturata in modo da ridurre i bias. Gli esperti incaricati di giudicare gli output ricevono la consegna e vari risultati prodotti sia dai modelli sia da professionisti umani, ma non hanno informazioni su chi li abbia realizzati. Devono quindi basarsi unicamente sulla qualità dell’output, scegliendo quello che ritengono più adeguato. Questo garantisce un confronto equo e comparabile. In aggiunta è stato introdotto un valutatore automatico che analizza gli output e fornisce un giudizio sintetico. Questo strumento raggiunge un accordo con i giudici umani pari al 66%, una percentuale che si colloca vicino al livello medio di concordanza tra esperti. Pur non potendo sostituire il giudizio professionale, è un utile supporto per accelerare analisi su larga scala e per offrire una prima misura automatizzata delle performance.
Il gold set da 220 compiti, insieme al servizio per testare i modelli in autonomia, è stato reso disponibile pubblicamente, così da permettere a ricercatori e sviluppatori di replicare le valutazioni, confrontare modelli diversi e approfondire la metodologia. Questo approccio trasparente amplia la possibilità di studio e consente di aggiornare i risultati man mano che emergono nuove versioni dei modelli o nuove strategie di valutazione.
GDPval costruisce un quadro dettagliato e misurabile delle capacità dei modelli in attività di reale rilevanza economica. Grazie alla cura nella scelta delle professioni, alla precisione nella costruzione dei compiti e alla robustezza dei meccanismi di valutazione, il benchmark offre una base concreta per comprendere il valore potenziale dell’intelligenza artificiale nel lavoro professionale contemporaneo.

