Skip to content Skip to footer

Misurare l’intelligenza artificiale generale: il metodo Hendrycks e la scala AGI Score

Contenuto sviluppato con intelligenza artificiale, ideato e revisionato da redattori umani.
···

Di fronte alla molteplicità di definizioni, interpretazioni e narrazioni sull’intelligenza artificiale generale, lo studio “A Definition of AGI” introduce un impianto metodologico destinato a diventare un punto di riferimento per la misurazione del progresso nel campo. Le discussioni su che cosa significhi esattamente “generalità” si sono spesso disperse in formule astratte o in affermazioni prive di parametri verificabili. Gli autori di questo lavoro cercano di colmare tale carenza proponendo una definizione concreta e misurabile dell’obiettivo, insieme a una procedura di valutazione applicabile a diversi modelli. L’iniziativa nasce come progetto interdisciplinare guidato da Dan Hendrycks, con un gruppo di firmatari che include ricercatori noti per i loro contributi fondamentali in settori come il machine learning, la robustezza dei sistemi e la teoria del rischio. Tra loro compaiono Dawn Song, Christian Szegedy, Honglak Lee, Yarin Gal, Sharon Li, Yoshua Bengio, Gary Marcus, Max Tegmark, Jaan Tallinn ed Eric Schmidt. Le affiliazioni coinvolgono istituzioni accademiche e organizzazioni di ricerca di più continenti, tra cui University of California Berkeley, University of Michigan, University of Oxford, University of Wisconsin–Madison, KAIST, MIT, Université de Montréal e Center for AI Safety. La trasparenza del progetto è resa evidente dal sito agidefinition.ai, dove sono consultabili sia la definizione sia la struttura di valutazione proposta.

La definizione adottata stabilisce che per intelligenza artificiale generale si intende un sistema capace di uguagliare o superare la versatilità e la perizia cognitive di un adulto ben istruito in un ampio ventaglio di compiti. Questo posizionamento evita riferimenti vaghi a concetti come autonomia illimitata o comprensione universale e introduce un parametro comparativo concreto basato sulle capacità medie osservabili nella popolazione umana adulta. L’idea riguarda la capacità di affrontare problemi diversificati, di adattarsi a contesti variabili e di trasferire conoscenze tra domini differenti, qualità che finora sono rimaste una sfida sostanziale per i modelli di intelligenza artificiale contemporanei.

Per rendere misurabile questa definizione, il gruppo di lavoro ha adottato il modello teorico Cattell-Horn-Carroll, una delle strutture più consolidate della psicologia cognitiva. Questa teoria suddivide l’intelligenza in abilità ampie e abilità specifiche, organizzate in modo gerarchico. Gli autori hanno utilizzato questa struttura per individuare dieci domini cognitivi considerati essenziali per definire una forma di intelligenza generale. Ogni dominio è stato reso valutabile attraverso compiti psicometrici adattati all’interazione con modelli di intelligenza artificiale. Gli autori hanno scelto deliberatamente di mantenere un equilibrio nella ponderazione dei domini, assegnando a ciascuno il dieci per cento del punteggio finale, per garantire che il concetto di generalità non venga surrogato da competenze forti in un’unica area a discapito di carenze rilevanti in altre.

Il sistema di misurazione si basa su prove in grado di indagare capacità fondamentali come la comprensione linguistica, il ragionamento matematico, la memoria di lavoro, la memoria a lungo termine, il recupero di informazioni, l’elaborazione visiva e uditiva, oltre a funzioni esecutive come il ragionamento induttivo e deduttivo. Questo approccio contrasta con valutazioni che utilizzano soltanto compiti linguistici o benchmark ristretti, i quali tendono a misurare la competenza testuale alimentata da grandi quantità di dati di addestramento. La presenza di prove basate su memoria duratura, recupero indipendente, precisione in condizioni di ambiguità e integrazione multimodale obbliga a verificare se il modello possiede realmente capacità trasferibili e strutturate e non si limita a generare risposte plausibili sfruttando correlazioni statistiche.

Nel paper vengono valutati dieci domini cognitivi: conoscenze generali; lettura e scrittura; abilità matematica; ragionamento sul momento; memoria di lavoro; immagazzinamento della memoria a lungo termine; recupero della memoria a lungo termine; elaborazione visiva; elaborazione uditiva; velocità. Ciascun dominio contribuisce in ugual misura al punteggio complessivo. I risultati vengono aggregati in un AGI Score su scala 0–100, che esprime un indice comparativo rispetto all’obiettivo definito. L’impostazione consente di seguire con continuità i progressi dei modelli nel tempo e di affiancare al numero unico un profilo per domini che evidenzia punti di forza e aree deboli.

Applicando questa metodologia a modelli contemporanei, emerge un quadro chiaro del loro stato di sviluppo. Secondo i risultati resi pubblici, GPT-4 ottiene un AGI Score pari a ventisette su cento, mentre GPT-5 raggiunge cinquantotto su cento. Nonostante una crescita significativa, soprattutto nelle aree linguistico-testuali e nel ragionamento matematico, il profilo evidenzia un andamento irregolare. Alcune capacità sono migliorate sensibilmente, in particolare la comprensione del testo e la precisione nelle risposte logiche, ma altre restano a un livello iniziale. La memoria a lungo termine continua a risultare assente, il che significa che i modelli non sono in grado di trattenere informazioni apprese nel corso di interazioni successive. Anche il recupero a lungo termine mostra risultati disomogenei, con difficoltà nel reperire informazioni complesse senza ricorrere a documenti esterni.

Un altro elemento critico riguarda la capacità di elaborazione multimodale con tempi di risposta rapidi. I modelli riescono a gestire testi e immagini in modo coordinato, ma soffrono quando la complessità aumenta e il compito richiede velocità e precisione contemporaneamente. Questi limiti riducono la fluidità operativa e mostrano come molte abilità emergenti derivino da estensioni del contesto o da strumenti ausiliari piuttosto che da un’integrazione cognitiva profonda. Il miglioramento osservato nella generazione di codice, nel ragionamento logico e nella comprensione visiva dimostra che la traiettoria è positiva, ma l’assenza di memoria stabile e di adattamento continuo indica che non è ancora emersa una forma coerente di apprendimento cumulativo.

Il quadro proposto dagli autori fornisce anche un orientamento per le ricerche future. Se la generalità è l’obiettivo, il potenziamento della memoria a lungo termine, la progettazione di meccanismi di apprendimento continuo e lo sviluppo di veri sistemi di recupero interno assumono un ruolo centrale. Allo stesso modo, l’integrazione tra linguaggio, percezione e capacità decisionali richiede architetture capaci di coordinare più livelli di astrazione. La misura introdotta dagli autori chiarisce che non basta aumentare la dimensione dei modelli o la quantità di dati di addestramento; ciò che serve è una crescita equilibrata delle funzioni cognitive fondamentali.

Questo approccio ha il merito di collegare in modo diretto lo stato dei modelli attuali con un obiettivo misurabile e condiviso, evitando definizioni elastiche o prive di fondamento comparativo. L’AGI Score fornisce un indice sintetico, ma al tempo stesso rimanda a una struttura dettagliata che protegge la valutazione da interpretazioni superficiali. La combinazione di definizione chiara, fondamento teorico, struttura per domini e metodologia esplicita rende il quadro valutativo replicabile e tracciabile nel tempo. Il lavoro presentato contribuisce in modo concreto a spostare il dibattito sull’intelligenza artificiale generale da affermazioni generiche a un terreno operativo fondato su criteri osservabili, consentendo una discussione più ordinata sia tra ricercatori sia tra sviluppatori e decisori.