Andrej Karpathy è una delle voci tecniche più ascoltate nel campo dei modelli generativi. Ha guidato lo sviluppo dell’Autopilot in Tesla, ha lavorato su modelli avanzati in OpenAI e oggi affianca attività di ricerca a un progetto educativo che punta a formare ingegneri capaci di costruire agenti e sistemi affidabili. Nell’intervista con Dwarkesh Patel affronta temi sensibili con tono pragmatico: tempi dell’AGI, limiti attuali dei modelli linguistici, apprendimento per rinforzo, guida autonoma e rinnovamento dell’istruzione.
L’orizzonte temporale dell’AGI viene collocato intorno al prossimo decennio. L’idea centrale è che la fase che stiamo inaugurando sarà dominata dagli agenti: software che combinano linguaggio, strumenti, memoria, capacità di agire sul computer e di imparare lungo il tempo. Oggi esiste già una base funzionante, eppure mancano quattro tasselli maturi: memoria di lungo periodo utilizzabile in modo stabile, uso affidabile del computer e delle API da parte dei modelli, multimodalità integrata senza fragilità, apprendimento continuo che non degradi le competenze pregresse. Questo scenario richiede tempo, metodo e un lavoro tecnico costante per consolidare ciò che oggi funziona in modo ancora parziale. I progressi arrivano in modo visibile, soprattutto nell’automazione delle attività d’ufficio e nello sviluppo software, e crescono con il miglioramento dell’infrastruttura, dei dataset curati e dei cicli di valutazione.
Karpathy descrive i difetti cognitivi degli attuali modelli: sanno superare esami difficili e generare testi articolati, mentre faticano nella coerenza di lungo periodo, nella pianificazione con molte dipendenze e nella costruzione di conoscenza condivisa tra più agenti. La strada per chiudere queste lacune passa da un utilizzo degli strumenti più solido e affidabile, contesti lunghi ben gestiti, memorie strutturate e procedure di verifica che riducano improvvisi cali di qualità. L’immagine che ne esce non è cupa: i modelli mostrano margini di crescita netti quando vengono inseriti in workflow di lavoro realistici, con strumenti, vincoli e feedback.
Sull’apprendimento per rinforzo Karpathy è critico. Il problema chiave è la povertà del segnale: dare un premio alla fine di una lunga catena di passaggi trasferisce poche informazioni utili a ogni singolo passo, e l’ottimizzazione si riempie di rumore. Cresce allora l’interesse per la supervisione del processo, cioè l’uso di valutazioni passo-passo anziché valutazioni solo finali. Anche questo approccio ha trappole: se i giudizi vengono affidati a modelli-giudici, emergono casi in cui risposte formalmente ben viste ottengono punteggi alti pur essendo prive di contenuto utile. La lezione è semplice, servono funzioni di feedback più informative e controlli incrociati migliori, un’area dove la ricerca si sta muovendo con soluzioni ibride tra dimostrazioni umane, auto-critica dei modelli e verifiche esterne.
Sul versante economico, Karpathy osserva che l’impatto dell’intelligenza artificiale verrà assorbito come parte del normale ciclo di crescita, con un effetto continuativo piuttosto che esplosivo. La storia recente mostra che trasformazioni tecnologiche radicali, come l’introduzione del computer personale e dello smartphone, hanno modificato la struttura del lavoro e della produzione senza provocare salti improvvisi nei principali indicatori macroeconomici. La ragione è semplice: l’adozione avviene a ritmi diversi tra i settori, si distribuisce su periodi lunghi e genera risultati che emergono in modo cumulativo. Questo approccio ridimensiona le previsioni estreme e porta l’attenzione sul livello operativo, dove imprese e professionisti che includono agenti intelligenti nelle attività quotidiane registrano aumenti di produttività tangibili. La somma progressiva di questi benefici locali diventa nel tempo il motore della crescita complessiva.
La guida autonoma è l’esempio più chiaro di quanto sia lungo il tragitto dalle demo alla produzione. Portare un sistema a livelli di affidabilità vicini all’uso universale richiede l’aggiunta progressiva di nuovi “nove” dopo la virgola, e ogni incremento comporta uno sforzo tecnico di ordine superiore rispetto al precedente. Ogni passo elimina una classe di errori e ne rivela altri, spesso rari e difficili da riprodurre. Anche oggi, dove i progressi sono reali, l’operatività coinvolge costi, infrastrutture e controllo sul campo più estesi di quanto si percepisca dall’esterno. La stessa dinamica vale per agenti di codifica o assistenti che toccano sistemi critici: l’ultima parte del cammino è la più dura, però è anche quella che consolida la fiducia degli utenti e apre a usi più ampi.
L’educazione occupa l’ultima parte dell’intervista. Karpathy immagina un’istituzione snella e di alto livello, con corsi intensivi e una piattaforma digitale accessibile, capace di formare ingegneri che conoscono teoria e pratica dei modelli moderni. Il tutor intelligente personale resta un obiettivo affascinante, oggi ancora incompleto. Nel frattempo, corsi come LLM101N (un corso open source di Andrej Karpathy per imparare a costruire da zero un modello linguistico capace di raccontare storie) mostrano un approccio concreto: materiali aggiornati, progetti guidati, attenzione al codice e ai dettagli di ingegneria. L’adozione di assistenti durante lo studio viene vista come leva per aumentare il tempo effettivo di pratica, fornire spiegazioni immediate e alzare l’asticella degli esercizi senza perdere gli studenti per strada.

