Skip to content Skip to footer
Contenuto sviluppato con intelligenza artificiale, ideato e revisionato da redattori umani.
···

Con Genie 3, Google DeepMind introduce un modello di mondo di carattere generale capace di creare in tempo reale ambienti interattivi eterogenei, navigabili a ventiquattro fotogrammi al secondo con coerenza visiva prolungata fino a diversi minuti e una risoluzione pari a 720p. Il sistema nasce da oltre un decennio di ricerca su simulazioni, apprendimento per agenti e generazione video, un percorso che ha visto tappe intermedie come i modelli Genie 1 e Genie 2 e la famiglia Veo dedicata alla generazione di sequenze coerenti dal punto di vista fisico. L’evoluzione culmina ora in un artefatto che amplia sia la qualità visiva sia la reattività, rendendo possibili sessioni esplorative in cui un utente o un agente virtuale può intervenire continuamente tramite input di navigazione.

Genie 3 opera in modo autoregressivo: ogni fotogramma viene prodotto considerando la traiettoria generata in precedenza e gli input ricevuti istante per istante. Di conseguenza il modello deve richiamare informazioni pertinenti anche a distanza di sessanta secondi, condizione essenziale quando l’utente torna in un’area già visitata. L’ottimizzazione di questo processo, unita a infrastrutture di calcolo ad alta parallelizzazione, consente una latenza compatibile con un’interazione percepita come fluida.

La coerenza ambientale, da sempre nodo critico dei modelli autoregressivi, ha compiuto un salto sostanziale: gli errori di accumulo vengono contenuti mediante meccanismi di memoria che conservano uno stato latente del mondo. Il risultato è un ambiente che mantiene continuità spaziale e temporale pur rimanendo completamente generato, senza ricorrere a rappresentazioni tridimensionali esplicite come NeRF o Gaussian Splatting. Questo approccio frame-by-frame, svincolato da mesh precostruite, permette scenari dinamici: lava che scorre, maree che si infrangono, portali che dischiudono deserti, vegetazione che reagisce a condizioni atmosferiche variabili.

Sul piano delle capacità percettive il modello gestisce fenomeni fisici complessi quali rifrazione dell’acqua, propagazione della luce in ambienti ad alto contrasto, interazioni fra particelle sospese in fluidi e comportamento dei materiali sotto sollecitazioni estreme. Nelle dimostrazioni pubblicate si osservano esplorazioni di zone vulcaniche con flussi lavici accurati, riprese subacquee in profondità abissali e sorvoli in elicottero su falesie costiere, tutti esempi che evidenziano una comprensione intrinseca della cinematica e dell’illuminazione.

L’ambito naturalistico non è l’unico coperto. Genie 3 genera ecosistemi complessi con fauna e flora credibili, ma si spinge anche verso contenuti immaginativi: creature stilizzate in stile cartone animato, origami che prendono vita, interi paesaggi che si trasformano in architetture fluttuanti. Dal punto di vista storico-geografico sono state mostrate ricostruzioni della Venezia contemporanea vista dal vaporetto, del palazzo di Cnosso nell’età minoica e di un’area alpina rocciosa con gole ripide, oltre a scenari urbani moderni come Hinsdale in Illinois o strade a picco sulle montagne dell’India settentrionale.

Un’innovazione specifica è la funzione definita promptable world events. Oltre ai movimenti della camera o del personaggio, l’utente può impartire istruzioni testuali durante l’esperienza, modificando condizioni meteorologiche, inserendo oggetti o alterando la morfologia del terreno. Il modello integra queste variazioni nel flusso di generazione senza interrompere l’interattività, ampliando la gamma di scenari controfattuali utili per la ricerca su agenti che devono gestire situazioni inattese.

Per verificare la robustezza dell’ambiente rispetto all’addestramento di agenti, DeepMind ha collegato Genie 3 a una versione recente di SIMA, agente generalista per ambienti tridimensionali. Gli esperimenti mostrano che, grazie alla maggiore coerenza temporale, l’agente può eseguire sequenze di azioni più lunghe e raggiungere obiettivi complessi, dalla pittura di superfici all’esplorazione controllata di portali interdimensionali. Questa sinergia indica la strada verso un curriculum quasi illimitato in cui addestrare sistemi destinati alla robotica o alla guida autonoma.

Nonostante i progressi, esistono vincoli aperti. L’insieme di azioni direttamente eseguibili dall’utente o dall’agente è ancora circoscritto, l’interazione simultanea tra più agenti indipendenti richiede ulteriori studi e la fedeltà geografica nei confronti di luoghi reali rimane approssimativa. Inoltre, la durata continua di una sessione non supera ancora qualche minuto, e la resa di testo all’interno degli ambienti mantiene un livello di nitidezza accettabile solo se le stringhe sono fornite a priori nella descrizione.

Il team di ricerca e ingegneria dichiara un percorso di rilascio graduale. Genie 3 è disponibile in anteprima limitata per una ristretta cerchia di accademici e creatori, con l’obiettivo di raccogliere feedback interdisciplinari. Nel medio termine, l’infrastruttura potrà aprire opportunità didattiche e formative: studenti e professionisti potrebbero sperimentare simulazioni realistiche o speculative che arricchiscono le competenze attraverso un’immersione interattiva. Al contempo, la possibilità di valutare agenti in scenari complessi consente di individuare fragilità in modo sistematico, favorendo lo sviluppo di soluzioni più robuste.

L’evoluzione verso modelli di mondo sempre più completi incide direttamente sul percorso verso un’intelligenza artificiale generale. Con la terza iterazione di Genie, la generazione di ambienti passa da un’esibizione di coerenza visiva a un vero terreno operativo per agenti capaci di apprendere, pianificare e adattarsi. Il confine fra simulazione e applicazione pratica si assottiglia, aprendo prospettive che spaziano dall’intrattenimento alla prototipazione di robotica avanzata, fino alla ricerca scientifica basata su scenari riproducibili a costo marginale nullo.

Genie 3 dimostra quindi come la simulazione non sia più un semplice supporto visivo, ma un elemento funzionale della pipeline di addestramento e sperimentazione. Le sue caratteristiche di reattività, consistenza e ricchezza semantica costituiscono un progresso rilevante verso piattaforme capaci di ospitare agenti autonomi in condizioni paragonabili per complessità a quelle del mondo fisico, riducendo drasticamente la distanza tra teoria algoritmica e applicazione concreta.