Skip to content Skip to footer

Veo 3: l’AI di Google DeepMind per video ad alta fedeltà

Veo 3 è il nuovo modello di intelligenza artificiale generativa sviluppato da Google DeepMind, progettato per creare video ad alta fedeltà completi di audio a partire da semplici prompt di testo (e opzionalmente immagini). In termini tecnici, Veo 3 rappresenta lo stato dell’arte nella generazione di video da testo, incorporando algoritmi avanzati di visione artificiale e audio sintetico. In parole più semplici, Veo 3 è un “regista virtuale” a cui basta descrivere una scena perché la trasformi in un breve filmato realistico con suoni e dialoghi. Google ha presentato Veo 3 nel 2025 come evoluzione dei precedenti modelli Veo, sottolineandone il grande salto di qualità nella risoluzione, nel realismo e nella capacità di seguire istruzioni complesse. Veo 3 conlude l’era ‘muta’ dei video generati da AI, essendo uno dei primi modelli a integrare pienamente la generazione audio insieme al video.

Dal punto di vista applicativo, Veo 3 è pensato per filmmaker, creatori di contenuti e storyteller: permette di generare clip video di qualche secondo con qualità cinematografica, per poi unirle in sequenze più lunghe tramite lo strumento dedicato chiamato Flow. Nel prosieguo, esploreremo nel dettaglio il funzionamento tecnico di Veo 3 – dalla sua architettura alle sue capacità – spiegando ogni aspetto due volte: prima nel linguaggio degli addetti ai lavori e poi in termini semplici per tutti i lettori. Verranno inoltre confrontate le prestazioni di Veo 3 con quelle di altri modelli di video generativi noti (OpenAI Sora, Runway Gen-3) per evidenziarne differenze in qualità, durata, coerenza e creatività.

Architettura e funzionamento

Veo 3 adotta un’architettura basata su diffusione latente multimodale. In particolare, utilizza un modello di latent diffusion (diffusione latente) che opera contemporaneamente su rappresentazioni compresse del video e dell’audio. Ciò significa che durante la generazione, il video (sequenza di fotogrammi) e l’audio vengono compressi tramite autoencoder in uno spazio latente; un’unica rete neurale funge da denoiser (basata su Transformer) rimuovendo progressivamente il rumore dalle rappresentazioni compresse di video e audio, secondo quanto appreso durante l’addestramento. In questo modo, il modello genera l’intero video e la colonna sonora in parallelo, raffinando progressivamente un input di rumore gaussiano fino ad ottenere il risultato desiderato. In termini più semplici, Veo 3 crea video con audio usando un processo graduale molto intelligente: parte da “nebbia” di rumore e pian piano “dipinge” le immagini dei fotogrammi e i suoni, migliorandoli passo dopo passo finché non ottiene una scena chiara e coerente. Invece di generare un fotogramma alla volta separatamente, il modello pensa al video come a un blocco unico nel tempo: questo gli consente di mantenere fluidità tra i frame e sincronizzare ciò che si vede con ciò che si sente. In altre parole, l’architettura di Veo 3 assicura che video e audio vengano creati insieme e restino allineati – ad esempio, se il video mostra un bicchiere che cade, l’audio prodotto avrà il suono sincronizzato del bicchiere che tintinna a terra nello stesso istante.

Un aspetto chiave dell’architettura è la gestione spazio-temporale dei dati video. Tecnicamente, Veo 3 denoising opera su “latenti spazio-temporali”, ovvero su rappresentazioni 3D in cui due dimensioni codificano l’immagine e una dimensione aggiuntiva codifica il tempo (l’avanzamento dei frame). Il ‘cervello’ di Veo 3 non vede i singoli fotogrammi isolati, ma vede il video come una sequenza intera: così può prevedere come ogni immagine si evolve dalla precedente, evitando sfarfallii o incoerenze da un frame all’altro. Ad esempio, se in una scena appare un personaggio, grazie a questa architettura il modello ne mantiene l’aspetto identico in tutti i fotogrammi successivi, invece di farlo comparire e scomparire in modo incoerente tra un fotogramma e l’altro. Allo stesso modo, i movimenti della camera virtuale o degli oggetti risultano fluidi, perché Veo 3 “ragiona” direttamente in termini di video continuo e non di fotogrammi statici.

Infine, la capacità multimodale dell’architettura significa che Veo 3 integra due canali: uno visivo e uno sonoro. Il modello include un encoder e decoder per l’audio (per comprimere e poi ricostruire l’onda sonora) e uno per il video (per comprimere e generare i pixel dei frame). Entrambi convergono nel processo di diffusione latente. In pratica, è come se Veo 3 avesse due sensibilità: occhio e orecchio elettronici. “Vede” immagini sfuocate e “sente” rumore inizialmente, poi affina entrambi fino a far emergere una scena visiva nitida accompagnata dai suoni appropriati. Questo approccio unificato fa sì che ciò che succede nell’immagine e ciò che si ascolta vadano di pari passo senza bisogno di montaggi esterni.

Input accettati e formato di output

Dal punto di vista tecnico, il modello può essere guidato — ovvero condizionato — sia da stringhe di testo (prompt descrittivi) che da immagini statiche fornite come riferimento visivo. Il prompt testuale viene elaborato da un potente encoder linguistico (basato su modelli di grandi dimensioni di Google) che produce una rappresentazione interna ricca di sfumature semantiche. Questo consente a Veo 3 di “comprendere” istruzioni sia semplici che molto dettagliate. Inoltre, fornire un’immagine di input permette al modello di ancorare la generazione video a uno specifico contesto visivo: tecnicamente, anche l’immagine viene trasformata in una rappresentazione latente — una forma compressa e astratta dei suoi contenuti visivi — e integrata nel processo di generazione attraverso meccanismi di cross-attention, che permettono al modello di prestare attenzione contemporaneamente sia al prompt testuale che alle caratteristiche visive estratte dall’immagine (il modello presta attenzione congiunta al prompt testuale e alle caratteristiche visive dell’immagine). In breve, con Veo 3 puoi descrivere la scena che vuoi ottenere con una frase, e volendo puoi anche dargli una foto come esempio: l’AI userà quelle informazioni per capire cosa creare. Il testo fornisce il copione della scena, mentre un’eventuale immagine fornisce l’ispirazione visiva (come un’ambientazione o un personaggio da includere). Ad esempio, potremmo dare a Veo 3 la descrizione “un tramonto sul mare con un vecchio marinaio che fuma la pipa in coperta” assieme a una foto del volto di un attore: il modello genererà un breve video in cui quel marinaio, somigliante alla foto data, è ripreso sulla nave al tramonto, con tanto di suono delle onde e magari una battuta pronunciata con voce burbera.

Formato di output: Veo 3 produce video ad alta risoluzione con audio integrato come output finale. Tecnicamente, la risoluzione massima supportata è fino al 4K (3840×2160 pixel), un livello di dettaglio elevatissimo per un modello generativo. Questo rappresenta un salto in avanti rispetto a generazioni precedenti (molti modelli concorrenti lavorano tipicamente a risoluzioni HD o inferiore). Per fare un paragone comprensibile: 4K vuol dire che le immagini video di Veo 3 hanno quattro volte i pixel del Full HD 1080p, quindi possono essere nitide anche su schermi molto grandi, senza l’effetto sgranato. Ogni frame è ricco di dettagli, texture e luci realistiche – come si vede nel video precedente, dove l’immagine è così ben definita da sembrare una ripresa cinematografica.

Per quanto riguarda la durata dei video generati, Veo 3 attualmente è ottimizzato per clip brevi, tipicamente di circa 5-8 secondi ciascuna. In ambiente Flow (l’applicazione di Google per la creazione video AI), l’utente costruisce il suo video unendo più clip di questa lunghezza: Flow consente di “montare” varie scene generate, cucendole in successione per ottenere sequenze più lunghe. Questa scelta progettuale (limitare le singole generazioni a pochi secondi) aiuta a garantire la massima qualità e coerenza all’interno di ogni clip. Tecnicamente, generare video molto lunghi in un singolo passaggio è ancora difficile per i modelli di diffusione, perché gli errori e le incoerenze tendono ad accumularsi su periodi estesi. Concentrandosi su scene brevi, Veo 3 mantiene il controllo sulla qualità di ogni frammento e può sfruttare Flow per gestire i passaggi da una scena all’altra. Va sottolineato che 8 secondi sono un valore indicativo: a seconda della complessità della scena e della potenza di calcolo a disposizione, Veo 3 potrebbe generare clip leggermente più lunghe o più corte. Ad esempio, un’animazione molto dettagliata a 4K richiede molto calcolo per ogni secondo di video, quindi c’è un naturale bilanciamento tra risoluzione, complessità e durata.

Veo 3 supporta inoltre vari formati e rapporti d’aspetto, per adattarsi a diverse esigenze creative. Anche se la documentazione specifica di Veo non lo menziona esplicitamente, è ragionevole aspettarsi che – analogamente a modelli concorrenti – consenta output orizzontali 16:9, verticali 9:16 o quadrati 1:1, in modo da coprire scenari da cinema, da smartphone (storie social) o da post quadrati. Infatti, la sua integrazione in servizi cloud (Vertex AI) e tool come Flow mira proprio a dare ai creatori la libertà di scegliere il formato adatto alla piattaforma di destinazione.

Coerenza temporale e coerenza semantica

Un elemento critico nella generazione di video è assicurare coerenza temporale, cioè fluidità e continuità da un fotogramma al successivo, e coerenza semantica, ossia mantenere il senso logico e narrativo della scena. Veo 3 affronta entrambe le sfide con soluzioni all’avanguardia.

Dal punto di vista tecnico, la coerenza temporale è favorita intrinsecamente dalla struttura a diffusione spazio-temporale già descritta: il modello genera i frame in modo correlato, anziché indipendente, perché “vede” il video come una sequenza unitaria. Questo riduce drasticamente fenomeni di flickering (sfarfallio) o oggetti che appaiono/scompaiono ingiustificatamente tra un frame e l’altro. Inoltre, Veo 3 introduce miglioramenti specifici per la consistenza dei personaggi e degli elementi visivi: ad esempio, i suoi algoritmi di generazione assicurano che un personaggio mantenga gli stessi tratti (abbigliamento, colori, posizione) per tutta la durata della clip, e se la camera cambia angolazione l’aspetto del personaggio viene rigenerato in modo consistente da più punti di vista. Veo 3 ha un notevole “senso della continuità”. Se inizia una scena con un certo sfondo e un certo protagonista, terrà tutto costante e credibile da inizio a fine clip: lo sfondo non cambierà magicamente colore a metà, e il protagonista non si trasformerà in qualcos’altro mentre il video procede. Un esempio concreto sono i volti e i dialoghi: Veo 3 riesce a far corrispondere i movimenti delle labbra di un personaggio alle parole pronunciate in audio con alta precisione. Tecnicamente questo implica che il modello coordina la generazione audio (fonemi) con quella video (movimento della bocca frame-by-frame) attraverso un attento allineamento temporale. In pratica, se un personaggio nel video dice “Ciao”, vedremo la sua bocca articolare chiaramente quella parola nel momento giusto, invece di muoversi a caso: un miglioramento enorme per evitare l’effetto marionetta poco convincente che spesso affliggeva i volti animati dall’AI. Anche micro-espressioni del viso, movimenti degli occhi e gestualità vengono gestiti in armonia col parlato, riducendo l’effetto uncanny valley (quella sensazione di “stranezza” di fronte a volti animati non perfettamente naturali).

Un altro aspetto della coerenza temporale è la simulazione di fisica realistica nel tempo: Veo 3 è stato progettato per rispettare il più possibile le leggi di causa-effetto nel mondo reale. Dal lato tecnico, ciò è reso possibile sia da un training su molti video reali (che insegnano al modello come si muovono davvero acqua, fuoco, oggetti, ecc.), sia dall’incorporazione di moduli specializzati (ad esempio potrebbe usare reti neurali che apprendono vincoli fisici). Il risultato è che Veo 3 riproduce fenomeni dinamici con notevole accuratezza: liquidi che scorrono seguendo la gravità, oggetti che si infrangono e spargono frammenti in modo credibile, movimenti che rispettano inerzia e impatto. Se c’è una scena sotto la pioggia, le gocce d’acqua cadranno verticalmente e creeranno schizzi coerenti, e non saliranno certo all’insù! Questo livello di realismo temporale non serve solo a fare bella figura: è fondamentale per l’immersione narrativa. Pensiamo a una corsa automobilistica generata dall’AI: Veo 3 farà vibrare la camera come succede davvero a certe velocità, vedremo i veicoli rimbalzare su buche e sterzare rispettando la loro massa, creando la sensazione autentica di un rally off-road (un esempio di prompt di questo tipo è stato eseguito con successo, mostrando veicoli che sollevano schizzi di fango e acqua in 8 secondi di gara).

Per quanto riguarda la coerenza semantica, cioè il rispetto della logica interna della scena e del prompt, Veo 3 mostra notevoli progressi. Durante l’addestramento, Veo 3 ha beneficiato di un’annotazione testuale multilivello: ogni video è stato descritto con didascalie su più livelli di dettaglio (da quelle generali fino a descrizioni molto precise delle azioni, delle scene e dei suoni) ottenute sfruttando i modelli linguistici Gemini di Google. Ciò ha insegnato a Veo 3 a collegare in modo profondo il testo con ciò che avviene nel video, aiutandolo a comprendere prompt complessi e lunghi mantenendo il filo narrativo. Inoltre, l’architettura di diffusione con Transformer consente di gestire anche prompt che descrivono successioni di eventi: il modello è in grado di generare una clip dove accade prima A poi B poi C, nell’ordine corretto, senza confondere la sequenza. Veo 3 non si perde nei racconti complicati: se gli si chiede “prima inquadra X, poi fai vedere che succede Y”, lui seguirà quelle istruzioni nell’ordine giusto. Ad esempio, se il prompt dice: “Un video inizia con un campo lungo su una città, poi la telecamera zooma su una finestra specifica e infine entra nella stanza mostrando un gatto sul letto”, Veo 3 sarà capace di realizzare esattamente quella serie di azioni nella clip. Questo è notevole, perché i modelli precedenti spesso faticavano: ad esempio, OpenAI ha segnalato che la sua AI Sora a volte falliva nel capire la causalità o l’ordine degli eventi (un caso citato è un branco di lupacchiotti che magicamente si duplicavano e confondevano la scena). Veo 3, grazie al training potenziato e a un migliore parsing del prompt, risulta molto più aderente alle istruzioni anche complesse. Un tester ha descritto come “prompt cinematografici complicati, con angoli di ripresa specifici o effetti come slow-motion, vengono effettivamente rispettati: scrivi di una ripresa aerea con drone su una foresta nebbiosa all’alba e Veo 3 te la fornisce davvero; chiedi la pioggia al rallentatore in un vicolo stretto, e ti arriva esattamente quella scena”.

Naturalmente, “coerente” non significa infallibile. Nonostante i grandi progressi, Veo 3 può ancora incappare in occasionali bizzarrie semantiche, specialmente se il prompt chiede qualcosa di altamente astratto o intrinsecamente ambiguo. Ad esempio, se gli si chiede una metafora visiva molto surreale, il modello potrebbe mescolare interpretazioni letterali e figurative. Tuttavia, in contesti più concreti o narrativi, Veo 3 è finora il modello che più si avvicina a capire l’intento dell’utente in tutta la sua complessità. Uno dei segreti dietro questa capacità è la stretta integrazione con le competenze linguistiche dei modelli di Google durante la generazione: Veo 3 eredita un “sapere” sul mondo e sul linguaggio che lo aiuta a non perdere il senso del discorso. Possiamo dire che Veo 3 ha un’ottima memoria a breve termine per la scena che sta creando e una buona capacità di ragionare sul contesto, il che si traduce in video dove tutte le parti – immagini in movimento e suoni – raccontano insieme la storia che volevamo, in modo credibile e ben collegato.

Addestramento e dataset

L’efficacia di Veo 3 deriva in larga parte dal modo in cui è stato addestrato e dai dati utilizzati. In fase di training, Google DeepMind ha impiegato un vasto dataset multimediale composto da video, tracce audio e immagini, accompagnati da descrizioni testuali dettagliate. La costruzione del dataset anziché affidarsi esclusivamente a didascalie brevi fornite dagli autori dei video (spesso sommarie o inesistenti), il team ha utilizzato i modelli linguistici Gemini per generare descrizioni multi-livello del contenuto dei video. In pratica, per ogni clip venivano prodotte didascalie a diversi gradi di granularità – ad esempio una descrizione generale (“una persona cammina in una stanza con un gatto sul letto”) e poi via via descrizioni più dettagliate di ogni azione o elemento saliente (“la persona indossa un cappotto rosso, il gatto si muove leggermente, la luce proviene dalla finestra a destra”, ecc.). Questo processo è chiamato re-captioning: l’AI genera testi di descrizione sulle scene per arricchire i dati di training. Ogni video è stato spiegato all’AI nei minimi dettagli, così l’AI poteva imparare esattamente cosa stava succedendo. Immaginiamo di mostrare all’AI un video di un cane che salta per prendere una palla: oltre al video stesso, gli hanno fornito una specie di telecronaca-testuale della scena, dicendole chi è il protagonista (il cane), cosa fa (salta), cosa c’è nell’ambiente (una palla, un prato, etc.), e persino eventuali suoni (“abbaio felice, rumore dei passi sull’erba”). Questo aiuta tantissimo l’AI a collegare le parole giuste alle immagini e ai suoni corrispondenti.

Inoltre, Veo 3 è stato addestrato combinando dati video con dati statici (immagini). Questa scelta è strategica: le immagini ad alta risoluzione (ad esempio fotografie) forniscono dettagli visivi nitidi da cui il modello impara a generare frame molto definiti, mentre i video forniscono la dinamica temporale e la coerenza del movimento. È un po’ come far frequentare a Veo 3 sia una scuola di pittura (per imparare a disegnare singoli quadri perfetti) sia una scuola di cinema (per imparare a unire quei quadri in una sequenza logica). Il risultato è che sa fare bene entrambe le cose: ogni fotogramma del video è curato nei dettagli come una bella foto, e tutti i fotogrammi insieme scorrono fluidi come un film. Runway, nel presentare il suo modello Gen-3, ha evidenziato proprio i benefici di un training congiunto su immagini e video, che migliora fedeltà e consistenza – e Veo 3 segue la medesima filosofia.

Quanto al volume dei dati, non ci sono cifre pubbliche precise, ma si parla di un dataset di dimensioni estremamente grandi (potenzialmente milioni di video e immagini). Google ha accesso a fonti diversificate: video pubblici (ad esempio da YouTube con licenze adeguate), contenuti di archivio, dataset utilizzati anche per modelli precedenti come Phenaki o Imagen Video, oltre a contenuti sonori. È importante notare che tutti i dati sono stati filtrati e curati con attenzione: il team ha rimosso didascalie inadeguate, informazioni personali e contenuti non idonei, applicando filtri di sicurezza e qualità. In altre parole, hanno setacciato il materiale eliminando quello che poteva insegnare cose sbagliate o inappropriate all’AI. Nessun video violento o esplicito, niente dati privati. Hanno anche cercato di togliere duplicati, cioè video troppo simili tra loro, così l’AI non impara troppe volte la stessa scena evitando di diventare “pigra” e ripetitiva. Tutto il dataset è stato deduplicato semanticamente: ciò significa che se c’erano due video quasi uguali (magari copie dello stesso evento), uno veniva scartato per non sovrappesare quei contenuti. Questo riduce anche il rischio che Veo 3 semplicemente “ricordi a memoria” un certo video restituendolo tale e quale – invece, deve imparare concetti generali e saperli combinare in modi nuovi.

L’addestramento vero e proprio è avvenuto su infrastrutture di calcolo su larga scala (cluster di GPU o TPU) date le dimensioni del modello e dei dati. Possiamo immaginare che Veo 3 abbia miliardi di parametri tra componenti video, audio e text encoder, il che lo colloca tra i modelli generativi più pesanti. Google non ha rivelato i numeri esatti, ma la complessità è paragonabile a quella di DALL-E 3 + un modulo video + un modulo audio. Ad esempio, OpenAI Sora è un modello di diffusione latente con un Transformer come denoiser – molto simile concettualmente – e il suo training ha richiesto centinaia di migliaia di ore-GPU su enormi dataset video. Veo 3, aggiungendo l’audio e puntando al 4K, avrà spinto ancora più in alto il fabbisogno computazionale. In termini meno tecnici, addestrare Veo 3 è stato come addestrare un esercito di piccoli cervelli elettronici: hanno dovuto fargli vedere tantissimi esempi e farglieli rivedere più e più volte finché non “catturava” i pattern giusti. Questo processo è avvenuto su super-computer di Google per molti giorni (o settimane), facendo macinare quantità enormi di dati al modello finché non ha imparato a generare video convincenti.

Capacità di comprensione del prompt

Una delle aree in cui Veo 3 eccelle è la comprensione e l’aderenza al prompt dell’utente, anche quando il prompt è complesso, lungo o ricco di dettagli tecnici/artistici. Abbiamo già accennato ai fattori che contribuiscono a ciò: un encoder testuale potente e un training con didascalie estremamente dettagliate. Qui riepiloghiamo e approfondiamo tali capacità.

In termini specialistici, Veo 3 dispone di un modulo di interpretazione del prompt ottimizzato per estrarre sia le informazioni oggettive (cose da mostrare, azioni da compiere, suoni da produrre) sia lo stile richiesto (ad esempio “ripresa a volo d’uccello”, “stile cartone animato anni ’90”, “tono cupo e drammatico”). Questo modulo potrebbe basarsi su architetture Transformer di grande taglia pre-addestrate (tipo T5 o direttamente parti di Gemini) in grado di effettuare prompt parsing molto preciso. Il risultato è che il condizionamento testuale fornito al modello di generazione non è una semplice embedding generica, ma porta con sé un ricco context strutturato: in altre parole, Veo 3 sa esattamente quali elementi chiave deve rappresentare e quali vincoli stilistici seguire. Ad esempio, un prompt lungo come quello mostrato nella demo (una corsa fuoristrada con dettagli su telecamera, ambiente, veicoli, suoni, in 8 secondi) viene scomposto internamente in sotto-istruzioni: “ambiente=foresta fangosa, veicoli=buggy e pickup modificati, stile ripresa=shaky cam documentaristica, eventi=il buggy attraversa il fiume, effetti=schizzi di fango alti, audio=motori rombanti + schizzi + rumore trasmissioni, durata ~8s”. Veo 3 è bravissimo a leggere tra le righe del prompt. Se gli scriviamo un paragrafo intero pieno di dettagli, lui non va in confusione: prende nota di tutto come farebbe un bravo regista con la sceneggiatura in mano. Sa chi sono i protagonisti, dove si svolge la scena, che atmosfera vogliamo, e persino come muovere la “telecamera virtuale”. Ogni frase del nostro prompt diventa un pezzetto del piano di regia che Veo realizzerà.

Nei test, è emerso che Veo 3 segue i prompt “come mai prima” – citando le parole di Google stesso. Questo vuol dire che scene molto dettagliate descritte dall’utente vengono rispettate con sorprendente accuratezza senza bisogno di innumerevoli tentativi. La maggior parte delle volte basta fornire una descrizione precisa e Veo 3 produce un video che corrisponde, evitando interpretazioni arbitrarie. Per fare un paragone concreto: con modelli precedenti, se chiedevi “un gatto a righe rosse e blu che balla il tango su un tetto al tramonto”, spesso dovevi accontentarti magari di un gatto generico che ballava e colori sbagliati sullo sfondo. Con Veo 3, hai davvero buone probabilità di vedere proprio quel gatto assurdo con strisce rosse e blu che danza tango sul tetto mentre dietro il cielo è rosso fuoco del tramonto. Questa fedeltà al prompt fa risparmiare tempo ai creativi, perché riduce il trial-and-error: invece di dover correggere o aggiustare il prompt molte volte per ottenere il risultato voluto, Veo 3 tende a “prenderci” al primo colpo o quasi. Ciò è stato confermato dai primi utilizzatori: “Minimizza il ciclo di tentativi-ed-errori dei modelli precedenti restando fedele tanto alle descrizioni semplici quanto a quelle altamente specifiche”.

Infine, la comprensione del prompt di Veo 3 non si limita a cogliere gli oggetti e le azioni, ma riguarda anche le sfumature creative. Il modello appare sensibile allo stile richiesto: se il prompt dice “in stile cartone animato” o “atmosfera da film horror anni ’80”, Veo 3 adatterà di conseguenza l’estetica del video (colori, illuminazione, tipo di disegno dei personaggi, ecc.). Questo perché durante l’addestramento ha visto molti esempi contestualizzati di generi e stili diversi, imparando ad associare certi termini a precise scelte visive. Ad esempio, se nel prompt diciamo “in uno stile pixel art anni ’80” possiamo ottenere un video che sembra un vecchio videogioco a 8-bit, mentre dicendo “stile anime giapponese” i personaggi avranno tratti da cartone animato giapponese, e così via. Questa adattabilità creativa rende Veo 3 uno strumento estremamente duttile: può generare sia scene iper-realistiche e ricche di dettagli fotografici, sia sequenze immaginarie completamente fuori dagli schemi realistici, il tutto seguendo la direzione impartita dal prompt.

Limiti e considerazioni su Veo 3

Nonostante Veo 3 rappresenti un passo avanti significativo, è importante riconoscerne i limiti attuali – sia intrinseci al modello che volutamente imposti per motivi di sicurezza. Google stessa, nella model card e nei report, evidenzia alcune aree in cui c’è spazio per miglioramento.

Limiti tecnici: Un limite specifico dichiarato è la difficoltà nel generare parlato perfettamente naturale e sincronizzato in alcuni casi. Veo 3 può produrre dialoghi e voci, ma creare un parlato che sembri totalmente umano – specialmente per spezzoni vocali brevi o interiezioni – è ancora complesso. Google indica che stanno continuando a lavorare per affinare la sincronizzazione audio-video ed eliminare eventuali segmenti di parlato poco coerenti. Questo non sorprende, perché generare voce umana realistica è un campo di per sé molto difficile; Veo 3 lo affronta integrandolo nel video, ma resta una sfida aperta raggiungere il livello di una voce umana indistinguibile.

Un altro limite è inerente alla durata: come discusso, Veo 3 è orientato a clip brevi. Se provassimo forzosamente a generare un video molto più lungo in un unico passaggio (ammesso che l’interfaccia lo consenta), probabilmente incontreremmo incoerenze crescenti man mano che il video procede. Veo 3 non può ancora “girare un lungometraggio” senza intervento umano: la sua memoria e consistenza affidabile si estendono su pochi secondi, dopodiché andrebbe “rinfrescato” con un nuovo prompt. Questo, comunque, è mitigato dall’uso di Flow che consente di costruire storie lunghe come composizione di scene più brevi.

In certe situazioni, Veo 3 potrebbe ancora generare errori visivi quando è messo sotto pressione da richieste estremamente complesse. Ad esempio, se la scena ha troppi elementi in interazione intricata (immaginiamo: “dieci persone che si passano oggetti diversi l’una con l’altra in una stanza con specchi”), il modello potrebbe sbagliare qualche dettaglio – un oggetto che sparisce, un riflesso che non corrisponde esattamente – perché stiamo oltrepassando i limiti di ciò che ha appreso con piena affidabilità. Allo stesso modo, la riproduzione di testo scritto nel video (ad es. insegne, cartelli) resta un problema: generare stringhe di testo visivamente corretto frame dopo frame è notoriamente difficile per i modelli di diffusione (spesso producono caratteri gibberish). Imagen 4, il modello di immagini di Google lanciato assieme a Veo 3, migliora nella scrittura leggibile, ma per video è probabile che Veo 3 ancora fatichi su questo fronte, quindi se nel video compare un cartello stradale è possibile che la scritta sopra non abbia senso oppure cambi tra i frame. Se chiediamo a Veo 3 di far vedere una prima pagina di giornale nel video, è meglio non aspettarsi che si riesca a leggere il titolo: è più probabile che esca un testo confuso.

Un aspetto importante è che Veo 3 – come tutti i modelli generativi – non “capisce” realmente al livello umano il significato profondo di ciò che fa. Se il prompt contiene concetti ambigui o che richiedono buon senso avanzato, il modello potrebbe scegliere un’interpretazione sbagliata. Ad esempio, un prompt come “una persona tira la corda” potrebbe essere interpretato come qualcuno che gioca a tiro alla fune, oppure che suona una corda di strumento musicale, e l’AI deve un po’ indovinare dal contesto cosa intendiamo. Se il contesto non è chiaro, Veo potrebbe generare una scena diversa da quella voluta. Qui entra in gioco la capacità dell’utente di scrivere prompt chiari: Veo 3 segue molto fedelmente le istruzioni, ma ovviamente solo nei limiti di come le “comprende”.

Limiti di sicurezza e filtri: Google ha implementato robusti filtri e restrizioni in Veo 3 per evitare usi impropri. Ad esempio, Veo 3 rifiuta o altera richieste che coinvolgano contenuti violenti estremi, sessuali espliciti, odio o disinformazione. Questo è in linea con le policy AI dell’azienda: sono vietate generazioni che potrebbero creare danni o contenuti illegali. Se si prova a chiedere un video con scene cruente o atti illegali, il sistema potrebbe rifiutare di generarlo o applicare filtri (es. oscurare). Inoltre, Veo 3 non genera immagini di persone reali esistenti (per evitare deepfake): ad esempio, non potremo far recitare il Presidente della Repubblica in una scena fittizia, perché sarebbe bloccato.

Ogni video generato da Veo 3 è marchiato con un watermark digitale invisibile chiamato SynthID. Si tratta di segnali nascosti nei pixel (o nei frame audio) che non alterano l’aspetto o il suono per l’osservatore umano, ma che possono essere rilevati da un apposito software per verificare che il contenuto è stato generato da AI Google. Questo è un elemento cruciale di uso responsabile: con la diffusione dei video generati, cresce il rischio di deepfake e disinformazione, quindi Google integra già un sistema per tracciare l’origine dei video di Veo 3. Anche OpenAI adotta un sistema simile (metadati C2PA per Sora), segno che l’industria sta convergendo sul watermarking come misura standard. Un limite relativo a SynthID è che, se un video generato viene fortemente modificato o ricompresso, il watermark potrebbe degradarsi – ma in generale Google afferma che resta rilevabile anche dopo vari passaggi comuni (es. ritaglio, ricompressione).

Infine, Va sottolineato che Veo 3 richiede risorse di calcolo considerevoli per funzionare. Al momento è accessibile attraverso servizi cloud (Vertex AI, Google AI Studio) con abbonamenti di livello elevato (piani Pro e Ultra). Ciò significa che per l’utente comune c’è una barriera d’ingresso: a differenza di modelli più leggeri che si possono provare gratuitamente con poche immagini, Veo 3 è disponibile principalmente a professionisti o aziende disposte a investire in crediti cloud. Questo limite è più “pratico” che tecnico, ma è da considerare: almeno nel 2025, generare video 4K con AI è un’operazione costosa e Veo 3 non fa eccezione. Col tempo i costi potrebbero abbassarsi e l’accesso ampliarsi (proprio come è accaduto con le immagini generative), ma allo stato attuale Veo 3 è un prodotto top di gamma mirato a un’utenza professionale.

Confronto tra Veo 3 e altri modelli di video generazione

Veo 3 non è l’unico modello di AI in grado di generare video a partire da testo (e immagini). Negli ultimi tempi sono emerse diverse soluzioni, ognuna con i propri punti di forza e debolezze. Di seguito confrontiamo Veo 3 con alcuni dei modelli più noti: Sora di OpenAI, Runway Gen-3. Analizzeremo le differenze in termini di qualità visiva, durata supportata, coerenza temporale, creatività visiva e capacità di seguire prompt complessi.

OpenAI Sora

Qualità visiva e risoluzione: Sora è il modello text-to-video di OpenAI, rilasciato al pubblico a fine 2024, ed è anch’esso basato su diffusione latente con architettura diffusion transformer. La qualità dei video di Sora è alta, ma Veo 3 attualmente la supera in alcuni aspetti. In particolare, Veo 3 può generare video fino a risoluzione 4K, mentre Sora al momento è limitato a 1080p (Full HD) per gli utenti comuni. Questo significa che i video di Veo possono essere quattro volte più dettagliati di quelli di Sora, risultando più nitidi e adatti a schermi grandi. Dal punto di vista del realismo, entrambi i modelli puntano a un output fotorealistico, ma Google sostiene che Veo 3 eccelle in realismo fisico e fedeltà, in parte grazie all’integrazione nativa dell’audio (che costringe il modello a rispettare anche il lato sonoro degli eventi). OpenAI stessa ha ammesso che Sora a volte genera fisica irreale (oggetti che si muovono in modi innaturali) e fatica con azioni complesse prolungate. Veo 3, come visto, gestisce fluidi, gravità e interazioni fisiche con maggior precisione, quindi sul fronte “realismo complessivo” Veo 3 ha un vantaggio. Per esempio, Sora poteva sbagliare concetti come sinistra vs destra o far comparire duplicati in scene affollate, mentre Veo 3 è stato progettato per mantenere una logica più solida negli eventi (successioni corrette, niente elementi che appaiono dal nulla senza motivo).

Durata massima e continuità: Sora consente di generare video più lunghi per singolo prompt rispetto a Veo 3. Con Sora gli utenti possono ottenere clip fino a 20 secondi (e i ricercatori hanno mostrato anteprime fino a 60 secondi in casi d’uso particolari). Veo 3, al contrario, produce singole clip di circa 5-8 secondi normalmente. Ciò significa che, sebbene Veo 3 possa raggiungere una qualità superiore frame-by-frame, Sora offre la possibilità di avere una scena continuativa più lunga in un solo colpo. Ad esempio, per fare una breve storia di 15 secondi, con Sora potrebbe bastare un prompt, mentre con Veo 3 bisogna in genere generarne due da 8 secondi e unirli. Va però notato che Sora fatica su azioni complesse “over long durations”, come riconosciuto da OpenAI: dunque, se proviamo a riempire quei 20 secondi con troppi eventi, Sora rischia di perdere coerenza. Veo 3 preferisce segmentare, mantenendo ogni blocco breve ma altamente coerente. In termini di continuità temporale, Sora e Veo 3 usano entrambi l’approccio di diffusione spazio-temporale, quindi entrambi producono video abbastanza fluidi. Tuttavia, feedback iniziali indicano che Veo 3 ha personaggi più stabili (meno morphing indesiderato) e transizioni più morbide, probabilmente grazie ai miglioramenti su character consistency e training più ampio. Sora nelle sue prime versioni mostrava talvolta piccoli glitch, ad esempio un soggetto che all’ultimo frame ha un dettaglio diverso dal primo frame, mentre Veo 3 tende a mantenere la scena consistente dall’inizio alla fine.

Audio e multimodalità: Qui c’è una differenza netta: Sora genera solo il video (immagini), senza audio. I video di Sora escono muti, al più accompagnati da una musica generica solo se la piattaforma che lo ospita (ad esempio Bing) aggiunge qualcosa di proprio. Non c’è generazione di suoni specifici della scena in Sora. Veo 3 invece produce audio e persino dialoghi sincronizzati con il video. Questo dà a Veo un grande vantaggio in termini di immersività e praticità: l’utente ottiene un risultato completo. Nel workflow con Sora, invece, bisognerebbe poi aggiungere manualmente suoni o musica. È probabile che OpenAI in futuro integri un modulo audio, ma attualmente Veo 3 è in una categoria a parte come generatore video+audio.

Creatività visiva e aderenza al prompt: Entrambi i modelli sono molto creativi, ma ci sono differenze nel focus. Sora discende concettualmente da DALL-E 3, e una sua caratteristica è l’emergent cinematic grammar – ad esempio è capace di cambi di inquadratura anche non richiesti, come se avesse appreso da filmati l’idea di fare una panoramica o un taglio. Questo a volte sorprende: Sora potrebbe inserire spontaneamente variazioni stilistiche all’interno del video. Veo 3 invece punta di più a obbedire esattamente al prompt dell’utente. Ciò significa meno sorprese: se non chiediamo esplicitamente un cambio di camera, Veo non lo farà di testa sua – che per molti versi è un comportamento preferibile, perché lascia il controllo al creatore umano. In termini di aderenza ai dettagli complessi, Veo 3 sembra avere il vantaggio: come citato prima, Veo gestisce prompt lunghi e ricchi con notevole fedeltà, riducendo gli errori di interpretazione. OpenAI Sora è anch’esso molto avanzato (frutto di re-captioning come Veo e di modelli linguistici nel loop), tuttavia OpenAI ha elencato alcune debolezze: problemi con causalità e relazioni spaziali complesse (es. confondere sinistra/destra). Veo 3, grazie alle correzioni di prompt adherence, probabilmente sbaglia meno su questi fronti – ad esempio il team di Google ha sicuramente addestrato Veo 3 a capire riferimenti spaziali con modelli come Gemini o simili in aiuto, per evitare errori banali. Sora è molto potente ma un po’ più “capriccioso” nella resa: a volte fa cose inaspettate o commette sbavature su dettagli, mentre Veo 3 tende ad essere più disciplinato e preciso nel consegnare esattamente ciò che gli si chiede.

Strumenti e controlli creativi: Sora viene offerto con un’interfaccia e funzionalità avanzate per i creatori: ad esempio, OpenAI ha sviluppato una storyboard tool dove l’utente può caricare immagini o disegnare frame chiave e far sì che Sora li usi come guida per ogni momento del video. Ciò permette un controllo molto granulare – l’utente può letteralmente decidere cosa appare in ogni fase del video. Inoltre Sora permette di estendere e remixare video esistenti: si può dare un breve video iniziale e un prompt, e Sora continuerà o altererà il video secondo le istruzioni. Veo 3, per ora, è utilizzato principalmente tramite Flow, che offre controlli come angoli di camera preimpostati, layering di prompt su sequenze e la composizione di scene multiple. In Flow è possibile ad esempio: scegliere movimenti di camera (pan, tilt, zoom) da applicare, organizzare oggetti/character in scena, applicare stili – tutte funzioni che aiutano, ma attualmente Flow è chiuso nell’ecosistema Google e riservato a chi ha accesso Ultra. In confronto, Sora (attraverso sora.com) è già incluso per abbonati ChatGPT Plus, quindi potenzialmente più diffuso al grande pubblico, ed offre strumenti abbastanza user-friendly. Quindi in termini di accessibilità e controlli creativi, Sora sta diventando un prodotto consumer con interfacce di editing (integrazione in Bing Image Creator, ChatGPT, ecc.), mentre Veo 3 per ora resta un tool professionale accessibile via cloud e con Flow destinato a filmmaker/pro users. Naturalmente questo scenario potrà cambiare con il tempo, ma è rilevante se consideriamo chi oggi può sfruttare concretamente queste AI.

Veo 3 e Sora sono i due rivali di punta nel text-to-video. Veo 3 eccelle per qualità (4K vs 1080p), realismo fisico e audio integrato, con un’aderenza rigorosa ai prompt complessi. Sora offre clip più lunghe in un solo prompt e strumenti di controllo avanzato (storyboard, estensioni video), ma soffre di qualche incertezza in più su fisica e dettagli logici. Sora genera video muti, richiedendo lavoro aggiuntivo per l’audio, mentre Veo 3 fornisce un pacchetto audiovisivo completo. In definitiva, per produzioni di altissima qualità e realismo Veo 3 sembra attualmente la scelta migliore; per sperimentazioni rapide e lunghezze maggiori Sora può essere utile, specie considerata la sua disponibilità più ampia al pubblico (almeno per chi ha ChatGPT Plus). Non a caso, Google con Veo 3 mira a posizionarsi come nuovo leader contro Sora, integrando il tutto in un ecosistema (Flow + Vertex AI) che strizza l’occhio all’industria creativa professionale.

Runway Gen-3

Contesto: Runway Gen-3 è il modello di terza generazione sviluppato dalla startup Runway ML, lanciato in versione alpha nel 2024 come successore di Gen-2. Runway è noto per aver co-creato insieme a Stable Diffusion uno dei primi modelli text-to-video (Gen-2) e per offrire una piattaforma online di video editing AI-friendly. Gen-3 rappresenta per Runway un salto in avanti nella qualità e coerenza del video.

Qualità visiva: Gen-3 ha migliorato la risoluzione e il dettaglio rispetto a Gen-2, ma rimane probabilmente inferiore a Veo 3 in termini di risoluzione massima e fotorealismo spinto. Gen-2 generava video a circa 720p con qualche artefatto; Gen-3 Alpha promette alta fedeltà e fotorealismo da semplici prompt, e in effetti i sample mostrati hanno una qualità notevole. Tuttavia, Runway non ha dichiarato supporto al 4K – la loro priorità è stata portare maggiore coerenza e creatività. Veo 3, dal canto suo, supporta 4K e produce frame di qualità cinematografica realistica. È plausibile che Gen-3 generi a risoluzioni intermedie (forse 1280p o 1080p) e faccia upscaling, ma senza raggiungere la chiarezza di Veo su frame singolo.

Dove Runway Gen-3 brilla è nell’offrire stili differenti e controlli integrati. Il modello è addestrato con caption temporali dettagliate che permettono transizioni imaginative e keyframe precisi nella scena. Ciò significa che Gen-3 recepisce bene istruzioni su movimenti di camera complessi o trasformazioni durante la clip. Ad esempio, Runway mostra prompt come “la telecamera esegue uno zoom ultra-veloce da un dente di leone fino a rivelare un mondo astratto” e Gen-3 è capace di farlo entro pochi secondi. Veo 3 ugualmente può gestire eventi successivi in una clip, ma Runway enfatizza questa capacità definendola fine-grained temporal control. In pratica, Gen-3 è ottimizzato per effetti cinematografici creativi: hyperlapse, cambi di prospettiva rapidi, ecc. Veo 3 può fare cose simili se gliele chiedi, ma l’obiettivo primario di Veo è la coerenza e il realismo; Gen-3 invece ha un pizzico di “estetica da videoclip” nella sua impronta, essendo pensato per creativi digitali.

Coerenza temporale: Gen-3 ha compiuto notevoli progressi rispetto a Gen-2 proprio in coerenza: meno flicker, soggetti più stabili, motion fluid. Nelle demo di Runway, Gen-3 mantiene i soggetti riconoscibili e migliora nelle proporzioni e anatomie (criticità note in Gen-2). Veo 3 parte già da uno standard alto in coerenza, come discusso; è probabile che sul breve periodo siano comparabili (entrambi generano clip di pochi secondi molto consistenti). Un potenziale svantaggio per Gen-3 è la durata: non è chiaro quanto lungo possa essere un singolo video generato, ma dati i costi, Runway inizialmente limita le generazioni. Un utente reddit riferiva che con abbonamento standard si ottengono ~62 secondi totali di output al mese – questo fa pensare che ogni video sia sui 4-6 secondi, in linea con Gen-2. Quindi Veo 3 e Gen-3 sono simili come durata per generazione (entrambi intorno a <10 sec). Tuttavia, a differenza di Veo (che con Flow punta a montare scene insieme), Runway Gen-3 è integrato nell’editor Runway, dove è possibile concatenare output o usare Gen-3 in modalità video-to-video per allungare un filmato. Runway infatti offre un AI Video Extender e Motion Brush per continuare video o modificarli con AI, funzioni che arricchiscono la continuità oltre i limiti di generazione diretta.

Audio: Nessun modello Runway genera audio al momento. L’output di Gen-3 è visuale, e l’utente deve aggiungere audio nell’editor se vuole (Runway come piattaforma ha strumenti per aggiungere musiche stock, ma non c’è sintesi di suoni specifici come in Veo 3). Dunque Veo ha un vantaggio analogo a quello già visto: fornisce audio ambiente e dialoghi, mentre Gen-3 no.

Capacità di prompt e creatività: Sia Veo 3 che Runway Gen-3 puntano a comprensione di prompt complessi. Gen-3, come detto, si è addestrato con temporally dense captions, quindi capisce bene transizioni ed eventi multipli. Un utente può praticamente descrivere una mini-storia in un prompt e Gen-3 cercherà di renderla. Questo è molto simile a ciò che fa Veo 3. Una differenza è che Runway enfatizza i controlli manuali: ad esempio, offre Director Mode, Advanced Camera Controls, ecc.. Ciò significa che se il prompt da solo non basta, l’utente può interagire con parametri (ad esempio definire path di camera, o caricare un riferimento per uno stile) per ottenere esattamente l’effetto voluto. Con Veo 3, l’interazione avviene più tramite riprovare col prompt o tramite l’interfaccia Flow (che però è meno aperta al pubblico). Quindi i creatori che vogliono “metterci mano” magari trovano in Runway Gen-3 un ambiente più malleabile. In termini di pura creatività generativa, entrambi producono risultati fantastici: Gen-3 ha mostrato ambientazioni surreali, prospettive inusuali – segno che il modello ha immaginazione. Veo 3 pure può creare scene di fantasia (non è limitato al realismo: può fare animazioni stile stop-motion, cartoon, come da esempi sul sito). Diciamo che Gen-3 è pensato per sperimentare con effetti artistici, Veo 3 per realismo cinematografico, ma entrambi si stanno un po’ sovrapponendo. Ad esempio, Veo 3 può simulare stop-motion o cartoon se richiesto, e Runway Gen-3 può provare il fotorealismo. Resta il fatto che Veo 3, avendo un training gigantesco e Big G alle spalle, probabilmente ha visto più dati e ha più parametri, quindi la sua comprensione semantica e varietà stilistica potenziale potrebbero essere ancora più ampie.

Ecosistema e utilizzo: Runway Gen-3 è disponibile (anche se a pagamento) per un pubblico abbastanza vasto tramite la piattaforma runwayml.com. Significa che molti creator su YouTube e social lo stanno già usando e facendo circolare output. Veo 3, essendo legato ai piani Ultra di Google Cloud, ha per ora meno diffusione comunitaria (anche se Google ha mostrato demo a I/O 2025). Va detto che parte della community creativa open source spesso preferisce strumenti come Runway che sono indipendenti dai grandi colossi, per cui Gen-3 può vedere un’adozione più “grassroots”. Invece Veo 3 potrebbe diventare lo standard in ambito enterprise (produzioni pubblicitarie, studi video aziendali, ecc., come testimoniano i casi d’uso di Klarna, Jellyfish, Heinz menzionati da Google.

Veo 3 e Runway Gen-3 sono abbastanza vicini tecnologicamente (entrambi diffusion multimodali su video). Veo 3 batte Gen-3 su risoluzione (4K vs circa HD), su audio integrato e sul massimo realismo possibile in ogni frame. Gen-3 si distingue per i controlli creativi offerti e per una focalizzazione su transizioni e movimenti di camera immaginativi, che lo rendono ottimo per contenuti dallo stile artistico e montaggio creativo. Entrambi generano clip brevi, ma Runway consente già di estendere/modificare video con tool interattivi. Sulla comprensione dei prompt complessi, sono entrambi efficaci: Veo 3 tende alla fedeltà rigorosa, Gen-3 lascia forse più spazio a interpretazioni stilistiche. Per un regista virtuale “preciso e ultra-realista” si sceglierebbe Veo 3; per un “laboratorio creativo” dove provare effetti e stili diversi con più libertà, Runway Gen-3 è una scelta eccellente. Come detto scherzosamente online, il motto sembra essere “Your move, Sora” nei confronti di Gen-3 – a indicare che Runway sta cercando di stare al passo dei giganti come OpenAI e Google; e Google con Veo 3 a sua volta risponde dimostrando uno stato dell’arte ancora più avanzato, soprattutto grazie alla componente audio e al realismo.