Skip to content Skip to footer
Contenuto sviluppato con intelligenza artificiale, ideato e revisionato da redattori umani.
···

Tra le opere di fantascienza del XXI secolo, Her di Spike Jonze è una delle più profetiche. Al centro della trama c’è un sistema operativo controllato da un’intelligenza artificiale, capace di instaurare un legame emotivo e intellettuale con l’utente, oscillando tra ciò che oggi definiamo AI agentica e le potenzialità di una vera AGI. Questa visione, che allora appariva come un’ipotesi narrativa, oggi è sempre più vicina a scenari tecnici concreti.

Nel film di Spike Jonze la voce è presenza, continuità e iniziativa. Un assistente digitale capace di parlare con naturalezza, ricordare ciò che accade nel tempo, capire il contesto e agire sui nostri dispositivi senza attriti. A che distanza siamo da quell’esperienza? I mattoni principali sono già sul tavolo, sia nei laboratori sia in prodotti in anteprima o a rilascio graduale; il divario non riguarda più singole funzioni isolate, bensì la tenuta dell’insieme: identità coerente, memoria duratura, azione affidabile e latenza impercettibile, fuse in un sistema personale unico.

Sul piano della conversazione naturale i progressi sono stati netti. I modelli di linguaggio di ultima generazione rispondono in audio quasi in tempo reale, evitando la tradizionale “catena” separata di trascrizione e sintesi vocale che rallentava le interazioni. Con ChatGPT OpenAI ha mostrato un salto proprio su questo aspetto, passando da pipeline multi-modello a un approccio unificato capace di ridurre sensibilmente la latenza percepita; lo stesso filone è oggi disponibile agli sviluppatori con API “speech-in/speech-out” che mantengono un dialogo continuo a bassa latenza.

La qualità espressiva della voce sintetica ha raggiunto sfumature ormai credibili su tono, ritmo e intenzione. Progetti di ricerca come Seamless di Meta hanno dimostrato traduzione e conversazione in streaming con resa espressiva, mentre le piattaforme specializzate in clonazione e generazione vocale consentono di creare voci personalizzate stabili nel tempo, con timbro e prosodia riconoscibili. Questo rende possibili assistenti con “voce propria”, in grado di sostenere conversazioni lunghe senza stancare l’ascolto.

Oltre alla voce c’è la percezione del contesto. L’idea di un agente che “vede” e capisce l’ambiente in tempo reale è uscita dalle demo per iniziare a entrare nei prodotti. Project Astra di Google DeepMind indica chiaramente la direzione: un assistente multimodale che integra video, suono e strumenti software, con sbocchi in Gemini Live e in form factor indossabili . È l’infrastruttura che consente a un assistente di passare dalla chiacchiera alla risoluzione di compiti, proprio come in Her.

Per agire davvero, però, serve accesso profondo al sistema. Qui gli ecosistemi stanno convergendo: Google spinge verso un “assistente universale” integrato con Search, Lens e Maps; il mondo Windows introduce i Copilot+ PC con NPU dedicate per eseguire modelli localmente e mantenere l’assistente sempre disponibile, anche offline, con tempi di risposta elevati e consumi contenuti. Il risultato è che il “fare cose” — inviare messaggi contestuali, riassumere un documento aperto, comporre email mirate, orchestrare più app — è sempre meno vincolato a bot singoli e sempre più a un tessuto operativo del dispositivo.

La memoria è il cuore dell’illusione di continuità. A livello tecnico oggi disponiamo di due ingredienti diversi: contesti molto ampi nella singola sessione e memorie persistenti tra sessioni. I contesti estesi — nell’ordine di centinaia di migliaia di token — permettono a un assistente di “tenere in mente” interi progetti, conversazioni e documenti; le memorie persistenti salvano preferenze, biografie sintetiche e dettagli utili che riaffiorano quando servono. Questa combinazione avvicina l’idea di una musa che evolve con noi, ma non risolve da sola la sfida della lunga durata: servono strutture di memoria autobiografica, con eventi datati, collegati e gerarchizzati, e meccanismi che evitino deriva e ripetizioni. Oggi esistono funzionalità di memoria utente pronte all’uso e modelli con contesti molto ampi; domani dovranno trasformarsi in “graph cognitivi” personali, aggiornati con criteri di salienza, oblio e revisione.

Un’altra frontiera è l’affidabilità dell’azione prolungata. Gli assistenti moderni sanno comporre catene di strumenti e pianificare, ma su orizzonti di molti passaggi la stabilità resta disomogenea. Google ha descritto l’evoluzione agentica di Gemini, con uso combinato di Search, Lens e Maps dentro flussi conversazionali, mentre OpenAI ha portato la conversazione audio “full-duplex” a sviluppatori, abilitando interruzioni e dialogo sovrapposto più realistico. Per un’esperienza alla Her serve che questo tipo di pianificazione sia potente e prevedibile, con punti di controllo e ripresa in caso di errore, altrimenti la fiducia si sbriciola.

La latenza è quasi risolta nei contesti ideali; la vera sfida è mantenerla bassa in qualunque condizione. Per ottenere un parlato che “entra” mentre l’utente interagisce, con barge-in naturale e sovrapposizione controllata, servono stack audio dedicati, codifica neurale efficiente e, soprattutto, inferenza a ridosso dell’utente. Le NPU di nuova generazione nei laptop e, sempre più, negli smartphone consentono di spostare molte capacità dal cloud al dispositivo locale, riducendo tempi morti e dipendenza dalla rete; su desktop e notebook l’on-device è già tangibile, sui telefoni premium lo sta diventando rapidamente.

Cosa manca, in sintesi tecnica per colmare il divario verso un OS in stile Her? Un modello di sé coerente e di lungo periodo, capace di aggiornarsi senza perdere la propria “personalità” conversazionale; una memoria episodica che sappia distinguere fatti centrali da dettagli volatili e che collochi gli eventi su una linea temporale esplicita; un motore di pianificazione che regga settimane di compiti interdipendenti con verifiche automatiche; un’integrazione di sistema ancora più profonda, così da unire voce, schermo e automazioni senza “colli di bottiglia” tra applicazioni diverse; infine un timbro vocale che mantenga calore e varietà anche dopo ore, senza cali di naturalezza. Tutti obiettivi raggiungibili con architetture ibride: modelli generativi per il dialogo, grafi di conoscenza personali per la memoria, pianificatori simbolici per i processi lunghi, e un livello di esecuzione locale che porta il ciclo percepire-decidere-agire sotto la soglia dei due-tre decimi di secondo in condizioni reali.

Quanto tempo servirà per un’esperienza davvero paragonabile? Nella fascia alta dei dispositivi consumer il “quasi Her” — voce fluida a bassa latenza, ricordo delle preferenze, capacità di usare le app, comprensione di ciò che appare sullo schermo e una dose di iniziativa — è alla portata dei prossimi due-tre anni, man mano che Apple, Google, Microsoft e gli sviluppatori di piattaforme vocali consolidano ciò che oggi è in anteprima. Per una “Samantha” credibile nella crescita personale, capace di costruire una storia condivisa coerente per mesi e di portare avanti obiettivi a lungo termine con robustezza ingegneristica, la stima realistica è più ampia: serviranno una o due generazioni di architetture centrate sulla memoria autobiografica e sul controllo dell’azione, in un orizzonte di cinque-otto anni. A quel punto la domanda non sarà più “se” possiamo avere un sistema come quello di Her, ma quale impronta vogliamo dargli nel nostro quotidiano digitale — voce, tempo e attenzione compresi.