Ogni genoma è un testo smisurato, scritto in un alfabeto di quattro lettere chimiche che, ripetute in miliardi di combinazioni, decidono il destino di una cellula. Per decenni ne abbiamo letto passaggi isolati, quasi fossero citazioni sparse; con AlphaGenome, il nuovo modello sviluppato da Google DeepMind, la lettura diventa panoramica e continua: un milione di basi in un’unica occhiata digitale. Una vera rivoluzione nel modo di comprendere i meccanismi che regolano la vita cellulare.
Una lente che unisce grandangolo e microscopio
AlphaGenome riceve in ingresso un tratto di DNA lungo come dieci copie della Divina Commedia e lo traduce in previsioni su undici diverse “modalità” dell’attività cellulare: dalla quantità di RNA prodotto al modo in cui la cromatina si ripiega nello spazio tridimensionale del nucleo, dai punti in cui le proteine regolatrici si agganciano fino ai più sottili dettagli dello splicing, cioè il meccanismo con cui l’RNA viene tagliato e assemblato per produrre proteine. In totale, il sistema fornisce 5.930 tracciati funzionali per il genoma umano e 1.128 per quello del topo, tutti ricavati da una singola elaborazione. Un risultato che, fino a pochi anni fa, sarebbe sembrato impossibile da ottenere.
Questo balletto di previsioni nasce da un’architettura complessa e raffinata, che combina elementi ormai classici dell’apprendimento profondo. Un encoder a convoluzioni raccoglie i segnali locali, comprimendo il megabase di partenza in blocchi di 128 basi; un “trasformer tower” collega punti anche molto distanti tra loro lungo il DNA, mentre il decoder risale di risoluzione, sfruttando collegamenti laterali simili a quelli delle reti U-Net, per ricostruire l’informazione fino al singolo nucleotide. In tutto, circa 450 milioni di parametri orchestrano questa trasformazione, offrendo al sistema la capacità di cogliere pattern biologici anche molto sottili.
Come viene allenato
L’addestramento del modello segue una logica in due fasi. Inizialmente, diversi modelli “insegnanti” vengono addestrati separatamente su intervalli differenti del genoma. Successivamente, le conoscenze acquisite da ciascuno vengono fuse in un unico modello “studente”, più leggero ma altrettanto potente, capace di fare previsioni in pochi decimi di secondo su una comune GPU. Per evitare che l’algoritmo impari a memoria le sequenze viste in fase di addestramento, ogni finestra di DNA viene spostata casualmente lungo il genoma, e talvolta anche letta in direzione inversa. Questi piccoli stratagemmi, noti come tecniche di data augmentation, aumentano significativamente la robustezza del modello e la sua capacità di generalizzare.
Dove brilla
Messo alla prova su 24 compiti di previsione di tracciati genomici, AlphaGenome ha superato il miglior concorrente in 22 casi. Ancora più impressionante è il risultato su 26 benchmark dedicati alla previsione degli effetti delle varianti genetiche: il modello ha ottenuto i risultati migliori in 24 test. Il guadagno è evidente anche su compiti tradizionalmente molto difficili: ad esempio, è in grado di prevedere con precisione se una certa mutazione aumenterà o ridurrà l’espressione di un gene (gli eQTL), con un miglioramento medio del 25% rispetto al precedente stato dell’arte, il modello Borzoi. Analoghi progressi si osservano nella previsione di cambiamenti nell’accessibilità del DNA e nella forza con cui i fattori di trascrizione si legano alle loro sequenze bersaglio.
Un altro ambito in cui AlphaGenome si distingue è lo splicing, un processo complesso e regolato finemente in cui le mutazioni possono avere effetti drammatici. In questo contesto, spesso dominato da modelli specialistici, AlphaGenome riesce comunque a eccellere grazie a una testa specifica dedicata che valuta direttamente le interazioni fra i siti donatore e accettore. Il modello non solo rileva la presenza di questi siti, ma stima anche con buona accuratezza quanto spesso vengono utilizzati nei diversi tessuti. Con un singolo passaggio, si ottiene così un profilo funzionale completo per ogni mutazione.
Perché importa
Per chi studia malattie genetiche rare, AlphaGenome rappresenta uno strumento formidabile. Analizzando il genoma di un paziente, può aiutare a filtrare milioni di varianti e selezionare in modo mirato quelle più probabilmente responsabili di alterazioni funzionali gravi. Per i ricercatori di laboratorio, invece, il modello funge da bussola sperimentale: è possibile simulare in silico delle mutazioni e vedere in anteprima se e come cambierebbe l’espressione di un gene. Questo permette di risparmiare tempo e risorse, concentrando gli sforzi solo sulle ipotesi più promettenti. Inoltre, AlphaGenome può evidenziare le basi più rilevanti di una sequenza, mostrando per esempio come una mutazione in un certo punto generi un sito di legame per una proteina regolatrice, come accade nel caso del motivo MYB nel locus TAL1, legato a forme tumorali.
Limiti ancora aperti
Nonostante le prestazioni straordinarie, il modello ha ancora dei limiti. Le previsioni diventano meno affidabili quando le mutazioni influenzano regioni molto lontane (oltre 100.000 basi), un problema comune a tutti i modelli di genomica computazionale. Inoltre, AlphaGenome è stato addestrato solo su genomi umano e murino: l’estensione ad altre specie sarà fondamentale per studiare malattie genetiche in modelli animali alternativi. Un’altra direzione promettente è l’integrazione con dati a singola cellula, che permetterebbe di cogliere con maggiore precisione le variazioni specifiche di tipo cellulare.
Come provarlo
Per rendere il modello accessibile alla comunità scientifica, DeepMind ha annunciato il rilascio di un’API pubblica e di un kit Python che consentirà agli utenti di interrogare AlphaGenome in modo semplice e diretto. Saranno inoltre forniti strumenti per interpretare i risultati ottenuti, normalizzare i punteggi associati alle varianti e inserirli in flussi di lavoro bioinformatici. In questo modo, anche chi non dispone di grandi infrastrutture di calcolo potrà sfruttare la potenza di AlphaGenome.
Uno sguardo al futuro
L’avvento di AlphaGenome mostra quanto sia promettente un approccio capace di combinare una visione d’insieme del genoma con un’attenzione ai dettagli più minuti. La possibilità di osservare contemporaneamente interi quartieri genomici e singole basi, e di prevedere il loro effetto funzionale, può accelerare enormemente la ricerca biomedica. Non è difficile immaginare un futuro in cui diagnosi, terapie personalizzate e predizione delle risposte ai farmaci si baseranno anche su strumenti come questo, che trasformano il DNA da misterioso alfabeto molecolare in un linguaggio finalmente leggibile e interpretabile su scala.