Roma – Evo, una intelligenza artificiale (IA) in grado di decodificare e progettare sequenze di DNA, RNA e proteine, dalla scala molecolare a quella del genoma, con una precisione senza pari: è quanto è stato sviluppato da un team di ricerca guidato dalla Stanford University che ha pubblicato i propri risultati su Science. Dotato di 7 miliardi di parametri e progettato per generare sequenze di DNA fino alla scala dell’intero genoma, Evo è stato costruito sull’architettura StripedHyena e addestrato su un set di dati di 2,7 milioni di genomi microbici evolutivamente diversi. La capacità di prevedere gli effetti delle mutazioni in tutti gli strati di regolazione nella cellula e di progettare sequenze di DNA per manipolare la funzione cellulare avrebbe enormi implicazioni diagnostiche e terapeutiche per le malattie. Con un vocabolario di soli quattro nucleotidi, il DNA codifica tutte le informazioni genetiche essenziali per la vita. Le variazioni nella sequenza genomica riflettono adattamenti selezionati per specifiche funzioni biologiche. Queste variazioni guidano l’evoluzione consentendo agli organismi di adattarsi ad ambienti nuovi o mutevoli. I progressi nelle tecnologie di sequenziamento del DNA hanno consentito di mappare le variazioni genomiche su scala dell’intero genoma. Questi dati, combinati con nuovi algoritmi di apprendimento automatico, potrebbero consentire la creazione di un modello completo in grado di comprendere le funzioni di DNA, RNA e proteine e le loro interazioni. Tuttavia, mentre alcuni ricercatori ispirati dal successo dei grandi modelli linguistici (LLM) hanno tentato di modellare il DNA come un “linguaggio” applicando tecniche simili, gli attuali modelli generativi tendono a concentrarsi strettamente su singole molecole o segmenti di DNA. Oltre alle limitazioni computazionali, ciò ha limitato la portata di questi modelli nel catturare interazioni genomiche più ampie necessarie per comprendere processi biologici complessi. Secondo gli autori dello studio Evo, invece, eccelle sia nelle attività biologiche predittive che in quelle generative, ottenendo un’elevata accuratezza nelle valutazioni zero-shot per prevedere gli impatti delle mutazioni sulle proteine batteriche e sull’RNA, nonché nella modellazione della regolazione genica. Evo comprende anche l’intricata coevoluzione tra sequenze codificanti e non codificanti, supportando la progettazione di sistemi biologici complessi come i complessi CRISPR-Cas e gli elementi trasponibili. Su scala genomica, Evo può generare sequenze di lunghezza superiore a 1 megabase, una capacità che supera di gran lunga i modelli precedenti. La capacità di Evo di prevedere, generare e progettare intere sequenze genomiche potrebbe cambiare il modo in cui viene eseguita la biologia sintetica. (30Science.com)