Alla fine del 2025, ci siamo occupati dello sviluppo di un sistema di intelligenza artificiale chiamato Evo, addestrato su un gran numero di genomi batterici. Tanto che, se sollecitato con sequenze di gruppi di geni correlati, può identificare accuratamente questi ultimi o suggerire proteine ​​completamente nuove.

Questo sistema ha funzionato perché i batteri tendono a raggruppare insieme i geni correlati, cosa che non è vera per gli organismi con cellule complesse, che hanno strutture genomiche altrettanto complesse. Detto questo, ha osservato il nostro articolo, “non è chiaro se questo approccio funzionerà con genomi più complessi”.

Apparentemente, il team dietro Evo ha visto questo come una sfida, perché oggi descrive Evo 2, un’intelligenza artificiale open source addestrata sui genomi di tre domini della vita (batteri, archaea ed eucarioti). Dopo essersi addestrato su trilioni di coppie di basi di DNA, Evo 2 ha costruito rappresentazioni interne delle caratteristiche chiave di genomi complessi come il nostro, inclusi elementi come il DNA regolatore e i siti di giunzione, che possono essere difficili da identificare per gli esseri umani.

Caratteristiche del genoma

I genomi batterici sono organizzati secondo principi relativamente semplici. Qualsiasi gene che codifica per una proteina o un RNA è adiacente, senza alcuna interruzione nella sequenza codificante. I geni che svolgono funzioni correlate, come metabolizzare uno zucchero o produrre un amminoacido, tendono ad essere raggruppati insieme, consentendo loro di essere controllati da un unico sistema regolatore compatto. È tutto semplice ed efficiente.

Gli eucarioti non sono così. I segmenti codificanti dei geni vengono interrotti dagli introni, che non codificano per nulla. Sono controllati da una sequenza che può essere distribuita su centinaia di migliaia di paia di basi. Le sequenze che definiscono le estremità degli introni o i siti di legame delle proteine ​​regolatrici sono scarsamente definite: sebbene abbiano alcune basi assolutamente necessarie, ci sono molte basi che tendono ad avere una base specifica (circa il “45%” delle volte). Intorno alla maggior parte dei genomi eucariotici c’è una grande quantità di DNA chiamato spazzatura: virus inattivi, geni terminali danneggiati, ecc.

Collegamento alla fonte