I ricercatori sostengono che questa configurazione consente a Evo di “collegare modelli a livello di nucleotidi al contesto genomico su scala kilobase”. In altre parole, se gli viene richiesto un grosso pezzo di DNA genomico, Evo può interpretare un LLM per interpretare una query e produrre un output che, in termini genomici, è appropriato per tale interpretazione.

I ricercatori hanno pensato che, dato un genoma batterico su cui allenarsi, avrebbero potuto utilizzare un gene noto come suggerimento ed Evo avrebbe dovuto produrre un output che includesse regioni che codificano per proteine ​​con funzioni corrispondenti. La domanda chiave è se produrrà solo sequenze di proteine ​​che già conosciamo o se produrrà risultati meno prevedibili.

Nuove proteine

Per iniziare a testare il sistema, i ricercatori lo hanno alimentato con frammenti di geni per proteine ​​conosciute e hanno determinato se Evo potesse completarle. In un esempio, se gli veniva dato il 30% di una sequenza genetica per una proteina conosciuta, Evo era in grado di produrre il restante 85%. Se richiesto con l’80% della sequenza, potrebbe restituire tutte le sequenze mancanti. Quando un singolo gene veniva eliminato da un cluster funzionale, Evo poteva identificare e ripristinare con precisione il gene mancante.

Una grande quantità di dati di allenamento hanno inoltre confermato che Evo ha identificato correttamente le regioni più importanti della proteina. Se cambiava la sequenza, solitamente risiedevano in aree della proteina dove la variabilità era tollerata. In altre parole, il suo addestramento ha consentito al sistema di incorporare le regole di vincolo evolutivo dei cambiamenti genetici noti.

Quindi, i ricercatori hanno deciso di testare cosa è successo quando a Evo è stato chiesto di produrre qualcosa di nuovo. Per fare ciò, hanno utilizzato tossine batteriche, che di solito sono codificate con un’antitossina che impedisce alla cellula di uccidersi ogni volta che il gene viene attivato. Esistono molti esempi di ciò e continuano a evolversi rapidamente come parte di una corsa agli armamenti tra i batteri e i loro concorrenti. Quindi, il team ha creato un veleno che era solo leggermente correlato a quello familiare e non conteneva alcuna antitossina conosciuta, e ha somministrato la sua sequenza a Evo come suggerimento. E questa volta filtrano tutte le risposte che assomigliano a geni antitossina noti.

Collegamento alla fonte