Simple Science

Scienza all'avanguardia spiegata semplicemente

# La biologia# Bioinformatica

Migliorare la ricerca genomica attraverso l'augmentazione filogenetica

Gli scienziati usano sequenze omologhe per migliorare i modelli di deep learning nella genomica.

― 6 leggere min


La genomica spinta dagliLa genomica spinta daglistrumenti filogeneticidei modelli nella ricerca genetica.Nuove tecniche migliorano le previsioni
Indice

Nel mondo della genetica, capire come si comportano i geni in diverse situazioni è fondamentale. Gli scienziati sono particolarmente interessati a come certe regioni del DNA, chiamate sequenze regolatorie, influenzano i geni. Queste sequenze regolatorie dicono ai geni quando accendersi o spegnersi, quanto di una proteina produrre e molte altre cose importanti.

Il Deep Learning, un tipo di intelligenza artificiale, aiuta gli scienziati a fare previsioni su questi comportamenti dei geni. Allenando modelli computerizzati su enormi quantità di dati, i ricercatori possono analizzare aspetti del DNA che prima era difficile studiare.

Il Ruolo del Deep Learning nella Genomica

I modelli di deep learning sono diventati molto utili nel prevedere come si comporteranno le sequenze di DNA. Possono prevedere cose come quanto siano accessibili certe parti del DNA, dove si legheranno proteine chiamate fattori di trascrizione e come funzionano gli enhancers. Queste previsioni vengono evaluate usando set di test, che sono separati dai dati usati per insegnare ai modelli. Questa separazione assicura che i modelli stiano veramente imparando e non solo memorizzando i dati di allenamento.

Ancora più importante, quando questi modelli di deep learning riconoscono schemi biologici nei dati, possono aiutare ad approfondire la nostra comprensione dei processi biologici. Studi hanno dimostrato che questi modelli possono identificare schemi sia familiari che nuovi all'interno delle sequenze di DNA, portando a intuizioni preziose.

Sfide con la Disponibilità dei Dati

Tuttavia, costruire modelli di deep learning efficaci richiede un sacco di dati. Per molti organismi, specialmente quelli meno studiati, non c'è semplicemente abbastanza informazione disponibile. La maggior parte dei dati dettagliati proviene da specie ben note come gli esseri umani o i topi. Questo crea una sfida: come possono gli scienziati creare modelli complessi quando hanno una quantità limitata di dati?

Una soluzione proposta è generare dati artificiali testando sequenze di DNA casuali in laboratorio e valutandole rispetto a sequenze genomiche reali. L'idea è che le sequenze di DNA naturali non abbiano abbastanza variabilità per insegnare ai modelli tutto ciò di cui hanno bisogno.

Tecniche di Aumento dei Dati

Per aumentare la quantità di dati di allenamento, gli scienziati usano spesso una tecnica chiamata aumento dei dati. Questo processo implica creare copie modificate dei dati esistenti. Ad esempio, nell'elaborazione delle immagini, i ricercatori possono capovolgere, ruotare o cambiare il colore delle immagini per creare nuove versioni senza bisogno di nuove immagini.

Nella genomica, ci sono meno metodi di aumento su misura disponibili. Gli scienziati usano frequentemente tecniche come creare complementi inversi delle sequenze o spostare le sequenze lungo il filamento di DNA. Recentemente, metodi che imitano l'evoluzione, come introdurre cambiamenti casuali nelle sequenze di DNA, hanno mostrato potenziale nel migliorare le prestazioni del modello.

Il Potere delle Sequenze Omologhe

Le sequenze omologhe sono sequenze di DNA di specie diverse che condividono un antenato comune. Possono sembrare diverse ma spesso svolgono ruoli biologici simili. Poiché queste sequenze possono fornire informazioni preziose su funzione ed evoluzione, i ricercatori le stanno ora considerando come un modo per aumentare i dataset di allenamento.

Incorporando sequenze omologhe di specie correlate, gli scienziati possono aumentare la diversità dei dati di allenamento, portando potenzialmente a migliori prestazioni del modello. Questo metodo si è dimostrato particolarmente efficace in vari scenari biologici.

Come Funziona l'Aumento Filogenetico

L'aumento filogenetico significa trasformare una sequenza di DNA di una specie in un omologo di un'altra specie. Questa tecnica utilizza allineamenti genomici multi-specie per arricchire i dati di allenamento. Includendo omologhi come versioni aumentate delle sequenze di allenamento, i modelli vengono esposti a una gamma più ampia di sequenze.

L'applicazione di questo metodo coinvolge tre passaggi principali. Prima, i ricercatori utilizzano allineamenti genomici multi-specie per identificare sequenze omologhe per ogni sequenza di DNA nel loro set di allenamento. Poi, applicano l'aumento filogenetico a queste sequenze durante il processo di addestramento del modello. Infine, dopo l'addestramento, i modelli vengono perfezionati sulle sequenze originali per migliorare l'accuratezza e ridurre il bias.

Vantaggi dell'Aumento Filogenetico

I primi esperimenti che utilizzano l'aumento filogenetico hanno mostrato risultati promettenti. Ad esempio, quando si allenavano modelli per prevedere attività specifiche nel genere Drosophila, i ricercatori hanno scoperto che i modelli che usavano l'aumento filogenetico si comportavano meglio rispetto a quelli che non lo facevano. In un esempio, le prestazioni del modello sono aumentate notevolmente quando sono stati inclusi omologhi di specie strettamente correlate.

Inoltre, l'aumento filogenetico può essere utile quando si lavora con dataset più piccoli. Nei casi in cui non ci sono regioni di interesse sufficienti per un machine learning efficace, aumentare i dati di allenamento con sequenze omologhe può migliorare le prestazioni del modello, anche con meno dati.

Applicazioni nel Mondo Reale

Gli scienziati hanno applicato il metodo di aumento filogenetico a dataset genomici del mondo reale per testarne ulteriormente l'efficacia. Uno studio ha analizzato dati dalla linea cellulare Drosophila S2, dove i ricercatori hanno previsto l'attività degli enhancers. Hanno estratto omologhi da più specie di Drosophila e li hanno incorporati nel loro dataset di allenamento.

Un'altra analisi ha esaminato picchi di DNase-seq binari da varie linee cellulari umane. In questo caso, i ricercatori hanno utilizzato omologhi di specie mammifere strettamente correlate. I risultati hanno mostrato un netto miglioramento nelle previsioni del modello quando si utilizzava l'aumento filogenetico.

Inoltre, il metodo si è dimostrato utile quando si addestravano modelli su dataset molto più piccoli, come quelli che esaminano proteine leganti l'RNA nei lieviti. I ricercatori hanno scoperto che applicare l'aumento filogenetico ha aumentato significativamente la capacità del modello di prevedere caratteristiche biologiche rilevanti.

Esplorare l'Impatto degli Iperparametri

Per valutare l'efficacia dell'aumento filogenetico, i ricercatori hanno esplorato vari fattori, noti come iperparametri. Un'area critica che hanno analizzato è stata il numero di specie incluse nel processo di aumento. Hanno addestrato modelli con diverse specie, misurando i miglioramenti nelle prestazioni predittive.

Hanno anche esaminato come il tasso di aumento applicato durante l'addestramento del modello influenzasse i risultati. Le prime scoperte hanno indicato che applicare l'aumento a un tasso moderato ha portato a risultati migliori rispetto a un suo uso eccessivo su ogni sequenza di allenamento. Questo suggerisce che esiste una quantità ottimale di aumento necessaria per massimizzare le prestazioni senza introdurre troppa variabilità.

Conclusione

L'aumento filogenetico rappresenta uno strumento potente per far progredire la ricerca genomica utilizzando il deep learning. Utilizzando sequenze omologhe di specie correlate, i ricercatori possono superare le limitazioni dei dati e creare modelli con capacità predittive migliorate.

Man mano che il deep learning continua a svolgere un ruolo critico nella comprensione della genetica, metodi come l'aumento filogenetico hanno il potenziale di migliorare significativamente l'efficienza e l'efficacia di questi modelli.

In un'epoca in cui i grandi dataset stanno diventando sempre più disponibili, questo metodo potrebbe aiutare i ricercatori a ottenere preziose intuizioni biologiche, contribuendo infine alla nostra comprensione di meccanismi genetici complessi.

Con la sua ampia applicabilità su vari organismi e condizioni sperimentali, l'aumento filogenetico ha promettente per futuri progressi nella genomica.

Fonte originale

Titolo: Improving the performance of supervised deep learning for regulatory genomics using phylogenetic augmentation

Estratto: Structured abstractO_ST_ABSMotivationC_ST_ABSSupervised deep learning is used to model the complex relationship between genomic sequence and regulatory function. Understanding how these models make predictions can provide biological insight into regulatory functions. Given the complexity of the sequence to regulatory function mapping (the cis-regulatory code), it has been suggested that the genome contains insufficient sequence variation to train models with suitable complexity. Data augmentation is a widely used approach to increase the data variation available for model training, however current data augmentation methods for genomic sequence data are limited. ResultsInspired by the success of comparative genomics, we show that augmenting genomic sequences with evolutionarily related sequences from other species, which we term phylogenetic augmentation, improves the performance of deep learning models trained on regulatory genomic sequences to predict high-throughput functional assay measurements. Additionally, we show that phylogenetic augmentation can rescue model performance when the training set is down-sampled and permits deep learning on a real-world small dataset, demonstrating that this approach improves experimental data efficiency. Overall, this data augmentation method represents a solution for improving model performance that is applicable to many supervised deep learning problems in genomics. Availability and implementationThe open-source GitHub repository agduncan94/phylogenetic_augmentation_paper includes the code for rerunning the analyses here and recreating the figures. [email protected]

Autori: Alan M Moses, A. G. Duncan, J. A. Mitchell

Ultimo aggiornamento: 2024-01-17 00:00:00

Lingua: English

URL di origine: https://www.biorxiv.org/content/10.1101/2023.09.15.558005

Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.09.15.558005.full.pdf

Licenza: https://creativecommons.org/licenses/by-nc/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili