Melhorando a Pesquisa Genômica Através da Aumentação Filogenética
Cientistas usam sequências homólogas pra melhorar modelos de deep learning em genômica.
― 7 min ler
Índice
No mundo da genética, entender como os genes se comportam em diferentes situações é super importante. Os cientistas estão especialmente interessados em como certas regiões do DNA, chamadas de sequências regulatórias, influenciam os genes. Essas sequências regulatórias dizem aos genes quando ligar ou desligar, quanto de proteína produzir e muitas outras tarefas importantes.
O deep learning, um tipo de inteligência artificial, ajuda os cientistas a fazer previsões sobre esses comportamentos dos genes. Treinando modelos de computador com uma quantidade enorme de dados, os pesquisadores conseguem analisar aspectos do DNA que antes eram difíceis de estudar.
O Papel do Deep Learning em Genômica
Os modelos de deep learning se tornaram muito úteis para prever como as sequências de DNA vão se comportar. Eles conseguem prever coisas como a acessibilidade de certas partes do DNA, onde as proteínas chamadas fatores de transcrição vão se ligar e como os enhancers funcionam. Essas previsões são avaliadas usando conjuntos de teste, que são diferentes dos dados usados para ensinar os modelos. Essa separação garante que os modelos realmente estão aprendendo, em vez de apenas decorar os dados de treinamento.
Mais importante ainda, quando esses modelos de deep learning conseguem identificar padrões biológicos nos dados, eles ajudam a aprofundar nosso conhecimento sobre processos biológicos. Estudos mostraram que esses modelos podem identificar padrões tanto conhecidos quanto novos dentro das sequências de DNA, levando a insights valiosos.
Desafios com a Disponibilidade de Dados
No entanto, construir modelos de deep learning eficazes exige muitos dados. Para muitos organismos, especialmente os menos estudados, simplesmente não tem informação suficiente disponível. A maioria dos dados detalhados vem de espécies bem conhecidas como humanos ou camundongos. Isso apresenta um desafio: como os cientistas podem criar modelos complexos quando têm uma quantidade limitada de dados?
Uma solução proposta é gerar dados artificiais testando sequências de DNA aleatórias no laboratório e avaliando-as em relação a sequências genômicas reais. A ideia é que as sequências de DNA naturais não tenham variação suficiente para ensinar aos modelos tudo que eles precisam saber.
Técnicas de Aumento de Dados
Para aumentar a quantidade de dados de treinamento, os cientistas costumam usar uma técnica chamada aumento de dados. Esse processo envolve fazer cópias modificadas de dados existentes. Por exemplo, em processamento de imagem, os pesquisadores podem inverter, girar ou mudar a cor das imagens para criar novas versões sem precisar de novas imagens.
Na genômica, há menos métodos de aumento personalizados disponíveis. Os cientistas frequentemente usam técnicas como criar complementos reversos de sequências ou deslocar sequências ao longo da fita de DNA. Recentemente, métodos que imitam a evolução, como introduzir mudanças aleatórias nas sequências de DNA, mostraram potencial para melhorar o desempenho dos modelos.
O Poder das Sequências Homólogas
Sequências homólogas são sequências de DNA de diferentes espécies que compartilham um ancestral comum. Elas podem parecer diferentes, mas muitas vezes desempenham papéis biológicos semelhantes. Como essas sequências podem fornecer informações valiosas sobre função e evolução, os pesquisadores estão agora considerando-as como uma forma de aumentar os conjuntos de dados de treinamento.
Ao incorporar sequências homólogas de espécies relacionadas, os cientistas podem aumentar a diversidade dos dados de treinamento, potencialmente levando a um melhor desempenho dos modelos. Esse método provou ser particularmente eficaz em vários cenários biológicos.
Como Funciona o Aumento Filogenético
O aumento filogenético significa transformar uma sequência de DNA de uma espécie em um homólogo de outra espécie. Essa técnica usa alinhamentos genômicos de múltiplas espécies para enriquecer os dados de treinamento. Ao incluir homólogos como versões aumentadas das sequências de treinamento, os modelos têm acesso a uma variedade mais ampla de sequências.
A aplicação desse método envolve três etapas principais. Primeiro, os pesquisadores usam alinhamentos genômicos de múltiplas espécies para identificar sequências homólogas para cada sequência de DNA em seu conjunto de treinamento. Em seguida, eles aplicam o aumento filogenético a essas sequências durante o processo de treinamento do modelo. Por último, após o treinamento, os modelos são ajustados nas sequências originais para melhorar a precisão e reduzir o viés.
Benefícios do Aumento Filogenético
Experimentos iniciais usando aumento filogenético mostraram resultados promissores. Por exemplo, ao treinar modelos para prever atividades específicas no gênero Drosophila, os pesquisadores descobriram que modelos que usaram aumento filogenético tiveram desempenho melhor do que aqueles que não usaram. Em um exemplo, o desempenho do modelo aumentou significativamente quando homólogos de espécies próximas foram incluídos.
Além disso, o aumento filogenético pode ajudar ao trabalhar com conjuntos de dados menores. Em casos onde não há regiões suficientes de interesse para um aprendizado de máquina eficaz, aumentar os dados de treinamento com sequências homólogas pode melhorar o desempenho do modelo, mesmo com menos dados.
Aplicações no Mundo Real
Os cientistas aplicaram o método de aumento filogenético a conjuntos de dados genômicos reais para testar sua eficácia. Um estudo analisou dados da linha celular Drosophila S2, onde os pesquisadores previram a atividade dos enhancers. Eles extraíram homólogos de várias espécies de Drosophila e os incorporaram ao conjunto de dados de treinamento.
Outra análise olhou para picos de DNase-seq binários de várias linhagens celulares humanas. Nesse caso, os pesquisadores usaram homólogos de espécies mamíferas relacionadas. Os resultados mostraram uma melhoria significativa nas previsões dos modelos ao usar aumento filogenético.
Além disso, o método se mostrou útil ao treinar modelos em conjuntos de dados muito menores, como aqueles que analisam proteínas que se ligam ao RNA em leveduras. Os pesquisadores descobriram que aplicar aumento filogenético aumentou significativamente a capacidade do modelo de prever características biológicas relevantes.
Explorando o Impacto dos Hiperparâmetros
Para avaliar a eficácia do aumento filogenético, os pesquisadores exploraram vários fatores, conhecidos como hiperparâmetros. Uma área crítica que eles analisaram foi o número de espécies incluídas no processo de aumento. Eles treinaram modelos com diferentes espécies, medindo as melhorias no desempenho preditivo.
Eles também examinaram como a taxa de aumento aplicada durante o treinamento do modelo afetou os resultados. As descobertas iniciais indicaram que aplicar aumento em uma taxa moderada levou a resultados melhores do que exagerar em cada sequência de treinamento. Isso sugere que há uma quantidade ótima de aumento necessária para maximizar o desempenho sem introduzir muita variabilidade.
Conclusão
O aumento filogenético representa uma ferramenta poderosa para avançar a pesquisa genômica usando deep learning. Ao utilizar sequências homólogas de espécies relacionadas, os pesquisadores conseguem superar limitações de dados e criar modelos com capacidades preditivas aprimoradas.
À medida que o deep learning continua desempenhando um papel crítico na compreensão da genética, métodos como o aumento filogenético têm o potencial de melhorar significativamente a eficiência e a eficácia desses modelos.
Em uma era onde grandes conjuntos de dados estão se tornando cada vez mais disponíveis, esse método pode ajudar os pesquisadores a obter insights biológicos vitais, contribuindo, em última análise, para nossa compreensão de mecanismos genéticos complexos.
Com sua ampla aplicabilidade em vários organismos e condições experimentais, o aumento filogenético promete avanços futuros na genômica.
Título: Improving the performance of supervised deep learning for regulatory genomics using phylogenetic augmentation
Resumo: Structured abstractO_ST_ABSMotivationC_ST_ABSSupervised deep learning is used to model the complex relationship between genomic sequence and regulatory function. Understanding how these models make predictions can provide biological insight into regulatory functions. Given the complexity of the sequence to regulatory function mapping (the cis-regulatory code), it has been suggested that the genome contains insufficient sequence variation to train models with suitable complexity. Data augmentation is a widely used approach to increase the data variation available for model training, however current data augmentation methods for genomic sequence data are limited. ResultsInspired by the success of comparative genomics, we show that augmenting genomic sequences with evolutionarily related sequences from other species, which we term phylogenetic augmentation, improves the performance of deep learning models trained on regulatory genomic sequences to predict high-throughput functional assay measurements. Additionally, we show that phylogenetic augmentation can rescue model performance when the training set is down-sampled and permits deep learning on a real-world small dataset, demonstrating that this approach improves experimental data efficiency. Overall, this data augmentation method represents a solution for improving model performance that is applicable to many supervised deep learning problems in genomics. Availability and implementationThe open-source GitHub repository agduncan94/phylogenetic_augmentation_paper includes the code for rerunning the analyses here and recreating the figures. [email protected]
Autores: Alan M Moses, A. G. Duncan, J. A. Mitchell
Última atualização: 2024-01-17 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2023.09.15.558005
Fonte PDF: https://www.biorxiv.org/content/10.1101/2023.09.15.558005.full.pdf
Licença: https://creativecommons.org/licenses/by-nc/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.