Simple Science

Ciência de ponta explicada de forma simples

# Biologia Quantitativa# Genómica# Aprendizagem de máquinas

Novo método prevê funções de genes em plantas

Uma nova abordagem combina dados genéticos pra prever melhor as funções nas plantas de batata.

― 6 min ler


Prevendo Funções de GenesPrevendo Funções de Genesde Plantasgênica usando dados integrados.Revolucionando previsões de função
Índice

Sistemas biológicos são complexos e podem ser estudados em vários níveis, incluindo genes, proteínas e suas interações. Este artigo fala sobre um novo método que combina informações desses diferentes níveis e como os genes mudam ao longo do tempo pra prever melhor o que certos genes fazem nas plantas, especificamente na planta de batata. O método se chama DDeMON, que significa Dynamic Deep learning from temporal Multiplex Ontology-annotated Networks.

O Desafio

Ao longo dos anos, os cientistas aprenderam muito sobre algumas plantas, com cerca de 40% dos genes na planta Arabidopsis tendo funções conhecidas. No entanto, para o arroz, esse número cai pra apenas 1%. Isso mostra que ainda tem muito que a gente não entende sobre muitos genes de plantas. Pra entender melhor o que esses genes fazem, os pesquisadores usam Ontologias, que são sistemas que categorizam o conhecimento. Na pesquisa sobre plantas, duas ontologias populares são MapMan e Gene Ontology.

Pra avançar, é importante combinar dados de diferentes fontes ao estudar sistemas biológicos. Esse método de juntar vários tipos de dados pode ajudar os pesquisadores a construir modelos melhores, que podem ser úteis pra descobrir biomarcadores ou alvos de medicamentos.

Embora tenha havido esforços pra integrar dados de organismos bem estudados como humanos e camundongos, ainda tem muito trabalho a ser feito pra plantas, especialmente aquelas que não são tão estudadas.

Metodologia DDeMON

A abordagem DDeMON usa uma combinação de várias camadas de informações biológicas, olhando como os genes interagem ao longo do tempo. Começa construindo uma rede composta por diferentes fontes de dados. Essas fontes incluem informações sobre interações de genes, funções de proteínas e como os genes se comportam em resposta a diferentes condições.

O primeiro passo é criar uma rede multiplex, que envolve diferentes tipos de conexões representando várias interações. Essa rede captura as complexas relações entre genes e proteínas. Cada conexão pode ter pesos diferentes, mostrando a força da relação.

Em seguida, o DDeMON analisa como essas relações mudam ao longo do tempo, o que adiciona outra camada de entendimento. O método pode analisar como a expressão dos genes varia, o que é crucial pra entender suas funções.

Construindo a Rede

Criar uma rede multiplex começa com a coleta de dados de várias fontes. Isso inclui interações conhecidas entre proteínas, como os genes são regulados e onde eles se conectam na literatura científica. Ao juntar esses tipos de dados diversos em uma única rede, os pesquisadores podem visualizar e analisar interações de forma mais eficaz.

O método DDeMON transforma cada camada de dados em um formato estruturado que facilita o estudo. Por exemplo, ele pode criar conexões entre genes de batata e seus homólogos em Arabidopsis ou ligá-los a artigos de pesquisa relevantes.

Uma vez que a rede multiplex é estabelecida, o próximo passo envolve simplificá-la. Isso é feito por meio de métodos que se concentram em nós representando genes, mantendo as conexões importantes intactas. Dessa forma, a análise pode permanecer clara enquanto captura informações essenciais.

Aprendizado de Representação

Uma característica chave do DDeMON é como ele aprende a representar os diferentes nós na rede. Cada nó de gene recebe um conjunto de características ou propriedades que refletem suas conexões e como se comporta. Isso envolve o uso de algoritmos que avaliam a importância de cada conexão e atribuem valores de acordo.

Pra um aprendizado eficaz, o DDeMON emprega um algoritmo de ranqueamento que ajuda a determinar quão provável é que um gene se conecte a outros. Ele simula uma caminhada aleatória pela rede pra descobrir essas relações.

Quando a rede é grande e complexa, pode resultar em dados de alta dimensionalidade, que são difíceis de lidar para muitos métodos de análise. Pra mitigar isso, o DDeMON usa técnicas pra reduzir o número de dimensões mantendo as informações significativas intactas. Isso torna mais fácil analisar e produzir previsões precisas.

Prevendo Funções de Genes

O objetivo final da abordagem DDeMON é prever com precisão as funções de genes com papéis desconhecidos. Isso envolve treinar modelos usando os vetores de características construídos a partir da rede multiplex. Diferentes algoritmos de aprendizado de máquina são testados pra avaliar quão bem conseguem classificar os genes em categorias funcionais específicas.

Por exemplo, o modelo é treinado usando funções conhecidas de genes e então prevê as funções de genes desconhecidos avaliando quão próximos eles estão dos conhecidos. Esse processo envolve validação cuidadosa pra garantir que as previsões sejam confiáveis.

Resultados Experimentais

O desempenho da metodologia DDeMON foi validado por meio de vários experimentos. Os pesquisadores usaram dados de Expressão Gênica de plantas de batata, examinando como os genes reagiram a diferentes condições. Ao avaliar as semelhanças nos perfis de expressão, o DDeMON conseguiu criar uma rede de conexões baseada em comportamentos compartilhados.

Vários algoritmos foram testados pra ver quão bem conseguiam classificar os genes com base nas características extraídas. Os resultados mostraram que alguns modelos se saíram melhor que outros, especialmente na previsão precisa de certas funções.

As previsões foram então comparadas com funções conhecidas pra avaliar sua precisão. Por exemplo, alguns genes previstos pra estar envolvidos em respostas a estresses bióticos mostraram forte alinhamento com descobertas experimentais, indicando a confiabilidade do modelo.

Conclusão

O DDeMON representa um avanço importante no campo da biologia computacional, fornecendo um método sofisticado pra prever funções gênicas em plantas. Ao integrar diversas fontes de dados e utilizar redes multilayer, o DDeMON facilita um entendimento mais abrangente das interações e comportamentos gênicos.

Os resultados desta pesquisa destacam o potencial do DDeMON pra ajudar em previsões de funções gênicas mais rápidas e precisas. Isso pode ter implicações significativas pra ciência das plantas, especialmente em áreas como melhoramento de culturas e resistência a doenças.

À medida que os pesquisadores continuam a refinar e desenvolver a metodologia, o trabalho futuro se concentrará em tornar o DDeMON ainda mais eficiente, potencialmente expandindo suas aplicações para outros organismos não-modelo.

Resumindo, o DDeMON não só simplifica o processo de anotação de ontologia gênica, mas também abre novas avenidas pra pesquisa em biologia das plantas e além. Ao aproveitar o poder dos dados integrados e técnicas avançadas de aprendizado de máquina, ele está destinado a desempenhar um papel crucial na navegação das complexidades dos sistemas biológicos.

Fonte original

Título: DDeMON: Ontology-based function prediction by Deep Learning from Dynamic Multiplex Networks

Resumo: Biological systems can be studied at multiple levels of information, including gene, protein, RNA and different interaction networks levels. The goal of this work is to explore how the fusion of systems' level information with temporal dynamics of gene expression can be used in combination with non-linear approximation power of deep neural networks to predict novel gene functions in a non-model organism potato \emph{Solanum tuberosum}. We propose DDeMON (Dynamic Deep learning from temporal Multiplex Ontology-annotated Networks), an approach for scalable, systems-level inference of function annotation using time-dependent multiscale biological information. The proposed method, which is capable of considering billions of potential links between the genes of interest, was applied on experimental gene expression data and the background knowledge network to reliably classify genes with unknown function into five different functional ontology categories, linked to the experimental data set. Predicted novel functions of genes were validated using extensive protein domain search approach.

Autores: Jan Kralj, Blaž Škrlj, Živa Ramšak, Nada Lavrač, Kristina Gruden

Última atualização: 2023-02-08 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2302.03907

Fonte PDF: https://arxiv.org/pdf/2302.03907

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes