Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Avanços em Deep Learning para Análise Genética

Pesquisadores melhoram modelos pra analisar a expressão gênica e entender atributos biológicos.

― 10 min ler


Aprendizado ProfundoAprendizado ProfundoPotencializa InsightsGenéticosbiológicas a partir de dados genéticos.Modelos melhorados revelam informações
Índice

Os genes têm um papel super importante em como nossos corpos funcionam e reagem a várias coisas. As relações entre os genes e seus efeitos nos traços, conhecidos como fenótipos, são complexas e envolvem várias interações. Ao entender melhor esses vínculos, podemos responder a perguntas biológicas importantes e melhorar tratamentos médicos. Avanços recentes em tecnologia, especialmente em aprendizado profundo, podem transformar nossa compreensão das funções dos genes.

O aprendizado profundo, um tipo de inteligência artificial, usa grandes quantidades de dados para aprender padrões e fazer previsões. Um desenvolvimento notável nessa área foi a introdução dos modelos Transformer, que mostraram potencial em várias áreas de pesquisa e aplicações do dia a dia. Os pesquisadores estão agora aplicando essas tecnologias aos dados de Expressão Gênica na esperança de revelar mais sobre as interações e funções dos genes.

Em particular, modelos que foram treinados com dados de expressão gênica estão sendo usados para classificar tipos celulares, prever genes relacionados a doenças e entender como os genes mudam quando enfrentam diferentes condições. No entanto, ainda existem lacunas significativas em nossa compreensão de quão bem esses modelos aprendem informações biológicas e como podem ser aplicados a problemas do mundo real. Além disso, a maioria dos modelos existentes se concentrou principalmente em um tipo específico de dado, conhecido como sequenciamento de RNA de célula única, enquanto menos atenção foi dada ao sequenciamento de RNA em massa.

Este estudo tem como objetivo preencher essas lacunas, avaliando como diferentes modelos aprendem atributos biológicos dos genes e quão bem conseguem simular respostas a mudanças nos genes. Também investigamos maneiras de melhorar o desempenho dos modelos e exploramos possíveis aplicações do conhecimento que eles adquirem.

Treinamento de Modelos com Dados de Expressão Gênica

Para ver quão bem os modelos de aprendizado profundo podem aprender com dados de expressão gênica, os pesquisadores usaram um grande conjunto de dados de amostras de sequenciamento de RNA humano. Depois de filtrar os dados por qualidade, mais de 400.000 amostras, representando vários tecidos, idades e condições, estavam prontas para o treinamento do modelo. Ao mascarar aleatoriamente algumas das identidades dos genes nessas amostras, os pesquisadores prepararam os dados para o treinamento.

Um modelo Transformer de seis camadas, baseado na arquitetura BERT, foi usado para aprender as relações entre os genes. O objetivo era prever as identidades dos genes mascarados analisando seus padrões de expressão. A expressão gênica foi padronizada para levar em conta as diferenças nas medições, permitindo que o modelo se concentrasse nas relações em vez de valores absolutos.

Após o treinamento, os pesquisadores avaliaram as informações aprendidas pelo modelo. Eles descobriram que as incorporações gênicas, que são representações numéricas dos genes derivadas do modelo, capturaram uma riqueza de informações. Mais da metade dos parâmetros do modelo foi encontrada dentro dessas incorporações, sugerindo que elas continham valiosos insights biológicos.

Analisando Informações Biológicas nas Incorporações Gênicas

Para determinar quais informações biológicas estavam presentes nas incorporações gênicas, os pesquisadores analisaram vários atributos associados aos genes. Isso incluiu estudar as funções das proteínas codificadas pelos genes, suas interações com outras proteínas e suas relações com doenças. Ao analisar quão bem as incorporações gênicas poderiam representar esses atributos, os pesquisadores tentaram entender as capacidades de aprendizado do modelo.

A análise indicou que as incorporações gênicas capturaram com sucesso informações relacionadas a domínios de proteínas e outros atributos biológicos. Por exemplo, genes conhecidos por participar de vias específicas ou interagir com certas proteínas foram encontrados nas incorporações. Isso sugere que, embora o modelo tenha sido treinado apenas com dados de expressão gênica, ele também poderia aprender informações biológicas significativas.

Métodos de Normalização e Seu Impacto

Durante a análise, os pesquisadores notaram potenciais vieses surgindo do método inicial usado para normalizar os dados de expressão gênica. Alguns genes tinham valores de expressão incomuns, o que poderia distorcer seu ranking no conjunto de dados. Isso poderia levar a um modelo que dependesse muito de alguns genes extremos, em vez de considerar um espectro mais amplo de expressões gênicas.

Para lidar com esse problema, os pesquisadores criaram uma nova estratégia de normalização chamada "Binning-By-Gene". Esse método garantiu que cada gene tivesse uma chance igual de ocupar qualquer posição de ranking na entrada do modelo. Ao mitigar os vieses do método anterior, essa nova abordagem melhorou significativamente o desempenho do modelo em aprender atributos biológicos.

Desenvolvendo um Índice de Aprendizado de Atributos Gênicos

Para avaliar de forma abrangente o desempenho de diferentes modelos e métodos de normalização no aprendizado de atributos biológicos, os pesquisadores desenvolveram um Índice de Aprendizado de Atributos Gênicos. Esse índice mede quão consistentemente o agrupamento do modelo se alinha com os atributos reais dos genes em várias bases de dados.

O índice combina várias métricas de consistência de agrupamento, permitindo uma comparação completa do desempenho dos modelos. Ao aplicar esse índice, os pesquisadores investigaram quão bem diferentes técnicas de normalização e arquiteturas de modelos poderiam aprender informações biológicas. Os resultados destacaram a eficácia do método "Binning-By-Gene" em melhorar o desempenho do modelo.

Comparando Diferentes Configurações de Modelos

Como a estrutura e configuração de um modelo podem afetar seu desempenho, os pesquisadores buscaram melhorar seus métodos de treinamento. Eles exploraram vários modelos, incluindo um modelo BERT diferente que mascarava expressões gênicas em vez de identidades, e um modelo GPT que previa o próximo gene com base nos genes previamente expressos.

Esses modelos foram coletivamente chamados de “GeneRAINs”, enfatizando seu foco na representação gênica. Os pesquisadores compararam as capacidades de aprendizado de atributos gênicos de seus modelos com outros modelos de ponta. Os resultados mostraram que os modelos GeneRAIN superaram significativamente os modelos anteriores quando se tratava de aprender atributos biológicos.

Entendendo Contribuições Dimensionais nas Incorporações Gênicas

Os pesquisadores se preocupavam que múltiplos atributos biológicos aprendidos pelo modelo poderiam, na verdade, representar a mesma informação subjacente. Para investigar isso, eles avaliaram como diferentes dimensões das incorporações gênicas correspondiam a atributos específicos dos genes.

Através de análise estatística, eles descobriram que, embora houvesse alguma sobreposição nas dimensões associadas a diferentes atributos, muitas dimensões eram únicas para atributos distintos. Isso indica que os modelos conseguiram aprender informações biológicas diversas e que as representações eram informativas.

Aprendendo Respostas Transcricional a Mudanças Genéticas

Além de aprender atributos biológicos, um modelo útil também deve lidar efetivamente com tarefas relacionadas a como os genes respondem a mudanças. Para avaliar isso, os pesquisadores analisaram a capacidade dos modelos de aprender com as respostas transcricionais resultantes de knockdowns gênicos, que envolvem desligar genes específicos para observar os efeitos sobre outros.

Ao aproveitar um grande conjunto de dados de um estudo anterior, os pesquisadores mediram quão bem os modelos conseguiram recapturar as relações entre genes que produzem respostas transcricionais semelhantes. Os resultados mostraram que os modelos continham informações significativas em relação a essas respostas, com aqueles que empregavam o método de normalização "Binning-By-Gene" apresentando um desempenho particularmente bom.

Simulando Knockdowns Gênicos

Os pesquisadores foram além para testar a capacidade dos modelos de simular respostas a knockdowns gênicos in silico. Diferente das avaliações anteriores que focavam em relações estáticas, essa análise olhou para mudanças dinâmicas na expressão gênica quando genes específicos eram alterados artificialmente.

Os modelos foram submetidos a vários knockdowns simulados, e as mudanças resultantes na expressão gênica foram quantificadas. Descobriram que, embora os knockdowns in silico causassem mudanças mínimas nas incorporações celulares, a correlação entre as respostas previstas e as reais foi maior nos modelos que utilizavam técnicas de normalização mais avançadas.

Usando Incorporações Gênicas para Treinar Classificadores

Outra aplicação das incorporações gênicas envolveu usá-las como características para treinar classificadores encarregados de prever vários atributos biológicos. Ao condensar informações das incorporações em menos dimensões, os pesquisadores treinaram mais de 5.000 classificadores para prever uma ampla gama de resultados relacionados a genes.

Esses classificadores foram projetados para distinguir entre genes conectados a doenças específicas ou processos biológicos e foram avaliados com base em seu desempenho. Comparações demonstraram que os classificadores treinados com incorporações dos modelos "Binning-By-Gene" superaram aqueles treinados usando métodos de normalização tradicionais.

Prevendo Atributos Biológicos de RNAs Não Codificadores

Os pesquisadores também exploraram se os modelos poderiam prever atributos associados a RNAs longos não codificadores (LncRNAs), que são menos compreendidos em comparação com genes que codificam proteínas. Ao incluir lncRNAs ao lado de genes codificadores em seus modelos, eles queriam ver se o conhecimento dos genes codificadores poderia ser aplicado aos não codificadores.

Os resultados indicaram que os modelos poderiam prever efetivamente atributos biológicos de lncRNAs, com desempenho comparável a classificadores focados em genes codificadores de proteínas. Essa descoberta sugere uma abordagem promissora para estender o conhecimento obtido a partir de genes codificadores para o panorama mais amplo do RNA.

Conclusão

Em resumo, os pesquisadores avaliaram extensivamente modelos de aprendizado profundo projetados para analisar dados de expressão gênica quanto à sua capacidade de aprender vários atributos biológicos. Por meio de técnicas de normalização inovadoras, melhoraram o desempenho do modelo e exploraram as intrincadas relações entre os genes. O estudo revelou que esses modelos poderiam aprender informações biológicas ricas, mesmo quando treinados exclusivamente com dados de expressão gênica. Além disso, os classificadores treinados com incorporações gênicas mostraram eficácia em prever atributos biológicos, abrindo caminho para uma compreensão mais profunda dos papéis dos genes em processos biológicos complexos.

Essas descobertas destacam as potenciais aplicações dos modelos, não apenas em pesquisas sobre doenças, mas também na previsão de atributos de tipos de RNA que antes eram menos estudados. A capacidade de extrair informações significativas dos dados de expressão gênica representa um avanço significativo no campo da genética e biologia. Mais pesquisas serão essenciais para continuar refinando esses modelos e explorando suas implicações para a medicina e a biologia.

Fonte original

Título: Multifaceted Representation of Genes via Deep Learning of Gene Expression Networks

Resumo: Accurate predictive modeling of human gene relationships would fundamentally transform our ability to uncover the molecular mechanisms that underpin key biological and disease processes. Recent studies have employed advanced AI techniques to model the complexities of gene networks using large gene expression datasets1-11. However, the extent and nature of the biological information these models can learn is not fully understood. Furthermore, the potential for improving model performance by using alternative data types, model architectures, and methodologies remains underexplored. Here, we developed GeneRAIN models by training on a large dataset of 410K human bulk RNA-seq samples, rather than single-cell RNA-seq datasets used by most previous studies. We showed that although the models were trained only on gene expression data, they learned a wide range of biological information well beyond gene expression. We introduced GeneRAIN-vec, a state-of-the-art, multifaceted vectorized representation of genes. Further, we demonstrated the capabilities and broad applicability of this approach by making 4,797 biological attribute predictions for each of 13,030 long non-coding RNAs (62.5 million predictions in total). These achievements stem from various methodological innovations, including experimenting with multiple model architectures and a new Binning-By-Gene normalization method. Comprehensive evaluation of our models clearly demonstrated that they significantly outperformed current state-of-the-art models3,12. This study improves our understanding of the capabilities of Transformer and self-supervised deep learning when applied to extensive expression data. Our methodological advancements offer crucial insights into refining these techniques. These innovations are set to significantly advance our understanding and exploration of biology.

Autores: Fatemeh Vafaee, Z. Su, M. Fang, A. Smolnikov, M. E. Dinger, E. C. Oates

Última atualização: 2024-06-28 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.03.07.583777

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.03.07.583777.full.pdf

Licença: https://creativecommons.org/licenses/by-nc/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes