Novas ferramentas pra entender funções ocultas de proteínas
Os avanços em IA estão melhorando a anotação da função das proteínas, revelando a biologia ocultada.
― 9 min ler
Índice
- O Desafio da Anotação Funcional em Organismos Não Modelos
- Uma Nova Abordagem para Anotação Funcional de Proteínas
- Resultados do Estudo de Anotação Funcional
- A Importância da Especificidade e Conteúdo de Informação dos Termos GO
- Explorando o Dark Proteome
- O Papel da Desordem nas Proteínas
- A Significância do FANTASIA para a Pesquisa Futura
- Conclusão
- Fonte original
- Ligações de referência
Pra entender como a vida mudou e ficou complexa, a gente precisa olhar de perto os proteínas, que são componentes essenciais de todos os seres vivos. Saber o que os proteínas fazem ajuda a gente a entender como os genes e genomas evoluíram com o tempo. Existem vários métodos que os cientistas usam pra atribuir funções aos proteínas. Alguns desses métodos analisam os caminhos que gerenciam as atividades celulares, as partes específicas dos proteínas e um sistema conhecido como Gene Ontology (GO). Esse sistema foi criado pra fornecer uma linguagem comum pra descrever o que os genes fazem em diferentes organismos, permitindo comparações.
Quando os primeiros genomas foram sequenciados, o GO Consortium criou um vocabulário estruturado, conhecido como ontologias, pra descrever os papéis dos produtos gênicos. Essas ontologias são organizadas em três categorias principais: processos biológicos, funções moleculares e componentes celulares. Quando falamos sobre Anotação Funcional, estamos discutindo como atribuímos uma função ao produto de um gene-isso inclui proteínas e RNAs não codificantes. Analisar essas funções é crucial pra biologia evolutiva, pois ajuda a gente a olhar mais fundo nos aspectos funcionais de diferentes genomas e proteomas.
O Desafio da Anotação Funcional em Organismos Não Modelos
Um desafio grande que os pesquisadores enfrentam com organismos não modelos é a anotação funcional incompleta dos genes. Muitos genes continuam sem anotação, tornando-se "escondidos" da visão científica-isso é conhecido como o "dark proteome". Essa falta de anotação vem principalmente da escassez de homologia, ou similaridade, entre os genes. Métodos de anotação tradicionais costumam depender de sequências similares pra identificar funções, o que significa que muitos proteínas continuam sem reconhecimento porque não se parecem com sequências conhecidas.
Por exemplo, certos animais, como os tardígrados (ursos d'água), têm uma alta porcentagem de genes sem contrapartes conhecidas em bancos de dados existentes. Da mesma forma, a esponja de água doce Ephydatia muelleri tem um número considerável de genes não anotados. Esses exemplos destacam a necessidade urgente de novos métodos que possam revelar a biologia escondida dos organismos, especialmente aqueles que não se encaixam em modelos tradicionais.
Em resposta a esses desafios, iniciativas como o Earth Biogenome Project e o European Reference Genome Atlas estão sequenciando novos genomas todo dia. Esse aumento de dados exige formas mais eficientes e escaláveis de prever funções de proteínas com base em suas sequências. Ao pegar conceitos da ciência da computação, podemos resolver alguns desses problemas. Um caso notável é o AlphaFold, um sistema que usa inteligência artificial pra prever estruturas 3D de proteínas, assim ajudando a entender as funções das proteínas.
Além disso, avanços recentes em IA melhoraram a previsão de anotações de proteínas. Modelos baseados em aprendizado profundo e ferramentas de linguagem natural começaram a extrair regras das sequências de proteínas, ajudando em previsões funcionais. A Avaliação Crítica da Anotação Funcional (CAFA) ajuda a acompanhar o progresso desses métodos, usando conjuntos de dados de proteínas validadas experimentalmente pra avaliar o estado da previsão de função de proteínas.
Uma Nova Abordagem para Anotação Funcional de Proteínas
Com uma boa compreensão desses desafios e avanços, os pesquisadores começaram a aplicar métodos de anotação funcional baseados em IA a grandes conjuntos de dados. Por exemplo, eles analisaram um conjunto de 970 repertórios gênicos de vários genomas de alta qualidade que representam quase todos os filos animais. No total, eram cerca de 23,5 milhões de genes. Os pesquisadores compararam três métodos de anotação funcional: um baseado em homologia, um segundo utilizando aprendizado profundo com similaridade de sequência, e um terceiro usando modelos de linguagem pra avaliar a distância entre proteínas.
Os resultados mostraram que os métodos baseados em modelo de linguagem de proteínas superaram os outros, especialmente para organismos não modelos, aumentando significativamente a cobertura de anotação em comparação com métodos tradicionais. Isso abre novas avenidas pra entender o dark proteome em todo o reino animal. Os pesquisadores desenvolveram uma ferramenta de código aberto chamada FANTASIA pra facilitar a anotação funcional usando essas metodologias avançadas.
Resultados do Estudo de Anotação Funcional
Usando o pipeline FANTASIA, os pesquisadores anotaram as funções de 970 repertórios gênicos de uma vasta gama de espécies animais. Eles atribuíram termos GO a esses genes usando três métodos distintos:
- eggNOG-mapper: Esse método transfere funções de genes similares no banco de dados eggNOG.
- DeepGOPlus: Esse é um modelo de aprendizado profundo que combina dados de similaridade de sequência.
- GOPredSim: Esse método se baseia na similaridade de sequências com um modelo de linguagem.
As descobertas mostraram que o eggNOG-mapper teve dificuldades pra anotar quase metade dos genes no conjunto de dados, enquanto os outros dois métodos tiveram desempenho significativamente melhor. Além disso, a análise revelou que à medida que os critérios de filtragem se tornaram mais rigorosos, as anotações dos outros métodos se mantiveram robustas.
Analisando o número de termos GO atribuídos a cada gene, obtivemos mais insights. Enquanto o eggNOG-mapper e o DeepGOPlus atribuíram um número maior de termos GO em comparação com o GOPredSim, a especificidade e o detalhe das anotações foram considerados mais altos nos resultados obtidos pelo GOPredSim.
A Importância da Especificidade e Conteúdo de Informação dos Termos GO
Pra avaliar quão informativos eram os termos GO atribuídos, os pesquisadores analisaram seu Conteúdo de Informação (IC). IC mede quão específico é um termo GO, com valores mais altos indicando anotações mais detalhadas. Os resultados mostraram que o GOPredSim forneceu anotações com melhor especificidade do que o DeepGOPlus, que tendia a atribuir termos mais gerais.
A similaridade semântica das anotações entre diferentes métodos também foi avaliada. Comparando os termos GO atribuídos pelo eggNOG-mapper e pelos outros dois métodos, os pesquisadores descobriram que, embora todos os métodos tivessem algumas diferenças, as anotações do GOPredSim eram comparáveis às do eggNOG-mapper. Isso sugere que o GOPredSim oferece previsões confiáveis, enriquecendo nossa compreensão das funções gênicas em diversas espécies.
Explorando o Dark Proteome
Os pesquisadores estavam ansiosos pra descobrir as funções dos genes que não foram anotados por métodos tradicionais, olhando especificamente para o "dark proteome". Ao realizar uma análise de enriquecimento GO nos genes que o eggNOG-mapper falhou em anotar, eles identificaram vários termos GO comuns associados à resposta viral e funções imunológicas, que são traços significativos sob evolução adaptativa dentro dos animais.
Entre as novas descobertas estava a identificação de genes relacionados à atividade de toxinas em diferentes filos. Isso insinuou caminhos evolutivos compartilhados em mecanismos de defesa entre vários grupos de animais. Os pesquisadores descobriram proteínas previamente não reconhecidas com potenciais papéis em imunidade e defesa, o que poderia levar a novas percepções sobre as adaptações evolutivas desses organismos.
O Papel da Desordem nas Proteínas
Um aspecto intrigante dessa pesquisa foi a exploração de proteínas intrinsecamente desordenadas (IDPs), que muitas vezes não têm uma estrutura fixa e são difíceis de analisar usando métodos tradicionais. O estudo encontrou que as anotações pra essas proteínas desordenadas eram particularmente desafiadoras, já que sua natureza dinâmica torna difícil encaixá-las em categorias funcionais estabelecidas.
No entanto, usando modelos baseados em linguagem, os pesquisadores conseguiram prever funções pra essas proteínas, iluminando ainda mais a biologia escondida dentro do dark proteome. O pipeline FANTASIA se mostrou benéfico pra anotar esses casos difíceis e ofereceu um método promissor pra estudos futuros relacionados a IDPs.
A Significância do FANTASIA para a Pesquisa Futura
O FANTASIA representa um avanço significativo no campo da anotação funcional. Ao automatizar o processo de atribuição de termos GO aos proteomas, a ferramenta simplifica a tarefa dos pesquisadores, especialmente na exploração da diversidade da vida animal. O pipeline foi projetado pra apoiar uma ampla gama de usuários, proporcionando uma maneira tranquila de realizar anotações funcionais em grandes conjuntos de dados.
À medida que os projetos de sequenciamento genômico continuam a crescer, a habilidade do FANTASIA de revelar funções escondidas dentro dos genes será inestimável pra biologia evolutiva, genômica comparativa e outros campos científicos. Isso permite que os pesquisadores proponham hipóteses sobre funções gênicas e relações que antes eram inalcançáveis devido a práticas de anotação inadequadas.
Conclusão
Os avanços em métodos de anotação funcional baseados em IA, juntamente com o desenvolvimento de ferramentas como o FANTASIA, permitem uma exploração mais profunda das funções dos genes em diversas espécies animais. À medida que mais genomas são sequenciados e analisados, o potencial pra descobrir biologia escondida se torna cada vez mais viável.
Essa pesquisa não só enriquece nosso conhecimento do reino animal, mas também enfatiza a importância de entender a complexidade e as nuances das funções gênicas. À medida que continuamos a explorar o dark proteome, podemos esperar desbloquear novos insights que vão melhorar nossa compreensão dos processos evolutivos e da diversidade biológica que existe em nosso planeta.
No geral, a integração de modelos de linguagem de proteínas nos esforços de anotação funcional marca uma era transformadora pra pesquisa biológica, oferecendo um caminho pra iluminar os cantos anteriormente escuros da informação genômica.
Título: Illuminating the functional landscape of the dark proteome across the Animal Tree of Life through natural language processing models
Resumo: BackgroundUnderstanding how coding genes and their functions evolve over time is a key aspect of evolutionary biology. Protein coding genes poorly understood or characterized at the functional level may be related to important evolutionary innovations, potentially leading to incomplete or inaccurate models of evolutionary change, and limiting the ability to identify conserved or lineage-specific features. Homology-based methodologies often fail to transfer functional annotations in a large fraction of the coding gene repertoire in non-model organisms. This is particularly relevant in animals, where a large number of their coding genes yield no functional annotation. ResultsHere, we leverage homology, deep learning, and protein language models to investigate functional annotation in the dark proteome (defined as the unknown functional landscape) of ca. 1,000 gene repertoires of virtually all animal phyla, totaling ca. 23.2 million coding genes. We then explored the dark proteome of all animal phyla revealing an enrichment in functions related to immune response, viral infection, response to stimuli, development, or signaling, among others. Furthermore, we provide an open-source pipeline - FANTASIA - to implement and benchmark these methodologies in any dataset. ConclusionsOur results uncover the putative functions of poorly understood protein-coding genes across the Animal Tree of Life that were inaccessible before due to the limitations in homology inference, contributing to a more comprehensive understanding of the molecular basis of animal evolution, and providing a new tool for the functional annotation of protein-coding genes in newly generated genomes.
Autores: Rosa Fernandez, G. I. Martinez-Redondo, I. Barrios-Nunez, M. Vazquez-Valls, A. M. Rojas
Última atualização: 2024-05-29 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.02.28.582465
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.02.28.582465.full.pdf
Licença: https://creativecommons.org/licenses/by-nc/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.