Novos Métodos na Biologia Evolutiva: Estruturas de Proteínas vs. Sequências de DNA
Pesquisadores exploram as estruturas de proteínas pra entender melhor as relações evolutivas.
Giacomo Mutti, Eduard Ocaña-Pallarès, Toni Gabaldón
― 5 min ler
Índice
No mundo da biologia, os cientistas tão sempre tentando descobrir como diferentes seres vivos estão relacionados. É tipo resolver uma árvore genealógica gigante, mas em vez de tio e tia, estamos falando de todos os tipos de criaturas, de bactérias minúsculas a grandes baleias azuis. Conforme os pesquisadores juntam mais informações sobre os genomas de diferentes espécies, eles conseguem fazer perguntas mais complicadas sobre como a vida evoluiu com o tempo. Mas tem uns perrengues quando se trata de usar métodos tradicionais pra mapear essas relações, especialmente quando os organismos são muito diferentes uns dos outros.
Os Desafios dos Métodos Tradicionais
Os métodos tradicionais pra estudar as relações entre espécies geralmente se baseiam em olhar as sequências de DNA ou proteínas. Essas sequências mostram quão próximas são as diferentes espécies. Mas aqui tá o problema: quando as sequências são muito diferentes, fica difícil ver uma conexão clara. É como tentar saber se duas pinturas são do mesmo artista, sendo que uma é moderna e a outra é uma obra-prima antiga – complicado, né?
Pra driblar essa questão, os cientistas começaram a pensar fora da caixa e consideraram usar as formas das proteínas em vez de só as suas sequências. A ideia é que as estruturas das proteínas podem mudar mais devagar que as sequências, fazendo delas potenciais indicadores melhores de como as diferentes espécies estão relacionadas. Contudo, não tem tantas Estruturas de Proteínas disponíveis pra estudos em larga escala, o que tem sido um bloqueio.
Um Divisor de Águas: AlphaFold2
Aí veio um divisor de águas: AlphaFold2. Essa nova ferramenta facilitou muito a previsão das estruturas de proteínas, e abriu novas portas no estudo da biologia. Os pesquisadores agora conseguem olhar pras estruturas de proteínas de várias espécies diferentes em uma escala que antes parecia impossível. Com esse avanço, novas ferramentas de software começaram a surgir, incluindo o Foldseek, que ajuda os cientistas a alinhar estruturas de proteínas de forma rápida e eficiente.
O Poder das Estruturas de Proteínas
Com a chegada do Foldseek e ferramentas similares, os pesquisadores tão querendo ver como eles conseguem usar essas estruturas de proteínas pra determinar as relações entre os genes humanos e os genes de outras espécies. Fazendo isso, eles pretendem criar um ‘filoma humano’, que é tipo uma árvore genealógica que mostra todas as diferentes versões de genes nos humanos e como elas se relacionam com genes em outros seres vivos.
O processo começa escolhendo um monte de espécies eucarióticas diferentes, que são organismos com células complexas. Os pesquisadores coletam estruturas de proteínas de um banco de dados especial e garantem que as estruturas sejam confiáveis, eliminando aquelas que não atendem a um certo padrão de qualidade. Depois disso, eles comparam as proteínas humanas com as de espécies selecionadas usando métodos tradicionais baseados em sequência e os novos métodos baseados em estrutura.
Entendendo os Resultados
Na hora de procurar correspondências, os pesquisadores usaram dois métodos principais: BLASTP, que é a ferramenta tradicional de comparação de sequência, e Foldseek, que compara estruturas de proteínas. Surpreendentemente, eles descobriram que nem todas as correspondências eram iguais. Apenas uma pequena parte dos pares encontrados pelos dois métodos eram iguais, indicando uma grande diferença em como as duas abordagens funcionam. Enquanto o BlastP encontrou muitas correspondências únicas, o Foldseek também descobriu algumas conexões interessantes na chamada ‘zona crepuscular’ de similaridade genética, onde as sequências são muito diferentes pra serem facilmente comparadas.
Essa pesquisa mostrou que, enquanto o Foldseek pode ser ótimo pra identificar parentes distantes que as sequências perdem, ele também parece ignorar algumas relações estabelecidas que o BlastP encontra facilmente. É como encontrar um primo perdido em uma parte distante do mundo enquanto percebe que perdeu a reunião de família na esquina.
Qual Método Funciona Melhor?
Agora que os pesquisadores tinham os dois métodos em jogo, eles precisavam ver qual deles dava melhores resultados ao construir árvores genealógicas, conhecidas como filogenias. Eles usaram várias formas de avaliar quão precisas eram suas árvores, olhando pra coisas como quão bem elas se alinhavam com agrupamentos de espécies conhecidos.
Acontece que os métodos baseados em sequências consistently se saíram melhor do que os baseados em estruturas em quase todos os cenários testados. Isso sugere que, enquanto as estruturas de proteínas têm suas utilidades, as sequências de DNA ainda seguram a chave pra rastrear com precisão as relações evolutivas.
A Moral da História
Então, qual é a moral da história? Embora usar estruturas de proteínas ofereça novas visões sobre a evolução, ainda não supera os métodos tradicionais. A exploração das estruturas de proteínas é empolgante e abriu novas avenidas para pesquisa, mas parece que ainda tem espaço pra melhorar nos métodos baseados em estrutura.
Um Pensamento Final Engraçado
Se as proteínas fossem pessoas em uma festa, algumas seriam ótimas em socializar e fazer conexões (tipo o BlastP). Outras podem ser um pouco excêntricas e só se conectar com parentes distantes (oi, Foldseek). Mas juntas, elas poderiam fazer uma reunião evolutiva fantástica se jogassem bem!
Título: Newly developed structure-based methods do not outperform standard sequence-based methods for large-scale phylogenomics
Resumo: Recent developments in protein structure prediction have allowed the use of this previously limited source of information at genome-wide scales. It has been proposed that the use of structural information may offer advantages over sequences in phylogenetic reconstruction, due to their slower rate of evolution and direct correlation to function. Here, we examined how recently developed methods for structure-based homology search and tree reconstruction compare to current state-of-the-art sequence-based methods in reconstructing genome-wide collections of gene phylogenies (i.e. phylomes). While structure-based methods can be useful in specific scenarios, we found that their current performance does not justify using the newly developed structured-based methods as a default choice in large-scale phylogenetic studies. On the one hand, the best performing sequence-based tree reconstruction methods still outperform structure-based methods for this task. On the other hand, structure-based homology detection methods provide larger lists of candidate homologs, as previously reported. However, this comes at the expense of missing hits identified by sequence-based methods, as well as providing homolog candidate sets with higher fractions of false positives. These insights help guide the use of structural data in comparative genomics and highlight the need to continue improving structure-based approaches. Our pipeline is fully reproducible and has been implemented in a snakemake workflow. This will facilitate a continuous assessment of future improvements of structure-based tools in the Alphafold era.
Autores: Giacomo Mutti, Eduard Ocaña-Pallarès, Toni Gabaldón
Última atualização: 2024-12-20 00:00:00
Idioma: English
Fonte URL: https://www.biorxiv.org/content/10.1101/2024.08.02.606352
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.08.02.606352.full.pdf
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.