Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Apresentando o VEHoP: Uma Nova Ferramenta para Análise Filogenômica

O VEHoP simplifica estudos filogenômicos usando diferentes fontes de dados genômicos.

― 8 min ler


VEHoP TransformaVEHoP TransformaFerramentas Filogenômicasfilogenética para os pesquisadores.Um novo método facilita a análise
Índice

A filogenética estuda como os seres vivos estão relacionados entre si. Isso é importante pra galera que quer entender mais sobre evolução e as conexões entre diferentes espécies. Os cientistas usam várias informações, como características físicas e dados genéticos, pra descobrir como os organismos estão ligados. Entre essas informações, moléculas biológicas como DNA e proteínas são frequentemente usadas pra criar diagramas chamados de Árvores Filogenéticas, que mostram essas relações de forma visual.

Métodos Antigos de Filogenética

No passado, os pesquisadores usavam principalmente um ou dois genes pra fazer essas árvores. Alguns dos genes escolhidos no início foram o citocromo c oxidase mitocondrial subunidade I, a subunidade 4 da NADH desidrogenase e genes de RNA ribossômico nuclear. Com o tempo, conforme a tecnologia avançou, os cientistas começaram a usar Genomas mitocondriais inteiros pra construir suas árvores. No entanto, ainda surgiam desafios. Às vezes, as árvores não representavam com precisão as verdadeiras relações entre as espécies. Isso podia acontecer por vários motivos, como a mistura de genes entre diferentes espécies, diferenças em como os genes evoluíram ou erros na própria árvore. Por conta desses problemas, havia uma necessidade de métodos melhores que pudessem lidar com esses desafios de forma eficaz.

Sequenciamento de Próxima Geração e Filogenômica

Com os avanços na tecnologia de sequenciamento, os pesquisadores começaram a focar em usar informações genéticas mais abrangentes obtidas de genomas inteiros, numa área conhecida como filogenômica. Essa abordagem ganhou atenção em vários campos de estudo. Ter mais dados de diferentes espécies ajuda a reduzir erros ao tentar entender como as espécies estão relacionadas. Contudo, reunir dados suficientes sobre todas as espécies-alvo pode ser irrealista. Algumas espécies vivem em lugares de difícil acesso, como as profundezas do mar, e outras são tão raras que os cientistas podem ter apenas algumas amostras preservadas.

Além disso, alguns grupos de espécies podem não estar bem representados nos dados disponíveis, levando a amostragens tendenciosas. Quando os pesquisadores tentam construir uma árvore sem dados completos, lacunas significativas podem mudar a aparência da árvore. E ainda, é impossível incluir espécies extintas nesses estudos genéticos, já que seu DNA não pode ser sequenciado.

A Importância de Usar Dados de Genomas

Usar dados em nível de genoma oferece muito mais informações do que analisar apenas um ou dois genes. Conforme a tecnologia de sequenciamento melhorou, uma quantidade enorme de genomas e transcriptomas (o conjunto completo de transcritos de RNA) se tornou disponível publicamente. No entanto, muitos desses conjuntos de dados foram coletados inicialmente para outros fins, como montar genomas de organelas ou analisar a expressão gênica. Por isso, muita informação valiosa ainda não é bem utilizada nos estudos filogenéticos.

Desafios na Análise Filogenômica

Pra uma análise filogenômica bem-sucedida, dados de genoma completo de várias espécies são ideais. Mas, na prática, muitos pesquisadores só têm acesso a alguns genomas bem estudados, enquanto outros podem ter apenas dados parciais de transcriptomas ou leituras brutas de DNA. Usar esses tipos de dados mistos exige várias etapas pra preparar os dados pra análise. Essas etapas podem incluir garantir a qualidade dos dados, montar o genoma e anotá-lo corretamente. Identificar ortólogos, que são genes em diferentes espécies que evoluíram de um ancestral comum, também é crucial pra uma análise precisa. Todo esse processo pode levar bastante tempo e pode não ser fácil pra quem não tem formação em bioinformática.

Ferramentas Existentes e Suas Limitações

Existem algumas ferramentas disponíveis pra ajudar os pesquisadores a analisar dados filogenéticos, incluindo o Read2Tree. Mas, os bancos de dados existentes usados nessas ferramentas nem sempre são totalmente personalizados e frequentemente precisam de muitos ajustes manuais. Outra ferramenta, o GeneMiner, é feita pra extrair marcadores genéticos, mas pode ser ineficiente pra uma análise filogenômica mais ampla devido a instruções pouco claras e um número baixo de ortólogos utilizáveis.

Introdução do VEHoP

Pra superar esses desafios, uma nova técnica chamada VEHoP foi desenvolvida. VEHoP significa Filogenômica baseada em Homologia, Versátil e Fácil de Usar. Ela permite que os pesquisadores usem vários tipos de entradas de dados, incluindo genomas, transcriptomas e genomas em rascunho, em qualquer combinação. Os usuários só precisam fornecer os arquivos de dados e especificar algumas configurações antes de começar a análise.

Uma vez que os arquivos de entrada estão prontos, o VEHoP os processa e gera vários arquivos de saída, incluindo alinhamentos de gene único e uma árvore filogenética final. Esse processo simplificado torna muito mais fácil pra os pesquisadores conduzir estudos filogenômicos sem se perder em etapas complexas.

Testando o VEHoP

Pra avaliar o desempenho do VEHoP, os pesquisadores o testaram usando dois estudos de caso. O primeiro envolveu um grupo de ostras. Os pesquisadores coletaram dados de dez espécies de ostras, usando genomas bem anotados, genomas em rascunho criados a partir de leituras de sequenciamento, e novos transcriptomas. Então, eles compararam diferentes conjuntos de dados pra ver como consistentemente o VEHoP poderia determinar as relações entre as espécies. Os resultados mostraram que o VEHoP produziu árvores confiáveis que combinavam com aquelas obtidas de genomas de alta qualidade.

O segundo estudo de caso focou em um grupo de caramujos de profundidade com relações evolutivas pouco claras. Usando o VEHoP, os pesquisadores conseguiram analisar com sucesso um conjunto de dados de genomas mitocondriais, revelando uma ordem de ramificação consistente entre as espécies examinadas. Em contrapartida, outras ferramentas existentes enfrentaram dificuldades pra fornecer a mesma clareza.

Percepções dos Estudos de Caso

Os pesquisadores notaram que o VEHoP se saiu bem mesmo com dados fragmentados de genomas mal anotados, fornecendo resultados comparáveis aos de conjuntos de dados de alta qualidade. A flexibilidade do VEHoP permite que os pesquisadores utilizem fontes de dados variadas, melhorando significativamente o potencial para estudos filogenéticos mais abrangentes.

Utilizando Dados Subutilizados

As enormes quantidades de dados genômicos disponíveis em plataformas públicas, incluindo genomas não anotados e sequências brutas, podem ser difíceis de aproveitar devido a inconsistências de qualidade e cobertura. O VEHoP visa fazer melhor uso desses dados, extraindo homólogos relevantes com mais facilidade. Essa abordagem pode melhorar muito a amostragem de táxons, levando a árvores filogenéticas mais confiáveis e claras.

As Vantagens do VEHoP

Uma grande vantagem do VEHoP é sua capacidade de analisar diferentes tipos de dados em um único fluxo de trabalho. Os pesquisadores podem definir conjuntos de dados personalizados pra referência, combinando genomas de alta qualidade de espécies próximas sem ficar limitados a bancos de dados online existentes. O VEHoP retém cuidadosamente todos os ortólogos que atendem aos critérios estabelecidos, enquanto permite que os usuários filtrem ainda mais esses resultados se desejarem.

Limitações do VEHoP

Embora o VEHoP mostre promessas, algumas limitações ainda existem. Por exemplo, o processo pode travar ao alinhar certas sequências, levando a tempos de análise mais longos em casos específicos. Além disso, se os dados de leitura bruta não forem suficientes, a análise resultante pode gerar ordens de ramificação inconsistentes. Atualmente, o VEHoP está disponível apenas para sistemas Linux, mas esforços estão sendo feitos pra torná-lo acessível em outras plataformas também.

Conclusão

O VEHoP representa um avanço significativo na análise filogenômica. Seu design fácil de usar permite que os pesquisadores analisem rapidamente vários tipos de dados, facilitando a exploração das relações evolutivas entre os organismos vivos. Ao aproveitar a enorme quantidade de dados genômicos disponíveis, o VEHoP tem o potencial de melhorar a amostragem de táxons em estudos filogenéticos, levando a conclusões mais robustas sobre a história evolutiva. Seu desenvolvimento pode impactar muito a forma como os pesquisadores estudam e entendem a interconexão da vida na Terra.

Fonte original

Título: VEHoP: A Versatile, Easy-to-use, and Homology-based Phylogenomic pipeline accommodating diverse sequences

Resumo: Phylogenomics has become a prominent method in systematics, conservation biology, and biomedicine, as it can leverage hundreds to thousands of genes derived from genomic or transcriptomic data to infer evolutionary relationships. However, obtaining high-quality genomes and transcriptomes requires samples preserved with high-quality DNA and RNA and demands considerable sequencing costs and lofty bioinformatic efforts (e.g., genome/transcriptome assembly and annotation). Notably, only fragmented DNA reads are accessible in some rare species due to the difficulty in sample collection and preservation, such as those inhabiting the deep sea. To address this issue, we here introduce the VEHoP (Versatile, Easy-to-use Homology-based Phylogenomic) pipeline, designed to infer protein-coding regions from DNA assemblies and generate alignments of orthologous sequences, concatenated matrices, and phylogenetic trees. This pipeline aims to 1) expand taxonomic sampling by accommodating a wide range of input files, including draft genomes, transcriptomes, and well-annotated genomes, and 2) simplify the process of conducting phylogenomic analyses and thus make it more accessible to researchers from diverse backgrounds. We first evaluated the performance of VEHoP using datasets of Ostreida, yielding robust phylogenetic trees with strong bootstrap support. We then applied VEHoP to reconstruct the phylogenetic relationship in the enigmatic deep-sea gastropod order Neomphalida, obtaining a robust phylogenetic backbone for this group. The VEHoP is freely available on GitHub (https://github.com/ylify/VEHoP), whose dependencies can be easily installed using Bioconda.

Autores: Jin Sun, Y. Li, X. Liu, C. Chen, J.-W. Qiu, K. Kocot

Última atualização: 2024-07-24 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.07.24.604968

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.07.24.604968.full.pdf

Licença: https://creativecommons.org/licenses/by-nc/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes