Simple Science

Ciência de ponta explicada de forma simples

# Biologia # Bioinformática

Apresentando o MANIAC: Uma Nova Ferramenta para Genômica Viral

MANIAC melhora a medição de ANI para análise de genoma viral.

Rafal J Mostowy, W. Ndovie, J. Havranek, J. Koszucki, J. Leconte, L. Chindelevitch, E. M. Adriaenssens

― 8 min ler


MANIAC Transforma Análise MANIAC Transforma Análise de Genoma Viral vírus. eficiente a relação genética entre Nova ferramenta calcula de maneira
Índice

A Identidade de Nucleotídeo Média (ANI) é um jeito de medir quão próximas estão diferentes microrganismos, como bactérias e vírus, umas das outras. Comparando sequências genéticas específicas chamadas genes ortólogos, os cientistas conseguem ver quantos dos nucleotídeos (os blocos de construção do DNA) são iguais entre dois organismos. Essa medição ajuda os pesquisadores a entender a distância evolutiva entre espécies, guiar a taxonomia (a classificação dos organismos) e ajudar em outras áreas da pesquisa microbiana.

Embora o ANI seja útil para parentes próximos, suas limitações significam que nem sempre fornece distâncias evolutivas precisas para organismos que não estão muito próximos. Mesmo assim, o ANI se tornou uma ferramenta chave em vários campos da pesquisa microbiana, desempenhando um papel importante na classificação de espécies, detectando eventos de transferência de genes entre organismos e ajudando em estudos de metagenômica.

A Evolução das Técnicas de Medição do ANI

No começo, os pesquisadores usavam ferramentas como o BLAST para identificar genes ortólogos, que envolviam alinhar sequências de DNA para determinar a similaridade genética. Porém, com o avanço das tecnologias de sequenciamento de nova geração, o número de genomas microbianos disponíveis para estudo aumentou. Como resultado, os métodos tradicionais se tornaram menos práticos devido à imensa quantidade de poder computacional que exigiam.

Novas ferramentas surgiram, permitindo que os cientistas realizassem cálculos de ANI de forma mais eficiente. Essas novas abordagens podem ser divididas em duas categorias principais: métodos baseados em alinhamento e métodos livres de alinhamento. Métodos baseados em alinhamento ainda dependem da busca por sequências, mas adotaram ferramentas atualizadas como o MUMmer, que são mais rápidas que o BLAST, embora possam ser menos sensíveis. Por outro lado, os métodos livres de alinhamento utilizam sequências curtas conhecidas como k-mers para estimar diretamente o ANI ou identificar áreas para alinhamento local. Esses métodos são muito mais eficientes e conseguem lidar com conjuntos de dados maiores, mas podem sacrificar um pouco da precisão ao lidar com genomas distantes.

Apesar da popularidade do ANI no estudo de bactérias, seu uso tem sido menos comum na pesquisa viral. No entanto, nos últimos anos, o ANI começou a ganhar espaço em genômica viral para tarefas como identificar novos vírus, remover DNA bacteriano de sequências virais, atribuir taxonomia a novas cepas virais e examinar limites genéticos entre populações virais.

Diferenças Entre Genomas Bacterianos e Virais

Atualmente, a maioria das ferramentas para calcular ANI foram otimizadas para genomas bacterianos, funcionando melhor em torno de um limiar de 95% de ANI para classificação de espécies. No entanto, os genomas virais apresentam desafios únicos devido à sua maior variabilidade em sequências de nucleotídeos, comprimentos mais curtos e falta de genes compartilhados. Essas diferenças podem tornar os métodos padrão menos eficazes para vírus.

Existem alguns métodos especificamente projetados para analisar genomas virais, mas eles não fornecem uma métrica clara para a proporção de similaridade genética a partir de genomas alinhados. Recentemente, uma nova ferramenta chamada VIRIDIC foi proposta, mas ela depende muito do BLAST, limitando sua escalabilidade para analisar conjuntos de dados maiores.

Isso levanta a necessidade de uma ferramenta que possa avaliar a relação genética em vírus, considerando as características únicas dos genomas virais, como:

  1. Tanto ANI quanto fração de alinhamento (AF) para levar em conta a variabilidade genética.
  2. Capacidade de medir ANI em limiares mais baixos, como 70%.
  3. Escalabilidade para analisar conjuntos de dados com milhares, ou potencialmente milhões, de genomas virais.

Apresentando o MANIAC para Genômica Viral

Para enfrentar esses desafios, foi desenvolvida uma nova abordagem chamada MANIAC (Calculadora de ANI Precisa Baseada em MMseqs2). O MANIAC é projetado para medir de forma eficiente tanto o ANI quanto o AF entre pares de genomas virais. Ele utiliza uma combinação de busca livre de alinhamento e técnicas baseadas em alinhamento, garantindo sensibilidade e rapidez.

A ferramenta opera em três modos:

  1. Modo Genoma: Analisa sequências de genoma completas.
  2. Modo de Sequência Codificadora (CDS): Trabalha com sequências de nucleotídeos de genes previstos.
  3. Modo Proteína: Foca em sequências de aminoácidos e calcula a Identidade Média de Aminoácidos (AAI).

Essa versatilidade permite que os pesquisadores escolham a análise mais relevante para suas necessidades.

Como o MANIAC Calcula ANI e AF

No Modo Genoma, o MANIAC divide os genomas em fragmentos menores não sobrepostos e usa o módulo de busca MMseqs2 para identificar sequências semelhantes entre esses fragmentos e os genomas completos. Um conjunto de parâmetros determina como a busca é conduzida, incluindo limiares de identidade e métricas de cobertura.

Para cada par de genomas analisados, o MANIAC calcula o ANI como a média da identidade dos nucleotídeos alinhados. Ele considera ambas as direções para cada par de genomas para obter um único valor de ANI. Além disso, calcula o AF, que reflete a proporção dos genomas que foram alinhados durante a análise.

Além disso, o design do MANIAC prioriza a sensibilidade e a precisão através de uma seleção cuidadosa de parâmetros, otimizando as pesquisas para garantir que os resultados sejam confiáveis mesmo ao trabalhar com grandes conjuntos de dados.

A Escalabilidade do MANIAC

O MANIAC é construído para lidar com extensos conjuntos de dados genômicos, tornando-o capaz de processar milhões de pares de genomas de forma eficiente. As primeiras medições indicam que ele pode estimar o ANI e o AF com precisão no mesmo nível que métodos padrão estabelecidos, além de ser mais rápido e mais adaptável a diferentes tipos de genomas virais.

A ferramenta equilibra velocidade e precisão, permitindo que os pesquisadores realizem análises em larga escala que eram antes impraticáveis. Essa capacidade é particularmente crucial no campo em rápida mudança da genômica viral, onde novas sequências estão sendo continuamente descobertas.

Testando o Desempenho do MANIAC

Para validar sua eficácia, o desempenho do MANIAC foi comparado com ferramentas conhecidas como pyani, fastANI e Mash usando um conjunto de dados de genomas de fago. Os resultados mostraram que o MANIAC teve uma correlação muito alta com as estimativas de ANI do pyani, superando outras alternativas focadas em velocidade.

A pesquisa demonstrou que mesmo quando testado com dados simulados, o MANIAC consistentemente fornecia estimativas precisas, particularmente para genomas virais com ANI abaixo de 80%. Isso indica que ele pode ser confiável tanto para comparações genéticas próximas quanto mais distantes.

Aplicando o MANIAC a Questões Biológicas

Depois de estabelecer sua eficiência e precisão, o MANIAC foi usado para explorar duas áreas-chave na pesquisa viral:

  1. Investigando a Existência de Lacunas de ANI em Populações de Fago: A ferramenta foi usada para analisar um grande número de genomas de fago para confirmar que existe uma lacuna de ANI, sugerindo limites evolutivos significativos dentro das populações virais.

  2. Classificação Taxonômica de Gêneros Virais: Ao examinar o ANI e o AF, os pesquisadores visavam melhorar a precisão da classificação de novos gêneros virais identificados, facilitando uma melhor compreensão e categorização da diversidade viral.

Observações das Distribuições de ANI

A análise das distribuições de ANI entre genomas de fago revelou um padrão bimodal, com uma lacuna distinta de ANI localizada entre 78% e 85%. Isso sugere descontinuidades evolutivas, semelhantes às descobertas em populações bacterianas, mas ajustadas para as dinâmicas únicas da evolução viral.

Além disso, a presença de muitos pares de alta ANI, mas baixa AF, destaca a importância de considerar ambas as métricas na classificação taxonômica, já que o mosaico genético pode complicar atribuições diretas.

Conclusão

O MANIAC representa um grande avanço no campo da genômica viral. Ao oferecer um meio eficiente de calcular ANI e AF, permite que os pesquisadores explorem mais a fundo as relações entre espécies virais. A capacidade da ferramenta de lidar com grandes conjuntos de dados enquanto fornece estimativas precisas a posiciona como um recurso essencial para pesquisas futuras em virologia e genômica microbiana.

Em resumo, o MANIAC não só melhora o estudo da genética viral, mas também contribui para uma compreensão mais ampla de como as espécies virais são classificadas e relacionadas umas às outras. À medida que os esforços em andamento refinam a taxonomia viral, ferramentas como o MANIAC desempenharão um papel crucial na definição de limites e classificações mais claras no mundo diversificado dos vírus.

Fonte original

Título: Exploration of the genetic landscape of bacterial dsDNA viruses reveals an ANI gap amidst extensive mosaicism

Resumo: Average Nucleotide Identity (ANI) is a widely used metric to estimate genetic relatedness, especially in microbial species delineation. While ANI calculation has been well optimised for bacteria and closely related viral genomes, accurate estimation of ANI below 80%, particularly in large reference datasets, has been challenging due to a lack of accurate and scalable methods. To bridge this gap, here we introduce MANIAC, an efficient computational pipeline optimised for estimating ANI and alignment fraction (AF) in viral genomes with divergence around ANI of 70%. Using a rigorous simulation framework, we demonstrate MANIACs accuracy and scalability compared to existing approaches, even to datasets of hundreds-of-thousands of viral genomes. Applying MANIAC to a curated dataset of complete bacterial dsDNA viruses revealed a multimodal ANI distribution, with a distinct gap around 80%, akin to the bacterial ANI gap ([~]90%) but shifted, likely due to viral-specific evolutionary processes such as recombination dynamics and mosaicism. We then evaluated ANI and AF as predictors of genus-level taxonomy using a logistic regression model. We found that this model has strong predictive power (PR-AUC=0.981), but that it works much better for virulent (PR-AUC=0.997) than temperate (PR-AUC=0.847) bacterial viruses. This highlights the complexity of taxonomic classification in temperate phages, known for their extensive mosaicism, and cautions against over-reliance on ANI in such cases. MANIAC can be accessed under https://github.com/bioinf-mcb/MANIAC. ImportanceWe introduce a novel computational pipeline called MANIAC, designed to accurately assess Average Nucleotide Identity (ANI) and alignment fraction (AF) between diverse viral genomes, scalable to datasets of over 100k genomes. Through the use of computer simulations and real data analyses, we show that MANIAC could ac- curately estimate genetic relatedness between pairs of viral genomes around 60-70% ANI. We applied MANIAC to investigate the question of ANI discontinuity in bacterial dsDNA viruses, finding evidence for an ANI gap, akin to the one seen in bacteria but around ANI of 80%. We then assessed the ability of ANI and AF to predict taxonomic genus boundaries, finding its strong predictive power in virulent, but not in temperate phages. Our results suggest that bacterial dsDNA viruses may exhibit an ANI threshold (on average around 80%) above which recombination helps maintain population cohesiveness, as previously argued in bacteria.

Autores: Rafal J Mostowy, W. Ndovie, J. Havranek, J. Koszucki, J. Leconte, L. Chindelevitch, E. M. Adriaenssens

Última atualização: 2024-12-07 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.04.23.590796

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.04.23.590796.full.pdf

Licença: https://creativecommons.org/licenses/by-nc/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes