Simple Science

Ciência de ponta explicada de forma simples

# Biologia# Bioinformática

Entendendo o Pan-Geno do Mycobacterium tuberculosis

Um olhar sobre a diversidade genética do Mtb e suas implicações.

― 7 min ler


Análise do Pan-Genoma deAnálise do Pan-Genoma deMtbMycobacterium tuberculosis.Revelando insights genéticos sobre o
Índice

As bactérias podem ter genes diferentes mesmo pertencendo à mesma espécie. Para explicar essas diferenças, os cientistas criaram a ideia de pan-genoma, que significa olhar para todos os genes presentes em um grupo de bactérias. Essa ideia começou com estudos sobre bactérias e agora é usada para analisar genes em muitos organismos. Os genes dentro de um pan-genoma podem ser divididos em duas categorias: Genes Centrais que a maioria dos membros compartilha, e Genes Acessórios que só alguns têm. Processos diferentes como transferência de genes e mudanças nas sequências causam essas variações nos genes bacterianos. Recentemente, os pesquisadores têm usado estudos de pan-genoma para aprender mais sobre as diferenças genéticas e a adaptabilidade das bactérias, o que é importante para várias áreas, incluindo medicina e agricultura.

Muitas ferramentas foram desenvolvidas para estudar os genomas bacterianos, mas elas costumam usar maneiras diferentes de definir e medir Pan-genomas. Por exemplo, existem muitos métodos disponíveis para analisar pan-genomas. Duas escolhas chave em qualquer análise de pan-genoma são: 1) qual parte do genoma será comparada (o genoma inteiro ou apenas partes dele), e 2) como as semelhanças e diferenças entre as sequências serão avaliadas. Essas escolhas podem afetar quais variações são encontradas e como esses achados são interpretados. Além disso, a seleção dos genomas sendo analisados e se eles realmente representam as diferenças genéticas dentro de uma espécie também pode influenciar os resultados.

Mycobacterium tuberculosis

Mycobacterium tuberculosis (Mtb) é a principal causa de tuberculose (TB), levando a cerca de 1,6 milhão de mortes a cada ano. O Mtb é um tipo de germes que evolui de uma maneira fixa, sem compartilhar genes com outras cepas ou misturar-se com elas. Como resultado, as diferenças genéticas no Mtb são principalmente devido à perda de genes ou duplicação de genes existentes, resultando em um número menor de genes em seu genoma. Alguns estudos mostram que o tamanho do pan-genoma no Mtb varia bastante. Por exemplo, um estudo encontrou mais de 7.600 genes acessórios, enquanto outros relataram apenas cerca de 500.

Como o Mtb tem uma estrutura de genoma consistente e não mistura genes, ele é um bom modelo para testar quão bem conseguimos prever genes acessórios em estudos de pan-genoma. Além disso, porque o Mtb mostra mudanças estruturais mínimas em seu genoma, os pesquisadores podem criar montagens de genoma de alta qualidade usando leituras de DNA curtas e longas. Isso ajuda a entender como a qualidade de sequenciamento e montagem afeta previsões de pan-genoma em uma população que é geneticamente muito similar.

Curando um Conjunto de Dados de Genomas de Mtb

Para estudar com precisão o pan-genoma do Mtb, os pesquisadores reuniram 151 genomas completos de diferentes cepas de Mtb que afetam humanos. Eles sequenciaram essas cepas usando tecnologias de leitura de DNA curtas e longas. Para cada cepa, eles criaram uma montagem híbrida combinando dados de leituras longas e curtas para garantir alta qualidade. Esse conjunto de dados inclui uma ampla variedade de cepas de Mtb, mostrando a diversidade genética global.

Os genomas montados são muito similares, com alta identidade nucleotídica média (ANI) e características genômicas consistentes. No entanto, as montagens de leitura curta eram menos completas em comparação com as montagens híbridas, mostrando diferenças na continuidade e no número de sequências de codificação preditas.

Avaliando Variação Estrutural

Para avaliar as diferenças genéticas nos genomas do Mtb, os pesquisadores construíram um gráfico de pan-genoma para visualizar Variações Estruturais. Esse gráfico mostra genes centrais, que todas as cepas de Mtb têm, ao lado de variações encontradas em pelo menos uma cepa. O gráfico resultante continha muitos nós representando diferentes sequências, e os pesquisadores tentaram determinar se essas representavam novos conteúdos genéticos ou apenas reconfigurações de genes existentes.

Analisando o gráfico, descobriram que a maioria das variações estruturais eram devido a rearranjos e apenas uma pequena porcentagem representava sequências verdadeiramente novas. Muitas das sequências redundantes se sobrepuseram a sequências virais conhecidas e sequências de inserção que já são entendidas. Algumas variações únicas estavam ligadas a linhagens específicas de Mtb.

Impacto das Ferramentas de Análise nas Previsões de Pan-Genome

Ao estudar pan-genomas bacterianos, diferentes ferramentas podem produzir resultados variados. Os pesquisadores se concentraram em como diferentes métodos de análise podem levar a estimativas diferentes do conteúdo gênico. Eles testaram softwares comumente usados para ver como mudanças em parâmetros como agrupamento de sequências codificantes de proteínas afetavam os resultados. Eles descobriram que alternar entre diferentes montagens e pipelines de Anotação pode levar a diferenças significativas nas estimativas de genes centrais e acessórios.

Por exemplo, um software era mais consistente do que os outros, independentemente das mudanças feitas, enquanto outro produzia estimativas mais cautelosas dependendo dos métodos de anotação usados. Várias combinações de ferramentas levaram a grandes variações nas previsões sobre o tamanho dos genomas acessórios, destacando a importância da seleção cuidadosa de métodos.

Abordando Discrepâncias de Anotação

Um dos problemas com as ferramentas de análise de pan-genoma existentes é que elas costumam inflar o número de genes acessórios devido a diferenças em como os genes são anotados. Os pesquisadores criaram uma nova ferramenta chamada panqc para ajustar essas discrepâncias na anotação de genes. Esse software analisa os resultados das ferramentas de previsão de pan-genoma e mescla sequências codificantes semelhantes, levando a estimativas mais precisas dos tamanhos dos genes acessórios.

A ferramenta panqc funciona em duas etapas: primeiro, verifica se os genes identificados como ausentes estão realmente presentes no nível do DNA, e segundo, agrupa sequências codificantes semelhantes. Esse método demonstrou reduzir significativamente o número de genes auxiliares preditos.

Aplicação do Panqc nos Genomas de Mtb

Quando aplicado ao conjunto de dados de genomas de Mtb, o panqc reduziu significativamente o número estimado de genes acessórios. Os pesquisadores também descobriram que um grande número de ausências originalmente relatadas se devia a problemas com anotações de genes, em vez de genes realmente faltando. Esse ajuste permitiu uma visão mais clara do conteúdo genético, permitindo uma melhor compreensão dos eventos de ganho e perda de genes entre diferentes cepas.

Além disso, o panqc foi testado em genomas de E. coli, que mostraram menos redundância no conteúdo gênico em comparação com o Mtb. Isso sugere que, embora a ferramenta seja benéfica para genomas estreitamente relacionados, pode não ser tão necessária para populações mais geneticamente diversas.

Conclusão

Esse trabalho enfatiza a necessidade de usar comparações tanto de nucleotídeos quanto de aminoácidos ao estudar genomas bacterianos. Destaca a importância das escolhas metodológicas nas análises de pan-genoma, especialmente em relação às discrepâncias de anotação e à qualidade das montagens genômicas usadas. Cada ferramenta avaliada tem suas forças e fraquezas, com algumas oferecendo estimativas mais consistentes em várias condições.

O desenvolvimento de ferramentas como o panqc mostra potencial para melhorar as análises de pan-genoma, facilitando a consideração de questões que podem distorcer os resultados, especialmente em populações geneticamente similares. Ao adotar uma abordagem cuidadosa para comparar genomas, os pesquisadores podem obter insights valiosos sobre a dinâmica evolutiva de populações bacterianas, o que é crucial para entender sua adaptabilidade e possíveis impactos na saúde humana.

Fonte original

Título: Analysis of the limited M. tuberculosis accessory genome reveals potential pitfalls of pan-genome analysis approaches

Resumo: Pan-genome analysis is a fundamental tool for studying bacterial genome evolution; however, the variety of methods used to define and measure the pan-genome poses challenges to the interpretation and reliability of results. To quantify sources of bias and error related to common pan-genome analysis approaches, we evaluated different approaches applied to curated collection of 151 Mycobacterium tuberculosis (Mtb) isolates. Mtb is characterized by its clonal evolution, absence of horizontal gene transfer, and limited accessory genome, making it an ideal test case for this study. Using a state-of-the-art graph-genome approach, we found that a majority of the structural variation observed in Mtb originates from rearrangement, deletion, and duplication of redundant nucleotide sequences. In contrast, we found that pan-genome analyses that focus on comparison of coding sequences (at the amino acid level) can yield surprisingly variable results, driven by differences in assembly quality and the softwares used. Upon closer inspection, we found that coding sequence annotation discrepancies were a major contributor to inflated Mtb accessory genome estimates. To address this, we developed panqc, a software that detects annotation discrepancies and collapses nucleotide redundancy in pan-genome estimates. When applied to Mtb and E. coli pan-genomes, panqc exposed distinct biases influenced by the genomic diversity of the population studied. Our findings underscore the need for careful methodological selection and quality control to accurately map the evolutionary dynamics of a bacterial species.

Autores: Maha R Farhat, M. G. Marin, C. Wippel, N. Quinones-Olvera, M. Behruznia, B. M. Jeffrey, M. Harris, B. C. Mann, A. Rosenthal, K. R. Jacobson, R. M. Warren, H. Li, C. J. Meehan

Última atualização: 2024-05-04 00:00:00

Idioma: English

Fonte URL: https://www.biorxiv.org/content/10.1101/2024.03.21.586149

Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.03.21.586149.full.pdf

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao biorxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes