Simple Science

La science de pointe expliquée simplement

# Biologie# Bioinformatique

Comprendre le pan-génome de Mycobacterium tuberculosis

Un aperçu de la diversité génétique de Mtb et ses implications.

― 8 min lire


Analyse du pan-génome deAnalyse du pan-génome deMtbMycobacterium tuberculosis.Révéler des infos génétiques sur
Table des matières

Les bactéries peuvent avoir des gènes différents même si elles appartiennent à la même espèce. Pour expliquer ces différences, les scientifiques ont créé l'idée de pan-génome, qui consiste à regarder tous les gènes présents dans un groupe de bactéries. Cette idée a commencé avec des études sur les bactéries et est maintenant utilisée pour examiner les gènes chez de nombreux organismes. Les gènes d'un pan-génome peuvent être divisés en deux groupes : les Gènes de base que la plupart des membres partagent, et les Gènes accessoires que seuls certains membres ont. Différents processus comme le transfert de gènes et les séquences changeantes causent ces variations dans les gènes bactériens. Récemment, les chercheurs utilisent des études de pan-génome pour en savoir plus sur les différences génétiques et l'adaptabilité des bactéries, ce qui est important pour de nombreux domaines, y compris la médecine et l'agriculture.

De nombreux outils ont été créés pour étudier les génomes bactériens, mais ils utilisent souvent différentes manières de définir et de mesurer les Pan-génomes. Par exemple, il existe plusieurs méthodes pour analyser les pan-génomes. Deux choix clés dans toute analyse de pan-génome sont : 1) quelle partie du génome sera comparée (le génome entier ou juste des parties), et 2) comment les similitudes et différences entre les séquences seront jugées. Ces choix peuvent influencer quelles variations sont trouvées et comment ces résultats sont interprétés. De plus, la sélection des génomes à analyser, et s'ils représentent vraiment les différences génétiques au sein d'une espèce, peut aussi avoir un impact sur les résultats.

Mycobacterium tuberculosis

Mycobacterium tuberculosis (Mtb) est la principale cause de la tuberculose (TB), entraînant environ 1,6 million de décès par an. Mtb est un type de germe qui évolue de manière fixe, sans partager de gènes avec d'autres souches ou se mélanger avec elles. En conséquence, les différences de gènes dans Mtb sont principalement dues à la perte de gènes ou à la duplication de gènes existants, ce qui conduit à moins de gènes en général dans son génome. Certaines études montrent que la taille du pan-génome dans Mtb varie beaucoup. Par exemple, une étude a trouvé plus de 7 600 gènes accessoires, tandis que d'autres en ont rapporté seulement environ 500.

Comme Mtb a une structure de génome cohérente et ne mélange pas les gènes, elle offre un bon modèle pour tester à quel point nous pouvons prédire les gènes accessoires dans les études de pan-génome. De plus, comme Mtb montre des changements structurels minimaux dans son génome, les chercheurs peuvent créer des assemblages de génomes de haute qualité en utilisant à la fois des lectures d'ADN courtes et longues. Cela les aide à comprendre comment la qualité du séquençage et de l'assemblage affecte les prédictions de pan-génome dans une population très similaire sur le plan génétique.

Création d'un ensemble de données de génomes Mtb

Pour étudier avec précision le pan-génome de Mtb, les chercheurs ont rassemblé 151 génomes complets de différentes souches de Mtb qui affectent les humains. Ils ont séquencé ces souches en utilisant des technologies de lecture d'ADN courtes et longues. Pour chaque souche, ils ont créé un assemblage hybride combinant des données provenant de lectures longues et courtes pour garantir une haute qualité. Cet ensemble de données comprend une grande variété de souches de Mtb, montrant la diversité génétique globale.

Les génomes assemblés sont très similaires, avec une identité nucleotidique moyenne (ANI) élevée et des caractéristiques génomiques constantes. Cependant, les assemblages par lectures courtes étaient moins complets par rapport aux assemblages hybrides, montrant des différences en termes de continuité et de nombre de séquences codantes prédites.

Évaluation de la variation structurelle

Pour évaluer les différences génétiques dans les génomes Mtb, les chercheurs ont construit un graphique de pan-génome pour visualiser les Variations structurelles. Ce graphique montre les gènes de base, que toutes les souches de Mtb possèdent, aux côtés des variations trouvées dans au moins une souche. Le graphique résultant contenait de nombreux nœuds représentant différentes séquences, et les chercheurs visaient à déterminer si celles-ci représentaient un nouveau contenu génétique ou juste des reconfigurations de gènes existants.

En analysant le graphique, ils ont découvert que la plupart des variations structurelles étaient dues à des réarrangements et qu'une petite partie représentait de véritables nouvelles séquences. Beaucoup des séquences redondantes chevauchaient des séquences virales et d'insertion déjà comprises. Certaines variations uniques étaient liées à des lignées spécifiques de Mtb.

Impact des outils d'analyse sur les prédictions de pan-génome

En étudiant les pan-génomes bactériens, différents outils peuvent produire des résultats variés. Les chercheurs se sont concentrés sur la manière dont différentes méthodes d'analyse peuvent entraîner des estimations différentes du contenu génétique. Ils ont testé des logiciels couramment utilisés pour voir comment des changements dans des paramètres comme le regroupement de séquences codantes protéiques affectaient les résultats. Ils ont constaté que passer d'assemblages différents et de pipelines d'annotation pouvait entraîner des différences significatives dans les estimations des gènes de base et accessoires.

Par exemple, un logiciel était plus cohérent que les autres, peu importe les changements effectués, tandis qu'un autre produisait des estimations plus prudentes selon les méthodes d'annotation utilisées. Différentes combinaisons d'outils ont conduit à de grandes variations dans les prédictions concernant la taille des génomes accessoires, soulignant l'importance d'une sélection méthodique des méthodes.

Résolution des écarts d'annotation

Un des problèmes avec les outils d'analyse de pan-génome existants est qu'ils gonflent souvent le nombre de gènes accessoires à cause des différences dans la manière dont les gènes sont annotés. Les chercheurs ont créé un nouvel outil appelé panqc pour ajuster ces écarts dans l'annotation des gènes. Ce logiciel analyse les résultats des outils de prédiction de pan-génome et fusionne des séquences codantes similaires, menant à des estimations plus précises des tailles de gènes accessoires.

L'outil panqc fonctionne en deux étapes : d'abord, il vérifie si les gènes identifiés comme absents sont en réalité présents au niveau de l'ADN, et ensuite, il regroupe les séquences codantes similaires. Cette méthode a montré qu'elle réduisait significativement le nombre de gènes accessoires prédits.

Application de panqc sur les génomes Mtb

Lorsqu'il a été appliqué à l'ensemble de données des génomes Mtb, panqc a considérablement réduit le nombre estimé de gènes accessoires. Les chercheurs ont également trouvé qu'un grand nombre d'absences initialement rapportées étaient dues à des problèmes avec les Annotations de gènes plutôt qu'à des gènes réellement manquants. Cet ajustement a permis d'avoir une vue plus claire du contenu génétique, permettant de mieux comprendre les événements de gain et de perte de gènes à travers différentes souches.

De plus, panqc a été testé sur les génomes d'E. coli, qui montraient moins de redondance dans le contenu génétique par rapport à Mtb. Cela suggère que, bien que l'outil soit bénéfique pour des génomes étroitement liés, il pourrait ne pas être aussi nécessaire pour des populations plus génétiquement diversifiées.

Conclusion

Ce travail souligne la nécessité d'utiliser à la fois des comparaisons de nucléotides et d'acides aminés lors de l'étude des génomes bactériens. Il met en évidence l'importance des choix méthodologiques dans les analyses de pan-génome, notamment en ce qui concerne les écarts d'annotation et la qualité des assemblages génomiques utilisés. Chaque outil évalué a ses forces et ses faiblesses, certains fournissant des estimations plus cohérentes dans diverses conditions.

Le développement d'outils comme panqc montre un potentiel pour améliorer les analyses de pan-génome, facilitant la prise en compte des problèmes qui peuvent fausser les résultats, en particulier dans des populations génétiquement similaires. En adoptant une approche prudente pour comparer les génomes, les chercheurs peuvent obtenir des idées précieuses sur les dynamiques évolutives des populations bactériennes, ce qui est crucial pour comprendre leur adaptabilité et leur potentiel impact sur la santé humaine.

Source originale

Titre: Analysis of the limited M. tuberculosis accessory genome reveals potential pitfalls of pan-genome analysis approaches

Résumé: Pan-genome analysis is a fundamental tool for studying bacterial genome evolution; however, the variety of methods used to define and measure the pan-genome poses challenges to the interpretation and reliability of results. To quantify sources of bias and error related to common pan-genome analysis approaches, we evaluated different approaches applied to curated collection of 151 Mycobacterium tuberculosis (Mtb) isolates. Mtb is characterized by its clonal evolution, absence of horizontal gene transfer, and limited accessory genome, making it an ideal test case for this study. Using a state-of-the-art graph-genome approach, we found that a majority of the structural variation observed in Mtb originates from rearrangement, deletion, and duplication of redundant nucleotide sequences. In contrast, we found that pan-genome analyses that focus on comparison of coding sequences (at the amino acid level) can yield surprisingly variable results, driven by differences in assembly quality and the softwares used. Upon closer inspection, we found that coding sequence annotation discrepancies were a major contributor to inflated Mtb accessory genome estimates. To address this, we developed panqc, a software that detects annotation discrepancies and collapses nucleotide redundancy in pan-genome estimates. When applied to Mtb and E. coli pan-genomes, panqc exposed distinct biases influenced by the genomic diversity of the population studied. Our findings underscore the need for careful methodological selection and quality control to accurately map the evolutionary dynamics of a bacterial species.

Auteurs: Maha R Farhat, M. G. Marin, C. Wippel, N. Quinones-Olvera, M. Behruznia, B. M. Jeffrey, M. Harris, B. C. Mann, A. Rosenthal, K. R. Jacobson, R. M. Warren, H. Li, C. J. Meehan

Dernière mise à jour: 2024-05-04 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2024.03.21.586149

Source PDF: https://www.biorxiv.org/content/10.1101/2024.03.21.586149.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires