Simple Science

La science de pointe expliquée simplement

# Biologie# Génomique

Classer le pneumocoque : Méthodes et défis

Examen des techniques pour identifier et suivre les souches pneumococciques.

― 8 min lire


Luttes de classificationLuttes de classificationdu pneumocoqueimportants.des contraintes révèle des défisÉvaluer les méthodes d'identification
Table des matières

Le Streptococcus pneumoniae, connu sous le nom de pneumocoque, est un type de bactéries qui peut provoquer des infections graves chez les humains. Il est responsable de maladies comme les infections de l'oreille, la pneumonie et la méningite. En 2019, on a estimé que cette bactérie avait causé environ 829 000 décès dans le monde.

Le pneumocoque a une couche protectrice appelée capsule polysaccharidique. Cette capsule est importante car elle aide à identifier les différents types de bactéries, appelés sérotypes. Bien que la capsule soit un facteur clé dans la manière dont les bactéries peuvent provoquer des maladies et soit une cible pour les vaccins, la composition génétique de chaque souche joue aussi un rôle dans sa capacité à se propager, sa résistance aux antibiotiques et l'efficacité des vaccins. Donc, comprendre les groupes de ces bactéries est crucial pour étudier leur transmission et l'efficacité des traitements cliniques.

Importance de définir la structure de la population

Définir la structure de la population du pneumocoque est vital pour suivre comment les bactéries se propagent et pour évaluer les effets des vaccins et des antibiotiques. Mais c’est pas facile car le pneumocoque partage souvent du matériel génétique avec d'autres bactéries, ce qui complique la détermination de ses relations et caractéristiques.

Depuis 1998, les chercheurs utilisent une méthode appelée typage par séquence multi-locus (MLST) pour aider à catégoriser les différentes souches de pneumocoque. Cette méthode examine l'information génétique de sept gènes communs pour identifier les différentes souches, appelées types de séquence (STs). Chaque souche obtient un numéro unique basé sur son profil génétique, ce qui permet aux chercheurs de les regrouper en complexes clonaux (CCs) selon leurs similitudes.

Défis avec le MLST

Bien que le MLST ait été utile, il a ses limites. D'une part, si une souche manque certains gènes, elle peut ne pas être correctement classée. De plus, le taux élevé de partage génétique entre les souches peut brouiller les résultats, amenant des groupes de bactéries qui ne sont pas très liés à être regroupés ensemble. Parfois, le MLST ne dispose pas de suffisamment de détails pour distinguer entre des souches étroitement liées.

Pour améliorer le MLST, les chercheurs ont développé une méthode appelée CgMLST (core-genome MLST). Cette méthode plus récente examine un plus grand nombre de gènes, et pas juste sept, permettant une meilleure résolution et des regroupements plus précis. Dans le cgMLST, le génome de base d'un groupe de bactéries est déterminé, et les souches sont regroupées selon les similarités génétiques de ces gènes de base.

L’essor des systèmes de barcodage

Un système innovant appelé Numéros d'Identification de Vie (LIN) a été proposé, qui utilise le cgMLST pour créer un code-barres pour chaque génome de pneumocoque. Ce code-barres montre à quel point la souche est similaire à d'autres dans la base de données. Cette approche fournit des clusters plus précis, bien qu'elle ait encore des problèmes comme le fait de ne pas tenir compte des variations au sein des gènes et le temps que ça prend pour créer un schéma de génome de base.

Une autre approche basée sur la similarité de k-mer, connue sous le nom de PopPUNK, utilise de courtes séquences d'ADN pour mesurer les similarités génétiques entre les souches. Cette méthode a réussi à créer un système de classification mondial qui regroupe les souches en fonction de leur histoire génétique partagée et a géré efficacement de grands ensembles de données.

Comparaison des méthodes de regroupement

Avec la disponibilité croissante de génomes de pneumocoques provenant de différentes parties du monde, les chercheurs doivent comparer ces méthodes pour voir comment elles fonctionnent. Lors de l'étude de 26 306 génomes issus du projet de séquençage mondial des pneumocoques, les chercheurs ont comparé les résultats du MLST, du cgMLST, du barcoding LIN et du PopPUNK. L'objectif était de voir comment ces méthodes identifiaient les différentes souches et leurs relations.

Dans l'ensemble, bien que toutes les méthodes aient fourni des informations utiles, elles n'étaient pas toujours d'accord. Certaines méthodes ont produit des clusters contenant de nombreux génomes, tandis que d'autres les ont divisés en plus petits groupes. Cette variation signifie que les chercheurs doivent être prudents lorsqu'ils utilisent ces classifications, surtout pour suivre les épidémies.

Collecte de génomes et analyse des données

L'étude a utilisé une collection mondiale de génomes de pneumocoques, incluant des échantillons à la fois de maladies invasives et non invasives, ainsi que de personnes en bonne santé qui portent la bactérie sans montrer de symptômes. Les chercheurs ont veillé à ce que la qualité des génomes soit élevée, en filtrant ceux qui ne répondaient pas à des normes spécifiques.

Pour attribuer des STs et des CCs aux génomes, les chercheurs ont utilisé des outils logiciels établis. Ils ont aussi mis en œuvre des techniques cgMLST pour créer une analyse plus détaillée basée sur un plus grand nombre de gènes de base. PopPUNK a été utilisé pour définir les catégories plus larges de GPSCs.

Résultats de l'analyse de regroupement

Dans l'analyse, un nombre significatif de STs et de CCs a été identifié dans l'ensemble de données, indiquant une structure de population complexe. Beaucoup des CCs identifiés étaient constitués d'une seule ST, tandis que d'autres incluaient plusieurs STs. Cela souligne la diversité et la variation génétique présentes au sein des bactéries.

Il a été trouvé que la méthode PopPUNK fournissait une image cohérente des relations entre les souches, s'alignant étroitement avec les résultats cgMLST. Cependant, plusieurs CCs contenaient des souches qui étaient génétiquement diverses, indiquant que s'appuyer uniquement sur l'attribution des CCs pourrait entraîner des malentendus sur les relations entre différentes souches.

Enquête détaillée sur les divergences de regroupement

L'étude s'est aussi concentrée sur les clusters qui montraient des divergences entre les différentes méthodes, en examinant particulièrement ceux qui incluaient plusieurs GPSCs ou CCs. Par exemple, un CC contenait des souches provenant de différents GPSCs, montrant les défis d'utiliser des données génétiques limitées pour la classification.

Analyser ces divergences a permis aux chercheurs de mieux comprendre comment la variation des souches affecte le regroupement. Les résultats ont suggéré que plusieurs méthodes devraient être utilisées ensemble pour créer une image plus claire de la structure de la population et des relations évolutives entre les souches.

Implications pour le suivi des maladies

Un regroupement précis de ces bactéries est essentiel pour comprendre leur propagation, leur potentiel à causer des maladies et leur résistance au traitement. Cette connaissance est essentielle pour les efforts de santé publique visant à surveiller et contrôler les infections à pneumocoques, surtout pendant les épidémies.

À mesure que différentes méthodes continuent d'évoluer, il est important que les chercheurs communiquent efficacement et standardisent leurs conclusions. Utiliser plusieurs méthodes de regroupement et fournir des comparaisons détaillées peut aider à garantir que les conclusions tirées des études soient solides et puissent être renforcées dans les recherches futures.

Conclusion

La classification du Streptococcus pneumoniae est complexe, et aucune méthode unique ne peut capturer toutes les nuances de sa structure de population. Chaque méthode-MLST, cgMLST, barcoding LIN et PopPUNK-offre des avantages et des défis uniques. À l'avenir, une combinaison de techniques sera probablement la meilleure façon de comprendre cet agent pathogène important.

En améliorant la manière dont les chercheurs classifient et suivent ces bactéries, on peut renforcer notre capacité à répondre aux épidémies et à développer des traitements et des stratégies de prévention efficaces. Ce raffinement et cette comparaison continus des méthodes seront cruciaux à mesure que de nouvelles données génomiques deviennent disponibles, bénéficiant finalement aux efforts de santé publique dans le monde entier.

Source originale

Titre: Comparison of gene-by-gene and genome-wide short nucleotide sequence based approaches to define the global population structure of Streptococcus pneumoniae

Résumé: Defining the population structure of a pathogen is a key part of epidemiology, as genomically related isolates are likely to share key clinical features such as antimicrobial resistance profiles and invasiveness. Multiple different methods are currently used to cluster together closely- related genomes, potentially leading to inconsistency between studies. Here, we use a global dataset of 26,306 S. pneumoniae genomes to compare four clustering methods: gene-by- gene seven-locus multi-locus sequencing typing (MLST), core genome MLST (cgMLST)- based hierarchical clustering (HierCC) assignments, Life Identification Number (LIN) barcoding, and k-mer-based PopPUNK clustering (known as GPSCs in this species). We compare the clustering results with phylogenetic and pan-genome analyses to assess their relationship with genome diversity and evolution, as we would expect a good clustering method to form a single monophyletic cluster that has high within-cluster similarity of genomic content. We show that the four methods are generally able to accurately reflect the population structure based on these metrics, and that the methods were broadly consistent with each other. We investigated further to study the discrepancies in clusters. The greatest concordance was seen between LIN barcoding and HierCC (Adjusted Mutual Information Score = 0.950), which was expected given that both methods utilise cgMLST, but have different methods for defining an individual cluster and different core genome schema. However, the existence of differences between the two methods show that the selection of a core genome schema can introduce inconsistencies between studies. GPSC and HierCC assignments were also highly concordant (AMI = 0.946), showing that k-mer based methods which use the whole genome and do not require the careful selection of a core genome schema are just as effective at representing the population structure. Additionally, where there were differences in clustering between these methods, this could be explained by differences in the accessory genome that were not identified in cgMLST. We conclude that for S. pneumoniae, standardised and stable nomenclature is important as the number of genomes available expands. Furthermore, the research community should transition away from seven- locus MLST, and cgMLST, GPSC, and LIN assignments should be used more widely. However, to allow for easy comparison between studies and to make previous literature relevant, the reporting of multiple clustering names should be standardised within research. Data summaryGenome sequences are deposited in the European Nucleotide Archive (ENA); accession numbers. Metadata of the pneumococcal isolates in this study have been submitted as a supplementary file and are also available on the Monocle Database available at https://data.monocle.sanger.ac.uk/. The authors confirm all supporting data, code and protocols have been provided within the article or through supplementary data files. Impact StatementUsing a global dataset of S. pneumoniae genomes allows us to thoroughly observe and analyse discrepancies between different clustering methods. Whilst all methods in this study are used to cluster S. pneumoniae genomes, no study has yet thoroughly compared the clustering results and discrepancies. This work summarises the strengths and weaknesses of the different methods and highlights the need for consistency between studies.

Auteurs: Alannah C. King, N. Kumar, K. C. Mellor, P. A. Hawkins, L. McGee, N. J. Croucher, S. D. Bentley, J. A. Lees, S. W. Lo

Dernière mise à jour: 2024-06-02 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2024.05.29.596230

Source PDF: https://www.biorxiv.org/content/10.1101/2024.05.29.596230.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires