Simple Science

最先端の科学をわかりやすく解説

# 生物学# ゲノミクス

肺炎球菌の分類:方法と課題

肺炎球菌の株を特定して追跡するための技術を調べる。

― 1 分で読む


肺炎球菌の分類の難しさ肺炎球菌の分類の難しさがあることがわかるよ。ひずみ識別方法を評価すると、かなりの課題
目次

肺炎球菌(Streptococcus pneumoniae)、通称肺炎菌は、人間に深刻な感染症を引き起こすバイ菌の一種だよ。耳の感染、肺炎、髄膜炎などの病気を引き起こす原因になってる。2019年には、このバイ菌が世界中で約829,000人の死亡を引き起こしたと推定されてるんだ。

肺炎菌には多糖類カプセルという保護層があって、このカプセルが重要なんだ。カプセルは、血清型として知られるさまざまなバイ菌のタイプを識別するのに役立つんだ。カプセルは、バイ菌が病気を引き起こす方法やワクチンのターゲットにもなるけど、各株の遺伝的構成も感染力、抗生物質への耐性、ワクチンの効果に影響を与えるから、これらのバイ菌のグループを理解するのが重要なんだ。

集団構造を定義する重要性

肺炎菌の集団構造を定義することは、バイ菌の広がりを追跡したり、ワクチンや抗生物質の効果を評価するのに重要なんだ。ただ、肺炎菌は他のバイ菌と遺伝子を共有することが多くて、関係や特徴を特定するのが難しいんだよね。

1998年から、研究者たちは多重座位配列型解析(MLST)という方法を使って、肺炎菌の異なる株を分類する手助けをしてる。この方法は、7つの一般的な遺伝子からの遺伝情報を見て、異なる株を識別するんだ。各株には遺伝的プロファイルに基づいてユニークな番号が付けられ、似たような株をクローン複合体(CC)にグループ化できるんだ。

MLSTの課題

MLSTは役立つけど、限界もあるんだ。株にいくつかの遺伝子が欠けてると、正しく分類できないことがあるし、株間での遺伝子共有の高い割合が結果を混乱させて、あまり関係のないバイ菌が一緒にされちゃうこともある。時には、MLSTでは密接に関連する株を区別するのに十分な詳細がないこともあるんだ。

MLSTを改善するために、研究者たちはコアゲノムMLST(CgMLST)という方法を開発した。この新しい方法は、7つだけじゃなくてもっと多くの遺伝子を調べるから、より良い解像度と正確なグループ分けができるんだ。cgMLSTでは、バイ菌のグループのコアゲノムが決定され、これらのコア遺伝子の遺伝的類似性に基づいて株がクラスタリングされるんだよ。

バーコードシステムの登場

ライフ識別番号(LIN)という革新的なシステムが提案されていて、これはcgMLSTを利用して、各肺炎菌ゲノムのバーコードを作るんだ。このバーコードは、その株がデータベースの他の株とどれくらい似てるかを示すんだ。これにより、より正確なクラスタが得られるけど、遺伝子内の変異を考慮しなかったり、コアゲノムスキーマを作成するのに時間がかかるという問題も抱えてる。

もう一つのアプローチとして、k-merの類似性に基づくポップパンク(PopPUNK)があって、これは短いDNA配列を使って株間の遺伝的類似性を測定するんだ。この方法は、共有された遺伝的歴史に基づいて株をグループ化するグローバルな分類システムを作成するのに成功してるし、大きなデータセットも効果的に扱ってるよ。

クラスタリング方法の比較

世界中の肺炎菌ゲノムの入手可能性が高まってる中で、研究者たちはこれらの方法がどれくらい効果的かを比較する必要があるんだ。グローバル肺炎球菌配列プロジェクトからの26,306のゲノムを研究して、MLST、cgMLST、LINバーコード、PopPUNKの結果を比較したんだ。これらの方法が異なる株をどれくらいよく特定できるか、またその関係を探ることが目的だったんだよ。

全体として、すべての方法が役立つ情報を提供したけど、必ずしも一致するわけじゃなかったんだ。一部の方法は多くのゲノムを含むクラスタを作成し、他の方法はそれを小さなグループに分けた。こうしたバリエーションから、研究者はこれらの分類を使用する際に注意が必要なんだ、特に病気の発生を追跡するためにはね。

ゲノム収集とデータ分析

この研究では、侵襲性および非侵襲性の病気からのサンプルや、症状を示さない健康な個体からの肺炎菌ゲノムが含まれてるグローバルなコレクションを使用したんだ。研究者は、特定の基準を満たさないものをフィルタリングして、ゲノムの質が高いことを確保したんだよ。

STとCCをゲノムに割り当てるために、研究者たちは確立されたソフトウェアツールを使用したし、より多くのコア遺伝子に基づいた詳細な分析を作成するためにcgMLST技術を実施したんだ。PopPUNKを利用して、GPSCsの広範なカテゴリを定義したんだよ。

クラスタリング分析の結果

分析では、データセット内で多くのSTとCCが特定されて、複雑な集団構造が示されたんだ。特定された多くのCCは一つのSTだけで構成されてたけど、他には複数のSTを含むものもあった。このことは、バイ菌内の多様性や遺伝的変異を強調してるんだ。

PopPUNK法は、株間の関係の一貫した像を提供して、cgMLSTの結果と密接に一致してることがわかった。しかし、いくつかのCCには遺伝的に多様な株が含まれていて、CCの割り当てだけに頼るのは、異なる株間の関係について誤解を招く可能性があるんだ。

クラスタリングの不一致の詳細な調査

研究はまた、異なる方法の間で不一致を示したクラスタに焦点を当てて、特に複数のGPSCやCCを含むものを検討したんだ。例えば、あるCCには異なるGPSCの株が含まれてて、限られた遺伝データを使って分類することの難しさを示してるんだ。

これらの不一致を分析することで、株の変異がクラスタリングにどう影響するかについての洞察が得られたんだ。結果として、複数の方法を併用することで、集団構造や株間の進化的関係のより明確な像を作成するべきだということが示唆されたんだよ。

病気追跡への影響

これらのバイ菌を正確にクラスタリングすることは、広がり、病気を引き起こす可能性、治療への抵抗を理解するのに重要なんだ。この知識は、特に発生時の肺炎菌感染の監視と制御を目指す公衆衛生の取り組みに不可欠なんだ。

異なる方法が進化し続ける中で、研究者はコミュニケーションを効果的に行い、自分たちの発見を標準化することが重要なんだよ。複数のクラスタリング方法を使用したり、詳細な比較を提供することで、研究から得られた結論が堅実で、将来の研究に活用できるようになるんだ。

結論

肺炎球菌の分類は複雑で、一つの方法だけではその集団構造のすべてのニュアンスを捉えることができないんだ。各方法、MLST、cgMLST、LINバーコード、PopPUNKは、それぞれユニークな利点と課題を持ってる。今後、技術を組み合わせることで、この重要な病原体を理解する最良の結果が得られると思う。

研究者がこれらのバイ菌をどのように分類し追跡するかを改善することで、アウトブレイクに対応する能力や、効果的な治療法と予防戦略を開発するのができるようになるんだ。この方法の継続的な改善と比較が、新しいゲノムデータが利用可能になるにつれて重要になるし、最終的には世界中の公衆衛生努力に役立つことになるんだよ。

オリジナルソース

タイトル: Comparison of gene-by-gene and genome-wide short nucleotide sequence based approaches to define the global population structure of Streptococcus pneumoniae

概要: Defining the population structure of a pathogen is a key part of epidemiology, as genomically related isolates are likely to share key clinical features such as antimicrobial resistance profiles and invasiveness. Multiple different methods are currently used to cluster together closely- related genomes, potentially leading to inconsistency between studies. Here, we use a global dataset of 26,306 S. pneumoniae genomes to compare four clustering methods: gene-by- gene seven-locus multi-locus sequencing typing (MLST), core genome MLST (cgMLST)- based hierarchical clustering (HierCC) assignments, Life Identification Number (LIN) barcoding, and k-mer-based PopPUNK clustering (known as GPSCs in this species). We compare the clustering results with phylogenetic and pan-genome analyses to assess their relationship with genome diversity and evolution, as we would expect a good clustering method to form a single monophyletic cluster that has high within-cluster similarity of genomic content. We show that the four methods are generally able to accurately reflect the population structure based on these metrics, and that the methods were broadly consistent with each other. We investigated further to study the discrepancies in clusters. The greatest concordance was seen between LIN barcoding and HierCC (Adjusted Mutual Information Score = 0.950), which was expected given that both methods utilise cgMLST, but have different methods for defining an individual cluster and different core genome schema. However, the existence of differences between the two methods show that the selection of a core genome schema can introduce inconsistencies between studies. GPSC and HierCC assignments were also highly concordant (AMI = 0.946), showing that k-mer based methods which use the whole genome and do not require the careful selection of a core genome schema are just as effective at representing the population structure. Additionally, where there were differences in clustering between these methods, this could be explained by differences in the accessory genome that were not identified in cgMLST. We conclude that for S. pneumoniae, standardised and stable nomenclature is important as the number of genomes available expands. Furthermore, the research community should transition away from seven- locus MLST, and cgMLST, GPSC, and LIN assignments should be used more widely. However, to allow for easy comparison between studies and to make previous literature relevant, the reporting of multiple clustering names should be standardised within research. Data summaryGenome sequences are deposited in the European Nucleotide Archive (ENA); accession numbers. Metadata of the pneumococcal isolates in this study have been submitted as a supplementary file and are also available on the Monocle Database available at https://data.monocle.sanger.ac.uk/. The authors confirm all supporting data, code and protocols have been provided within the article or through supplementary data files. Impact StatementUsing a global dataset of S. pneumoniae genomes allows us to thoroughly observe and analyse discrepancies between different clustering methods. Whilst all methods in this study are used to cluster S. pneumoniae genomes, no study has yet thoroughly compared the clustering results and discrepancies. This work summarises the strengths and weaknesses of the different methods and highlights the need for consistency between studies.

著者: Alannah C. King, N. Kumar, K. C. Mellor, P. A. Hawkins, L. McGee, N. J. Croucher, S. D. Bentley, J. A. Lees, S. W. Lo

最終更新: 2024-06-02 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.05.29.596230

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.05.29.596230.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事