Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

結核菌のパンゲノムを理解する

Mtbの遺伝的多様性とその影響を探る。

― 1 分で読む


Mtbパンゲノム解析Mtbパンゲノム解析にする。結核菌の遺伝子に関する新たな知見を明らか
目次

バクテリアは同じ種に属していても、異なる遺伝子を持つことがあるんだ。この違いを説明するために、科学者たちはパンゲノムの概念を作り出したんだ。これは、バクテリアのグループに存在するすべての遺伝子を見るってこと。最初はバクテリアの研究から始まって、今では多くの生物の遺伝子を調べるのに使われてるよ。パンゲノムの中の遺伝子は二つのグループに分けられる:ほとんどのメンバーが共有してるコア遺伝子と、一部のメンバーだけが持ってるアクセサリー遺伝子。遺伝子の転送や配列の変化みたいな異なるプロセスが、バクテリアの遺伝子の変異を引き起こすんだ。最近、研究者たちはパンゲノムの研究を使って、バクテリアの遺伝的な違いや適応性をもっと知ろうとしているんだ。これは医学や農業など、多くの分野にとって重要なんだよ。

バクテリアのゲノムを研究するために多くのツールが作られてるけど、パンゲノムを定義して測定する方法はバラバラなんだ。例えば、パンゲノムを分析するための方法がたくさんあるよ。パンゲノム分析の二つの重要な選択肢は、1) どの部分のゲノムを比較するか(全体のゲノムかその一部か)、2) 配列間の類似性や違いをどう評価するか、なんだ。これらの選択によって、どんな変異が見つかるか、そしてその結果がどう解釈されるかに影響が出てくるんだ。それに、分析するゲノムの選択や、それが本当に種内の遺伝的な違いを表してるかどうかも、結果に影響することがあるよ。

結核菌(Mycobacterium tuberculosis)

結核菌(Mtb)は結核(TB)の主な原因で、毎年約160万人が死亡してるんだ。Mtbは固定的に進化するタイプの細菌で、他の株と遺伝子を共有したり混ぜたりしないんだ。その結果、Mtbの遺伝子の違いは主に遺伝子を失うことや既存の遺伝子を複製することに起因していて、全体的にゲノム内の遺伝子が少なくなるんだ。一部の研究によると、Mtbのパンゲノムの大きさはかなり異なることがあるよ。例えば、ある研究では7600以上のアクセサリー遺伝子が見つかったけど、他の研究では500程度しか報告されてないんだ。

Mtbは一貫したゲノム構造を持っていて遺伝子を混ぜないから、パンゲノム研究でアクセサリー遺伝子を予測する能力をテストするのに良いモデルなんだ。それに、Mtbはゲノムの構造変化がほとんどないから、研究者たちは短いDNAリーディングと長いDNAリーディングを使って高品質のゲノム組み立てを作ることができるんだ。これにより、シーケンシングやアセンブリの質が、非常に遺伝的に似ている集団のパンゲノム予測にどう影響するかを理解するのに役立ってるよ。

Mtbゲノムのデータセットの整理

Mtbのパンゲノムを正確に研究するために、研究者たちは人間に影響を与える異なるMtb株から151の完全なゲノムを集めたんだ。彼らは短いDNAリーディング技術と長いDNAリーディング技術を使ってこれらの株をシーケンスしたんだ。各株について、長いリーディングと短いリーディングのデータを組み合わせたハイブリッドアセンブリを作って、高品質を確保したよ。このデータセットには、世界中の遺伝的多様性を示すさまざまなMtb株が含まれてるんだ。

組み立てたゲノムは非常に似ていて、高い平均ヌクレオチド同一性(ANI)と一貫したゲノム特性を持ってるよ。しかし、短いリードアセンブリはハイブリッドアセンブリに比べて完全性が低く、連続性や予測されたコーディング配列の数に違いが見られたんだ。

構造変異の評価

Mtbゲノムの遺伝的な違いを評価するために、研究者たちは構造的な変異を可視化するためのパンゲノムグラフを作成したんだ。このグラフは、すべてのMtb株が持ってるコア遺伝子と、少なくとも一つの株に見つかった変異を示してるよ。結果のグラフには、多くのノードが異なる配列を表していて、研究者たちはこれが新しい遺伝的内容なのか、既存の遺伝子の再構成なのかを判断しようとしてたんだ。

グラフを分析することで、大部分の構造的な変異は再配置によるもので、ほんの少しの割合が本当に新しい配列を表していることが分かったよ。多くの冗長な配列は、既に理解されている既知のウイルスや挿入配列と重なってたんだ。一部のユニークな変異は、特定のMtb系統に関連してたよ。

分析ツールがパンゲノム予測に与える影響

バクテリアのパンゲノムを研究するにあたって、異なるツールが異なる結果を出すことがあるんだ。研究者たちは、異なる分析方法が遺伝子内容の推定にどう影響するかに注目したんだ。よく使われるソフトウェアをテストして、たんぱく質コーディング配列のクラスタリングのようなパラメータの変更が結果にどう影響するかを調べたよ。彼らは、異なるアセンブリやアノテーションパイプラインを切り替えることで、コア遺伝子やアクセサリー遺伝子の推定に大きな違いが出ることを発見したんだ。

例えば、あるソフトウェアは他のソフトを問わず一貫性があったけど、別のソフトはアノテーション方法によってより慎重な推定をしたんだ。いろんなツールの組み合わせが、アクセサリーゲノムの大きさについての予測に大きな変動をもたらしていて、方法選択の重要性が強調されてるよ。

アノテーションの不一致の解決

既存のパンゲノム分析ツールには、遺伝子のアノテーションの違いによってアクセサリー遺伝子の数を過大評価する問題があるんだ。研究者たちは、遺伝子アノテーションの不一致を調整するための新しいツール「panqc」を作ったんだ。このソフトウェアは、パンゲノム予測ツールの出力を分析して、似たようなコーディング配列を統合することで、アクセサリー遺伝子のサイズについてより正確な推定を導き出すんだ。

panqcツールは二つのステップで動くよ:まず、欠測として特定された遺伝子が実際にはDNAレベルで存在するかをチェックして、次に似たコーディング配列をグループ化するんだ。この方法は、予測される付加的な遺伝子の数を大幅に減少させることが示されてるんだ。

Mtbゲノムにおけるpanqcの適用

Mtbゲノムのデータセットに適用すると、panqcは推定されるアクセサリー遺伝子の数を大幅に減少させたんだ。研究者たちは、もともと報告された多くの欠測が実際の遺伝子が欠けているのではなく、遺伝子アノテーションの問題によるものであることを発見したんだ。この調整によって、遺伝的内容のより明確な見通しが可能になり、異なる株間の遺伝子の獲得と喪失イベントの理解が深まったよ。

さらに、panqcは大腸菌のゲノムにもテストされたんだけど、Mtbに比べて遺伝子内容の冗長性が少なかったんだ。これから考えると、このツールは遺伝的に近いゲノムには役立つけど、より遺伝的に多様な集団にはそれほど必要ではないかもしれないね。

結論

この研究は、バクテリアのゲノムを研究する際にヌクレオチドとアミノ酸の比較を使う必要性を強調してるんだ。また、パンゲノム分析における方法の選択の重要性、特にアノテーションの不一致や使用するゲノムアセンブリの質に関しても言及しているよ。評価された各ツールには強みと弱みがあって、いくつかはさまざまな条件でより一貫した推定を提供するんだ。

panqcのようなツールの開発は、パンゲノム分析を改善する期待が持てるよ。特に遺伝的に似ている集団では、結果を歪める問題を考慮しやすくなるんだ。ゲノムを比較する際に慎重なアプローチを取ることで、研究者たちはバクテリア集団の進化的ダイナミクスについて貴重な洞察を得ることができるんだ。それは彼らの適応性や、人間の健康への潜在的な影響を理解するのに重要なんだよ。

オリジナルソース

タイトル: Analysis of the limited M. tuberculosis accessory genome reveals potential pitfalls of pan-genome analysis approaches

概要: Pan-genome analysis is a fundamental tool for studying bacterial genome evolution; however, the variety of methods used to define and measure the pan-genome poses challenges to the interpretation and reliability of results. To quantify sources of bias and error related to common pan-genome analysis approaches, we evaluated different approaches applied to curated collection of 151 Mycobacterium tuberculosis (Mtb) isolates. Mtb is characterized by its clonal evolution, absence of horizontal gene transfer, and limited accessory genome, making it an ideal test case for this study. Using a state-of-the-art graph-genome approach, we found that a majority of the structural variation observed in Mtb originates from rearrangement, deletion, and duplication of redundant nucleotide sequences. In contrast, we found that pan-genome analyses that focus on comparison of coding sequences (at the amino acid level) can yield surprisingly variable results, driven by differences in assembly quality and the softwares used. Upon closer inspection, we found that coding sequence annotation discrepancies were a major contributor to inflated Mtb accessory genome estimates. To address this, we developed panqc, a software that detects annotation discrepancies and collapses nucleotide redundancy in pan-genome estimates. When applied to Mtb and E. coli pan-genomes, panqc exposed distinct biases influenced by the genomic diversity of the population studied. Our findings underscore the need for careful methodological selection and quality control to accurately map the evolutionary dynamics of a bacterial species.

著者: Maha R Farhat, M. G. Marin, C. Wippel, N. Quinones-Olvera, M. Behruznia, B. M. Jeffrey, M. Harris, B. C. Mann, A. Rosenthal, K. R. Jacobson, R. M. Warren, H. Li, C. J. Meehan

最終更新: 2024-05-04 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.03.21.586149

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.03.21.586149.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事