新しいツールが微生物DNA解析を強化する
新しい方法で、いろんなサンプルの微生物DNAの推定がうまくなったよ。
― 1 分で読む
目次
ショットガンシーケンシングは、ヒトのようなホストに関連する環境や自然に存在するDNAを分析するための方法だよ。多くの場合、細菌や古細菌を含む微生物が研究されるサンプルの大部分を占めてる。ただ、実際にどのくらいのDNAが微生物に属してるのかは不明なことが多い。他の生物、例えば真菌やウイルスもこれらのサンプルにDNAを提供することがあるし、ホストからのサンプルの場合、ホスト自身やその食べ物、関連生物のDNAも含まれることがあるんだ。
多くの技術は、非微生物由来のDNAは非常に少ないと仮定して無視しがちだよ。たとえば、いくつかの方法では、すべてのDNAリードに機能を割り当てるけど、すべてが微生物からのものであるとは限らない。これが最終的な分析で微生物群集の不正確な表現につながることがある。この不確実性は、分析するサンプルにどれだけの非微生物DNAが存在するのかという疑問を引き起こすんだ。
ゲノム解決メタゲノミクス
これらの問題を解決するために、研究者たちはゲノム解決メタゲノミクスという戦略を使ってる。このアプローチは、DNA配列をより大きな部分、コンティグに組み立てることを含む。これらのコンティグは、DNA配列のパターンに基づいてメタゲノム組み立てゲノム(MAGs)に整理される。この方法は、培養されていない微生物について包括的な遺伝情報を提供できるから人気なんだ。
でも、バイオインフォマティクスが進歩しても、これらの分析から回収されたゲノムは、完全な微生物群集を表していないことが多い。研究が微生物ゲノムをどれだけうまくキャッチしたかを確認する一般的な方法は、DNAリードをMAGsと照合すること。もし大部分のリードが一致するなら、ゲノムの回収が成功したことを示すけど、少ししか一致しないなら、MAGsが研究されているコミュニティを十分に表していない可能性があるよ。
非微生物DNAが存在すると問題が生じて、リードがMAGsに一致する率が下がることがある。非微生物リードが多すぎると、結果はゲノム回収が悪かったと誤って示すかもしれないし、実際には微生物群集がよく表されていたとしてもね。
正確な推定の必要性
ゲノム回収がどれだけうまくいってるかを適切に評価するには、サンプル内にどれだけの微生物DNAがあるかを知ることが重要なんだ。この微生物DNAの割合は「微生物分数」と呼ばれ、研究者が実験中に微生物DNAを管理または保存するのに役立つ指針になるよ。
微生物分数を正確に計算するために、研究者たちは「SingleM微生物分数」(SMF)というツールを開発した。このツールはメタゲノミクスデータセットにどれだけの細菌と古細菌DNAが存在するかを推定するんだ。非微生物リードを除去する代わりに、SMFは単一コピーで存在することが知られている特定の微生物遺伝子に対応するリードを特定することに焦点を当ててる。この方法の利点は、非微生物生物の参考ゲノムがなくても使えることだよ。
SMFの仕組み
SMFは、もう一つのツール「SingleM」と一緒に動作して、生のメタゲノミクスリードを使ってコミュニティプロファイルを作る。これには、存在する生物の種類やDNAのカバレッジに基づいたその豊富さの推定が含まれてる。このデータを分析することで、SMFはサンプル内の微生物DNAの推定割合を提供できるんだ。
このプロセスは、各種のリードの平均数を計算し、サンプル内のすべての微生物ゲノムからのDNAの総量を決定することを含む。これにより、研究者はサンプル内の非微生物生物について何も知らなくても微生物分数を推定できるようになるよ。
制限と警告
SMFは強力なツールだけど、制限もあるんだ。一部の微生物群集は、データベースに代表されていない種で構成されていることが多く、これがゲノムサイズの不正確な推定につながるかもしれない。単純なコミュニティでは、いくつかの優占種のゲノムサイズの変化が微生物分数の推定に大きな影響を与えることがあるけど、より複雑なコミュニティでは、ゲノムサイズ推定の誤差はあまり影響がない。なぜなら、推定はより多様な種に基づいているから。
SMFは、データベースに分類されていない種を含む単純なコミュニティを扱う際にユーザーに警告を提供する。この警告は、彼らの微生物分数推定が信頼できない可能性があることを知らせるためのものだよ。
ユーザー生成データによる精度向上
ユーザーは、自分のゲノムデータを参照データベースに組み込むことでSMFの精度を高められる。これにより、自分の分析のための更新版を作成できるんだ。新しいゲノムデータを追加し、微生物分数を再計算するための特定のワークフローを使うことで可能になる。
平均微生物ゲノムサイズ
SMFは、各メタゲノム内の微生物ゲノムの平均サイズも計算する。この平均は各種のカバレッジによって重み付けされていて、すべてのDNAが微生物ゲノムに由来すると仮定した以前の方法よりも信頼できる推定ができるんだ。
SMFのベンチマーキング
研究者たちは、さまざまなシナリオでSMFの能力をシミュレーションデータを使ってテストした。単純なテストでは、SMFは微生物分数を正確に推定して、既知の値に密接に一致した。ツールは複雑な環境でもうまく機能し、さまざまな微生物の多様性を含むデータセットでもその堅牢性を示したよ。
最も挑戦的なシナリオでも、新しい種が分析に含まれている場合でも、SMFは実際の微生物分数に比較的近い推定を提供したが、正確さは新しい種の新しさによって変わることがあった。
実際のメタゲノミクスデータへの応用
SMFの実用的な適用例を示すために、研究者たちは実際のメタゲノミクスデータセットに適用した。たとえば、人間の便のサンプルでは、微生物分数は高いと予想されていた-約90%。処理後、SMFの推定値はほぼ100%の微生物DNAを示し、読取マッピング率が低かったのは、非微生物DNAの存在ではなく、微生物ゲノムの回収が難しかったためだと示唆されたんだ。
同様に、ハイエナを対象とした研究では、便サンプルに獲物DNAの量が異なることがあるが、SMFはさまざまな微生物分数を示し、異なるサンプル間での微生物含量の変動を示している。
ドメイン調整マッピング率
ゲノム回収の成功をより理解するために、新しい指標「ドメイン調整マッピング率」(DAMR)が導入された。この指標は、微生物ゲノムにマッピングされるリードの割合をサンプル内の推定微生物DNA量と関連付ける。リードマッピング率のコンテキストを提供することで、DAMRは追加のシーケンシングが有益な場合を特定するのに役立つんだ。
微生物リード分数についての結論
研究者たちは、その後SMFを使って膨大な数の公共メタゲノミクスデータセットを分析し、さまざまな環境における微生物分数の重要な変動を発見した。SMFの推定値と他のツールからの推定値を比較した結果、特に研究が不足している集団において、SMFがしばしば高い推定値を提供することがわかったよ。
人間の便のサンプルでは、アフリカや南アメリカの集団からのサンプルでSMFの推定が顕著に高かったことは、これらの地域が既存のゲノムデータベースにおいて過小評価されていることを示唆している。同様に、海洋や土壌のメタゲノムは、微生物分数がフィルタサイズやサンプリング場所によって影響を受ける可能性があることを示している。
この分析は、微生物分数が異なる環境内外で広く変動する可能性があることを示している。これらの発見は、微生物多様性を正確に評価し、将来の研究やデータ解釈に役立つツールとしてSMFの利用の重要性を強調しているよ。
全体的に、SMFは微生物分数を推定するための有用な手段であるだけでなく、研究者が微生物群集をよりよく理解するために新しいサンプルタイプや環境を探求する際の指針にもなるんだ。
タイトル: Large-scale estimation of bacterial and archaeal DNA prevalence in metagenomes reveals biome-specific patterns
概要: Metagenomes often contain many reads derived from eukaryotes. However, there is usually no reliable method for estimating the prevalence of non-microbial reads in a metagenome, forcing many analysis techniques to make the often-faulty assumption that all reads are microbial. For instance, the success of metagenome-assembled genome (MAG) recovery efforts is assessed by the number of reads mapped to recovered MAGs, a procedure which will underestimate the true fidelity if eukaryotic reads are present. Here we present "SingleM microbial_fraction" (SMF), a scalable algorithm that robustly estimates the number of bacterial and archaeal reads in a metagenome, and the average microbial genome size. SMF does not use eukaryotic reference genome data and can be applied to any Illumina metagenome. Based on SMF, we propose the "Domain-Adjusted Mapping Rate" (DAMR) as an improved metric to assess microbial genome recovery from metagenomes. We benchmark SMF on simulated and real data, and demonstrate how DAMRs can guide genome recovery. Applying SMF to 136,284 publicly available metagenomes, we report substantial variation in microbial fractions and biome-specific patterns of microbial abundance, providing insights into how microorganisms and eukaryotes are distributed across Earth. Finally, we show that substantial amounts of human host DNA sequence data have been deposited in public metagenome repositories, possibly counter to ethical directives that mandate screening of these reads prior to release. As the adoption of metagenomic sequencing continues to grow, we foresee SMF being a valuable tool for the appraisal of genome recovery efforts, and the recovery of global patterns of microorganism distribution.
著者: Raphael Eisenhofer, A. Alberdi, B. J. Woodcroft
最終更新: 2024-05-17 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.05.16.594470
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.05.16.594470.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。