Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

マルチステージサーチ:病原体同定の進歩

新しい方法で、プロテオミクスとゲノミクスを使ってウイルス株の検出が向上したよ。

― 1 分で読む


病原体検出の革命病原体検出の革命新しい方法でウイルス株の特定精度が向上。
目次

ウイルスや細菌の病原体は、公衆衛生に大きなリスクをもたらすことがあるんだ。最近のSARS-CoV-2によるパンデミックの例を見てもわかるよ。アウトブレイクが起きたときは、これらの病原体を素早く正確に検出することが重要だよね。従来の感染症診断方法、たとえばRT-PCRは、特定の病原体を事前に知っておく必要があるっていう制限があるんだ。だから、ゲノム解析やプロテオーム解析のような、よりオープンな方法が役立つわけ。特にウイルス監視や未知の病原体の検出には効果的なんだ。

ゲノミクスはウイルス病原体を特定するための重要なツールになってるけど、新しい研究ではプロテオミクスも貴重な洞察を提供できることがわかってきたんだ。プロテオミクスはタンパク質を研究する分野で、病原体がどのように作用するかを理解するのに欠かせないんだ。プロテオミクスの一般的な方法は、液体クロマトグラフィーに結びつけられたタンデム質量分析(LC-MS/MS)だよ。この技術を使えば、一度にたくさんのサンプルを分析できて、サンプル内のタンパク質について詳細な情報が得られるんだ。

プロテオミクスデータを分析するとき、研究者は通常、既知のタンパク質をリストした参照データベースとその結果を比較するんだ。いくつかのデータベースがあって、特に質のためにキュレーションされているものもあるけど、これらのキュレーションされたデータベースは、研究やウイルス研究であまり見られない生物種を十分に表していないことがあるんだ。だから、未キュレーションの情報も含めたすべての利用可能なタンパク質データを含めることで、分類の特定が改善されることがあるんだ。

MultiStageSearchの概要

利用可能なタンパク質データを最大限に活用するために、MultiStageSearchという新しいアプローチが開発されたんだ。これは、ウイルス株を詳細なレベルで特定することを目的とした多段階プロセスなんだ。ワークフローは、ウイルスサンプルに関するより正確なデータを収集できるさまざまなデータベース検索ステップで構成されているよ。

最初のステップでは、MultiStageSearchが一般的な参照データベースを使って標準的なプロテオミクスデータベース検索を行うんだ。結果に基づいて、分類特定のための候補が決まって、特化したデータベースが作成されるよ。このデータベースには、特定の株を識別するためのゲノム情報が含まれているんだ。

MultiStageSearchは生物学的データの複雑さに対応するように設計されていて、PythonでSnakemakeワークフローの一部として実装されている。これにより、研究者は異なるサンプルタイプや条件を通じて分析を実行しやすくなっているんだ。

ワークフローステップ

入力と初期設定

MultiStageSearchを使うために、ユーザーは重要な情報をいくつか提供する必要があるんだ。これには次のものが含まれるよ:

  • 質量分析データを含むファイル
  • 検索ツール用のパラメータファイル
  • 参照データベース
  • タンパク質アクセッションと分類IDをリンクするマッピングファイル

ユーザーはホストデータベースや汚染物質データベースも含めて、関係のないデータをフィルタリングすることができるんだ。ワークフローの各ステップは、最も関連性の高い情報だけが考慮されるようにデータを処理するよ。

ホストフィルタリング

このオプションのステップでは、研究者は特定のホストや汚染物質に関連するデータをフィルタリングできるんだ。質量分析データと参照データベースの間で潜在的な一致を特定した後、指定されたホストに関連する無関係な一致は削除されるよ。これによって、次のステップでは関連データのみに焦点が当てられるんだ。

参照データベース検索

ユーザーが提供した参照データベースを使って、MultiStageSearchはさらに別の検索を行うよ。特にウイルスサンプルの場合は、広範なデータベースを選ぶことが推奨されているんだ。もしサンプルに関する追加情報があれば、例えばホスト種の情報がある場合、データベースをさらに絞り込むことができるよ。

検索が完了すると、プログラムはタンパク質-スペクトルマッチ(PSM)に関する情報を含むレポートをまとめるんだ。このPSMから、候補種が重み付けシステムを使用して特定されるよ。このシステムでは、各PSMに一致する異なるタンパク質の数が考慮されるんだ。これにより、最も関連性の高い分類が次の分析ステップに引き継がれるんだ。

ゲノムデータのダウンロード

次のステップでは、特定された候補株のゲノム情報をデータベースから自動的にダウンロードするよ。このプロセス中にはいくつかの課題が生じることがあるんだ。主に、既存のデータベースでゲノムがどのようにカタログ化されているかが理由なんだ。

これらの課題に対処するために、ユーザー定義のパラメータのセットが候補株のゲノム検索を絞り込むのに役立つんだ。重要なパラメータには、考慮する種の数の制限、重みの違い、配列の長さ、完全なゲノムのみを検索に含めるかどうかが含まれるよ。

ゲノムデータの処理

ゲノムがダウンロードされたら、プログラムはタンパク質とゲノム情報を結合したプロテオゲノム参照データベースを生成するんだ。この参照は次のデータベース検索ステップにとって重要なんだ。

重複したゲノムデータをフィルタリングして冗長性を避けた後、プログラムはさらに処理するためにクリーンなデータベースを準備するよ。この参照データベースは、次の検索フェーズで質量分析データ内のタンパク質を特定するために使用されるんだ。

ゲノムデータベース検索

この段階では、MultiStageSearchは以前に収集したゲノム情報を利用して、別の検索を行うんだ。ゲノムデータは通常、プロテオミクスデータよりも豊富で詳細なので、このステップでは通常、より多くの一致が得られるよ。得られたPSMは、関連する分類IDに応じて再度重み付けされ、集計されるんだ。

系統解析

オプションのステップとして、研究者は前の検索で特定された上位の分類に基づいて系統樹を構築できるよ。これには、最高得点の分類に焦点を当ててゲノムデータをフィルタリングし、それらの配列を整列させることが含まれるんだ。この整列を使って系統樹を構築し、株の関係を示すんだ。

最終データベース検索

最終的な検索ステップでは、最高得点の分類からのゲノムデータを使って結果をさらに絞り込むんだ。より少ないエントリに集中することで、このステップは識別精度の向上を提供できるんだ。

データベース適合性評価

MultiStageSearchには、使用されているデータベースの質を評価する方法も含まれてるんだ。デノボペプチド予測の結果を既存のデータベースと比較することで、プログラムはデータベースの適合性に関する潜在的な問題をフラグすることができるんだ。これにより、ユーザーは使用しているデータベースが特定のサンプルに適切かどうかを理解できるんだ。

結果と出力

プロセスの最後に、MultiStageSearchはいくつかの出力を生成するんだ。これには、特定された株に関するレポート、株間の関係、検索に使用されたデータの質が含まれるよ。

さらに、プログラムは結果を視覚的に表現する、たとえばプロットやチャートを生成して、特定されたタンパク質の類似点や相違点を表示するんだ。これにより、研究者は自分の発見を解釈しやすく、コミュニケーションもしやすくなるよ。

パフォーマンスのベンチマーク

MultiStageSearchの効果を検証するために、さまざまなウイルスサンプルを使って他の既存ツールと比較してテストされたんだ。結果は、MultiStageSearchが非常に高い精度で正しい株を特定できることを示しているよ。このプログラムは、現在利用可能なデータベースにうまく表現されていない株に特に優れた成果を上げているんだ。これで、データベースのバイアスを克服する利点があることが強調されたんだ。

場合によっては、MultiStageSearchが他のツールが特定できなかった株を特定できたこともあるんだ。これは、より広範囲のゲノム情報にアクセスできる能力によるものだよ。これは特に重要で、感染症の発生時にウイルスの多様性をよりよく理解できるからね。

課題と今後の方向性

MultiStageSearchは期待が持てるけど、いくつかの課題も残っているんだ。たとえば、非常に似た遺伝子配列を持つ株を特定するのは難しいことがあるよ。これは、鶏気管支炎ウイルスやいくつかのアデノウイルス株のようなサンプルで明らかだったんだ。プログラムは密接に関連している株を区別するのに苦労してたんだ。

さらに、現在の実装はウイルスサンプルでしかテストされていないんだ。研究者たちは、バイ菌サンプルにもMultiStageSearchを適用できる可能性を評価しているけど、長いゲノムや利用可能な株の数が多いために異なる課題があるかもしれないんだ。

今後の改善も計画されていて、特定のウイルス、たとえばSARS-CoV-2のための特別なモードの開発が含まれているよ。これは、迅速に進化するウイルスに関する情報が増えていく中で、重要な研究の方向性なんだ。

結論

MultiStageSearchは、先進的なプロテオミクスとゲノミクスを組み合わせてウイルス株を特定するための革新的なアプローチを示しているんだ。多段階ワークフローを採用することで、より広いデータを効果的に活用し、公衆衛生研究においてより正確な成果を導く可能性があるんだ。病原体の状況が進化する中で、MultiStageSearchのようなツールは、精確な識別方法の必要性に対応するために不可欠なんだ。引き続きこのツールの開発と洗練が行われることで、現在の課題に対処し、さまざまな病原体の株レベルの識別精度を向上させることができるよ。

オリジナルソース

タイトル: MultiStageSearch: a multi-step proteogenomic workflow for taxonomic identification of viral proteome samples adressing database bias

概要: The recent years, with the global SARS-Cov-2 pandemic, have shown the importance of strain level identification of viral pathogens. While the gold-standard approach for unkown viral sample identification remains genomics, studies have shown the necessity and advantages of orthogonal experimental approaches such as proteomics, based on proteomic database search methods. The databases required as references for both proteins and genome sequences are known to be biased towards certain taxa, such as pathogenic strains or species, or common model organisms. Aditionally, the proteomic databases are not as comprehensive as the genomic databases. We present MultiStageSearch, an iterative database search approach for the taxonomic identification of viral samples combining proteomic and genomic databases. The potentially present species and strains are inferred using a generalist proteomic reference database. MultiStageSearch then automatically creates a proteogenomic database. This database is further pre-processed byfiltering for duplicates as well as clustering of identical ORFs to address potential bias present in the genomic database. Furthermore, the workflow is independent of the strain level NCBI taxonomy, enabling the inference of strains that are not present in the NCBI taxonomy. We performed a benchmark on several viral samples to demonstrate the performance of the strain level taxonomic inference. The benchmark shows superior performance compared to state of the art methods for untargeted strain level inference using proteomic data while being independent of the NCBI taxonomy at strain level.

著者: Thilo Muth, J. Pipart, T. Holstein, L. Martens

最終更新: 2024-05-20 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.05.15.594287

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.05.15.594287.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事

公衆衛生・グローバルヘルスティーンのCOVID-19ワクチン受け入れに影響する要因

この研究は、家族、コミュニティ、政府がティーンのワクチン接種に対する考え方にどう影響するかを調べてるよ。

― 1 分で読む