カサノヴァ:ペプチドシーケンシングの新時代
Casanovoは質量分析データからペプチド配列を強化する。
― 1 分で読む
目次
質量分析法は、さまざまな生物サンプル中のタンパク質を研究するための方法だよ。これで科学者たちはタンパク質を特定して測定できるから、生き物がどう機能するか理解するのに大事なんだ。典型的な実験では、まずタンパク質をペプチドと呼ばれる小さい断片に分解するんだ。それから、このペプチドの質量や電荷を測定するために分析する。次に、さらなる断片化を行って、科学者たちがペプチドの配列を特定するためのデータを生成するんだ。
タンパク質同定の課題
このプロセスでの大きな課題は、ペプチド内のアミノ酸の正確な配列を特定することなんだ。通常は、実験データに基づいて既知のタンパク質配列のデータベースを検索してこの問題に対処する。これは、サンプルにどのタンパク質が存在する可能性が高いかをよく理解していることが前提なんだ。よく研究されているゲノムの生物からのサンプルではこの方法がうまくいくけど、汚染物質や遺伝的変異、翻訳後に修飾されたタンパク質など、予期しないペプチドがあると問題になるんだ。
免疫系が提示するペプチドを分析する場合や、微生物群のように非常に複雑なサンプルの時には、データベースを作成するのが実用的ではないか、さらには不可能なこともある。だから、研究者たちは質量分析法から生成されたデータを直接用いてペプチドの配列を特定できる必要があるんだ。
ペプチド配列決定の初期アプローチ
昔は、科学者たちはヒューリスティック検索や動的プログラミングなどのさまざまな方法を使ってデータに基づいた配列を提案していたんだ。こうした方法には、PepNovoのようなアルゴリズムや統計モデルに基づくものが含まれる。ただ、そういうのは高解像度データや複雑な処理ステップで苦労することが多かったんだ。
Casanovaの紹介
Casanovaは、質量分析法データからペプチド配列を直接改善するために設計された新しいシステムなんだ。このシステムは、ペプチド配列決定のタスクをある言語から別の言語へ翻訳するのに似ているんだ。複雑な処理ステップを扱う代わりに、Casanovaはトランスフォーマーというモダンな深層学習アーキテクチャを使う。この設計によって、質量分析法データから詳細な情報を取り入れて、より効果的に予測されたペプチド配列を出力できるようになるんだ。
Casanovaの仕組み
Casanovaは、質量分析法データのピークをトランスフォーマーモデルを使って処理するんだ。このピークは、断片の質量対電荷比と強度を表していて、入力データとしてエンコードされる。このデータは、トランスフォーマーによって分析され、ピーク間の関係を学習するんだ。モデルは、このコンテキスト情報を使ってペプチド配列をデコードする。
デコードプロセスの間、システムは、前に予測したアミノ酸やスペクトルデータの情報に基づいて次のアミノ酸を予測する。ビームサーチという戦略を使って、複数の潜在的な配列を追跡し、スコアに基づいて最良のものを選ぶんだ。
他の方法との性能比較
Casanovaは他のペプチド配列決定アルゴリズムと比較されてテストされたんだ。さまざまなベンチマークで、ペプチドの正しい同定率が高く、優れた性能を示しているんだ。このシステムは、高品質データを含む大規模なデータセットでトレーニングされていて、正確な予測を生成する能力が向上している。
より大きく多様なトレーニングデータベースを使用することで、Casanovaは幅広いペプチド配列を扱えるようになり、全体的な性能が向上するんだ。このシステムは、従来のデータベース検索方法では見逃されがちなペプチドに関する予測を得意としているんだ。
Casanovaの応用
Casanovaは、従来のプロテオミクスに限らず、いろんな分野に応用できるんだ。一つの重要な応用は、免疫ペプチドオミクスで、これは免疫応答で重要な役割を果たすタンパク質が提示するペプチド断片を研究することなんだ。標準的なプロテオミクスとは違って、これらのペプチドは予測可能なパターンを持っていないから、その分析は難しいんだ。
Casanovoを微調整して非トリプシックペプチドに特化させることで、研究者たちは病気、特に癌における免疫応答を理解するのに重要な免疫ペプチドをより良く特定できるようになるんだ。
Casanovaは、環境や微生物群サンプルのような複雑な混合物からタンパク質を研究するメタプロテオミクスにも価値があるんだ。こうした場合、未知の生物からのタンパク質を特定することが重要で、Casanovaは従来の方法では見逃される可能性のあるギャップを埋める助けになるんだ。
未認識ペプチドに光を当てる
Casanovaを使う大きな利点の一つは、データベースの既知の配列と一致しないペプチドを特定する能力なんだ。この能力は、プロテオミクスの「ダークマター」と呼ばれる、標準的な方法であまり認識されないスペクトルを研究する際に特に重要なんだ。
Casanovaは、これらの未同定スペクトルに配列を割り当てるのに期待されていて、通常のデータベースには見つからない新しいペプチド配列や遺伝的変異を明らかにする可能性があるんだ。このダークプロテオームに取り組むことで、研究者たちはこれまで隠れていた生物学的情報を発見できるんだ。
抗体研究のためのペプチド配列決定
抗体の配列決定は、Casanovaが大いに可能性を示すもう一つの分野なんだ。抗体は免疫系で重要な役割を果たすタンパク質で、その配列を理解することでより良い治療戦略を設計できるんだ。Casanovaの正確なペプチド配列決定能力は、抗体構造を詳しく理解する必要がある研究に強い候補になるんだ。
将来の方向性と改善
Casanovaはペプチド配列決定における大きな進歩を示しているけど、改善の余地はまだあるんだ。モデルは特定の実験条件にさらに合わせられるし、研究者たちは異なるタイプの実験に関連するさまざまなデータセットでトレーニングしてその性能を最適化しようとしているんだ。
さらに、Casanovaが行う予測の信頼性を評価するためのより良い方法の確立に向けた作業も進行中で、研究者たちが得た結果を信頼できるようにすることを目指しているんだ。
結論
Casanovaは、革新的な新しいペプチド配列決定ツールとして際立っていて、従来の方法に比べて大きな改善を提供しているんだ。複雑な生物学的サンプルを分析して新しいペプチドを明らかにする能力は、さまざまな生物学的プロセスの理解を進める助けになるんだ。プロテオミクス、免疫ペプチドオミクス、メタプロテオミクスにおいて、Casanovaは科学者たちが生き物のタンパク質とその機能を研究する方法を変える可能性を持っているんだ。
タイトル: Sequence-to-sequence translation from mass spectra to peptides with a transformer model
概要: A fundamental challenge for any mass spectrometry-based proteomics experiment is the identification of the peptide that generated each acquired tandem mass spectrum. Although approaches that leverage known peptide sequence databases are widely used and effective for well-characterized model organisms, such methods cannot detect unexpected peptides and can be impractical or impossible to apply in some settings. Thus, the ability to assign peptide sequences to the acquired tandem mass spectra without prior information--de novo peptide sequencing--is valuable for gaining biological insights for tasks including antibody sequencing, immunopeptidomics, and metaproteomics. Although many methods have been developed to address this de novo sequencing problem, it remains an outstanding challenge, in part due to the difficulty of modeling the irregular data structure of tandem mass spectra. Here, we describe Casanovo, a machine learning model that uses a transformer neural network architecture to translate the sequence of peaks in a tandem mass spectrum into the sequence of amino acids that comprise the generating peptide. We train a Casanovo model from 30 million labeled spectra and demonstrate that the model outperforms several state-of-the-art methods on a cross-species benchmark dataset. We also develop a version of Casanovo that is fine-tuned for non-enzymatic peptides. Finally, we demonstrate that Casanovos superior performance improves the analysis of immunopeptidomics and metaproteomics experiments and allows us to delve deeper into the dark proteome.
著者: William Stafford Noble, M. Yilmaz, W. E. Fondrie, W. Bittremieux, C. Melendez, R. Nelson, V. Ananth, S. Oh
最終更新: 2024-04-23 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2023.01.03.522621
ソースPDF: https://www.biorxiv.org/content/10.1101/2023.01.03.522621.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。
参照リンク
- https://doi.org/10.1038/s41586-020-2649-2
- https://jmlr.csail.mit.edu/papers/v12/pedregosa11a.html
- https://doi.org/10.21105/joss.03021
- https://github.com/Noble-Lab/casanovo
- https://doi.org/doi:10.25345/C52V2CK8J
- https://github.com/nh2tran/DeepNovo/tree/PNAS
- https://zenodo.org/records/3960823
- https://github.com/compomics/searchgui/tree/master/resources/Novor
- https://doi.org/doi:10.25345/C5KS6JG0W
- https://noble.gs.washington.edu/proj/metapeptide
- https://doi.org/doi:10.25345/C5SB3X91X
- https://www.proteomicsdb.org/prosit/