Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

カスケイディア:DIAデータからペプチド配列解析を進める

新しいモデルが質量分析データを使ってタンパク質の分析を強化する。

― 1 分で読む


カスケイディアがペプチド分カスケイディアがペプチド分析を変革する向上させる。新しいモデルがペプチド配列の精度と発見を
目次

タンパク質は生物にとってめっちゃ大事な成分で、体の組織や器官の構造、機能、調整に関与してるんだ。タンパク質を理解するには、その構造と機能を研究する必要があって、質量分析法っていう重要な方法があるんだ。質量分析法を使うと、科学者はタンパク質の組成を分析したり、ペプチドと呼ばれる小さな断片に分解したりして、その配列を調べることができるんだ。

質量分析法でタンパク質を分析する際の一つの課題は、実験中に得られたデータからペプチドのアミノ酸の順番を特定することなんだ。この作業は「デ・ノボ配列決定」って言って、ペプチドが何か事前に知らなくてもそのアミノ酸配列を決めることを意味するんだ。これは特に現代の質量分析技術の大規模なデータセットを扱うとき、めっちゃ複雑だよ。

質量分析技術

伝統的には、タンパク質分析のためにデータ依存取得(DDA)っていう方法が使われてた。これだと質量分析計は一度に一つのペプチドのデータを集めるんだ。ペプチドを検出するたびに、そのペプチドの質量プロファイルを視覚的に表現した断片化スペクトルを生成するんだ。科学者はこのスペクトルを特定のペプチド配列に直接関連付けることができるから、比較的簡単に配列を特定できるんだ。

でも、最近「データ独立取得(DIA)」っていう新しいアプローチが出てきた。DIAでは、多くのペプチドのデータを同時に集めるから、それぞれの信号が混ざっちゃうんだ。これにより、データがもっと複雑になって、単一のペプチドに関する情報が複数のスペクトルに散らばっちゃうから、ペプチドの配列を特定するのがすごく難しくなるんだ。

タンパク質配列決定のためのツール

デ・ノボ配列決定の課題に対処するために、いくつかのツールが開発されてるんだ。特にDIAデータの文脈で。これらの中には、特にトランスフォーマーって呼ばれる機械学習モデルを利用したものがあって、シーケンスデータの処理に適してるんだ。このモデルは質量スペクトルの表現をアミノ酸の配列に翻訳する問題として扱ってるんだ。

一般的な方法は、DIAデータからDDAで生成されたスペクトルに似た疑似スペクトルを作成することなんだけど、この方法には限界があるんだ。すべてのペプチドがDDAでクリアな信号を出すわけじゃなくて、多くの低濃度ペプチドが見逃される可能性があるんだ。それに、DIAスペクトルの見た目はDDAが生成するものとは大きく異なるから、DDAデータで訓練された既存のモデルがDIAデータセットではうまく機能しないことが多いんだ。

別の方法は、DIAデータで動作するように設計された特定の深層学習モデル、DeepNovo-DIAを使うこと。これは異なるスペクトルとアミノ酸の配列の関係をキャッチするようなデータ処理のためのいろんなコンポーネントを含んでるんだ。

Cascadiaの紹介: ペプチド配列決定の新しいモデル

Cascadiaっていう新しいモデルが、既存の方法の限界に対処するために開発されたんだ。CascadiaはDIAデータからのデ・ノボ配列決定を改善することを目指してて、「拡張スペクトル」って呼ばれる小さなデータユニットを系統的に抽出するんだ。この拡張スペクトルは隣接するスペクトルの情報を取り込んで、特定のペプチドに関連する信号の全体像を提供するんだ。

Cascadiaはトランスフォーマーベースのアーキテクチャを使って、拡張スペクトルを処理してペプチド配列を効果的に予測することができるんだ。このモデルは大量の注釈付きDIAデータを使って訓練されてて、結果は既存の方法をかなり上回ってることを示してるんだ。

Cascadiaのワークフロー

Cascadiaはまず、観測されたスペクトルを集めて、そのスペクトルの各ピークの潜在的表現を作成するところから始まるんだ。トランスフォーマーデコーダーレイヤーはこの表現を使ってペプチドのアミノ酸配列を予測するんだ。モデルは主に2つの課題を克服しなきゃいけない:

  1. DIA実験では、単一のペプチドの信号がいくつかのスペクトルに広がってる。これを解決するために、Cascadiaは時間的に近い複数のスペクトルを使って、できるだけ関連する情報を集めるんだ。

  2. ペプチド配列を予測するための既知の前駆体質量が存在しない。代わりにCascadiaは、利用可能なすべてのスペクトルからデータをキャッチして、集団的に処理するんだ。この柔軟性により、既存の前駆体信号に頼らずにペプチド情報を抽出できるんだ。

実際には、Cascadiaは生のMS/MS信号を直接使うことができて、初期のフィーチャー抽出ステップに依存しないんだ。これは大きな進展で、モデルが入力データのすべての関連フィーチャーを調べることを可能にするんだ。

Cascadiaの性能評価

Cascadiaの性能を測るために、研究者はモデルが特定できる独特なペプチド配列の数を評価して、リファレンスデータベースに一致させるんだ。このプロセスは、通常の方法とは異なってて、検索エンジンが特定できるスペクトルに依存することが多いんだ。ペプチドレベルのアプローチを使用することで評価は、質量分析ランで検出された実際のペプチド数を反映するんだ。

Cascadiaは既存の方法よりも多くのペプチドを発見できることが示されてて、さまざまなデータセットで強力なパフォーマンスを示してるんだ。例えば、高精度の閾値で、CascadiaはDeepNovo-DIAが苦戦する多くの独特なペプチドを正確に予測できるんだ。この改善は、従来の方法では強い信号を出さないかもしれない低濃度ペプチドにとって特に注目に値するんだ。

Cascadiaのコーディング変異発見への応用

Cascadiaの能力は単にペプチドを特定することにとどまらず、コーディング変異の発見にも使われてるんだ。コーディング変異っていうのは、タンパク質のアミノ酸配列における変化で、病気や生物学的機能に重要な影響を与えることがあるんだ。

人間の皮膚サンプルからのDIAデータを使った実験で、Cascadiaは他のシーケンシング方法で確認された変異を特定できたんだ。この証拠は、Cascadiaモデルが正確なペプチド予測を提供する信頼性を支持してるんだ。

新しい抗体配列の発見

Cascadiaは人間の血漿サンプルを分析して新しいペプチド、特に抗体からの発見にも適用されてるんだ。抗体は免疫応答において重要な役割を果たす高い変異性を持ったタンパク質なんだ。この分析で、既存のリファレンスデータベースに合致しない多くの潜在的な抗体配列が明らかになったんだ。つまり、Cascadiaはまだ文書化されていない新しい抗体の変異を特定するのに役立つかもしれないんだ。

これらの予測をリファレンスデータベースと比較することによって、研究者たちは予測された抗体ペプチドのかなりの部分が既知の配列とよく一致していることを確認して、Cascadiaのペプチド検出の効果をさらに検証したんだ。

結論

結論として、Cascadiaはプロテオミクスの分野、特に質量分析データの分析において大きな進展を表しているんだ。以前のモデルよりもデータを効果的に処理できるその能力により、低濃度や新しい配列を含むより広範なペプチド発見が可能になるんだ。

Cascadiaはタンパク質の構造や機能を探求するための強力なツールを研究者に提供して、新たな洞察を生物学、法医学、環境研究などさまざまな分野にもたらす可能性があるんだ。質量分析技術がさらに進化する中で、Cascadiaのような方法は生物データの複雑さの増加に対応するために重要になるだろう。

今後の開発は、特定のアプリケーションに向けてCascadiaを洗練させて、その感度をさらに向上させることや、パフォーマンスを向上させる可能性のある追加のデータ特徴を取り入れることに焦点を当てるだろう。

オリジナルソース

タイトル: A transformer model for de novo sequencing of data-independent acquisition mass spectrometry data

概要: A core computational challenge in the analysis of mass spectrometry data is the de novo sequencing problem, in which the generating amino acid sequence is inferred directly from an observed fragmentation spectrum without the use of a sequence database. Recently, deep learning models have made significant advances in de novo sequencing by learning from massive datasets of high-confidence labeled mass spectra. However, these methods are primarily designed for data-dependent acquisition (DDA) experiments. Over the past decade, the field of mass spectrometry has been moving toward using data-independent acquisition (DIA) protocols for the analysis of complex proteomic samples due to their superior specificity and reproducibility. Hence, we present a new de novo sequencing model called Cascadia, which uses a transformer architecture to handle the more complex data generated by DIA protocols. In comparisons with existing approaches for de novo sequencing of DIA data, Cascadia achieves state-of-the-art performance across a range of instruments and experimental protocols. Additionally, we demonstrate Cascadias ability to accurately discover de novo coding variants and peptides from the variable region of antibodies.

著者: William Stafford Noble, J. Sanders, B. Wen, P. Rudnick, R. Johnson, C. C. Wu, S. Oh, M. J. MacCoss

最終更新: 2024-06-04 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.06.03.597251

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.06.03.597251.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事