インスタノボ:プロテオミクスの新時代
InstaNovoは、プロテオミクスの革新的な方法でペプチドの特定を進めてるんだ。
― 1 分で読む
目次
プロテオミクスは、大規模にタンパク質を研究することで、特にその機能や構造に注目してるんだ。最近数年で、質量分析(MS)がプロテオミクスの重要なツールになって、研究者たちが複雑な混合物の中からタンパク質を特定したり分析したりできるようになった。これによって、生物学的プロセスや病気を分子レベルで理解する扉が開かれたんだ。
ボトムアップアプローチ
プロテオミクスの一般的な方法の一つが「ボトムアッププロテオミクス」だよ。このアプローチでは、タンパク質がペプチドと呼ばれる小さな断片に分解される。それらのペプチドは、質量分析からのパターンを既知のペプチドパターンのデータベースと比較して特定される。このプロセスでは、データを分析するために特別なソフトウェアを使うんだけど、それが複雑で計算負荷が高いこともあるんだ。
データベースの重要性
この方法の重要な部分がデータベースの使用だよ。データベースには、研究者が参照として使えるタンパク質の配列が含まれている。もしペプチドがデータベース内のどの配列とも一致しなかったら、それが見落とされるかもしれない。だから、正しいデータベースを選ぶことがすごく重要なんだ。質の悪いデータベースを使うと、特定のタンパク質やそのバリエーション、異なる生物からのタンパク質を見逃すことにつながるんだよ。
データベース検索の限界
データベースを使うのは効果的だけど、限界もある。データベース検索では、すでにデータベースにあるタンパク質しか見つけられないから、新しいまたは修正されたタンパク質が含まれていないと、特定されないことになる。また、多くのペプチドの修正が関与している場合は、処理がかなり遅くなったり、コストがかかることもあるんだ。
デノボシーケンシングアプローチ
データベースに頼る代わりに、「デノボシーケンシング」という別の方法もある。このアプローチでは、質量分析の生データからペプチドの配列をゼロから作成することを目指してるんだ。事前の情報なしでタンパク質を特定できるから、特に新しいまたはエンジニアリングされたタンパク質を研究するのに便利なんだ。
デノボシーケンシングの課題
利点がある一方で、デノボシーケンシングも課題があるんだ。計算コストが高くなることがあるし、誤検出、つまりペプチドの誤った特定が起こることもある。最近の深層学習やニューラルネットワークの進歩が、デノボシーケンシングの精度と効率を改善する可能性を持っているんだ。
InstaNovoの紹介
この文脈で、InstaNovoという新しいモデルが開発された。これは、質量分析データからペプチドを予測する点で、既存のツールよりも優れた性能を発揮するんだ。トランスフォーマーと呼ばれるタイプのニューラルネットワークを使用していて、特に配列を処理するのが得意なんだ。
InstaNovoの動作
InstaNovoは、質量分析データを処理してデータのエンコーディングを作り、それを複数の層で分析するんだ。このモデルは、大規模で多様なデータセットでトレーニングされていて、さまざまなペプチドを効果的に認識して予測できるようになってる。トレーニングでは、質量分析データを使える情報に分解して、既知のデータに対して予測を確認することが含まれているんだ。
InstaNovoの新機能
InstaNovoは、InstaNovo+という革新的な機能も取り入れてる。このモデルは、InstaNovoの予測を基にさらに洗練させるもので、最初の作品を人が見直して改善するような感じなんだ。このステップでは、最初の予測での間違いを修正して、さらに良い結果につながるんだよ。
トレーニングデータセット
InstaNovoを開発するために、ProteomeToolsという大規模なデータセットが使われた。このデータセットには、数十万の合成ペプチドが含まれていて、幅広いヒトタンパク質をカバーしているんだ。トレーニングプロセスでは、モデルが効果的に学習できるように、データを慎重に選んで準備することが含まれるよ。
モデルのテスト方法
InstaNovoは、PointNovoやCasanovoなど他の先進的なモデルと比較されたんだ。性能を評価するために、さまざまなベンチマークを使ってテストが実施された。結果は、InstaNovoがより良いペプチド特定を提供し、複数のデータセットで全体的に改善された結果を示したんだ。
InstaNovoの応用
InstaNovoは、さまざまなタイプの生物学的サンプルでの性能を評価されて、実世界のシナリオでどれだけうまく機能するかが見られたんだ。これには、HeLa細胞のプロテオームに関する研究が含まれていて、従来のデータベース検索方法では見つからなかった多くのペプチドを特定できたんだ。このモデルは、ヘビの毒や他のエンジニアリングされたバイオ分子からのタンパク質の特定など、もっと複雑な状況でもテストされているんだ。
複雑な生物学的サンプルのターゲット
一つの面白い応用は、患者の創傷液の分析だった。この分析は、これらの複雑なサンプルの中から病原体を検出することを目的としていて、従来の方法では難しいことがあるんだ。InstaNovoは、さまざまな生物からの配列を特定できる能力を示して、その多様性を際立たせたんだ。
エンジニアリングされたバイオ分子のシーケンシング
InstaNovoは、エンジニアリングされたタンパク質にも適用された。ナノボディと呼ばれる抗体の一種を分析することで、高いタンパク質のカバレッジを達成し、多くのユニークなペプチドを特定できたんだ。これは、バイオセラピューティクスの開発における潜在的な利用を示しているよ。
結果の要約
さまざまなテストやデータセットを通じて、InstaNovoは既存の方法よりも大幅な改善を示したんだ。ユニークなペプチドをより多く特定できて、複雑な生物学的システムの理解が深まったんだ。
今後の研究への影響
InstaNovoの成功は、プロテオミクスのさらなる探求が計算モデルの発展を通じて達成できることを示唆してる。事前のデータベースの知識なしでペプチド配列を正確に予測できる能力は、病気のモニタリングや薬の開発など、多くの分野での研究の新しい道を開くんだ。
結論
InstaNovoとその反復的な対応モデルInstaNovo+は、プロテオミクスの分野における重要な進展を示しているよ。複雑な生物学的データを分析する能力は、深層学習のような先進技術を科学研究に統合する重要性を際立たせている。分野が進化するにつれて、タンパク質やその健康と病気における役割について、もっと多くを見つけられると期待できるね。
今後の方向性
今後の研究は、特定のタイプのタンパク質や修正に向けてこれらのモデルを微調整することに焦点を当てることができるよ。これらのツールを他の分野に適用する可能性が大きく、新しい発見につながるかもしれないんだ、例えばマイクロバイオームの研究や単一細胞プロテオミクスなどね。また、さまざまな分析手法を組み合わせたハイブリッドアプローチが、プロテオミクス研究の精度や効率をさらに向上させるかもしれない。
記事の結論
要するに、特にInstaNovoのような革新的なモデルを通じたタンパク質研究の進展は、複雑な生物学的システムの理解に大きな可能性を秘めているんだ。ペプチドを正確に予測できる能力は、科学者たちが研究にアプローチする方法を変革し、新しい治療法や深い生物学的洞察の道を開くんだよ。
タイトル: De novo peptide sequencing with InstaNovo: Accurate, database-free peptide identification for large scale proteomics experiments
概要: Bottom-up mass spectrometry-based proteomics is challenged by the task of identifying the peptide that generates a tandem mass spectrum. Traditional methods that rely on known peptide sequence databases are limited and may not be applicable in certain contexts. De novo peptide sequencing, which assigns peptide sequences to the spectra without prior information, is valuable for various biological applications; yet, due to a lack of accuracy, it remains challenging to apply this approach in many situations. Here, we introduce InstaNovo, a transformer neural network with the ability to translate fragment ion peaks into the sequence of amino acids that make up the studied peptide(s). The model was trained on 28 million labelled spectra matched to 742k human peptides from the ProteomeTools project. We demonstrate that InstaNovo outperforms current state-of-the-art methods on benchmark datasets and showcase its utility in several applications. Building upon human intuition, we also introduce InstaNovo+, a multinomial diffusion model that further improves performance by iterative refinement of predicted sequences. Using these models, we could de novo sequence antibody-based therapeutics with unprecedented coverage, discover novel peptides, and detect unreported organisms in different datasets, thereby expanding the scope and detection rate of proteomics searches. Finally, we could experimentally validate tryptic and non-tryptic peptides with targeted proteomics, demonstrating the fidelity of our predictions. Our models unlock a plethora of opportunities across different scientific domains, such as direct protein sequencing, immunopeptidomics, and exploration of the dark proteome. O_FIG O_LINKSMALLFIG WIDTH=200 HEIGHT=130 SRC="FIGDIR/small/555055v3_ufig1.gif" ALT="Figure 1"> View larger version (38K): [email protected]@1679c01org.highwire.dtl.DTLVardef@1332940org.highwire.dtl.DTLVardef@1d9339f_HPS_FORMAT_FIGEXP M_FIG C_FIG
著者: Timothy Patrick Jenkins, K. Eloff, K. Kalogeropoulos, O. Morell, A. Mabona, J. Berg Jespersen, W. Williams, S. P. B. van Beljouw, M. Skwark, A. Hougaard Laustsen, S. J. J. Brouns, A. Ljungars, E. M. Schoof, J. Van Goey, U. auf dem Keller, K. Beguir, N. Lopez Carranza
最終更新: 2024-03-04 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2023.08.30.555055
ソースPDF: https://www.biorxiv.org/content/10.1101/2023.08.30.555055.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。