Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

FAPM: タンパク質の機能を予測する新しいアプローチ

FAPMは、マルチモーダルモデルとディープラーニングを使ってタンパク質機能の予測を改善するんだ。

― 1 分で読む


FAPMがタンパク質機能予FAPMがタンパク質機能予測を進化させた幅に向上したよ。新しい方法でタンパク質の機能予測精度が大
目次

タンパク質はすべての生物にとって重要だよ。細胞や組織の構成要素で、多くの生命維持プロセスに関与してる。タンパク質がどう働くかを知ることは、生物システムの仕組みを理解して病気を治す方法を見つけるのに重要なんだ。

タンパク質シーケンスの取得

自然からタンパク質のシーケンスを得るのは、通常簡単な作業だよ。最近の技術の進歩、特にコンピュータサイエンスのおかげで、タンパク質の三次元構造を予測するのがずっと楽になった。ただ、現在、世界のデータベースで詳細な機能情報があるタンパク質は1%未満なんだ。ほとんどのタンパク質はまだ正確にその機能を理解するための研究が必要で、それは費用がかかり複雑なこともある。また、タンパク質は大きく異なっていて複雑に相互作用するから、実験的検証がさらに難しいんだ。

タンパク質の機能を説明する

タンパク質が何をするかを説明するために、科学者たちは「遺伝子オントロジー(GO)」というシステムを使ってる。このシステムは生物学の機能を分類する最も効果的な方法の一つだよ。GOには主に3つの部分がある:

  1. 分子機能(MFO): 各タンパク質が何をするか。
  2. 生物学的プロセス(BPO): タンパク質が関与するプロセス。
  3. 細胞コンポーネント(CCO): タンパク質が細胞のどこで活動しているか。

GOは異なる生物間でタンパク質の活動がどのように記録されるかを標準化するのを助ける。このGOシステムの情報は科学的研究から得られ、確認された後にUniProtKB/Swiss-Protのようなデータベースにまとめられて、情報がアクセスしやすく均一になるんだ。

タンパク質機能の予測方法

これまでの年月で、タンパク質のシーケンスに基づいて機能を予測するためのさまざまな方法が開発されてきた。一番初めのツールの一つはBLASTって呼ばれてて、科学者が未知のタンパク質シーケンスを既知のシーケンスのデータベースと比較して類似点を見つけることができる。これは、共通の祖先を持つタンパク質はしばしば似た機能を持つって考えに基づいてるんだ。

他のアプローチでは、特定のタンパク質の部分、ドメインやモチーフをカタログ化して、既知のシーケンスに基づいて機能を予測してる。これらの方法はInterProなどのデータベースに大きく貢献してきたけど、まだ主に類似したシーケンスを見つけることに頼ってるから、多くのタンパク質には機能情報がないままなんだ。

ディープラーニングを使ったタンパク質予測

最近の研究では、タンパク質機能を予測するために複数のデータタイプを同時に分析できるディープラーニングモデルが導入されてる。これらのモデルは、シーケンスデータ、相互作用、ドメインの注釈など、さまざまな情報源を使う。注目すべきモデルにはDeepGOPlus、DeepGOZero、DeepGraphGOがある。これらのモデルは、既存のデータベースからの特徴を活用して分類モデルをトレーニングしてる。

トランスフォーマーは、人工知能の多くの分野で大きな成功を収めていて、タンパク質モデリングにも使われてる。たとえば、ProteinBertってモデルは、タンパク質シーケンスとセマンティックな特徴を組み合わせて、機能予測を改善してるんだ。

私たちのアプローチ:FAPM

この研究では、新しい方法「FAPM(マルチモーダルモデルを使ったタンパク質の機能注釈)」を提案するよ。私たちのアプローチは、タンパク質のシーケンスとその機能的説明を組み合わせて、タンパク質の機能をより良く予測するものだ。タンパク質のシーケンスと機能的なテキストを、コントラスト学習という方法で合わせられる二つの異なる情報として扱ってる。

FAPMは、事前訓練されたタンパク質シーケンスモデルと大規模言語モデルを使って、タンパク質の機能的な説明を作成する。これらの二つのモデルを組み合わせることで、タンパク質に対してより良い注釈を生成できる。

FAPMの利点

  1. マルチモーダルモデリング: タンパク質シーケンスモデリングと言語生成を統合することで、より分かりやすい正確な注釈が生成できる。
  2. パフォーマンス: 評価では、FAPMが既存の方法よりもタンパク質の機能予測で優れてることが示されてる。
  3. オプション情報の利用: タクソノミーなどの追加情報を使って生成される説明の質を向上させられるから、モデルがより柔軟になる。

FAPMの仕組み

FAPMには二つの主要な学習ステージがある。まず、タンパク質シーケンスとその機能的テキストを表現することを学ぶ。次に、学んだ情報に基づいて機能的な説明を生成する。

表現学習

最初のステージでは、モデルがタンパク質シーケンスを処理して詳細な表現を作成する。ESM2というモデルを使って、シーケンスの各アミノ酸に対して埋め込みを生成するんだ。これらの埋め込みは、学んだクエリ埋め込みと相互作用して、タンパク質の特徴を機能的テキストと合わせる。

生成学習

第二のステージでは、言語モデルが前のステップで学んだ特徴に基づいてGO用語のような機能ラベルを生成する。このモデルは学んだクエリや任意のプロンプトを処理して、高品質な予測を出す。

トレーニングデータ

FAPMのトレーニングデータはさまざまなソースから来てる。スイスプロットのタンパク質シーケンスと注釈が含まれる大規模なデータセットを使ったんだ。このデータは、高品質で実験的に検証されたエントリーだけが含まれるように注意深くキュレーションされてる。また、InterProからのドメインデータが予測パフォーマンスをさらに向上させるのに役立ってる。

予測の改善

モデルを向上させるために、さまざまなデータでトレーニングして、複雑な機能を持つタンパク質の予測がうまくできるように学ばせた。機能ラベルを生成するモデルの能力は、共同トレーニングの目的を通じて改善されて、以前の方法よりも効果的になってる。

FAPMのパフォーマンス

FAPMは、さまざまなテストで素晴らしい結果を示してる。評価中、常に他の既存のモデルを上回ってる。近いホモログがないタンパク質に対しても、より良い注釈を提供してる。モデルはインタラクティブなプロンプトも可能にして、さらに予測の精度を向上させることができるんだ。

バイテリオファージタンパク質の評価

FAPMの興味深い応用の一つは、バイテリオファージのタンパク質の機能を予測することだよ。これは、細菌を感染させるウイルスのことなんだけど、この分野は特に難しい。多くのタンパク質には近いホモログがないから。テストでは、FAPMはこの分析が難しいタンパク質の機能を予測するのに優れたパフォーマンスを示してる。

結論

FAPMは、タンパク質機能の予測において重要な進展を意味してる。シーケンス情報と言語モデルを組み合わせることで、予測プロセスを簡素化するだけでなく、機能的注釈の精度も向上させてる。

  • 主な特徴:
    • 入力にはタンパク質シーケンスだけが必要で、使いやすい。
    • モデルは他の方法と比べて非常に優れていて、特に希少なタンパク質の機能予測に強い。
    • インタラクティブなプロンプトを使うことで、より詳細な予測が可能になる。

FAPMはさらなる発展によって適応し改善する可能性があって、生物学の研究やタンパク質科学の分野にとってワクワクするツールなんだ。全体的に、FAPMは将来的な作業にかなりの期待が持てるし、タンパク質の修飾や相互作用に関する豊かな予測につながる可能性があるよ。

オリジナルソース

タイトル: FAPM: Functional Annotation of Proteins using Multi-Modal Models Beyond Structural Modeling

概要: Assigning accurate property labels to proteins, like functional terms and catalytic activity, is challenging, especially for proteins without homologs and "tail labels" with few known examples. Unlike previous methods that mainly focused on protein sequence features, we use a pretrained large natural language model to understand the semantic meaning of protein labels. Specifically, we introduce FAPM, a contrastive multi-modal model that links natural language with protein sequence language. This model combines a pretrained protein sequence model with a pretrained large language model to generate labels, such as Gene Ontology (GO) functional terms and catalytic activity predictions, in natural language. Our results show that FAPM excels in understanding protein properties, outperforming models based solely on protein sequences or structures. It achieves state-of-the-art performance on public benchmarks and in-house experimentally annotated phage proteins, which often have few known homologs. Additionally, FAPMs flexibility allows it to incorporate extra text prompts, like taxonomy information, enhancing both its predictive performance and explainability. This novel approach offers a promising alternative to current methods that rely on multiple sequence alignment for protein annotation. The online demo is at: https://huggingface.co/spaces/wenkai/FAPM_demo.

著者: Qian Shi, W. Xiang, Z. Xiong, C. Huan, J. Xiong, W. Zhang, Z. Fu, M. Zheng, B. Liu

最終更新: 2024-07-03 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.05.07.593067

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.05.07.593067.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事

ソフトウェア工学ソフトウェアのパフォーマンス予測のためのディープラーニング

ソフトウェアのパフォーマンス設定を予測する上での深層学習の役割についてのレビュー。

― 1 分で読む