新しい方法TransFewが希少なタンパク質の機能を予測する
TransFewは、高度なモデリング技術を使って珍しいタンパク質の機能予測を向上させる。
― 1 分で読む
タンパク質は生命にとってめっちゃ重要なんだ。細胞の構成要素で、体の中でいろんな大事な役割を果たしてる。化学反応を早めたり、細胞に構造を提供したり、細胞間でメッセージを送ったり、病気から守ったり、遺伝子の働きを管理したりもするんだ。各タンパク質の役割を知ることは、生物がどんなふうに機能してるかを理解するのに欠かせない。ただ、そのタンパク質の役割を特定するのには、かなりの時間と努力がかかるんだって。研究によると、知られているタンパク質のうち、機能を調べるために実験室でテストされたのは1%未満なんだ。
この課題を受けて、科学者たちはタンパク質の配列や関連情報に基づいて、タンパク質が何をするのかをよりスマートに推測する方法を探してる。つまり、データをすばやく分析して予測を提供できるコンピュータモデルを使うってこと。
タンパク質の機能を予測する際の課題
タンパク質が何をするかを予測する時に直面する主な問題が二つある。まず、科学者たちはタンパク質の配列や、タンパク質同士の相互作用、形、そして生物学的文献にある説明など、いろんなタイプの情報を組み合わせる必要がある。このデータを一緒に使って、タンパク質の機能について正確な予測をする必要があるんだ。
二つ目の問題は、特定のタンパク質の機能があまり一般的でないこと。これらの珍しい機能は、科学者たちが扱うデータセットの中にあまり例がないことが多い。だから、こういう珍しい機能を予測するのは、一般的な機能を予測するよりも難しいんだ。珍しい機能はタンパク質について非常に詳細で役立つ情報を提供してくれるから、予測することが大事なんだ。研究で使われる機能ラベル、いわゆる遺伝子オントロジー(GO)用語の多くは珍しいもので、半分近くのGO用語は100未満のタンパク質にしかリンクされてない。
珍しい機能を予測する重要性
珍しい機能を予測するのは、画像認識や言語処理などの分野で見られる課題に似てる。例えば、言語処理で新しいタイプのエンティティを正しく名付けるのは、あまり例がないと難しいことがある。科学者たちが考案した方法には、埋め込みベースの方法や生成的な方法がある。
埋め込みベースの方法は、よく研究されたクラスからの低レベルの特徴をマッピングして、あまり知られていないカテゴリの機能を予測するのに役立つ。生成的な方法は、よく研究されたクラスからのサンプルを使って、あまり知られていないカテゴリの新しい特徴を作り出す。両方の方法は、特に例が少ないタンパク質の機能を予測するのに役立つんだ。
TransFewの紹介
この文脈の中で、珍しい機能に重点を置いてタンパク質の機能を予測するための新しい方法、TransFewが開発された。TransFewは、大規模な事前学習されたタンパク質言語モデルを使って、タンパク質の配列の詳細な表現を作り出す。このモデルは、そのタンパク質の関連機能を理解するのに役立つ特徴を生成するんだ。さらに、TransFewは、出現頻度に基づいてGO用語のグループの機能を予測するために学習する複数の処理層を利用してる。これにより、珍しいGO用語と一般的なGO用語の両方に平等に注意を払うことができる。
TransFewは、GO用語の意味ある表現を作成するために、それらのテキスト定義や階層関係を使ってる。これによって、よく知られたカテゴリからあまり知られていないものへ知識を移転できる。タンパク質の配列表現とGO用語のラベル表現を組み合わせることで、TransFewはタンパク質が持つかもしれない機能をより正確に予測できる。
TransFewの仕組み
TransFewは主に三つの部分から成り立ってる:
クエリプロセッサ: ここでは、タンパク質の配列表現を生成することに焦点を当ててる。タンパク質の配列特徴を使って、機能に関する結論を引き出すモデルを形成するんだ。GO用語はデータに出現する頻度に基づいてグループ分けされる。だから、各グループは別々に研究できる。
ラベルプロセッサ: この部分では、関わるすべてのGO用語の表現を作成する。各GO用語の定義と他のGO用語との関係を考慮してる。これは、グラフオートエンコーダーという方法を使って、用語間の接続を捉えるネットワークを形成し、予測の改善に役立てる。
共同特徴-ラベル埋め込みネットワーク: このネットワークは、タンパク質とGO用語の表現を使ってタンパク質の機能を決定する。クロスアテンションって呼ばれる技術を使って、予測時に関連する特徴に焦点を合わせることができる。
この三つのコンポーネントを統合することで、TransFewは特に珍しくてあまり研究されていないタンパク質の機能を予測する能力が高くなってる。
データ収集と方法のテスト
TransFewを訓練して検証するために、広く使われているリソースからタンパク質データを集めた。そのデータには、いろんな機能カテゴリからのタンパク質が含まれてた。確認済みの機能を持つタンパク質がモデルの訓練に使われ、新しいタンパク質はテスト用に取っておかれた。
TransFewをテストする際に、他の三つの方法と比較して、タンパク質の機能をどれだけうまく予測できるかを確認した。これらの他の方法は、異なる特徴とアプローチの組み合わせを使ってた。
結果は、TransFewが異なるカテゴリのGO用語を予測する際に、これらの基準方法を上回ったことを示してる。特に、珍しい機能の予測において優れたパフォーマンスを示し、予測の精度と信頼性が向上した。
TransFewのパフォーマンス
TransFewが珍しいGO用語を予測する際のパフォーマンスを分析した結果、常に競合他社を上回ってた。AUPRスコアでも特によく、モデルがポジティブな例をネガティブなものよりも高くランク付けする能力を測る指標なんだけど、TransFewはトレーニングデータに未代表の珍しい機能をうまく特定できた。
TransFewは注釈の頻度が変わっても安定したパフォーマンスを維持した。このロバストさにより、機能ごとの例がどれだけ存在しても、タンパク質の機能を予測するための信頼できるモデルなんだ。
結論と今後の展望
全体として、TransFewはタンパク質の機能を予測するための新しい戦略を表してて、配列情報とGO用語の意味を組み合わせてる。この方法は一般的な予測のパフォーマンスを向上させるだけでなく、珍しい機能に特別に注意を払うことで、生物学的研究に強力なツールとなってる。
今後の方向性としては、構造情報、タンパク質間の相互作用、役割について説明するテキスト記述など、追加のデータタイプを取り入れることが考えられる。より多様な情報を集めることで、TransFewの精度と効果をさらに向上させられるかもしれない。
結論として、TransFewはタンパク質機能予測のアプローチにおいて重要な一歩を示していて、より高度で精密な方法を開く道を切り開いて、生物学的発見と理解に大いに貢献できるんだ。
タイトル: Improving protein function prediction by learning and integrating representations of protein sequences and function labels
概要: MotivationAs fewer than 1% of proteins have protein function information determined experimentally, computationally predicting the function of proteins is critical for obtaining functional information for most proteins and has been a major challenge in protein bioinformatics. Despite the significant progress made in protein function prediction by the community in the last decade, the general accuracy of protein function prediction is still not high, particularly for rare function terms associated with few proteins in the protein function annotation database such as the UniProt. ResultsWe introduce TransFew, a new transformer model, to learn the representations of both protein sequences and function labels (Gene Ontology (GO) terms) to predict the function of proteins. TransFew leverages a large pre-trained protein language model (ESM2-t48) to learn function-relevant representations of proteins from raw protein sequences and uses a biological natural language model (BioBert) and a graph convolutional neural network-based autoencoder to generate semantic representations of GO terms from their textual definition and hierarchical relationships, which are combined together to predict protein function via the cross-attention. Integrating the protein sequence and label representations not only enhances overall function prediction accuracy over the existing methods, but substantially improves the accuracy of predicting rare function terms with limited annotations by facilitating annotation transfer between GO terms. Availabilityhttps://github.com/BioinfoMachineLearning/TransFew [email protected] Supplementary informationSupplementary data are available .
著者: Jianlin Cheng, F. Boadu
最終更新: 2024-03-14 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.03.11.584495
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.03.11.584495.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。