タンパク質-タンパク質相互作用研究の新しい方法
革新的な技術は、さまざまな種のPPI研究のギャップを埋めることを目指してるよ。
― 1 分で読む
目次
タンパク質は生き物にとって欠かせない分子だよ。構造を作ることから体内で反応を助けることまで、いろんな役割を果たしてるんだ。タンパク質の機能のひとつの重要な側面は、互いに相互作用する能力。これらの相互作用は、タンパク質-タンパク質相互作用(PPI)と呼ばれ、さまざまな生物学的プロセスにとって重要なんだ。
最近の技術の進歩により、研究者たちはこれらの相互作用をより詳しく研究できるようになったよ。生物の全タンパク質セット、つまりプロテオームの相互作用を評価する大規模な研究が行われてるんだ。たとえば、研究者たちは何千もの相互作用を詳細に記載した広範な参考ネットワークをまとめていて、あるネットワークでは13,000のヒト遺伝子から約14,000の相互作用が明らかになっているし、その後の研究でこのネットワークが大幅に拡張されているんだ。
PPI研究における種間ギャップ
これらの研究努力は多くの情報を提供しているけど、特にコストと実現可能性に関して課題があるんだ。すべての生物に対してこのような大規模な研究を行うのは高くつくし、労力もかかる。それが原因で、多くの研究者は広く研究されている限られたモデル生物にしか焦点を合わせていなくて、これが「種間ギャップ」と呼ばれるものを生んでいるんだ。
2024年初頭の時点で、さまざまなデータベースに793,000種以上の異なる種が記録されているけど、そのほとんどの種にはPPIに関する詳細な実験データが不足しているんだ。これが、生物の多様性における相互作用についての理解に明確な制約をもたらしているんだ。
モデル生物に焦点を当てる理由
マウスやショウジョウバエみたいなモデル生物は、特定の望ましい特性を持っているからよく選ばれるんだ。例えば、短い寿命、小さいサイズ、豊富な研究史があるから、たくさんのデータが得られるんだよ。でも、この焦点が研究を偏らせて、他の重要な種での相互作用の発見を制限しちゃうんだ。
このギャップを示すために、研究者たちは特定の分類での30%の種しか主要なPPIデータベースに登録されていないことが分かったんだ。これからもほとんどの生物のPPIについてはほとんど知られていないってことだよ。
インシリコ手法:潜在的な解決策
インシリコ手法は、PPIを予測するためのコンピュータベースのアプローチを指していて、種間ギャップを解決するための有望な方法を提供しているんだ。従来の実験手法とは違って、結果を得るのに時間がかからず、数秒や数分で実行できるのが特徴だよ。また、人手が少なくて済むから、コストも大幅に削減できるんだ。
ただ、インシリコ手法の主要な制約は、既存のデータセットに依存していること。具体的には、彼らの予測モデルを訓練するためには、タンパク質相互作用に関する大量のデータが必要なんだ。残念ながら、あまり研究されていない生物は、訓練のための十分なデータが不足していて、正確な予測をするのが難しいんだ。
分布外予測の課題
ほとんどのインシリコモデルは、同じ種やデータセット内での相互作用を予測するのはうまくいくけど、異なる種のタンパク質に直面すると苦労するんだ。これを「分布外」予測と呼んでいるんだ。歴史的に見ても、見慣れないタンパク質に基づいて予測を行う際には、モデルがうまく機能していなかったんだ。これは種間ギャップを埋める上での大きな障害だよ。
過去の研究では、多くの予測モデルがデータリークを避けるように適切に設計されていなかったことが指摘されたんだ。データリークは、テストデータセットの情報が訓練プロセスに意図せず影響を与えることを指しているんだ。典型的なデータセットの準備方法だと、同じタンパク質が訓練セットとテストセットに同時に現れることが多くて、それが誤解を招く高いパフォーマンス指標につながっていたんだ。
PPI予測手法の進歩
PPI予測を改善するためにいろんな戦略が開発されているんだ。最初のモデルのいくつかは、アミノ酸配列とそのパターンを分析して相互作用を推測するために配列ベースの手法を使っていたよ。たとえば、ある方法では異なる種間で共通の祖先を持つホモログタンパク質を調べていたんだ。この方法は有用だけど、既知の相互作用に依存してるから限界があるんだ。
最近の方法、特に機械学習を使ったものは、可能性を見せているよ。機械学習モデルはデータを分析してパターンを見つけ出して予測を行うんだ。特に双子ニューラルネットワークと呼ばれるモデルがPPI予測に効果を発揮しているんだ。このモデルは隣接するタンパク質配列を取得して、それを体系的に比較することで、正確な推論の可能性を高めているんだ。
新しいPPI予測手法の導入
最近の開発のひとつは、二つの異なるタイプのネットワークを一つのフレームワーク内で組み合わせた新しいアプローチだよ。この新しい手法は、特に異なる種間での予測精度を改善するために設計されているんだ。単に配列が似ているだけでなく、機能的にも関係を特定することに重点を置いているんだ。
この新しい手法の構造には、共通の祖先から進化したことが知られているオルソログすなわち、相互作用があるタンパク質間の距離を最小限に保ちながら、相互作用がない場合の距離を最大化するように特別に設計されたコンポーネントが含まれているんだ。これにより、モデルは種を超えた相互作用をよりよく認識できるようになるんだ。
新しい手法のパフォーマンス評価
この新しい手法の初期評価では、既存のモデルよりも優れていることが示されているんだ。単一の種内や異なる種間でも、モデルが効率的に相互作用を認識することを学べることを示しているよ。これは、タンパク質の特性や先行知識から得られた生物学的関係に焦点を当てているからなんだ。
実際的には、研究者たちはこのモデルを利用して、あまり研究されていない生物のPPIに関する予測を行うことができて、PPI研究における種間ギャップを減少させることができるかもしれないんだ。
研究者向けのアクセス性とツール
PPI予測の研究をさらに助けるために、いくつかのツールが開発されているんだ。そのうちの一つは、複雑なセットアップなしで予測を行うための使いやすいウェブサーバーインターフェースを提供しているよ。このサーバーでは、ユーザーがタンパク質配列を入力して最新の手法に基づいた相互作用予測を受け取ることができるんだ。
さらに、別のツールも開発されていて、研究者がモデルの訓練用のデータセットを準備するのを助けているんだ。このツールはプロセスを自動化して、使用するデータが高品質であることを保証しているよ。これは正確な予測にとって非常に重要なんだ。
結論
タンパク質-タンパク質相互作用の研究は、生物学的研究において重要な分野なんだ。技術が進むにつれて、これらの相互作用を分析し予測する能力は向上していくから、今のところの理解を制限している種間ギャップを埋める手助けになるはずだよ。新しい手法を活用して研究ツールを利用可能にすることで、科学者たちは生物界やその基盤となる相互作用について、より包括的な理解を目指せるようになるんだ。
タイトル: INTREPPPID - An Orthologue-Informed Quintuplet Network for Cross-Species Prediction of Protein-Protein Interaction
概要: An overwhelming majority of protein-protein interaction (PPI) studies are conducted in a select few model organisms largely due to constraints in time and cost of the associated "wet lab" experiments. In silico PPI inference methods are ideal tools to overcome these limitations, but often struggle with cross-species predictions. We present INTREPPPID, a method which incorporates orthology data using a new "quintuplet" neural network, which is constructed with five parallel encoders with shared parameters. INTREPPPID incorporates both a PPI classification task and an orthologous locality task. The latter learns embeddings of orthologues that have small Euclidean distances between them and large distances between embeddings of all other proteins. INTREPPPID outperforms all other leading PPI inference methods tested on both the intra-species and cross-species tasks using strict evaluation datasets. We show that INTREPPPIDs orthologous locality loss increases performance because of the biological relevance of the orthologue data, and not due to some other specious aspect of the architecture. Finally, we introduce PPI.bio and PPI Origami, a web server interface for INTREPPPID and a software tool for creating strict evaluation datasets, respectively. Together, these two initiatives aim to make both the use and development of PPI inference tools more accessible to the community. GRAPHICAL ABSTRACT O_FIG O_LINKSMALLFIG WIDTH=200 HEIGHT=75 SRC="FIGDIR/small/580150v1_ufig1.gif" ALT="Figure 1"> View larger version (19K): [email protected]@17997f4org.highwire.dtl.DTLVardef@1e74524org.highwire.dtl.DTLVardef@6c52f3_HPS_FORMAT_FIGEXP M_FIG C_FIG
著者: Amin Emad, J. Szymborski
最終更新: 2024-02-16 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.02.13.580150
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.02.13.580150.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。