タンパク質の本質的に無秩序な領域を予測するための進展
新しい手法で安定構造がないタンパク質領域の予測が向上した。
― 1 分で読む
目次
タンパク質は生物にとって必須の分子で、いろんな機能を担ってるんだ。これらの機能は、通常は固定された三次元の構造に依存してるけど、内因性無秩序領域(IDR)と呼ばれるタンパク質の一部は安定した形を持ってないんだ。むしろ、特定の構造に完全に折りたたまれなくても、形を変えて機能することができる。最近の研究では、これらのIDRがかなり一般的で、複雑な細胞を持つ生物(真核生物)ではタンパク質の30%以上を占めていることが示されてる。IDRは多くの生物学的プロセスで重要な役割を果たしてるよ。
IDRを研究する方法
IDRについて知るために、科学者たちはX線結晶解析、核磁気共鳴(NMR)分光法、円二色性などいろんな実験技術を使ってるんだ。でも、これらの領域を研究するのは柔軟性があるから難しいんだよね。詳しく研究されたIDRは限られているから、研究者たちはタンパク質の配列の中でIDRがどこにあるかを予測するためのコンピュータベースの方法をたくさん開発してきた。この予測ツールは特定のタンパク質を理解するのにも、大規模なタンパク質のセットを分析するのにも役立ってる。
IDR予測ツールのコミュニティ評価
いろんなIDR予測ツールのパフォーマンスは、コミュニティ主導のコンペで評価されてきたんだ。一つはタンパク質構造予測のクリティカルアセスメント(CASP)で、最近ではタンパク質内因性無秩序のクリティカルアセスメント(CAID)もある。これまで、IDR予測ツールの数はかなり増えてきていて、この分野への関心が高まってることを示してるよ。参加者たちは、自分の予測ソフトを送って共通のタンパク質ターゲットに対して自分たちの方法を比較するんだ。そのターゲットには既知のIDRアノテーションがあるんだよ。
CAIDでは、IDRを予測する能力だけじゃなくて、これらの領域の中の結合部位の予測も評価されてる。参加者たちは、タンパク質の各アミノ酸にスコアを割り当てる方法を使って、特定の無秩序領域や結合部位の一部である可能性を示してる。最近のCAIDでは評価される予測方法の数が大幅に増えてきて、この課題への関心が高まっているのを示しているよ。
IDR予測の進展
CAIDコンペの方法を実行するためにCAID予測ポータルという新しいウェブサーバーが開発されたんだ。このプラットフォームは標準化された結果を提供して、ユーザーがいろんな方法を簡単に比較できるようにしてる。最新の評価では、いろんなIDR予測方法のパフォーマンスが異なるベンチマークに基づいて変わることが示されてて、予測ソフトの継続的な改善が必要だと強調されてるよ。
最近、PredIDRという新しい深層学習法が作られて、特にX線結晶解析データから欠けてる領域のIDRを正確に予測することを目指してる。この方法は、既知のIDRの特徴を反映して、より信頼性の高い予測を提供することを目指してるんだ。
タンパク質データバンクからのIDRの分析
IDRを分析するために、研究者たちはタンパク質データバンク(PDB)から高解像度のタンパク質配列を抽出したよ。配列のアイデンティティが25%未満で51残基以上のタンパク質だけを選んで、多様なタンパク質セットに集中したんだ。無秩序残基は、X線実験で三次元座標がないものとして定義される。分析には、少なくとも4つの連続した無秩序残基のセグメントだけが含まれてる。
選択したタンパク質配列を使って、検証セットが作られた。このセットには597のチェーンが含まれていて、総数は15万残基以上で、そのうち約8%が無秩序として識別されたんだ。さらなる検証のために、いろんな長さのIDRを含む追加データセットも作成されたよ。
訓練セットの構築
予測タスクが二項分類問題なので、研究者たちは不均衡な訓練セットを準備する必要があったんだ。訓練セットは、無秩序配列と秩序構造配列を組み合わせて、無秩序と秩序残基のバランスの取れた分布を確保することで形成された。それから、正のサンプルと負のサンプルの数が等しくなるように人工の負の例も作成したんだ。
予測のための入力特徴
残基が無秩序か秩序かを予測するために、研究者たちは各タンパク質残基を3つの主要な特徴で表現したよ:進化的プロファイル、二次構造、溶媒アクセス性。これらの特徴は貴重な情報を提供して、確立された予測ツールを通じて得られたんだ。
ニューラルネットワークアーキテクチャ
予測タスクは2D畳み込みニューラルネットワーク(CNN)を使って実行された。このアーキテクチャは、入力層、畳み込み層、全結合層を含む複数の層から構成されてる。モデルは小さなセグメントで入力データを処理して、パターンをキャッチして予測を効果的に改善できるんだ。
ニューラルネットワークモデルの訓練
モデルはミニバッチのデータを使って訓練され、訓練プロセスはモデルのパラメータを調整することで予測誤差を減らすことを目指してた。Adamという専門的なアルゴリズムがこれらのパラメータを更新するために使われて、予測誤差を最小限に抑えることに焦点を当ててたんだ。
アンサンブルとスムージング技術による予測の向上
予測精度を改善するために、アンサンブル法が利用されたんだ。このアプローチでは、複数のモデルを訓練して、その予測を組み合わせてより良い結果を得ることを目指すんだ。さらに、特定の残基に焦点を当てたスライディングウィンドウを使って予測を平均化するスムージング技術も適用されて、出力が洗練されたんだよ。
評価指標
予測モデルのパフォーマンスを評価するために、AUC_ROCとAUC_PRという2つの確率に基づく指標が使われたんだ。これらの指標は、モデルが各残基の無秩序の状態に対してどれだけ自信を持ってスコアを割り当てているかを理解するのに役立つよ。
結果と議論
PredIDRは、特にX線データから欠けている残基の無秩序領域に対して効果的な予測を示したんだ。この方法のパフォーマンスは、いろんな特徴を組み合わせることや、アンサンブルとスムージング技術を使うことで改善されてる。最良の結果は、データセットによって異なるスムージングのための特定のウィンドウサイズを使ったときに得られたよ。
PredIDRは、既存の予測方法とコンペで比較されて、他の多くのアプローチよりも良い結果を出したんだ。これにより、タンパク質におけるIDRを特定するための信頼できるツールとしての可能性が示されたんだ。
他の方法との比較
PredIDRは、コンペで他のIDR予測方法と比べられて、いくつかの他のツールに比べて大きな改善を示したよ。これは、内因性無秩序領域を検出するのに効果的であることを強調してる。特に無秩序残基の割合が高いデータセットでは、その方法が特に良いパフォーマンスを発揮したんだ。
将来の方向性
今後は、非X線アノテーションからのデータを既存のデータと併せて含めることで、予測方法をさらに強化することを目指してるんだ。こうした改善により、IDRの予測とその機能がさらに正確になるかもしれないよ。
結論
PredIDRの開発は、タンパク質における内因性無秩序領域を予測する上で重要な進展を示してる。この方法は、いろんな特徴を組み合わせて、洗練された機械学習技術を使うことで、タンパク質の構造と機能を研究している研究者にとって強力なツールを提供してるんだ。分野が成長し続ける中で、こうした予測方法は、タンパク質の動的な性質や生物学的システム内での相互作用を理解するのに重要な役割を果たすだろうね。
タイトル: PredIDR: Accurate prediction of protein intrinsic disorder regions using deep convolutional neural network
概要: The involvement of protein intrinsic disorder in essential biological processes, it is well known in structural biology. However, experimental methods for detecting intrinsic structural disorder and directly measuring highly dynamic behavior of protein structure are limited. To address this issue, several computational methods to predict intrinsic disorder from protein sequences were developed and their performance is evaluated by the Critical Assessment of protein Intrinsic Disorder (CAID). In this paper, we describe a new computational method, PredIDR, which provides accurate prediction of intrinsically disordered regions in proteins, mimicking experimental X-ray missing residues. Indeed, missing residues in Protein Data Bank (PDB) were used as positive examples to train a deep convolutional neural network which produces two types of output for short and long regions. PredIDR took part in the second round of CAID and was as accurate as the top state-of-the-art IDR prediction methods. PredIDR can be freely used through the CAID Prediction Portal available at https://caid.idpcentral.org/portal or downloaded as a Singularity container from https://biocomputingup.it/shared/caid-predictors/.
著者: Damiano Piovesan, K.-S. Han, S.-J. Yun, C.-S. Kim, C.-P. Ri, A. Del Conte
最終更新: 2024-07-24 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.07.24.604908
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.07.24.604908.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。