構造に基づく方法でタンパク質分類を変革する
新しい方法でタンパク質の構造と分類の理解が深まる。
― 1 分で読む
目次
メタゲノミクスは、いろんな生物に見られる遺伝子素材を研究する科学の分野だよ。これによって、医療や食品生産などのいろんな産業で使える酵素を見つける手助けができる。ただ、どの酵素を使うかは、主にその遺伝子配列が知られている酵素とどれだけ似ているかに頼ってるんだ。
最近、科学者たちはタンパク質の構造を予測する技術で大きな進展を遂げたんだ。この新しい能力によって、これまであまり知られていなかったタンパク質を研究する道が開かれた。多くのまだ研究が進んでいないタンパク質は、知られているタンパク質と遺伝子の構造が明らかに似ていないかもしれないけど、役立つ応用のポテンシャルを持っている。けど、これらの進展があっても、まだ多くのタンパク質が分類や理解が難しいままなんだ。
タンパク質構造に対する視点の変化
正確なタンパク質構造予測技術が利用できるようになって、状況が変わってきたんだ。科学者たちは、データベースに保存されている数多くのタンパク質の構造を予測できるようになった。機能や構造が不明なタンパク質を考える古い考え方、通称「ダークプロテオーム」が、「グレイプロテオーム」と呼ばれる新しい考え方に進化している。この新しい用語は、構造が予測できるけど、まだ機能が知られていないタンパク質を示すんだ。
従来、科学者はタンパク質の機能を遺伝子配列を既知のタンパク質と比較することで特定してきた。でも、シーケンシング技術の進歩により、多くのユニークなタンパク質が出てきて、その配列と直接マッチするものを見つけるのが難しくなった。これが「トワイライトゾーン」という用語を生むことになった。これは、研究者が2つのタンパク質が関連しているかどうかを簡単には判断できない状況を表すんだ。
逆に、タンパク質の構造は進化の変化を通じてその配列よりも一貫性があることが知られてる。このことから、タンパク質の構造を調べることで、タンパク質間のつながりを見つけるのがより明確になるかもしれない。SCOP、CATH、ECODの3つの主要なデータベースがあって、構造や機能の類似性によってタンパク質を整理している。これらのデータベースは、配列がほとんど似ていなくても、共有する構造的特徴に基づいてタンパク質を分類しているよ。
機械学習を活用したタンパク質分類の向上
構造比較が低スコアを示すとき、科学者は機械学習ツールを使って助けを得ることができる。これらのツールは、さまざまなグループの既知の特徴に基づいてトレーニングされて、新しいタンパク質が既存の分類にどのようにフィットするかを予測できるんだ。
過去には、機械学習モデルは主に遺伝子配列データに頼っていて、成功は限定的だった。正確にタンパク質をグループ化するのは簡単じゃなくて、明確な境界を持つグループもあれば、そうでないグループもある。異なるグループ内のタンパク質を比較すると、構造に基づいて異なるカテゴリのタンパク質がかなり似ている結果になることが多いんだ。
隠れマルコフモデル(HMM)みたいな技術を使うことで、これらの課題に対処できるかもしれない。HMMは、タンパク質間の遠い関係を検出する能力があることが示されているよ。gene3DやSuperfamilyといったツールは、タンパク質のグループ割り当てのためのシーケンス検索の感度を向上させるために開発された。でも、配列が大きく異なるタンパク質を分類するのはまだ複雑なんだ。
構造ベースの分類のための隠れマルコフモデルの活用
HMMは通常、タンパク質ファミリーのシーケンスを比較する。今回の研究では、科学者たちはアミノ酸配列ではなくタンパク質構造データを使ってHMMを適用している。これは、タンパク質構造のユニークな特徴に基づいて新しいHMMを作成することを含むんだ。
必要なデータを生成するために、研究者たちはFoldseekという構造比較ツールを使っている。このツールは、三次元のタンパク質構造を文字の直線的シーケンスに変換する。タンパク質の構造の各位置には20の文字のうちの1つが割り当てられて、その即時の構造的コンテキストを捉えるんだ。これらの文字シーケンスを使って、研究者たちはタンパク質をより効果的にグループ化するHMMを構築できる。
タンパク質構造を分析すると、それが文字シーケンスに変換されて、分類のための確立されたモデルと比較される。この研究で、科学者たちはCATHデータベースのタンパク質に対して5600以上のHMMを生成し、SCOPに対して4400以上、ECODに対して15000以上を生成した。ウェブベースのサーバーがあって、ユーザーはタンパク質構造を入力すると、これらのモデルと比較されてグループ割り当てのスコアが得られるんだ。
予測精度とグループ割り当ての評価
得られたデータを調査することで、研究者たちはタンパク質を指定されたグループに分類するためのしきい値を確立した。SCOPとCATHの両方のデータベースは、異なる分類レベルを持つ階層を含んでいるから、混乱を最小限に抑えるために「グループ」という一般的な用語が好まれている。研究者たちは、類似性が増すにつれて比較されるタンパク質のHMMスコアが上がることを発見した。
また、研究者たちはモデルが正確であることを確認するために、検証戦略を用いて、同じグループに属すると考えられるタンパク質を比較したときに高い予測スコアを示したんだ。
さまざまな構造を比較すると、実際の分類が知られているときに98%以上の正確さで予測したグループ化が得られた。これは、構造ベースの新しい分類法が非常に効果的であることを示しているよ。
より良い洞察のための構造データと配列データの統合
さらに、研究者たちは自分たちの新しい方法が従来のシーケンスベースの分類と比べてどうなのかを探求した。実際のSCOPとCATHの分類が知られているとき、両方の方法で非常に高い精度が記録された。ただ、実際の分類が知られていないと、SCOPで72%、CATHで82%にまで落ちて、シーケンスベースの方法の限界が見えた。
シーケンスベースと構造ベースの予測が一致しなかったとき、それはたいていタンパク質の進化の性質によるものだった。グループ内のタンパク質は、時間が経つにつれて配列に明らかな違いが出るかもしれないけど、構造は似たままでいることがある。この構造の一貫性が、比較のための強力な候補になるんだ。
たとえば、羊に見られるミトコンドリア複合体Iのサブユニットの1つが目立つ。タンパク質構造をテストしたとき、構造ベースの方法で非常に高いスコアを得たけど、シーケンスだけで分析したときは失敗した。人間のタンパク質についても、シーケンスベースの分類に苦労したけど、構造ベースの比較では優れた結果を示したケースがあった。
結論:タンパク質の特徴付けを向上させる方向へ
この研究での進展は、タンパク質の構造に基づいた分類を改善するための重要なステップを示している。構造データの強みを認識してHMMの能力と組み合わせることで、研究者たちはタンパク質間の進化的関係をよりよく追跡できるんだ。
この進展は、現在私たちの理解のグレーゾーンにいるタンパク質をより良く特徴付ける手助けになるかもしれない。何百万ものタンパク質構造が予測される世界では、これらの洞察を活用することで、バイオテクノロジーや医療などの分野で重要な発見につながるかもしれない。
この方法をさらに発展させて洗練させることで、科学者たちはグレープロテオームの未知の要素を明らかにすることを期待している。最終的には、さまざまな分野での実用的な応用に至ることを目指しているんだ。これらの複雑な構造とその機能を理解する旅は続いていて、タンパク質の広大な世界にまだまだ多くの発見が待っているよ。
タイトル: On use of tertiary structure characters in hidden Markov models for protein fold prediction
概要: While advances in protein structure prediction have opened up insights into arcane proteins, weak sequence homology makes functional characterisation challenging. To overcome this challenge, we use structure-based hidden Markov models of groupings in SCOP, CATH and ECOD to predict folds in proteins and thereby infer function. Conservation of structure and ability of hidden Markov models to detect remote signals make this a powerful resource for complete characterisation of arcane proteins.
著者: Ashar J Malik, C. Puente-Lelievre, N. Matzke, D. B. Ascher
最終更新: 2024-04-11 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.04.08.588419
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.04.08.588419.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。