Simple Science

最先端の科学をわかりやすく解説

# 生物学# 生物情報学

AFDBを使ったタンパク質構造分析の進展

AFDBはタンパク質の構造について重要な知見を提供し、研究や薬の開発を助けてるよ。

― 1 分で読む


AFDBからのタンパク質構AFDBからのタンパク質構造の洞察インの機能が明らかになった。新しい手法で複雑なタンパク質の関係とドメ
目次

アルファフォールドタンパク質構造データベース (AFDB) は、タンパク質構造の見方を変えた大きなプロジェクトだよ。ユニプロットからの2億以上のタンパク質配列の3D形状が追加されたんだ。この情報は、ライフサイエンスを研究している科学者たちだけでなく、新しい薬を開発しているビジネスにも重要なんだ。AFDBで使われているデータと高度な手法は、科学者たちがこれらのタンパク質構造に基づいてより良い薬を作るのを助けるんだ。

AFDBの制限

大きな貢献がある一方で、AFDBにはいくつかの課題もあるんだ。データの量が多いから、従来の小規模データセット用のツールがうまく機能しないことが多いんだ。だから、データを効果的に可視化・分析する新しい戦略が必要なんだ。タンパク質構造とその機能のつながりは複雑だから、研究者たちは新しい計算手法と最新のハードウェアが必要なんだ。

タンパク質ドメインの特定

研究者たちは、配列や構造に基づいて新しいタンパク質ドメインを見つけるためにいろんなアプローチを使うことができるんだ。例えば、PfamやGene3Dのようなデータベースは、配列を使ってタンパク質ファミリーを特定するんだ。Pfamはマルチシーケンスアライメントを使ってタンパク質をファミリーにまとめるし、Gene3Dは既存の構造を使って新しいドメインを見つけるために配列を分析するんだ。ただ、配列ベースの方法は限界があって遠い親戚を特定するのが難しいこともあるんだ。

逆に、構造ベースの方法はドメインの境界を定義する際に質が良いことが多いんだ、特に既知の構造に似ていない場合はね。AFDBと構造データを使ったタンパク質ドメインの分析は、さまざまな生物の間でドメインがどのように進化したかを見せてくれるんだ。

生命の木

AFDBデータを使ってまだ完全には研究されていない重要なトピックは、生命の木を通じたタンパク質ドメインのマッピングなんだ。CATHやSCOPみたいな異なるデータベースは、タンパク質のフォルドとドメインがどう関係しているかを示しているんだ。でも、時々これらのデータベースはドメインの定義について意見が合わなくて混乱を招くこともあるんだ。例えば、タンパク質キナーゼの構造は、分析技術によっては2つの別々のドメインとして見られたり、1つの連続したドメインとして見られたりすることがあるんだ。

CATHのフレームワークを通じてAFDBデータを分析することで、研究者たちはタンパク質の構造と機能の間の深い関係を見つけることができるかもしれないんだ。このアプローチは、さまざまなタンパク質を効果的に注釈付けしたり分類したりするのに役立つんだ。

AFDBバージョン4の分析

この研究では、AFDB内のドメイン構造を詳細に探求したんだ。この分析では、210百万以上のタンパク質配列から371百万以上の潜在的なドメインを調べたんだ。研究では、Merizo、Chainsaw、UniDocの3つの自動化手法を使ってドメイン構造を特定したよ。これらの手法を比較し、Foldseekのような高度な構造比較技術を使うことで、CATH階層に基づいて2.51億のドメインを分類できたんだ。

冗長構造の特定

AFDBには多くの冗長配列が含まれていて、同一のタンパク質配列が何度もモデリングされているんだ。最初にこれらの配列をフィルタリングして、非冗長配列のセットを取得したよ。このフィルタリングで、様々な分類群にまたがる1.88億のユニークな配列にたどり着いたんだ、これをTED-100と呼んでいるんだ。

このワークフローによって、配列ベースの手法では達成できなかったたくさんのドメインを特定できたんだ。その中で、さらに1億の追加ドメインが発見され、構造ベースの分析の強さが示されたんだ。

ドメインの構成

TED-100では、単一ドメインと多ドメインのタンパク質がほぼ同じ数見つかったよ。興味深いことに、これらのタンパク質のうち、識別可能なドメインを持っていないのはたった5%で、これはGene3Dのような以前のデータベースが報告したものよりもかなり少ないんだ。分析の結果、識別可能なドメインを欠くタンパク質の割合は、異なる生物の間で異なり、真核生物は非ドメイン残基の割合が高いことが示されたんだ。

ドメイン解析手法

私たちが利用したワークフローは、AFDBから既知のフォルドやドメインを特定するために、3つの最先端のドメイン解析手法と構造分類アルゴリズムを組み合わせたんだ。AFDB全体で3.71億のドメイン構造を発見したよ。この数は以前の配列ベースの試みに比べてかなり多く、タンパク質の構造の間のより複雑な関係を探ることを可能にしたんだ。

TEDドメインの分類

特定されたTEDドメインをCATH階層に分類するために、MMseqs2プログラムを使って配列に基づいてクラスタリングしたよ。Foldseekや自社のFoldclass-searchという手法を使って、多くのドメイン分類を検証できたんだ。

結果は、TEDが構造ドメインの理解を大いに豊かにしていることを示したよ。高度な分析を通じて、さまざまなタンパク質のフォルドや構造を評価し、分類できたんだ。

高対称性アーキテクチャ

データを分析する中で、高い内部対称性を持つドメインのクラスを発見したんだ、これは既存のデータベースではまだ探求されていない構造を表しているかもしれないんだ。11ブレードベータプロペラや11ヘリックスプロペラのような、いくつかの面白い新しいアーキテクチャが見つかったよ。それに加えて、顕著な対称性と多様性を示す「押し出しリピート」と呼ばれる新しいアーキテクチャのカテゴリーも見つけたんだ。

新しいドメインの分布

新たに特定されたドメインの分布を異なる生命の系統間で評価したんだ。結果は、これらの新しい構造が特定の細菌群により多く見られることを示唆していたよ。この過小評価は、進化的なつながりや種を超えた相互作用が、構造比較を通じてのみ検出される可能性を示しているんだ。

新しいドメインの機能予測

見つけた新しいフォルドやリピートの潜在的な機能を調査するために、配列データを使ってそれらの関連する役割を予測するための深層学習に基づく手法を使ったよ。多くのドメインは、特に亜鉛や核酸結合に関連するものが、高い信頼性で予測された機能を示したんだ。

ドメインペア間の新しい相互作用

AFDBは、ドメインペア間の相互作用を深く調べることを可能にしているんだ。TEDでは、さまざまな構造スーパーファミリーにわたって2700万を超える相互作用するドメインの事例を特定したよ。この情報は、細胞内でタンパク質がどのように協力しているかの洞察を提供するので非常に役立つんだ。

冗長配列への対処

私たちの分析では、AFDBの冗長配列のかなりの数が均一な構造を示さないことが明らかになったんだ。一部の配列は顕著な変異を示していて、潜在的な代替コンフォメーションを示唆しているんだ。この発見は、タンパク質構造を評価する際に冗長性を考慮することの重要性を強調しているんだ。

モデル品質の重要性

AFDB内の構造の大部分は高品質だけど、データが豊富な分、どうしてもエラーが発生することがあるんだ。任意のタンパク質について、シーケンス冗長コピーを調べることで、より良いモデルを見つけることができるかもしれないんだ。この洞察は、最良の利用可能なデータをキャッチするために、単一のエントリを超えて見る必要性を示しているんだ。

結論

AFDBと私たちのTEDワークフローは、タンパク質構造を研究するための強力な二重アプローチを提供するんだ。これらの構造を機能的ドメインに分解することで、研究者たちはそれらの関係や進化的意義について重要な洞察を得ることができるんだ。この研究は、タンパク質間のつながりを見つけるだけでなく、生物学や医療の研究者にとって貴重なリソースを提供して、タンパク質の機能や相互作用の秘密を明らかにする手助けをするんだ。

今後の方向性

TEDの継続的な開発は、新しいデータや手法が利用可能になるにつれて、タンパク質構造の理解をさらに深めることを目指しているんだ。AFDBは、タンパク質科学の分野でのエキサイティングな発見につながる情報の宝庫で、新しい研究の道が定期的に出現しているんだ。研究コミュニティと協力し、情報を提供することで、この重要な分野での次世代の科学的探求を推進できることを期待しているんだ。

オリジナルソース

タイトル: Exploring structural diversity across the protein universe with The Encyclopedia of Domains

概要: The AlphaFold Protein Structure Database (AFDB) contains full-length predictions of the three-dimensional structures of almost every protein in UniProt. Because protein function is closely linked to structure, the AFDB is poised to revolutionise our understanding of biology, evolution and more. Protein structures are composed of domains, independently folding units that can be found in multiple structural contexts and functional roles. The AFDBs potential remains untapped due to the difficulty of characterising 200 million structures. Here we present The Encyclopedia of Domains or TED, which combines state-of-the-art deep learning-based domain parsing and structure comparison algorithms to segment and classify domains across the whole AFDB. TED describes over 370 million domains, over 100 million more than detectable by sequence-based methods. Nearly 80% of TED domains share similarities to known superfamilies in CATH, greatly expanding the set of known protein structural domains. We uncover over 10,000 previously unseen structural interactions between superfamilies, expand domain coverage to over 1 million taxa, and unveil thousands of architectures and folds across the unexplored continuum of protein fold space. We expect TED to be a valuable resource that provides a functional interface to the AFDB, empowering it to be useful for a multitude of downstream analyses.

著者: David T Jones, A. M. C. Lau, N. Bordin, S. M. Kandathil, I. Sillitoe, V. P. Waman, J. Wells, C. Orengo

最終更新: 2024-03-27 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.03.18.585509

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.03.18.585509.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事