Simple Science

最先端の科学をわかりやすく解説

# 計量生物学# 定量的手法# 機械学習# 生体分子

構造と配列を通じてタンパク質の進化を明らかにする

研究によると、タンパク質の構造や配列は時間とともに進化するんだって。

― 0 分で読む


タンパク質の進化が明らかにタンパク質の進化が明らかにされたいての洞察を明らかにしている。研究は、タンパク質の構造と配列の進化につ
目次

タンパク質の研究はめっちゃ重要で、体の中で大切な役割を果たしてるからさ。タンパク質がどのように進化してきたかを理解することで、研究者たちはその機能や異なる種との関係を学べるんだよ。タンパク質の進化を研究するには、アミノ酸って呼ばれる構成要素の配列だけじゃなくて、その構造を調べるのが効果的なんだ。

タンパク質の配列と構造は、種が進化するにつれて変化するけど、構造の方が一般的に安定してるんだよね。これは、タンパク質が果たさなきゃいけない機能によって形が決まるから。だから、タンパク質の配列が大きく変わっても、構造は比較的似たままでいることが多くて、進化の歴史についての貴重な洞察を提供してくれるの。

タンパク質の配列と構造

タンパク質はアミノ酸の鎖でできてるんだけど、これらのアミノ酸の順番がタンパク質の配列を決めるんだ。この配列は特定の形に折りたたまれて、これがタンパク質の構造って呼ばれるやつ。構造はすごく重要で、タンパク質の機能を決定するんだ。

科学者たちがタンパク質の関係を調べるときは、配列を見たりすることが多いんだ。異なるタンパク質の配列を比べることで、共通の祖先からどれくらい前に分岐したかを推測できるんだけど、配列がかなり違ってるときは信頼できる情報を見つけるのが難しいこともあるんだ。

タンパク質構造の重要性

タンパク質の構造は、配列よりも一般的に保存されてることが多いんだ。つまり、タンパク質の形は、アミノ酸の配列に比べて時間とともに変わりにくいんだよ。このおかげで、タンパク質の構造を研究することで、2つのタンパク質が共通の祖先からどれくらい前に分岐したかをより正確に推定できるんだ。

構造に注目することで、配列だけを見てるときには得られない洞察を得ることができるんだ。構造と配列の情報を組み合わせるために、科学者たちは統計モデルを使ってる。これらのモデルは、2つのデータタイプの関係を理解し、分岐の時間を推定するのに役立つんだ。

タンパク質進化における統計モデル

タンパク質がどのように進化するのかを分析するために、研究者たちは時間の経過に伴う変化を考慮に入れた統計モデルを作るんだ。このモデルは、タンパク質の構造や配列がどのように分岐するかを推測するのに役立つんだ。目標は、タンパク質がどのように進化の歴史を通じて関連してるかをよりよく理解することだよ。

一つのアプローチは「マルコフ行列」を作ることで、これは異なる状態間の遷移確率を説明する数学的ツールなんだ。タンパク質にとって、これらの状態は異なる構造形態を表すことができる。大規模なタンパク質構造のデータベースにこれらのモデルを適用することで、科学者たちは何百万ものタンパク質ペアを分析して、有意義なパターンや関係を導き出すことができるんだ。

タンパク質の分岐分析

研究の中で、科学者たちはタンパク質の構造ペアを大量に調べて、構造の分岐と配列の分岐の関連を理解しようとしたんだ。彼らが見つけたのは、タンパク質の配列の変化が構造の変化よりも早いことが多いってこと。特に分岐の初期段階では顕著なんだ。

これは、タンパク質が最初に進化し始めるとき、アミノ酸配列がかなり変わるけど、全体的な構造は比較的安定していることを意味してる。進化が進むにつれて、配列の分岐はしばしば構造の大きな変化につながるんだ。

方法論

タンパク質の構造と配列の分岐を調査するために、研究者たちはタンパク質構造のアライメントを含む大規模なデータセットを利用したんだ。主な焦点は、共通の祖先を持ちながら異なる進化を遂げたホモログタンパク質のペアだったんだ。

研究者たちは、タンパク質構造に基づいて分岐の時間を推測するために、高度な統計技術を使用した。マルコフ行列を用いることで、時間の経過に伴う構造変化を理解することができたんだ。複数の情報源からの情報を組み合わせることで、配列と構造の分岐時間の関連を明確にしようとしたんだ。

研究の結果

この研究は、タンパク質の配列と構造の分岐の相互作用を際立たせる興味深い結果を生んだんだ。結果は、構造の変化が通常、配列の変化に遅れて生じることを示した。たとえば、100万ペアのホモログ構造の分岐を分析したとき、配列の分岐が構造の分岐よりも速く進行することが示せたんだ。

この研究は、初期の進化段階では、タンパク質が構造に大きな変化を伴わずに配列がかなり変わることがあるってことを強調した。これは特に価値があって、科学者たちが配列レベルでの劇的な変化の中でもタンパク質の機能がどうして安定しているかを理解するのに役立つんだ。

二次構造予測

この研究の実用的な応用の一つは、二次構造の予測におけるものだったんだ。二次構造は、特定の形、たとえばアルファヘリックスやベータシートなど、局所的な折りたたみパターンによって形成されるんだ。これらの構造の正確な予測は、タンパク質の機能を理解するのにめっちゃ重要なんだよ。

分岐の時間の関係を活用することで、研究者たちは二次構造を高精度で予測できるモデルを開発したんだ。このモデルは、構造予測に使われる人気のあるニューラルネットワークベースの方法と比較されたんだけど、新しい統計的枠組みに基づくモデルは効果的で、広範な計算や大規模なデータセットを必要としなかったって結果が出たんだ。

将来の研究への影響

この研究の結果は、タンパク質の進化を理解するための新しい道を開くものだ。配列と構造の関係をよりよく把握することで、研究者たちはタンパク質が進化の時間を通じてどのように変遷したのかを探ることができるんだ。

確立されたモデルは、異なるタンパク質や種の間の関係を視覚的に表現する進化の樹の構築など、他の分野にも応用できるんだ。今後の研究では、共通の祖先が少ないタンパク質や、より遠い関係にあるタンパク質に対してこれらのモデルがどのように機能するのかを深く掘り下げるかもしれないね。

結論

要するに、タンパク質の進化を構造と配列を通して研究することは、複雑だけど報われる分野なんだ。より安定した構造に注目することで、科学者たちはタンパク質が時間を経てどう変化するかをより深く理解することができるんだよ。確立された統計モデルは、タンパク質の関係を理解するのを助けるだけじゃなく、タンパク質の構造予測にも実用的な応用があるんだ。

この研究は、高度な統計手法を利用してタンパク質の進化の背後にある複雑なパターンを解明する方法を示していて、今後の研究が生物学の基本的かつ実用的な理解を深めるための道を開くことを期待してるよ。これらの関係を探求し続けることで、生命の構成要素に関するさらなる発見が期待されるんだ。

オリジナルソース

タイトル: The divergence time of protein structures modelled by Markov matrices and its relation to the divergence of sequences

概要: A complete time-parameterized statistical model quantifying the divergent evolution of protein structures in terms of the patterns of conservation of their secondary structures is inferred from a large collection of protein 3D structure alignments. This provides a better alternative to time-parameterized sequence-based models of protein relatedness, that have clear limitations dealing with twilight and midnight zones of sequence relationships. Since protein structures are far more conserved due to the selection pressure directly placed on their function, divergence time estimates can be more accurate when inferred from structures. We use the Bayesian and information-theoretic framework of Minimum Message Length to infer a time-parameterized stochastic matrix (accounting for perturbed structural states of related residues) and associated Dirichlet models (accounting for insertions and deletions during the evolution of protein domains). These are used in concert to estimate the Markov time of divergence of tertiary structures, a task previously only possible using proxies (like RMSD). By analyzing one million pairs of homologous structures, we yield a relationship between the Markov divergence time of structures and of sequences. Using these inferred models and the relationship between the divergence of sequences and structures, we demonstrate a competitive performance in secondary structure prediction against neural network architectures commonly employed for this task. The source code and supplementary information are downloadable from \url{http://lcb.infotech.monash.edu.au/sstsum}.

著者: Sandun Rajapaksa, Lloyd Allison, Peter J. Stuckey, Maria Garcia de la Banda, Arun S. Konagurthu

最終更新: 2023-08-10 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2308.06292

ソースPDF: https://arxiv.org/pdf/2308.06292

ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事