RNA構造予測の課題
RNA構造研究の苦労と進展を調べる。
― 1 分で読む
最近のタンパク質構造予測の進展はかなりの進歩を見せてるよ。特に、AlphaFold2っていう人工知能ツールの開発が重要な成果で、これは大量のタンパク質構造のデータベースを基にタンパク質がどのように折りたたまれるかを予測するんだ。このデータベースには約20万種類のタンパク質構造が含まれていて、正確な予測をするためのしっかりした基盤を提供してる。2018年までには、タンパク質構造を小さな断片に分解する方法が成功することがわかったんだ。
タンパク質と似て、多くのタイプのRNAもその配列によって特有の三次元形状を持ってる。これらのRNA構造には転移RNA(tRNA)、リボソームRNA(rRNA)などが含まれてて、生物学において重要な役割を果たしてる。しかし、RNAの独特な化学的性質のために、RNA構造を見つけるのはタンパク質よりも複雑なことが多い。現在、RNAを含む構造はタンパク質データベース全体の約3%しかないんだ。これが、RNAの断片に関する既存のデータがAIモデルのトレーニングや断片ベースのRNA構造予測に十分かどうかの疑問を生んでるんだ。
RNA構造予測の挑戦
RNA構造を予測するには、RNA鎖の異なる部分がどのように相互作用するかを理解する必要がある。研究者たちはRNAを解析するためにさまざまな技術を使ってるけど、多くの従来の方法はRNA分子の複雑さのために不足してる。以前の研究では、RNAの断片を分子の部分がどのようにひねったり回転したりするかを表す角度に基づいて分類してきたんだ。しかし、この方法はRNA構造で可能な全てのバリエーションを捉えられるわけじゃない。
その理由の一つは、二つのRNA断片が似たような角度の測定値を持っていても、実際の形状がかなり異なることがあるからなんだ。例えば、二つのRNA構造が角度の測定値に基づいて同じグループに属していても、折りたたみ方やひねり方にかなりの違いがあることがある。これはRNAの骨格と塩基成分の両方を考慮に入れたより良いRNA構造の分類法が必要だってことを示してる。
RNA断片構造の測定
RNA断片構造のライブラリがどれほど完全であるかを測るために、科学者たちは異なる断片の類似点と違いを調べてる。タンパク質構造は共通の構造的特徴で説明できることが多いけど、RNA構造はその構成要素間の塩基対形成に影響されるんだ。だから、RNAを研究する際は、骨格と塩基の両方の領域を考慮することが重要なんだ。
RNA構造を表現するための異なる方法が試されてきたけど、骨格だけ、塩基だけ、あるいは両方のミックスに焦点を当てたものがある。研究によると、現在のRNA構造の表現は特に短いRNAセグメントを見ると、全ての可能なバリエーションをカバーしてないかもしれないんだ。
RNA断片の成長に関する観察
年が経つにつれて、知られているRNA構造の数には上下が見られる。2000年にはリボソームサブユニットの完全な原子構造が公開されてRNA構造が大幅に増加した。2019年と2020年にもリボソームに関連する発見があり、さらに成長が見られた。しかし、2015年以降、タンパク質構造の成長は安定しているのに対し、RNA断片はまだその数に変動があるんだ。
短いRNA断片、例えば二つや三つのヌクレオチド配列をよく見ると、少し進展があったとはいえ、ライブラリが完全だとは言えないんだ。興味深いことに、特定の配列の構造の数は大きく異なっていて、RNA構造を完全にマッピングするにはまだ長い道のりがあることを示唆している。
異なる表現とその効果
RNA断片を表現するのにどの方法が一番効果的かを確認するために、研究者たちは骨格と塩基原子のさまざまな組み合わせをテストしたんだ。彼らはB2S1と呼ばれる特定の表現が全原子の表現とよく相関していて、他の方法よりも実際の構造に近い近似を提供していることを発見した。しかし、B2S1はより良い記述力を示したものの、構造断片の数が最も多く、他の表現よりもバリエーションが多いことを示している。
一方で、B1S2という方法は、主に少ない原子を見るもので、構造の多様性が最も少なかった。でも、特定のアプリケーション、例えばAIアルゴリズムのモデルを作るためには有利かもしれない。
より多くのデータの重要性
新しいRNA構造が解決されて既存のデータベースに追加されるにつれて、新しい断片が出てくる可能性が高まるんだ。新しい断片の発見と毎年のRNA構造の登録数の関係を分析すると、正の相関が見られる。この意味は、より多くのRNA構造を明らかにすることがRNA断片のバリエーションの理解を広げるために重要だってこと。
結論
要するに、RNAとタンパク質構造の理解と予測にかなりの進展があったけど、特にRNAにはまだ課題が残ってる。現在のRNA構造断片のライブラリはまだ完全ではなく、新しい構造を発見して分類方法を改善するためにはさらなる研究が必要なんだ。
もっとデータを集めてRNA構造のモデルを改善していけば、これらの重要な生物分子がどのように機能するかを理解する新しい方法が見つかるかもしれない。新しい技術や発見が現れる中、RNA研究にはワクワクする可能性が待ってるよ。
タイトル: On the completeness of existing RNA fragment structures
概要: Success in protein structure prediction by the deep learning method AlphaFold 2 naturally gives arise the question if we can do the same for RNA structure prediction. One reason for the success in protein structure prediction is that the structural space of proteins at the fragment level has been nearly complete for many years. Here, we examined the completeness of RNA fragment structural space at dimeric, trimeric, tetrameric, and pentameric levels. We showed that the RNA structural space is not even complete at the di-nucleotide level, whereas the exponential increase of new structural fragments is observed at tetrameric and pentameric levels. Moreover, the number of backbone fragments found in RNA (2510) is far smaller than the number of backbone fragments found in proteins (6652). This further suggests that a structural space currently observed in RNA is far from complete, considering that the RNA backbone (6 torsion angles) has more degrees of freedom than the protein backbone (3 torsion angles with one nearly fixed). In addition, we found that the three-atom representation (one backbone atom C4 and two sidechain atoms C1 and N1) has the lowest number of structural fragments, suggesting it as the most "stable" structural frame for building up the entire RNA structure.
著者: Yaoqi Zhou, X. Hong, J. Zhan
最終更新: 2024-05-10 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.05.06.592843
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.05.06.592843.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。