RNA構造予測の現在の課題
RNAモデル予測の構造的ミスを分析して、その影響を考える。
― 1 分で読む
最近、RNAの三次元構造を研究することへの関心が高まってるよね。特にCOVID-19パンデミックの後はね。COVID-19ウイルスはRNAウイルスだし、RNAベースのワクチンを開発する競争がRNA研究に注目を集めたのが大きい。さらに、深層学習技術がタンパク質構造の予測で成功を収めたことで、研究者たちはRNAにも同じような方法を試すようになったんだ。その結果、RNA構造を予測する新しい方法がいくつも出てきて、機械学習に頼るものが多い。
でも、これらの進展にも関わらず、RNA構造の予測を評価する最近のコンペでは、新しい方法が予測の質や精度を大きく改善していないことが分かった。研究者たちは、予測されたRNA構造が既知の構造とどの程度一致するかを測定するためにいろんな方法を使っているけど、3Dモデルの全体的なレイアウトや互換性を直接評価することはできていないんだ。だから、これらの予測におけるエラーについての認識が不足していて、構造的なミスを含むモデルができてしまう。
これらのミスは、RNAの3D形状に不規則性として現れることがあり、RNAの構造の部分が不自然に重なり合ったり絡み合ったりすることがある。このレポートでは、そういった問題を詳しく見ていくよ。主に、絡まりと結び目の2つのタイプの構造的ミスに焦点を当てるね。
構造的ミスのタイプ
RNAの構造的ミスは、構造要素の絡まりとトポロジカルノットの2つの主要なカテゴリに分けられるよ。
構造要素の絡まり
絡まりは、RNA構造の2つの部分が干渉し合うときに起こる。例えば、1つのRNAが別のRNAの周りをループして、RNAが通常折りたたまれる理解に反するようなノットやループを作ることがある。これにはループ、二本鎖、一本鎖など、RNAのさまざまな部分が関わるよ。
RNAの構造に関しては、インターレースは異なる2つの部分が3D形状の中で絡み合うときに起こるし、ラッソは他のRNA部分の周りに巻きつく円形の構造を指す。研究者たちは、関わる要素に基づいてこれらの絡まりをいくつかのタイプに分類しているんだ。
トポロジカルノット
トポロジカルノットは、RNAのセクションが本当のノットを作るようにひねられている、もっと複雑な絡まりが関与している。数学にはさまざまなタイプのノットがあって、最もシンプルなのはトレフォイルノットとして知られているよ。
過去の研究では、RNAに結び目のある構造が確認されているけど、これは自然に存在するRNAでは稀だ。コンピュータ予測によって生成されたモデルには、これらのノットが含まれていることが多く、これはエラーと見なされる理由でもあるね。
RNA予測の分析
最近のコンペで行われたRNAの予測を評価するために、研究者たちは両方のタイプのミスに関して予測モデルを調べたよ。彼らはいろいろな計算ツールを使って予測を精査し、絡まりやノットがあるかどうかを特定した。
分析データは複数のRNAターゲットから得られ、合計62の参照構造と約1,660の予測モデルが41の異なるモデリンググループから提出されたんだ。分析の結果、162のモデルに絡まりまたはトポロジカルノットが含まれていて、構造的エラーの重要な存在が示された。
結果の概要
予測されたモデルの中には、かなりの数が絡まりやノットを示したよ。予測モデル全体の中で、83が絡まりのみ、34がトポロジカルノットのみ、43が両方を示していた。特に、これらの構造的エラーの発生は、モデル作成に使われた方法と密接に関係していた。
方法論の影響
異なるモデリンググループが使用した方法論を詳しく見てみると、機械学習手法を用いたグループが構造的エラーのあるモデルを生み出す可能性が高いことがわかった。絡まりを含む予測モデルのうち、なんと80%が機械学習アプローチから来ていて、残りの20%は従来の手法からだった。
同様に、ノットのあるモデルでは、87%が機械学習技術を使って予測されていた。これは、機械学習の手法が興味深いけど、複雑な構造に対しては苦労する可能性があることを示唆してるね。
自然ターゲットと合成ターゲットの違い
RNAモデルのターゲットを分析した結果、自然RNA構造は合成ターゲットに比べて絡まりが少ないことがわかった。合成RNAの予測は、絡まりやノットが出やすく、構造の複雑さの違いを反映しているんだ。
自然RNA構造の予測の中で、絡まりを示すものはごく少数だった。一方、合成RNAを対象としたモデルは、絡まりやノットの傾向がずっと高かったよ。
構造的エラーの具体例
機械学習の予測におけるエラーの例もいくつかあるよ。特に目立つのは、RNAの一部が他の部分に不正に巻きついているループラッソが含まれたモデルで、これはターゲット構造を正確に反映していなかったんだ。
もう一つの例では、複雑な合成RNA構造の中で、異なるタイプの絡まりが複数見られた。これらのモデルは、RNA構造の計算予測時の課題を示すいろんなエラーを抱えていたよ。
結論
RNA構造予測の分析から、機械学習の手法が従来のアプローチよりも構造的なミスを出しやすいことが明らかになった。特定された問題は、シンプルな絡まりから自然RNAを代表しない複雑なノットにまで及ぶ。
研究者たちがRNAモデリング技術を改善し続ける中で、これらの構造的エラーを検出するためのチェックを取り入れるべきだという提案があるよ。今後の取り組みでは、RNA構造を予測するだけでなく、そのトポロジーを検証する方法を開発することで、生成されるモデルの信頼性や精度を高めることができるはず。
RNAモデリングの一般的な落とし穴を理解することで、研究者たちはRNA構造のより正確な表現を提供できる予測方法を目指すことができて、分子生物学の分野に大きな利益をもたらすことができるんだ。
タイトル: Knotted artifacts in predicted 3D RNA structures
概要: Unlike proteins, RNAs deposited in the Protein Data Bank do not contain topological knots. Recently, admittedly, the first trefoil knot and some lasso-type conformations have been found in experimental RNA structures, but these are still exceptional cases. Meanwhile, algorithms predicting 3D RNA models have happened to form knotted structures not so rarely. Interestingly, machine learning-based predictors seem to be more prone to generate knotted RNA folds than traditional methods. A similar situation is observed for the entanglements of structural elements. In this paper, we analyze all models submitted to the CASP15 competition in the 3D RNA structure prediction category. We show what types of topological knots and structure element entanglements appear in the submitted models and highlight what methods are behind the generation of such conformations. We also study the structural aspect of susceptibility to entanglement. We suggest that predictors take care of an evaluation of RNA models to avoid publishing structures with artifacts, such as unusual entanglements, that result from hallucinations of predictive algorithms. Author summaryO_LI3D RNA structure prediction contests such as CASP and RNA-Puzzles lack measures for topology-wise evaluation of predicted models. Thus, predictors happen to submit potentially inappropriate conformations, for example, containing entanglements that are prediction artifacts. C_LIO_LIAutomated identification of entanglements in 3D RNA structures is computationally hard. Distinguishing correct from incorrectly entangled conformations is not trivial and often requires expert knowledge. C_LIO_LIWe analyzed 3D RNA models submitted to CASP15 and found that all entanglements in these models are artifacts. C_LIO_LICompared to non-ML, machine learning-based methods are more prone to generating entanglements that are not present in natural RNAs. C_LIO_LITo increase the reliability of 3D RNA structure prediction, it is necessary to reject abnormally entangled structures in the modeling stage. C_LI
著者: Marta Szachniuk, B. A. Gren, M. Antczak, T. Zok, J. I. Sulkowska
最終更新: 2024-03-07 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.03.04.583268
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.03.04.583268.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。