RNA3DBを使ったRNA構造予測の進展
RNA3DBは新しい整理されたデータセットを使ってRNA構造予測を改善することを目指しているよ。
― 1 分で読む
最近、深層学習を使ってタンパク質やRNAの構造を理解することに注目が集まってる。これらは多くの生物学的機能にとって重要なんだ。2018年には、AlphaFoldってプログラムがタンパク質の構造予測をすごく進めて、2020年にはAlphaFold2がその成功をさらに改善した。多くの人が、タンパク質の構造を解明するのはほぼ完了だと思ってた。この流れで、タンパク質と同じようにRNAにも似た方法を応用しようって話が出てきた。RNAはタンパク質と同じく、特定の形に折りたたまれる配列を持ってるからね。
RNAの構造と課題
一見、RNAはタンパク質と似たように複雑な形に折りたたまれるから、同じように扱えるんじゃないかって思うけど、多くのRNA研究の専門家は現在の深層学習手法がRNAの構造予測には最適じゃないって考えてる。2022年には、科学者たちが深層学習の新しいRNA配列への一般化の能力に問題があることを指摘し始めた。これは他のモデルでも知られた問題だったんだ。
RNAに対する関心が高まる中、新しいRNAベースの治療法が影響したりして、CASP15っていうコンペにRNA特有の課題が含まれた。その結果、深層学習手法は従来の方法に比べてあまりうまくいかなかった。以来、いくつかの取り組みがRNAに深層学習を適用しようとしてるけど、一般化の問題を無視することが多い。
大きな懸念の一つはデータの入手可能性だ。タンパク質構造の方がRNA構造よりも圧倒的にたくさんPDB(Protein Data Bank)にある。比較したら、PDBにはRNA構造の約70倍のタンパク質構造があるんだ。このデータ不足が、RNAに対する深層学習の苦労の理由だと思われる。
RNA3DBの重要性
RNA構造予測の課題に対処するために、研究者たちはRNA3DBっていう新しいデータセットを作った。これはPDBのRNA構造に特化してて、深層学習モデルのトレーニングとテストを改善することを目指してる。RNA3DBはRNA構造を配列と形が異なるグループに整理して、冗長性を減らし、トレーニングデータの質を向上させるんだ。
RNA3DBの構築
RNA3DBを作るにはいくつかのステップがある。データを解析して、不適切な配列をフィルタリングし、似たRNA構造をクラスタリングして、最後にデータをトレーニングセットとテストセットに分ける。
解析
最初のステップはPDBの全エントリを解析してRNA構造を特定すること。研究者はすべてのPDBエントリをダウンロードして、RNAかどうかを示すデータを探す。もしチェーンのどこかが「RNA」ってマークされてたら、それを含める。このプロセスでは、一般的な改変RNA残基も考慮される。正確に特定するために、研究者はこれらの改変を標準記号に変換する。
フィルタリング
解析の後、次のステップは深層学習モデルのトレーニングに不適切なRNA配列をフィルタリングすること。32残基未満のチェーンは、意味のある情報をあまり提供しないから削除される。他のフィルターは構造解像度、特定のヌクレオチドの割合、未知の残基の存在に焦点を当てる。これで、トレーニングに役立つ情報のある配列だけが残る。
クラスタリング
フィルタリングが終わったら、RNA3DBは似たRNA構造をまとめる。まず、ほぼ同一の配列をまとめて冗長性を避ける。次に、構造の類似性を探る。それぞれのRNA構造を既知のRNAファミリーと比較して、その情報を使ってRNAの接続ネットワークを作る。目的は、各グループが配列と構造の両方で異なることを確保すること。
データの分割
RNA3DBを作る最後のステップは、データセットをトレーニングセットとテストセットに分けること。オーバーラップがないようにグループを整理することで、研究者はデータセットの一部を深層学習モデルのトレーニングに、安全に割り当てられる。
主な発見
RNA3DBはPDBから21,000以上のRNA配列を特定。フィルタリングによってこの数はかなり減少して、長さや構造解像度が不十分な多くの配列が除かれた。その結果、役立つ情報を保持した小さくて管理しやすいデータセットができた。
フィルタリング後、RNA3DBは約1,645のクラスタにRNAをグループ化。最大のクラスタは特定のリボソーム構造を含んでるけど、中央値のクラスタサイズは小さい。最終的なデータセットはRNA構造の明確なビューを提供して、研究者が深層学習モデルをより良くトレーニングして評価するのに役立つ。
RNA研究への影響
RNA3DBの作成はRNA構造予測研究にとって重要だ。十分な構造RNAデータがなかったことで、深層学習の効果が妨げられてきた。新しいデータセットは、RNAデータを整理するための構造的アプローチを提供することで、この問題に対処してる。
データの制限に対処するだけでなく、RNA3DBはRNA構造予測のユニークな課題も特定してる。RNAの複雑な構造はタンパク質よりも変動が多くて、正確に予測するのが難しい。RNAの几何学は複雑で、その二次構造は局所的なセグメントだけでなく、全体の配列の関係に依存してる。
結論
RNA3DBデータセットはRNA構造の計算理解において重要なステップだ。データを意味のある形で整理することで、研究者がRNA構造をより効果的に予測できるモデルをトレーニングするのを助ける。このツールは、RNAベースの治療への関心が高まる中で、RNAモデリングコミュニティにとって間違いなく役立つ。
RNA3DBの作成に取り組んだことは、科学研究における信頼できるデータの重要性を強調して、RNA構造の理解を深めるための継続的な努力が必要であることを強調してる。RNAに関する包括的な情報をよく整理された形式で提供することで、RNA3DBは深層学習モデルの能力を向上させ、構造生物学の分野を前進させることを目指してる。
タイトル: RNA3DB: a structurally-dissimilar dataset split for training and benchmarking deep learning models for RNA structure prediction
概要: With advances in protein structure prediction thanks to deep learning models like AlphaFold, RNA structure prediction has recently received increased attention from deep learning researchers. RNAs introduce substantial challenges due to the sparser availability and lower structural diversity of the experimentally resolved RNA structures in comparison to protein structures. These challenges are often poorly addressed by the existing literature, many of which report inflated performance due to using training and testing sets with significant structural overlap. Further, the most recent Critical Assessment of Structure Prediction (CASP15) has shown that deep learning models for RNA structure are currently outperformed by traditional methods. In this paper we present RNA3DB, a dataset of structured RNAs, derived from the Protein Data Bank (PDB), that is designed for training and benchmarking deep learning models. The RNA3DB method arranges the RNA 3D chains into distinct groups (Components) that are non-redundant both with regard to sequence as well as structure, providing a robust way of dividing training, validation, and testing sets. Any split of these structurally-dissimilar Components are guaranteed to produce test and validations sets that are distinct by sequence and structure from those in the training set. We provide the RNA3DB dataset, a particular train/test split of the RNA3DB Components (in an approximate 70/30 ratio) that will be updated periodically. We also provide the RNA3DB methodology along with the source-code, with the goal of creating a reproducible and customizable tool for producing structurally-dissimilar dataset splits for structural RNAs. Graphical Abstract O_FIG O_LINKSMALLFIG WIDTH=200 HEIGHT=140 SRC="FIGDIR/small/578025v3_ufig1.gif" ALT="Figure 1"> View larger version (39K): [email protected]@7685fdorg.highwire.dtl.DTLVardef@156ca35org.highwire.dtl.DTLVardef@f58d72_HPS_FORMAT_FIGEXP M_FIG C_FIG HighlightsO_LIWhile there is a recent surge in applying deep learning to RNA structure prediction, domain experts have raised concerns about generalization and current trends in benchmarking. C_LIO_LIMany of the concerns primarily relate to how novel RNA families-i.e. families unseen in the training set-are benchmarked, and whether the models are effective at handling such cases. Performance on bench-marks reflective of real-world applications, such as CASP15 and RNA-Puzzles, is poor for RNA deep learning models. C_LIO_LIWe present a dataset-RNA3DB-that is designed for training and bench-marking deep learning models for RNA structure prediction. RNA3DB provides coverage of all RNA chains found in the Protein Data Bank (PDB). C_LIO_LIRNA3DB is clustered into groups that are both sequentially and structurally non-redundant, providing a robust way of creating training, validation, and testing sets for deep learning models. Along with the dataset, we also provide a transparent methodology as well as the source-code, making our tool both reproducible and customizable. C_LI
著者: Elena Rivas, M. Szikszai, M. Magnus, S. Sanghi, S. Kadyan, N. Bouatta
最終更新: 2024-03-11 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.01.30.578025
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.01.30.578025.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。