RNA構造予測の進展
新しいツールがRNA構造予測を改善して、偽のホモログを特定するのを助けるよ。
― 1 分で読む
目次
RNA(リボ核酸)はすべての生物にとって重要だよ。長い間、科学者たちはRNAがタンパク質を作るだけだと思ってた。だけど、今はRNAには化学反応を助けたり、遺伝子の働きを調整したりするなど、たくさんの他の役割があることがわかってる。
タンパク質をコードしないRNAはノンコーディングRNA(NcRNA)って呼ばれてる。多くのタイプのncRNAの構造は、細胞の中での役割にとってめっちゃ重要なんだ。
RNAの折りたたみ方
RNA分子は特定の方法で折りたたまれる傾向があるよ。最初にRNAの基本ブロックである塩基同士がペアを形成して、その後、追加の接続を作ることでさらに形を整える。折りたたみプロセスでは、A-U、C-G、G-Uのようなペアによって定義される二次構造が生まれる。折りたたまれた構造では、塩基がヘリックスを形成し、ペアになってない塩基はループに現れる。
この折りたたまれた構造は、共通の祖先を持つ異なる種で似てるんだ。だから、構造を見ればRNAの役割がわかるかもしれない。
RNA研究の進展
より高度な配列決定法のおかげで、研究者は今、完全なゲノムと生物に存在するすべてのRNAを取得できるようになった。これらの技術は新しいタイプのRNAを見つけるのを簡単にしてくれる。RNAの配列を集めて、その構造に基づいてファミリーに分類するデータベースもあるよ。
知られているファミリーに属さないncRNAについては、自由エネルギーの最小化というプロセスを通じて予測できるんだ。一般的に、短いRNA配列の場合は予測がうまくいく。
でも、RNAの配列は時間とともに変わることがあるけど、その構造は保たれる傾向がある。関連したRNA配列を使って構造を予測すると、より良い予測が得られることがあるんだ。
TurboFoldの紹介
RNAの構造予測を簡単にするために、TurboFoldってツールが開発されたよ。TurboFoldは、いくつかの似たRNA配列を同時に見て、どのようにアラインするかを推定し、塩基対形成の確率を予測するんだ。アラインメントと構造を繰り返し洗練させながら予測を改善していくよ。
TurboFoldは従来の方法より敏感で、正しい構造をよりよく特定できるんだ。他にもRNA構造を予測するツールはいくつかあって、さまざまなレビューがこれらの方法をカバーしてる。
同系配列の特定の課題
RNA構造を正確に予測するには、関連した配列のセットが必要なんだけど、配列だけを使うことはってのはしばしば不十分なんだ。タンパク質とは違って、特定の基本ブロックが異なる特性を持ってるわけじゃないから、RNA塩基は似た役割を果たすことがあって、本当の親戚、つまりホモログを見つけるのが難しいんだ。
研究者たちは似た配列を見つけるための計算ツールを開発してるけど、時には生物学的知識に頼って手動で関係を特定する必要があることもあるよ。各方法には配列を誤って特定するリスクがあるんだ。
偽ホモログの問題
RNAファミリーを特定する際の懸念の一つは、偽ホモログ、つまりデコイの存在なんだ。これらの配列は意図したファミリーには属さないよ。デコイが真のホモログと混ざると、構造予測に影響を与える。デコイが配列セットのかなりの部分を占めていると、予測の精度を下げることがあるんだ。
面白いことに、TurboFoldの出力はこれらのデコイ配列を検出するのに役立つんだ。DecoyFinderっていうツールが作られて、TurboFoldのデータと機械学習アプローチを使ってデコイを見つけるんだ。DecoyFinderは研究者が感度と特異性を微調整できるようにして、真のホモログが誤って分類されることが少ないようにデコイを効果的に特定するよ。
DecoyFinderの仕組み
DecoyFinderは、TurboFoldの出力から計算した特徴を使ってデコイを見つけるんだ。各RNA配列を一つずつ評価して、その配列がデコイかどうかの確率を出す。このプロセスのおかげで、研究者はRNAファミリーを確定させる前にデータを整理できるんだ。
TurboFoldの特徴
RNA構造を予測するために使われるTurboFoldは、最初に隠れマルコフモデルを使って配列のペアを分析するよ。ヌクレオチドがペアになる可能性を推定して、計算を通じてこれらの推定を洗練させるんだ。さまざまな要因を組み合わせて、より正確な複数配列アラインメントを生成し、RNA構造を予測するよ。
マッチスコアの役割
マッチスコアはTurboFold内で、2つの整列した配列がどれだけ似ているかを評価するために使われるよ。一般的に、ホモログ配列は特定のペアリングパターンを示すけど、デコイ配列は異なるパターンを持ってることが多いんだ。マッチスコアを分析することで、研究者は真のホモログをデコイから分けることができる。
機械学習の側面
DecoyFinderは、デコイを特定する能力を向上させるために機械学習に依存してるよ。何千もの例を使って訓練されて、真のホモログとデコイの両方を含んでるんだ。さまざまな機械学習モデルをテストした結果、アダプティブブースティングが彼らのニーズに最適だってわかったよ。
DecoyFinderは、エネルギー変化や配列のエントロピー、構造の変動性など、複数の特徴を組み合わせて、配列がファミリーに属するのかそれともデコイなのかを正確に評価するんだ。
DecoyFinderの実用的な適用
DecoyFinderはTurboFoldと組み合わせて使うのが簡単だよ。TurboFoldと一緒に実行するか、前の計算のTurboFoldの出力ファイルを分析することができる。潜在的なデコイを特定すると、研究者はこれらの配列を削除できるから、さらに分析するためのデータがきれいになるんだ。
パラログの難しさ
ホモログに焦点が当たることが多いけど、パラログについて混乱が生じることもあるんだ。パラログは複製イベントから生じるもので、同じ機能を共有していない場合があるんだ。これらの別々の配列を特定するのは難しいことがある。データセットにパラログが存在すると、DecoyFinderは特にその構造が似ているときに苦労することがあるんだ。
でも、このツールは他のファミリーやランダム化された配列からデコイを特定するのにはまだ得意だよ。
デコイが構造予測に与える影響
デコイ配列の存在は、TurboFoldの構造予測の精度に大きな影響を与えないんだ。実際、TurboFoldはしばしばデコイ配列を真のホモログに似たように形作る方法を見つけるんだ。でも、デコイを特定して削除することは、精度向上に繋がることがあるよ。
DecoyFinderの独自性
現在、DecoyFinderと同じ機能を持つソフトウェアはないんだ。他のツール、例えばInfernalはファミリーが確立された後に役立つけど、DecoyFinderはプロセスの初期に機能するんだ。この早期の特定はデータベースの汚染を避けるのに役立つし、最終的にはInfernalのようなツールのトレーニングも改善できる。
RNA分析の強化
DecoyFinderはデコイを特定するだけじゃなくて、他のRNA分析方法を強化するのにも貢献できるよ。配列を特定するための貴重な特徴を提供することで、将来的にさらに高度なソフトウェアツールの開発にも役立つかもしれない。
結論
RNA研究の世界は成長していて、TurboFoldやDecoyFinderのようなツールのおかげで、科学者たちはRNAの役割や構造をよりよく理解できるようになった。正確な予測に焦点を当てて偽ホモログを特定することで、分子生物学の分野での進歩を続けて、健康や病気に広範な影響を与えるような発見ができるかもしれないね。
タイトル: DecoyFinder: Identification of Contaminants in Sets of Homologous RNA Sequences
概要: MotivationRNA structure is essential for the function of many non-coding RNAs. Using multiple homologous sequences, which share structure and function, secondary structure can be predicted with much higher accuracy than with a single sequence. It can be difficult, however, to establish a set of homologous sequences when their structure is not yet known. We developed a method to identify sequences in a set of putative homologs that are in fact non-homologs. ResultsPreviously, we developed TurboFold to estimate conserved structure using multiple, unaligned RNA homologs. Here, we report that the positive predictive value of TurboFold is significantly reduced by the presence of contamination by non-homologous sequences, although the reduction is less than 1%. We developed a method called DecoyFinder, which applies machine learning trained with features determined by TurboFold, to detect sequences that are not homologous with the other sequences in the set. This method can identify approximately 45% of non-homologous sequences, at a rate of 5% misidentification of true homologous sequences. AvailabilityDecoyFinder and TurboFold are incorporated in RNAstructure, which is provided for free and open source under the GPL V2 license. It can be downloaded at http://rna.urmc.rochester.edu/RNAstructure.html
著者: David H. Mathews, M. Zhu, J. Zuber, Z. Tan, G. Sharma
最終更新: 2024-10-15 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.10.12.618037
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.10.12.618037.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。