Simple Science

最先端の科学をわかりやすく解説

# 生物学# 合成生物学

機械学習を使ったRNA構造予測の進展

新しい手法で、高度な機械学習技術を使ってRNAの構造予測とエンジニアリングが改善されてるよ。

― 1 分で読む


RNA予測のブレイクスルーRNA予測のブレイクスルーるんだ。機械学習はRNAの構造予測と設計を強化す
目次

タンパク質とRNAは全ての生物に欠かせない要素で、生物学的プロセスで重要な役割を果たしてるんだ。構造を理解することは、医学、遺伝子学、バイオテクノロジーなど多くの分野で重要なんだよ。科学者たちは、これらの分子が機能的な形に折りたたまれる様子を予測しようとしていて、これが薬の設計、病気の研究、特定のタスクのための新しいタンパク質やRNA配列の工学に役立つんだ。最近の技術の進歩、特にディープラーニングのおかげで、タンパク質の構造を予測する能力が格段に向上したんだ。

タンパク質予測におけるディープラーニングの役割

ディープラーニングでは、アルゴリズムとデータを使ってコンピュータにパターンを認識させるんだ。最近、AlphaFold 2やESMFold2みたいなモデルが、大量のタンパク質配列とそれに対応する構造を分析することで、研究者がタンパク質の構造を予測する方法を変革したんだ。これらのモデルは、同時に無数のタンパク質構造を予測できるから、科学者はタンパク質の構造とその機能の関係を研究できるようになったんだ。

例えば、AlphaFold 2は既存のタンパク質データから学んで、正確な予測を行うんだ。実験を通じて決定されたタンパク質構造の特徴を理解するために、複数の配列アラインメントを使って配列情報に依存しているんだ。また、ESMFoldは別の進んだモデルで、アラインメントなしでタンパク質配列に基づいた言語モデルを使うから、配列がうまく整列していない場合でも予測ができるんだ。

RNA構造予測:難しい課題

RNAもタンパク質と同じように、細胞内で遺伝子発現や触媒作用など重要な役割を果たしているけれど、その構造を予測するのは複雑なんだ。データベースが限られていて、RNAの折りたたみが複雑なため、RNA構造予測の精度と信頼性はタンパク質に比べてまだまだなんだ。

RNAモデリングの主な課題は、ディープラーニングモデルを効果的に訓練するために必要な包括的な配列と構造のデータベースが不足していることなんだ。RfamやSILVAみたいな既存のリソースは一部のRNAデータを提供しているけど、豊富なタンパク質データベースには及ばないんだ。さらに、利用可能なRNAデータベースは特定のRNAタイプ、たとえばリボソームRNAに偏りがちで、モデルの訓練に必要な多様性が制限されるんだ。

現在のRNAデータベースの限界

現在のRNAデータベースには、ディープラーニングモデルの効果的な訓練に十分な高品質の配列や構造が含まれていないことが多いんだ。たとえば、Rfamは限られた数のRNAファミリーしか含んでいなくて、ほとんどの配列は数種の生物から得られたものなんだ。さらに、これらのデータベースは古くなっていたり、もはや管理されていないこともあるんだ。

ゲノム分類データベース(GTDB)は、こうした問題の一部に対処していて、細菌や古細菌の標準化された分類法を持っていて、研究者がアクセスできる豊富な配列が含まれているんだ。GTDBは多くの未培養微生物も含んでいるから、RNA配列の多様性が広がるんだ。

GTDBを利用したRNA配列データベースの構築

RNA構造予測を改善するために、研究者たちはGTDBを利用してより包括的なRNA配列データベースを作り始めたんだ。GTDBのゲノムを検索することで、科学者たちはRNA配列を集めて、アラインメントができるだけ多様になるようにしているんだ。この取り組みは、RNA構造予測のためのより正確で効果的なディープラーニングモデルの開発に不可欠なんだ。

最近のプロジェクトでは、GARNETという新しいRNAデータベースが構築されたんだ。このデータベースはGTDBゲノムから抽出したRNA配列と、これらの生物の最適な成長温度に関する追加データを組み合わせたものなんだ。目的は、RNA配列とその機能的特性を結びつけることで、RNAモデリングや工学の新しい道を開くことなんだ。

RNA構造予測のための機械学習モデル

GARNETデータベースが確立されたことで、研究者たちはRNA構造予測のために2種類の機械学習モデルを開発したんだ。一つはグラフニューラルネットワーク(GNN)で、RNAの折りたたみを予測するために構造情報を使うんだ。もう一つは言語モデル(LM)で、RNA配列をパターンを認識する形で処理するんだ、つまり言語が機能するのと似てるんだ。

GNNモデルはRNAの構造的特徴を利用して、各塩基がノードに対応するグラフを作るんだ。このアプローチにより、モデルはトレーニングプロセス中に塩基間の関係を考慮できるようになり、予測の精度が向上するんだ。一方で、LMは構造情報なしで配列パターンを直接学習するように設計されているから、さまざまなRNAタイプの予測に対してより柔軟なんだ。

リボソームの安定性と機能の予測

RNA構造予測の重要な応用の一つがリボソームで、タンパク質合成に欠かせない存在なんだ。研究者たちは、リボソームの機能を拡大するために非標準的な構成要素をタンパク質に組み込むことを目指してるんだ。でも、リボソームRNAを変えると組立の問題が起きて、リボソームの活性が低下することがあるんだ。

これらの課題を克服するために、研究者たちは23S rRNAという特定のリボソームRNAに注目してるんだ。新たに開発された機械学習モデルを使えば、E. coliのリボソームの安定性を高める可能性のある変異を特定できるから、高温条件下での耐久性を高めるのが目標なんだ。特定の塩基の変化を見つけ出して、リボソームの機能を改善できるかもしれないんだ。

予測の実験的検証

GNNとLMモデルを使って可能性のある変異を特定した後、研究者たちはその効果をテストするための実験を行ったんだ。E. coliの23S rRNAを変異させた後、熱ストレス下でリボソームの性能を評価することで、予測された変化が安定性を改善するかどうかを確認できたんだ。

実験を行う中で、研究者たちは修飾されたリボソームを精製し、温度が上昇した条件で試験したんだ。リボソームの活性を測定することで、変異が期待される利益を提供したかどうかを判断できたんだ。

機械学習モデルからのインサイト

これらの研究から得られた結果は、ディープラーニングフレームワークを使用することでRNAの構造や機能に関する新しい知見が得られることを示しているんだ。モデルは、従来の自然RNA配列分析では考慮されなかったかもしれない変異を成功裏に特定したんだ。

これは、RNA工学において成功を収めるために、計算アプローチと実験的方法を組み合わせることの重要性を強調してるんだ。機械学習を活用することで、膨大なデータセットから貴重な情報を抽出できて、特定の機能的特性を持つより効果的なRNA配列の設計を助けるんだ。

RNA工学の将来の展望

科学者たちがRNA構造予測と工学のアプローチを洗練させ続ける中で、未来の研究にはいくつかの新しい道があるんだ。GARNETデータベースを、特にあまり研究されていない生物からのより多くの配列で拡充することで、ディープラーニングモデルの訓練を強化できるんだ。

塩基の転写後修飾に関する情報など、追加のデータタイプを統合することで、RNAの安定性や機能に影響を与える要因についての深い知見が得られるかもしれないんだ。それに、RNAモデルとタンパク質モデルを組み合わせることができれば、リボソームRNAとリボソームタンパク質の相互作用を調査する新しい方法が見つかるかもしれないんだ。

現在のRNAデータベースの限界に対処し、RNA構造を予測するための方法論を改善することで、研究者たちはRNA工学の新しい能力を引き出すことができるんだ。これは、合成生物学から治療法まで、幅広い分野で深い影響を及ぼすことになるんだ。

結論

RNAとタンパク質の構造予測におけるディープラーニングの進展は、科学探求の新たな時代の始まりを示してるんだ。GARNETやGNN、LMのようなモデルを使えば、研究者たちはRNAやタンパク質の機能に関する理解を深めていけるんだ。安定性や性能を高めるための変異を特定し、工学することで、科学者たちはバイオテクノロジーや医学における革新的な応用のための基盤を築いているんだ。

大規模なデータセットと高度な機械学習技術を統合することは、未来の発見のための強力なツールを表しているんだ。これらの方法を洗練させ、データベースを拡充し続けることで、RNAやタンパク質の研究におけるブレークスルーの可能性はますます高まっていくんだ。研究者たちはこれらの進展を活用し、生命の分子メカニズムのより深い理解のための道を開こうとしているんだ。

オリジナルソース

タイトル: RNA language models predict mutations that improve RNA function

概要: Structured RNA lies at the heart of many central biological processes, from gene expression to catalysis. While advances in deep learning enable the prediction of accurate protein structural models, RNA structure prediction is not possible at present due to a lack of abundant high-quality reference data1. Furthermore, available sequence data are generally not associated with organismal phenotypes that could inform RNA function2-4. We created GARNET (Gtdb Acquired RNa with Environmental Temperatures), a new database for RNA structural and functional analysis anchored to the Genome Taxonomy Database (GTDB)5. GARNET links RNA sequences derived from GTDB genomes to experimental and predicted optimal growth temperatures of GTDB reference organisms. This enables construction of deep and diverse RNA sequence alignments to be used for machine learning. Using GARNET, we define the minimal requirements for a sequence- and structure-aware RNA generative model. We also develop a GPT-like language model for RNA in which overlapping triplet tokenization provides optimal encoding. Leveraging hyperthermophilic RNAs in GARNET and these RNA generative models, we identified mutations in ribosomal RNA that confer increased thermostability to the Escherichia coli ribosome. The GTDB- derived data and deep learning models presented here provide a foundation for understanding the connections between RNA sequence, structure, and function.

著者: Jamie H. D. Cate, Y. Shulgina, M. I. Trinidad, C. J. Langeberg, H. Nisonoff, S. Chithrananda, P. Skopintsev, A. J. Nissley, J. Patel, R. S. Boger, H. Shi, P. H. Yoon, E. E. Doherty, T. Pande, A. M. Iyer, J. A. Doudna

最終更新: 2024-09-16 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.04.05.588317

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.04.05.588317.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事

進化生物学マルチャントニアにおける遺伝子発現バイアスと遺伝的多様性

この研究は、リバーワートにおける遺伝子発現のバイアスと遺伝的多様性の関係を明らかにしている。

― 1 分で読む