PPTstabでタンパク質の安定性予測を進めよう
新しいツールが高温でのタンパク質の安定性の予測を改善する。
― 1 分で読む
タンパク質はすべての生き物にとって重要な化合物だよ。体がうまく機能するのを助けて、多くの重要なプロセスに関わってる。タンパク質の大事な特徴の一つは熱安定性で、これは異なる温度でその構造と機能をどれだけ維持できるかってことなんだ。この安定性は融解温度(Tm)っていうもので測られてて、タンパク質が形と機能を失う温度を示してるんだ。
新薬の発見とかの分野では、タンパク質の融解温度を知ることがめっちゃ重要なんだよ。高温でも安定なタンパク質を予測できれば、医薬品の開発や医療研究など、いろんな用途に使えるんだ。でも、従来の熱安定性を測る方法は高価で複雑なんだ。
新しい方法の必要性
今の安定なタンパク質を見つける方法は、高い実験が必要で、一度にたくさんのタンパク質をテストするのが難しい。だから、コンピュータを使って配列に基づいて安定なタンパク質を予測する計算方法が強く求められてるんだ。これらの方法は、複雑な実験なしで大量のデータを分析できる必要があるんだ。
歴史的に、多くのコンピュータープログラムがタンパク質の融解温度を予測しようとしてきたけど、大抵のプログラムは似たようなタンパク質がいっぱい含まれたデータセットを使ってたから、異なるタンパク質の安定性を正確に予測するのが難しかったんだ。もっと多様なデータセットを使う新しい方法が必要なんだ。
データ収集と準備
より良い予測モデルを作るために、DeepSTABpっていう特定のソースからのデータセットを使ったんだ。このデータセットには35,000以上のタンパク質配列が含まれてる。データがユニークであることを確認するために、似たような配列をフィルタリングして、17,000以上のユニークなタンパク質を選んだ。このプロセスは、予測モデルがより一般化できて、異なるタンパク質に対して正確に機能するために重要なんだ。
データセットをフィルタリングするだけじゃなくて、研究者たちはそれを2つの部分に分けたんだ。一つは予測モデルのトレーニング用、もう一つはテスト用。この方法で、モデルは見たことのないタンパク質でテストされるから、パフォーマンスを評価するために重要なんだ。
タンパク質の特徴分析
タンパク質の熱安定性を予測する時には、いくつかの特徴を考慮することが重要なんだ。例えば、アミノ酸の組成-タンパク質の構成要素-はタンパク質がどれだけ安定かわからせる。特定の種類のアミノ酸は、高温に耐えられるタンパク質により頻繁に見られるかもしれない。
研究者たちは、安定なタンパク質とそうでないもののアミノ酸の組成を計算して、パターンを見つけた。レシン、アラニン、グリシン、グルタミン酸みたいな特定のアミノ酸が、高温に耐えられるタンパク質ではより頻繁に存在していることを発見したんだ。
機械学習アプローチ
データを集めて分析した後、さまざまな機械学習技術を使って頑丈な予測モデルを構築したんだ。機械学習はコンピュータがデータから学んで、パターンに基づいて予測できるようにするんだ。サポートベクター回帰や多層パーセプトロンなどの異なるアルゴリズムをデータセットに適用して、どのアプローチが一番良いかを見たんだ。
研究者たちは、アミノ酸配列を数値表現に変換する埋め込みという方法も使ったんだ。これにより、配列のコンテキストを捉えて、異なるアミノ酸同士の関係を強調する手助けをするんだ。
予測モデルの構築
この研究の大きな成果は、PPTstabっていうウェブベースのツールを開発したことだよ。このツールを使えば、ユーザーはタンパク質の配列を入力して、その融解温度の予測を受け取ることができるんだ。PPTstabのデザインは使いやすくて、タンパク質の安定性を予測したい人なら誰でもアクセスできるんだ。
PPTstabで使われている最高のモデルは、アミノ酸の組成やタンパク質配列から得られた埋め込みなど、さまざまな特徴を組み合わせてる。これらの要素をまとめることで、異なる環境でタンパク質の安定性について信頼できる予測ができるんだ。
テストと検証
モデルが構築された後、その効果をテストすることが重要だったんだ。研究者たちは交差検証っていう方法を使って、データセットをいくつかの部分に分けて、モデルをそれぞれテストしながら他の部分でトレーニングしたんだ。この方法は、モデルが信頼できて、見たことのないデータでもうまく機能することを保証するんだ。
テストの結果、モデルはかなり効果的で、融解温度の予測に高い精度を達成したことがわかった。ユーザーは、PPTstabが基づいているのが確かなデータと高度なアルゴリズムであることを知って、出された予測を信用できるんだ。
PPTstabの応用
PPTstabは、特にバイオテクノロジーや医療の分野で広い応用があるんだ。熱安定なタンパク質は、食品生産、製薬、医療研究など、いろんな産業で貴重なんだ。例えば、熱安定なタンパク質から得られる酵素は、料理や消毒みたいな熱を必要とするプロセスで使えるんだ。
さらに、これらのタンパク質は強力なワクチンや医薬品の開発にも重要な役割を果たすことができる。もっと多くの研究者や産業がPPTstabを採用するにつれて、熱安定なタンパク質を使って新しい解決策を生み出す可能性が大きく広がるんだ。
結論
PPTstabみたいな計算ツールの開発は、タンパク質の熱安定性を予測する上で大きな進歩を意味するんだ。多様なデータセットと進んだ機械学習技術を使って、高温に耐えられるタンパク質を特定するためのより効率的な方法を提供している。研究者たちが熱安定なタンパク質の応用を探求し続ける中で、PPTstabのようなツールは、さまざまな科学分野でのイノベーションを促進する手助けをするんだ。この研究から得られた知見は、タンパク質についての理解を深めるだけでなく、医療やバイオテクノロジーの未来の発見への道を開くことになるんだ。
タイトル: Designing of thermostable proteins with a desired melting temperature
概要: 1.The stability of proteins at higher temperatures is crucial for its functionality that is measured by their melting temperature (Tm). The Tm is the temperature at which 50% of the protein loses its native structure and activity. Existing methods for predicting Tm have two major limitations: first, they are often trained on redundant proteins, and second, they do not allow users to design proteins with the desired Tm. To address these limitations, we developed a regression method for predicting the Tm value of proteins using 17,312 non-redundant proteins, where no two proteins are more than 40% similar. We used 80% of the data for training and testing; remaining 20% of the data for validation. Initially, we developed a machine learning model using standard features from protein sequences. Our best model, developed using Shannon entropy for all residues, achieved the highest Pearson correlation of 0.80 with an R{superscript 2} of 0.63 between the predicted and actual Tm of proteins on the validation dataset. Next, we fine-tuned large language models (e.g., ProtBert, ProtGPT2, ProtT5) on our training dataset and generated embeddings. These embeddings have been used for developing machine learning models. Our best model, developed using ProtBert embeddings, achieved a maximum correlation of 0.89 with an R{superscript 2} of 0.80 on the validation dataset. Finally, we developed an ensemble method that combines standard protein features and embeddings. One of the aims of the study is to assist the scientific community in the design of targeted melting temperatures. We created a user-friendly web server and a python package for predicting and designing thermostable proteins. Our standalone software can be used to screen thermostable proteins in genomes and metagenomes. We demonstrated the application of PPTstab in identifying thermostable proteins in different organisms from their genomes, the model and data is available at: https://webs.iiitd.edu.in/raghava/pptstab. HighlightsO_LIPrediction of melting temperature (Tm) on non-redundant proteins C_LIO_LIMachine learning models based on sequence composition and ProtBert embeddings C_LIO_LIA Webserver for predicting Tm and designing thermostable proteins C_LI
著者: Gajendra P.S. Raghava, P. Tijare, N. Kumar
最終更新: 2024-09-24 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.09.21.614294
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.09.21.614294.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。