機械学習で酵素予測を進化させる
新しいモデルが配列と大規模データセットを使って酵素のpHレベルを予測するんだ。
Gregg T Beckham, J. E. Gado, M. Knotts, A. Y. Shaw, D. Marks, N. P. Gauthier, C. Sander
― 1 分で読む
酵素は、生き物の中で化学反応を速める助けをするタンパク質だよ。周りの酸性度やアルカリ性によって、その働きが変わってくることがあって、pHが特定の範囲外だと効果が落ちることが多いんだ。ほとんどの酵素は中性のpH7あたりで一番良く働くけど、酸性の環境(pH1みたいな)やアルカリ性の環境(pH12.5まで)で生きる酵素もいるよ。いろんな産業の中で、酵素は理想的なpH以外で働くことが多いから、効果が下がっちゃってる。
そういう課題があるから、研究者たちは極端なpHレベルでも上手く働ける酵素を探したり作ったりすることに興味を持ってるんだ。一つのアプローチは、もともと極端なpH環境に生きる生物を調べること。彼らの遺伝子を研究することで、酸性やアルカリ性の条件に強い酵素を見つけられるかもしれないんだ。でも、こうやって見つけた酵素がいつも十分に機能するわけじゃない。代わりに、既存の酵素を調整して、サーフェスにくっつけたり化学的な変化を加えたりすることで、いろんなpHレベルでの性能を改善することもできる。
最近の技術の進歩のおかげで、機械学習を使って酵素が異なるpHレベルでどれだけ働くかを予測するのが簡単になったんだ。大量のデータを分析することで、酵素の構成要素であるアミノ酸の配列と様々なpH条件での効果の間のパターンを見つけることができる。いくつかの研究者は、コンピューターモデルを使ってこれらの関係を予測し始めたけど、この分野はまだモデルを効果的に訓練するためのデータが足りないんだ。
この研究では、さまざまな酵素の最適pHレベルとそれらの自然環境に関する情報を含む2つの新しいデータセットを作成したよ。これらのデータセットを使って、異なる機械学習モデルの訓練とテストを行って、予測を改善しようとしたんだ。私たちのベストモデルであるEpHodは、アミノ酸の配列から直接酵素の理想的な働きpHを予測するための高度な技術を使ってる。このモデルは、酵素の構造のどの部分がその活動にとって最も重要かを効果的に学んだことを示す、有望な結果を出したんだ。
データセットと訓練
最初に作ったデータセットには、9,855個の酵素とその最適pHレベルの情報が含まれてる。このデータセットは様々な生命形態を代表していて、いろんな種類の酵素がたくさん入ってるよ。データセットは3つの部分に分けたんだ:モデルの訓練用、検証用、テスト用。それで、テストセットを使って、モデルが見たことがない新しいデータでどれだけうまく機能するかを見ることができるんだ。
予測を強化するために、酵素の周囲の環境に焦点を当てた2つ目のデータセットも集めたよ。このデータセットは異なるpH条件に適応した細菌からの1.9百万個のタンパク質に関する情報で構成されている。特に分泌されたタンパク質を選んだのは、外部環境とやりとりするから、私たちの研究にはもっと関連性があるからなんだ。
まず環境データセットでモデルを訓練して、その後酵素データセットで微調整することで、最適pHレベルを予測する能力を向上させたいと思ったけど、データセット内のpH値の分布が不均衡だったのが課題だったよ。ほとんどのpH値が中性の周りに集まっていたから、モデルが極端な酸性やアルカリ性の酵素を予測するのがうまくいかないかもしれなかったんだ。
この不均衡を解決するために、各サンプルから学ぶモデルの学習方法を調整して、あまり一般的でない極端なpH値にもっと焦点を当てるようにしたよ。
機械学習モデルの開発
どの機械学習方法が酵素のpHレベルを最もよく予測できるかをテストしてみたよ。サポートベクター回帰やランダムフォレストといった古典的な方法や、ニューラルネットワークを使ったディープラーニング方法も試した。最適なアプローチを見つけるために、いろんなアーキテクチャや構成を探ったんだ。
具体的には、酵素の配列を表現するためにタンパク質言語モデル(PLM)からの埋め込みを使うことに注目したよ。この埋め込みは、タンパク質に関する詳細な情報をキャッチして、モデルが正確な予測をする能力を高めるんだ。私たちの最も成功したモデル、EpHodは、注意に基づくニューラルネットワークアプローチを使用して、酵素の構造の中でpH活性を決定するのに最も関連する特定の部分にもっと注目できるようになってる。
いろんなモデルを訓練した後、PLMの埋め込みを使ったものが、伝統的な特徴に依存したものよりもずっと優れていることが分かったよ。異なるモデルの予測を組み合わせてアンサンブルアプローチにすることで、さらなる精度と堅牢性を向上させることができたんだ。
パフォーマンス評価
モデルが効果的かどうかを確認するために、さまざまな指標を使ってパフォーマンスを評価したよ。予測した最適pHが、私たちのテストデータセットの実際の値とどれだけ一致しているかを測ったんだ。私たちのモデルEpHodは、特に酵素が訓練データセットのものと類似性が低いときでも、pHレベルをしっかり予測できてることが分かったよ。
さらに、モデルが異なる酵素クラスやpH条件でうまく一般化できるかを理解することも目指したんだ。異なる酵素カテゴリの結果を調べた結果、モデルが全てのクラスに対して一貫して正確な予測を提供することを確認したよ。これは幅広い応用ができることを示してるんだ。
構造的特徴の重要性
分析からの面白い発見の一つは、EpHodが酵素のpH予測に重要な構造的特徴をどれだけうまく捉えたかだよ。モデルは、異なるpH条件で酵素の活性と安定性に重要な特定のアミノ酸に注目することを学んでいったんだ。たとえば、酸性環境で機能する酵素は、その表面にネガティブに帯電した残基が多い傾向があって、それが安定さと活性を保つのに役立つんだ。
訓練プロセスの一環として、予測プロセス中に各残基がどれだけ注目を集めたかも測ったよ。この分析では、特に酵素の活性部位の近くにある残基がたくさん注目を集めていて、それが酵素の最適pHを決定するのに重要であることを示してるんだ。
さらに、溶媒のアクセス性が予測にどう影響するかも探ったよ。私たちのモデルは、活性部位に近くて露出度が高い残基に明確な好みを示していて、これは異なるpHレベルで酵素がどう機能するかに関する以前の科学的理解と一致してるんだ。
従来の方法との比較
EpHodの効果をさらに検証するために、既存の構造的および生物物理的予測方法とそのパフォーマンスを比較したよ。私たちのモデルは、他のアプローチよりも酸性とアルカリ性の酵素を区別するのが得意だってことが分かった。このことから、酵素のpHレベルを予測するための貴重なツールとしての地位を確立したんだ。
いくつかの代替手法はうまく機能することもあったけど、極端なpH値では苦労することが多かった。一方でEpHodは、全ての範囲にわたって高精度を維持できたんだ。私たちの発見は、他の方法も役に立つけれど、酵素の構造と機能の間の複雑な関係を私たちの機械学習アプローチほど効果的に取り入れることができないことを確認したよ。
実用的な応用
EpHodで得られた進展は、酵素の発見や工学に有望な意味を持ってる。研究者は、私たちのモデルを使って、大規模な配列データベースにある酵素の理想的なpHレベルを迅速に予測できるようになるんだ。この能力は、異なる環境での使用に適した酵素を特定するプロセスを効率化することができるよ。
さらに、科学者たちはEpHodを使ってターゲットミューテジェネシスをサポートすることができるよ。pH活性に影響を与える重要な残基を特定することで、研究者は極端な条件での酵素の性能を向上させるために特定の変異を設計することができるんだ。これはさまざまなpHレベルで効果的に機能する必要がある酵素のバイオエンジニアリングに特に有益だと思う。
もう一つの応用可能性は、既存のタンパク質設計フレームワークにEpHodを統合することだよ。予測を機械学習アプローチと組み合わせることで、研究者は特定のpH範囲で機能を改善した酵素の変異体を選択して洗練させることができるんだ。
最後に、EpHodの注意重みから得られた洞察は、酵素の機能や設計の理解を深める手助けになるかもしれない。どの残基が重要かを明らかにすることによって、研究者は新しい特性を持つタンパク質を設計する際にその分野に焦点を当てることができるようになるんだ。
結論
要するに、私たちの研究では、酵素の配列に基づいて最適pH値を予測する機械学習モデル、EpHodを成功裏に開発したよ。2つの広範なデータセットを使って、様々なモデルを訓練し、さまざまな酵素クラスや条件にわたるパフォーマンスと一般化を改善するためのベストなアプローチと技術を特定したんだ。
私たちの発見は、特にタンパク質研究の分野での機械学習の可能性を示していて、広範な実験データなしで優れた予測能力を提供することで従来の方法に挑戦している。モデルは、異なるpH条件下での酵素の挙動に関する現在の理解を進めるだけでなく、研究や産業応用の新しい道を開くんだ。
これからも、EpHodがその予測力と適応性で酵素の発見や工学に影響を与え続けることを期待してる。私たちの研究から得られた洞察は、合成生物学やバイオエンジニアリングの分野に大きく貢献し、さまざまな産業での酵素応用において革新をもたらす道を切り開くことになるんじゃないかな。
タイトル: Machine learning prediction of enzyme optimum pH
概要: The relationship between pH and enzyme catalytic activity, especially the optimal pH (pHopt) at which enzymes function, is critical for biotechnological applications. Hence, computational methods to predict pHopt will enhance enzyme discovery and design by facilitating accurate identification of enzymes that function optimally at specific pH levels, and by elucidating sequence-function relationships. In this study, we proposed and evaluated various machine-learning methods for predicting pHopt, conducting extensive hyperparameter optimization, and training over 11,000 model instances. Our results demonstrate that models utilizing language model embeddings markedly outperform other methods in predicting pHopt. We present EpHod, the best-performing model, to predict pHopt, making it publicly available to researchers. From sequence data, EpHod directly learns structural and biophysical features that relate to pHopt, including proximity of residues to the catalytic center and the accessibility of solvent molecules. Overall, EpHod presents a promising advancement in pHopt prediction and will potentially speed up the development of enzyme technologies.
著者: Gregg T Beckham, J. E. Gado, M. Knotts, A. Y. Shaw, D. Marks, N. P. Gauthier, C. Sander
最終更新: 2024-10-21 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2023.06.22.544776
ソースPDF: https://www.biorxiv.org/content/10.1101/2023.06.22.544776.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。