Espalomaを使った分子シミュレーションの進展
Espalomaは、分子シミュレーションと薬の発見を改善するために機械学習を導入した。
― 1 分で読む
分子力学は、分子の挙動や相互作用をシミュレーションを通じて研究することを含む。この分野では、力場が重要なんだ。力場は、原子や分子がどのように相互作用し、動くかを説明するルールを提供する。これまで、科学者たちは力場を使ってタンパク質や薬、その他の生物学的システムを理解してきた。
でも、従来の方法では、専門家が原子をその種類や相互作用に基づいてどうグループ化するかを決める必要があって、柔軟性がなくて、すべての化学環境をカバーできるわけじゃない。だから、研究者たちは分子シミュレーションの精度と効率を改善できる新しいアプローチを探してるんだ。
より良い力場の必要性
化学環境の変動性は、これらの力場にとっての課題なんだ。異なる分子が互いに相互作用するとき、特に複雑な生物学的システムでは予期しない挙動をすることがある。例えば、小さい薬分子がタンパク質に結合する方法は、その形状や電荷、他の分子の存在など多くの要因に依存することがある。
従来の力場を作る方法は、原子をタイプに分類して、そのタイプに基づいてパラメータを割り当てることなんだけど、似たような原子が同じように扱われる問題が出てくることがある。さらに、より詳細なシミュレーションが求められる中、すべてのバリエーションを処理できるだけの原子タイプを作るのは大変な作業になる。
機械学習を使った新しいアプローチ
そこで、研究者たちは機械学習技術に目を向けたんだ。特に有望なアプローチは、ニューラルネットワーク、具体的にはグラフニューラルネットワーク(GNN)を使うこと。これらのネットワークは、化学構造から直接学ぶことができて、従来の人間の専門家が設定したルールに依存しないんだ。
機械学習を使うと、実際のデータに基づいてパラメータを調整できる、より柔軟なシステムが可能になる。これによって、新しいタイプの分子や相互作用を毎回ゼロから始めることなく含められるんだ。
Espaloma力場
Espalomaは、機械学習ツールを使って開発された新しい力場なんだ。これは、タンパク質や小さな薬分子など、さまざまなタイプの分子のための力場を作るプロセスを簡素化することを目指してる。この力場は、化学データからエネルギーと力をフィッティングすることで、シミュレーションの精度を向上させてる。
この力場は、3段階のプロセスで機能する:
- グラフ表現:分子をグラフとして表現し、原子をノード、結合をエッジとする。GNNはこの情報を処理して、分子環境をよりよく理解する。
- 特徴生成:GNNは、原子、結合、角度の重要な特徴を捉えた連続的な表現を生成する。
- パラメータ予測:最後に、これらの特徴がニューラルネットワークに入力され、力場に必要なパラメータを予測する。
この方法は、さまざまな化学シナリオに適応できる正確な力場を迅速に開発することを可能にする。
Espalomaの性能
Espaloma力場の性能は、従来の力場と比較されて、期待できる結果を示している。これは、分子システム内のエネルギーと力を正確に予測することができて、シミュレーション中の分子の相互作用を理解するために重要なんだ。
研究者たちは、Espalomaモデルをトレーニングするためのさまざまな小さな分子、タンパク質、核酸を含む大規模なデータセットを収集してる。このデータセットは、モデルが様々なタイプの分子でうまく一般化できるようにするのに役立ってる。
薬の発見への応用
Espaloma力場の最もエキサイティングな応用の一つは、薬の発見にある。薬の発見は、生物学的ターゲット、例えばタンパク質と相互作用できる新しい分子を設計しテストすることを含む。正確なシミュレーションは、潜在的な薬がターゲットにどれほど良く結合するか、その効果を予測するのに役立つ。
Espaloma力場を使うことで、研究者たちは、タンパク質-リガンドの結合自由エネルギーを信頼性高く予測できることがわかった。これは薬の効果に直接影響を与える。モデルは既存の化学データから迅速に学ぶ能力を持っているので、研究者たちは新しい薬の候補をより効率的かつ低コストでテストできる。
従来の方法との比較
Espalomaと古い力場を比較すると、改善点は明らかだ。従来の方法では、かなりの手動調整や広範な専門知識が必要なんだけど、Espalomaは計算能力と最新の機械学習技術を活用して、さまざまな分子タイプに合わせてパラメータを適応的にフィットさせる。これにより、多様な化学環境でより一貫した結果が得られる。
確立された力場は、長年にわたって多くのシミュレーションの基盤となってきたけど、Espalomaのような機械学習モデルへの移行は、分野における大きなシフトを表している。これらの先進的な方法は、精度の向上だけでなく、研究者がシミュレーションを設定する時間を短縮する、より効率的なシミュレーションプロセスを約束している。
今後の方向性
研究者がEspaloma力場をさらに洗練させていく中で、いくつかの将来の方向性が考えられる。実験データと量子化学データを統合することで、力場の予測能力を向上させることができる。つまり、より多くのデータが利用可能になるにつれて、モデルが適応して予測をさらに改善できるってわけ。
さらに、データセットを広げて、より多様な化学空間を含めることで、より広範囲な生物学的質問に対処できる頑丈な力場を構築するのに役立つ。これが最終的には、薬の設計や複雑な生物学的システムの理解において大きなブレークスルーにつながるかもしれない。
結論
Espaloma力場の開発は、分子力学やシミュレーションの分野における機械学習の可能性を示している。従来の、しばしば硬直した方法から離れることで、科学コミュニティは分子の相互作用の複雑な世界を探求するための、より柔軟で正確なツールを作れるようになる。
その適応性と効率性を持って、Espaloma力場は研究者が分子シミュレーションに取り組む方法を革命化する可能性がある。薬の発見や生物学的プロセスの理解において、エキサイティングな可能性を提供する。グラフニューラルネットワークのような先進技術を力場の開発に取り入れることで、計算化学や分子モデリングにおける重要な一歩を代表している。
タイトル: Machine-learned molecular mechanics force field for the simulation of protein-ligand systems and beyond
概要: The development of reliable and extensible molecular mechanics (MM) force fields -- fast, empirical models characterizing the potential energy surface of molecular systems -- is indispensable for biomolecular simulation and computer-aided drug design. Here, we introduce a generalized and extensible machine-learned MM force field, \texttt{espaloma-0.3}, and an end-to-end differentiable framework using graph neural networks to overcome the limitations of traditional rule-based methods. Trained in a single GPU-day to fit a large and diverse quantum chemical dataset of over 1.1M energy and force calculations, \texttt{espaloma-0.3} reproduces quantum chemical energetic properties of chemical domains highly relevant to drug discovery, including small molecules, peptides, and nucleic acids. Moreover, this force field maintains the quantum chemical energy-minimized geometries of small molecules and preserves the condensed phase properties of peptides, self-consistently parametrizing proteins and ligands to produce stable simulations leading to highly accurate predictions of binding free energies. This methodology demonstrates significant promise as a path forward for systematically building more accurate force fields that are easily extensible to new chemical domains of interest.
著者: Kenichiro Takaba, Iván Pulido, Pavan Kumar Behara, Chapin E. Cavender, Anika J. Friedman, Michael M. Henry, Hugo MacDermott Opeskin, Christopher R. Iacovella, Arnav M. Nagle, Alexander Matthew Payne, Michael R. Shirts, David L. Mobley, John D. Chodera, Yuanqing Wang
最終更新: 2023-12-08 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2307.07085
ソースPDF: https://arxiv.org/pdf/2307.07085
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://github.com/choderalab/pl-benchmark-espaloma-experiment
- https://github.com/kntkb/openmmforcefields/tree/6d2c3dcd33d9800a32032d28b6b2dca92f348a43
- https://github.com/kntkb/perses/tree/0d069fc1cf31b8cce1ae7a1482c3fa46bc1382d2
- https://github.com/kntkb/cinnabar/tree/de7bc6623fb25d75848aa1c9f538b77cd02a4b01
- https://github.com/choderalab/download-qca-datasets
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2021-11-08-QMDataset-pubchem-set1-single-points
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2021-11-08-QMDataset-pubchem-set2-single-points
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2021-11-09-QMDataset-pubchem-set3-single-points
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2021-11-09-QMDataset-pubchem-set4-single-points
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2021-11-09-QMDataset-pubchem-set5-single-points
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2021-11-09-QMDataset-pubchem-set6-single-points
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2021-11-15-QMDataset-DES-monomers-single-points
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2020-03-20-OpenFF-Gen-2-Optimization-Set-1-Roche
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2020-03-20-OpenFF-Gen-2-Optimization-Set-2-Coverage
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2020-03-20-OpenFF-Gen-2-Optimization-Set-3-Pfizer-Discrepancy
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2020-03-20-OpenFF-Gen-2-Optimization-Set-4-eMolecules-Discrepancy
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2020-03-20-OpenFF-Gen-2-Optimization-Set-5-Bayer
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2020-03-12-OpenFF-Gen-2-Torsion-Set-1-Roche
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2020-03-23-OpenFF-Gen-2-Torsion-Set-1-Roche-2
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2020-03-12-OpenFF-Gen-2-Torsion-Set-2-Coverage
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2020-03-23-OpenFF-Gen-2-Torsion-Set-2-Coverage-2
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2020-03-12-OpenFF-Gen-2-Torsion-Set-3-Pfizer-Discrepancy
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2020-03-23-OpenFF-Gen-2-Torsion-Set-3-Pfizer-Discrepancy-2
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2020-03-12-OpenFF-Gen-2-Torsion-Set-4-eMolecules-Discrepancy
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2020-03-23-OpenFF-Gen-2-Torsion-Set-4-eMolecules-Discrepancy-2
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2020-03-12-OpenFF-Gen-2-Torsion-Set-5-Bayer
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2020-03-26-OpenFF-Gen-2-Torsion-Set-5-Bayer-2
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2020-03-12-OpenFF-Gen-2-Torsion-Set-6-supplemental
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2020-03-26-OpenFF-Gen-2-Torsion-Set-6-supplemental-2
- https://pubs.acs.org/doi/10.1021/acs.jctc.3c00039
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2021-11-08-QMDataset-Dipeptide-single-points
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2020-10-26-PEPCONF-Optimization
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2021-11-18-OpenFF-Protein-Dipeptide-2D-TorsionDrive
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2022-02-10-OpenFF-Protein-Capped-1-mer-Sidechains
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2022-05-30-OpenFF-Protein-Capped-3-mer-Backbones
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2023-02-06-OpenFF-Protein-Capped-3-mer-Omega
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2022-07-07-RNA-basepair-triplebase-single-points
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2022-10-21-RNA-trinucleotide-single-points
- https://github.com/openforcefield/qca-dataset-submission/tree/master/submissions/2023-03-09-RNA-nucleoside-single-points
- https://github.com/choderalab/espaloma-0.3.0-manuscript
- https://github.com/choderalab/espaloma/tree/4c6155b72d00ce0190b3cb551e7e59f0adc33a56
- https://github.com/kntkb/protein-ligand-benchmark-custom
- https://github.com/openforcefield/protein-ligand-benchmark/tree/d3387602bbeb0167abf00dfb81753d8936775dd2
- https://github.com/choderalab/refit-espaloma
- https://orcid.org/0000-0002-2481-8830
- https://orcid.org/0000-0002-7178-8136
- https://orcid.org/0000-0002-3870-9993
- https://orcid.org/0000-0002-7393-7457
- https://orcid.org/0000-0003-0542-119X
- https://orcid.org/0000-0003-4403-2015
- https://github.com/choderalab/espaloma
- https://choderalab.org/funding
- https://arxiv.org/licenses/nonexclusive-distrib/1.0/