Simple Science

最先端の科学をわかりやすく解説

# 計量生物学# 機械学習# 生体分子

機械学習による薬の発見の進展

機械学習の方法は、大規模な化合物ライブラリから新しい薬剤候補を特定する効率を向上させる。

― 1 分で読む


薬の発見における機械学習薬の発見における機械学習新しい方法が薬候補の特定効率を向上させる
目次

新薬発見では、新しい薬を見つけるために大量の化合物をスクリーニングすることから始まるんだ。このプロセスでは、どの薬が効果的かを調べるために多くの候補薬を試すんだ。化合物をスクリーニングするための重要な方法の一つがバーチャルスクリーニング。これにより、研究者は癌やアルツハイマー病などの病気に関連するターゲットタンパク質にうまく結合する可能性のある化合物を見つけることができるんだ。バーチャルスクリーニングは、従来の実験に比べて時間と資源を大幅に節約できる。

大規模化合物ライブラリの課題

利用可能な化合物の数が劇的に増えたため、スクリーニングの課題も増えてる。最近では、化合物のデータベースが何百万から何十億の選択肢に拡大したんだ。こんな大規模になると、標準的な方法で個々の化合物を試すのは非現実的で、遅くて多くの計算パワーが必要になる。

例えば、ある有名な化合物のデータベースは2015年には1億2000万から2020年には10億以上に成長した。この増加により、研究者は膨大なライブラリの中から有望な薬の候補を見つけるために、より効率的な方法を見つける必要があるんだ。

新しいアプローチ:アクティブラーニングと機械学習

この課題に対処するために、研究者たちはアクティブラーニングや機械学習のような高度な方法に頼っているんだ。これらの技術を使うことで、評価する必要のある化合物の数を賢く減らしつつ、最も有望な候補を見つけることができる。

アクティブラーニングは、モデルがすでに見たデータから学び、それをもとに次に評価する新しいデータポイント(または化合物)を決定するプロセスなんだ。これにより、すべての選択肢を徹底的に試すことなく、成功する可能性の高い化合物にリソースを集中させることができる。

グラフニューラルネットワークやトランスフォーマーベースのモデルなどの機械学習モデルは、どの化合物が効果的であるかを予測するのに有望な結果を示している。これらのモデルは、すでにテストされた少数の化合物を分析し、その情報を使って追加の化合物を選定するのをガイドする。

より良い予測のためのモデルの事前学習

薬の発見に機械学習を使う上で重要なステップの一つがモデルの事前学習。事前学習は、大規模なデータセットでモデルを教えることで、新しい化合物の特性を予測するためのパターンや関係性を学ばせるんだ。

例えば、トランスフォーマーモデルはSMILESというフォーマットで表された化学構造の大規模なコレクションを使って事前学習できる。この準備により、モデルは化学的特性の理解を深め、スクリーニングプロセス中の予測がより正確になるんだ。

新しい方法のテスト

研究者たちは、非常に大規模なライブラリから潜在的な薬の候補を特定するために、異なる機械学習モデルの効果をテストしてきた。ある研究では、MoLFormerというトランスフォーマーベースのモデルと、MolCLRというグラフニューラルネットワークの二種類の事前学習モデルが評価された。

これらのモデルは、MolPALというフレームワークの中で使われ、モデルによって行われた予測に基づいてどの化合物を評価するかを選択する方法も含まれていた。このフレームワークを使うことで、研究者たちは小規模および大規模な化合物ライブラリ内でどれだけ成功した薬の候補を特定できるかを調べることができた。

テスト結果

これらのモデルのテスト結果は良好だった。小規模な化合物コレクションでは、MoLFormerが以前は最高の選択肢とされていたD-MPNNを常に上回っていた。

さらに、99.5百万の化合物を含む大規模なデータベースでもテストされ、再度、MoLFormerとMolCLRはD-MPNNに比べて最良の化合物をより高い割合で取得する能力を示した。

特に、アクティブラーニングを使うことで、研究者はライブラリ内の全化合物のほんの一部のみを効率的にスクリーニングしながら、多くのトップ候補を特定できたんだ。使用する化合物のバッチを小さくすることで、成功する候補の全体的な取得率が向上することが分かった。

取得関数:貪欲法 vs UCB

アクティブラーニングのフレームワークの一環として、研究者たちは次にテストすべき化合物を決めるために異なる戦略や「取得関数」を使用した。主に評価されたのは、貪欲法と上限信頼境界(UCB)戦略の二種類。

貪欲法は予測スコアが最も高いバッチを選択する一方、UCB戦略は予測スコアとその予測に関連する不確実性の両方を考慮する。貪欲法は多くのケースでうまく機能したけど、研究者たちはUCB戦略が特に選択された化合物の多様性を確保する上でより良い結果をもたらすことがあると分かった。

さらに、研究者たちは不確実性に関連するパラメータの調整が、異なる高スコアの候補を取得するモデルの効果をさらに高められることにも気づいた。

リガンドベースの薬剤設計への適用

構造ベースの薬剤発見に加えて、化合物がターゲットタンパク質にどのようにフィットするかに注目するのではなく、研究されている方法はリガンドベースの薬剤設計にも適用できる。このアプローチは、既知の成功した薬に似た化合物を特定することに依存していて、そういう化合物も効果的である可能性があることを示唆してる。

リガンドベースの設計で使われるツールの一つがROCSで、異なる化合物の形状の類似性を測定するんだ。研究者たちは、事前学習モデルが大規模ライブラリ内でどれだけ類似した化合物を特定できるかを評価するために、この方法論を拡張した。

結果として、MoLFormerは形状の類似性に基づいて最も有望な化合物を取得する能力で他のモデルを上回った。UCB戦略を使用する利点もこの文脈で明らかになり、高い取得率とパフォーマンスの安定性が得られた。

結論

機械学習とアクティブラーニングの進展が、より効率的な薬剤発見プロセスの道を切り開いている。MoLFormerやMolCLRのような事前学習モデルを活用することで、研究者は膨大な化合物ライブラリから潜在的な薬の候補を特定する能力を大幅に改善できるんだ。

初期の発見は、これらのモデルが単により良い予測を提供するだけでなく、薬剤発見の全体的な効率も向上させ、数十億の化合物の中から最も有望な候補を見つけることを可能にすることを示してる。

薬の発見が進化し続ける中で、機械学習技術の統合は、新しい薬をより迅速かつ効果的に開発しようとする研究者にとって必要なツールになるだろうね。

オリジナルソース

タイトル: Large-scale Pretraining Improves Sample Efficiency of Active Learning based Molecule Virtual Screening

概要: Virtual screening of large compound libraries to identify potential hit candidates is one of the earliest steps in drug discovery. As the size of commercially available compound collections grows exponentially to the scale of billions, brute-force virtual screening using traditional tools such as docking becomes infeasible in terms of time and computational resources. Active learning and Bayesian optimization has recently been proven as effective methods of narrowing down the search space. An essential component in those methods is a surrogate machine learning model that is trained with a small subset of the library to predict the desired properties of compounds. Accurate model can achieve high sample efficiency by finding the most promising compounds with only a fraction of the whole library being virtually screened. In this study, we examined the performance of pretrained transformer-based language model and graph neural network in Bayesian optimization active learning framework. The best pretrained models identifies 58.97% of the top-50000 by docking score after screening only 0.6% of an ultra-large library containing 99.5 million compounds, improving 8% over previous state-of-the-art baseline. Through extensive benchmarks, we show that the superior performance of pretrained models persists in both structure-based and ligand-based drug discovery. Such model can serve as a boost to the accuracy and sample efficiency of active learning based molecule virtual screening.

著者: Zhonglin Cao, Simone Sciabola, Ye Wang

最終更新: 2023-09-20 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2309.11687

ソースPDF: https://arxiv.org/pdf/2309.11687

ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事