Simple Science

最先端の科学をわかりやすく解説

# 計量生物学# 生体分子

機械学習を使った凝固剤の特定の進展

この研究では、新しい凝固剤候補を見つけるための機械学習技術を探る。

― 1 分で読む


凝固剤の発見におけるAI凝固剤の発見におけるAIる。AIを使って新しい血液凝固の候補を見つけ
目次

新しい薬を見つけるのは簡単じゃないんだ。科学者たちは特定の問題、例えば病気に効果的で、副作用が少ない分子を探さなきゃいけない。これは重要で、最高の薬は体の悪い部分だけに影響を与え、良い部分はそのままにしておくから。

研究者たちがもっと多くの分子を研究することで、この情報を使って新しい薬を見つけるのを早くする役立つモデルを作れる。ただ、特定の分子についてあまりデータがないと、これらのモデルはうまく機能しないかもしれない。例えば、血液の凝固を止める分子はたくさんあるけど、逆に血液の凝固を助ける分子はずっと少ないんだ。

この記事では、機械学習という技術を使って血液の凝固を助ける新しい分子を見つける方法について話してる。この方法は、分子がどう見えたり振る舞ったりするかを表すために深層学習モデルを使ってるよ。

薬の発見プロセス

薬を作る旅は、まず病気の原因を特定することから始まる。その後、科学者たちは可能性のある薬の候補リストを作り、それをコンピュータモデルでチェックする。プロセス中には、各候補のいくつかの特性を分析して、実験室でテストする前に弱い候補を排除するんだ。このプロセスは時間と資源を節約するから、テストが高くつくことも考慮すると重要なんだ。

分子の構造や化学的な成分は、その特性、例えば液体にどれだけ溶けるかや融点に大きく影響を与える。この分子の構造と特性の関係は、定量的構造活性/特性関係(QSAR)として知られている。

機械学習は、ここ10年で薬の発見において人気が高まってる。これは、画像認識や言語処理などの他の分野での成功によるもの。さらに、薬の発見に利用できるデータ量がかなり増えたことで、よりデータ駆動型の解決策が可能になった。

薬剤設計における機械学習

薬剤設計における機械学習の最初の使用は1990年代にさかのぼる。生物学的特性は分子の化学構造に基づいて説明できるというアイデアがあった。

構造-特性の関係を使って、科学者たちは薬のポテンシャルや体内での振る舞い、吸収され方や広がり方、分解され方、毒性を推定できる。

薬がターゲットにどのくらい結合するかを予測するのは、最も大きな課題の一つ。分子の構造の多様性から、最適なものを見つけるのが難しく、従来の方法では時間がかかり、資源をたくさん使う。

いくつかの研究は、特定のタンパク質ターゲットへの薬の結合力を予測することに焦点を当てている。さまざまな機械学習の方法が利用されていて、サポートベクターマシンやランダムフォレスト、ニューラルネットワークなどがこの予測プロセスを強化している。

最近、一部の研究者たちは、異なるモデルが協力して精度を高めるための統合アプローチを使用することを検討している。

凝固因子に焦点を当てる

この研究では、特に血液が凝固するのを助ける物質である凝固因子を調査している。システムの重要な役割を果たすのが、肝臓で作られるタンパク質C。これは通常は不活性で、凝固を防ぐために機能するためには活性化が必要なんだ。

怪我が起こると、凝固カスケードと呼ばれるプロセスが始まり、血液の凝固を形成するのを助ける酵素トロンビンが生成される。トロンビンは二重の役割を果たし、凝固を促進するが、同時にタンパク質Cも活性化する。一旦活性化されると、タンパク質Cはもう一つのタンパク質、タンパク質Sと協力して、凝固プロセスに関与する特定の因子を抑制することで過剰な凝固を防ぐ。

タンパク質Cを抑制することに焦点を当てることで、凝固を増加させるバランスを保てる。

方法

この研究は、機械学習技術を利用して、新しい凝固因子の候補を提案する。特に既存の凝固因子に関するデータが少ない場合に有用だ。

最初に、現在の機械学習の応用が薬剤設計にどのように役立っているかを概観し、その後に凝固因子の詳細に入る。

基本的なアイデアは、機械学習モデルを使って異なる分子の「地図」を作成すること。これには、情報を圧縮するのを助けるオートエンコーダーと呼ばれるモデルを訓練したんだ。オートエンコーダーは2つの部分に分かれていて、エンコーダーが入力のサイズを小さくし、デコーダーが元に戻すんだ。

目的は、既知の抑制剤の構造を利用して新しいものを探す空間を作ること。既知の構造を少し変更することで、潜在的な新しい候補を作れるんだ。

詳細な方法論

このプロセスはいくつかのステップから成り立っている。最初に、SMILES表記を使ってオートエンコーダーを訓練する。これは分子構造をテキスト形式で表現する方法だ。さまざまな分子のデータを使って、オートエンコーダーはこれらの構造を効果的に表現する方法を学ぶ。

次に、異なる技術を使って新しい候補を生成する。例えば、既知の抑制剤の周りの空間を探索して、似たような他の構造を探したり、既存のものを組み合わせて新しい候補を作ったりする。

各候補は、良い薬の候補としての基準を満たしているかどうかを確認するために、さまざまなフィルターに基づいて評価される。これらのフィルターは、化合物が合成しやすいか、潜在的な毒性があるか、既知の成功した抑制剤に似ているかを考慮することがある。

データと訓練

オートエンコーダーの訓練データは、さまざまな分子構造を含む既存のデータベースから得られる。データをフィルタリングして、学習に役立たない変数を取り除くことで、モデルに最良の情報を与えるようにしている。

訓練中は、オートエンコーダーが入力を正確に再構築できるようにすることに重点を置いている。これは、見たことがある分子を効果的に表現できることを意味するんだ。

さらに、これらの新しい候補がターゲットタンパク質にどのくらい結合するかを予測するためのモデルも構築する。検証のために2段階のプロセスを実施し、最初に候補をアクティブまたは非アクティブとして分類し、その後に結合力の強さを予測する。

新しい候補の生成

モデルを開発した後、トロンビン抑制剤とタンパク質C抑制剤の両方の新しい候補を生成する。トロンビンに対しては、SMOTEという方法を使って、既知の例の間を補間することで多くの新しい候補分子構造を生成する。

タンパク質Cについては、同様のアプローチを採用するが、トロンビン抑制剤にあまり似ていない化合物を生成するように気をつけて、異なる候補のグループを作ることを目指す。

新しい分子を生成する際には、潜在的な薬の候補としての必要な基準を満たしていないものを排除するために追加のフィルターを適用する。

結果の評価

新しい候補が生成された後、その特性を分析する。トロンビンとタンパク質Cの両方について、新たに生成された候補のうちどれだけがモデルに基づいてアクティブであると予測されるかを見る。

リピンスキーフィルターなど、さまざまなデータフィルタリングの方法を使って、これらの候補が薬としてどれだけ効果を発揮するかを評価する。

その後、機械学習を使って化学化合物を生成する別の方法であるMegaMolBARTと結果を比較する。

結論

要するに、この研究では、データが限られた場合に機械学習がどのように新しい凝固因子を見つけるのを助けるかを検討している。オートエンコーダーの能力を活用することで、化学空間を探る構造的な方法を提供し、新しい薬の候補を生成できるんだ。

さまざまな技術を通じて、既知の抑制剤に焦点を当てながら、厳格なフィルタリングと検証の手段を遵守することで、凝固プロセスを強化する潜在的な新しい分子を見つけることができる。

このアプローチは、他のタンパク質や病気にも価値があり、薬の発見における柔軟性と可能性を示している。こうしたプロセスを通じて作られた化学地図を理解することで、将来的に効果的な薬の開発の新しい機会を開くかもしれない。

オリジナルソース

タイトル: Machine learning-assisted search for novel coagulants: when machine learning can be efficient even if data availability is low

概要: Design of new drugs is a challenging process: a candidate molecule should satisfy multiple conditions to act properly and make the least side-effect -- perfect candidates selectively attach to and influence only targets, leaving off-targets intact. The amount of experimental data about various properties of molecules constantly grows, promoting data-driven approaches. However, the applicability of typical predictive machine learning techniques can be substantially limited by a lack of experimental data about a particular target. For example, there are many known Thrombin inhibitors (acting as anticoagulants), but a very limited number of known Protein C inhibitors (coagulants). In this study, we present our approach to suggest new inhibitor candidates by building an effective representation of chemical space. For this aim, we developed a deep learning model -- autoencoder, trained on a large set of molecules in the SMILES format to map the chemical space. Further, we applied different sampling strategies to generate novel coagulant candidates. Symmetrically, we tested our approach on anticoagulant candidates, where we were able to predict their inhibition towards Thrombin. We also compare our approach with MegaMolBART -- another deep learning generative model, but exploiting similar principles of navigation in a chemical space.

著者: Andrij Rovenchak, Maksym Druchok

最終更新: 2024-01-03 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2401.01811

ソースPDF: https://arxiv.org/pdf/2401.01811

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

類似の記事