予測手法の向上による薬剤発見の進展
新しい戦略が薬の化合物の効果を予測する精度を高めてるよ。
― 1 分で読む
最近、材料がどう振る舞うかを予測するためのコンピュータの使い方がたくさん改善されてる。これらの進展は、薬の発見にも使えるかもって注目されてる。薬の発見って新しい薬を見つけるプロセスのことで、化合物(薬の成分)がどう作用するかを予測する方法がちゃんとテストされることが大事なんだ。
予測の検証の重要性
科学者が化合物の効果を予測するモデルを作るとき、実際の状況でちゃんと機能するか確認する必要がある。つまり、モデルはまだテストされてない化合物の特性を正確に予測できるべきなんだ。よくあるのは、モデルが以前見た情報だけでテストされるせいで、予測がうまくいかないことがある。これが研究結果と実際にうまくいくものとの間にギャップを生むことがある。
この問題は薬の発見において特に深刻で、まだ探索されていない小さな分子が無限にあるから、新しい化合物が効果的な薬になるかの予測が難しいんだ。
従来のテスト方法
大体、研究者はデータをランダムにトレーニンググループとテストグループに分けてモデルを評価する。しかし、この方法には限界があって、テストグループの化合物がトレーニンググループのと似すぎていることがある。これを解決するために、研究者は化合物の化学構造に注目してデータを分ける新しい方法を提案してる。でも、これらの新しい方法もまだ改善の余地がある。
材料科学から学ぶ
材料科学では、モデルのテストプロセスがもっと確立されている。彼らは予測を効果的に検証する方法を持っていて、これが薬の発見にどうアプローチするかに役立つことがある。材料科学では、特定の特性を持った材料を探すことが多い。薬の発見でも、研究者は過去にテストされた化合物のデータに基づいて、どの化合物が効果的な薬になるかを知りたがってる。
薬の発見の新しい戦略
薬の発見における予測を改善するために、検討すべき3つの新しい方法がある:
ソートステップフォワード交差検証:この方法では、テスト中に化合物をその特性によって整理する。これにより、特定の特徴を持つ化合物に対するモデルのパフォーマンスをよりよく評価できる。
発見率:これは、予測された化合物の中で実際に効果的な薬になる可能性があるものの数を測る。モデルが正しい特性を持つ化合物を特定しているかどうかを確認するのに役立つ。
新規性エラー:このメトリックは、モデルがトレーニングに使った化合物とは異なる化合物について正確に予測できるかを理解する手助けになる。
化合物の最適化
薬の発見では、化合物のいくつかの特性を一度に調整することが多い。例えば、重要な特性の一つはlogPで、これは化合物が脂肪に溶けるか水に溶けるかを示す。適度なlogP値を持つ化合物が薬の開発には最適で、効果を持つための特性のバランスをとりつつ、毒性のような問題を避けることができる。
新しい戦略のテスト
これらの新しい方法を実践するために、研究者たちは特定の病気に関連するタンパク質をターゲットにした化合物グループにソートステップフォワード交差検証アプローチを適用した。化合物をその特性によって整理することで、効果的で安全な化合物をよりよく予測できるようになったんだ。
研究者たちは、理想的な特性を持つ化合物が新しい方法を使うことでより正確に予測される傾向があることに気づいた。特に、それらの化合物がトレーニングに使ったものとは構造的に異なる場合に特によく当てはまった。
外挿の課題
これらの新しい方法を使っていると、非常に低いまたは高い活性レベルを持つ化合物がどのように機能するかを予測するのは難しいことを発見した。実際、新しい方法はこれらの極端な化合物を予測する際にエラー率が高くなることがあって、さまざまな条件に適応できるモデルが必要だと示している。
発見率と新規性エラーの役割
発見率-識別された化合物が本当に効果的であることを示す割合-は一般的に高かったため、モデルが開発に有望な候補を効果的に見つけられることを示唆している。けれども、ランダム交差検証のような一部の方法は、トレーニングデータに似たデータセットを作成する傾向があり、予測を容易にするけど、誤解を招く可能性がある。
新規性エラー-モデルが見たことのない化合物に対する予測の正確さを見て-は、ソートステップフォワード交差検証を使用したときに低く保たれていた。この一貫性は、この方法が新しい化合物の予測におけるエラーを減らすのに効果的であることを示唆している。
今後の方向性
今後、研究者たちはソートステップフォワード交差検証を、化合物がタンパク質とどのように相互作用するかを測定するような他のデータタイプにも拡張できると提案している。これらのデータの種類が薬の発見にどのように役立つかは探求することがたくさんある。
結論
要するに、材料科学から学んだ教訓を薬の発見に適用することは、この分野での予測の検証を改善する可能性がある。特にソートステップフォワード交差検証の新しい検証方法は、化合物が実際の状況でどう機能するかのよりリアルな表現を提供する。従来の方法から離れることで、研究者たちは薬の開発の実際のニーズに合わせたテストプロセスをよりよく調整できて、より有用で効果的な予測ができるようになる。これらの進展は、最終的により良い薬の候補や健康の改善につながるかもしれない。
タイトル: Step Forward Cross Validation for Bioactivity Prediction: Out of Distribution Validation in Drug Discovery
概要: Recent advances in machine learning methods for materials science have significantly enhanced accurate predictions of the properties of novel materials. Here, we explore whether these advances can be adapted to drug discovery by addressing the problem of prospective validation - the assessment of the performance of a method on out-of-distribution data. First, we tested whether k-fold n-step forward cross-validation could improve the accuracy of out-of-distribution small molecule bioactivity predictions. We found that it is more helpful than conventional random split cross-validation in describing the accuracy of a model in real-world drug discovery settings. We also analyzed discovery yield and novelty error, finding that these two metrics provide an understanding of the applicability domain of models and an assessment of their ability to predict molecules with desirable bioactivity compared to other small molecules. Based on these results, we recommend incorporating a k-fold n-step forward cross-validation and these metrics when building state-of-the-art models for bioactivity prediction in drug discovery.
著者: Srijit Seal, U. S. Saha, M. Vendruscolo, A. E. Carpenter, S. Singh, A. Bender
最終更新: 2024-07-04 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.07.02.601740
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.07.02.601740.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。