AIとドラッグディスカバリー:新しいアプローチ
AIは新しい薬の発見方法を変えていて、特にがん治療に焦点を当ててるよ。
― 1 分で読む
目次
最近、薬を見つける方法において大きな進歩があったよ。主な方法はターゲット薬剤発見(TDD)って呼ばれていて、これは特定の病気に関連する体の部分と相互作用する特定の分子を探すことに焦点を当ててるんだ。病気を分子レベルで理解することで機能するんだ。ただ、フェノタイプ薬剤発見(PDD)って別の方法が人気になってきてる。PDDは、特定のターゲットに焦点を当てるんじゃなくて、治療がどれくらい効くかを示す身体的特徴の変化を見るんだ。これによって、未知のメカニズムで効く新しい薬の選択肢を見つけることができるんだ。
PDDは、単独でうまく機能する薬が、生きた細胞環境では同じようには効かないことを認識しているんだ。孤立したテストでうまくいった分子が、実際の細胞環境では同じ効果を示さないことが多いんだ、例えば分子とターゲットが細胞の同じエリアにいないなんて理由があるからね。
TDDもPDDも、高スループットスクリーニング(HTS)が重要な役割を果たしてる。HTSは、研究者が異なる化合物を迅速に、時には何百万もテストできるようにする。でも、利用可能な化学物質の数がものすごく増えると、HTSは実際的な解決策にならなくなる。がんのような病気は多くの遺伝子を含んでいて、効果的な治療法を見つけるために膨大な数の化学オプションをテストする必要があるから、状況がさらに複雑になるんだ。
この状況で、人工知能(AI)が薬剤発見の初期段階を変える大きな可能性を示しているんだ。AIは、HTSからの既存のデータを使って、新しい薬がどれくらいよく効くかを予測する助けになるんだ。特にグラフニューラルネットワーク(GNN)と呼ばれるAIの一種が効果的で、分子化学に関連する複雑なデータをよりよく理解できるんだ。でも、AIが非常に異なる分子からの反応を予測する能力にはまだ限界があるんだ。現在のAIの方法は、知られている分子からの知識を新しい、見えないものに適用するのが苦手なことが多い、特に大きく異なるものは特にね。
特定の薬の分子が特定の細胞株にどう作用するかを予測するためのAIの効果は、データベースを使って評価されているんだ。これらの評価は、モデルが新しい細胞株に対する既知の薬の反応を予測できるかどうかに焦点を当ててることが多いし、一部の研究は新しい薬の反応を予測することも見てる。でも、完全に異なる分子でテストされたときのAIモデルのパフォーマンスを評価する研究は非常に少ないんだ。また、既存の多くの研究は、モデルが潜在的な薬の大規模ライブラリを効率的にスクリーニングする能力を評価していないんだ。
この理解の欠如は、膨大なライブラリの中で新しい薬を探すための最適なAIモデルがどれなのかまだ分からないってことを意味してるんだ。一部の機械学習方法は、小規模なデータセットでうまく機能する傾向があるから、さまざまな化学物質で異なるAIモデルがどう機能するかについて、もっと研究が必要だね。
これらのギャップを解決するために、研究者たちは60の異なるデータセットからデータを集めて、各データセットには特定の細胞株に対してテストされた様々な分子が含まれてるんだ。彼らはこれらのケースで各AIアプローチがどのように機能するかを見て、効率と精度の違いを強調する予定なんだ。
データセット
この研究は、NCI-60データベースからのデータを使用してるよ。これは多くの細胞株が様々な化合物に対してテストされた成長抑制情報が含まれているよ。このデータセットは300万を超える測定値から成ってる。正確性を確保するために、ある閾値以下の測定値は除外されていて、同じ分子に対して複数の測定があった場合は平均値が使われてるんだ。
処理されたデータセットには、異なるがんタイプからの60の細胞株が含まれていて、異なる薬がさまざまながんのタイプでどう効くかを理解するための豊かな基盤を提供してるんだ。さまざまな化学的表現の分子も、分析に適した形式に変換されてるんだ。
この大規模で詳細なデータセットに焦点を当てることで、研究は異なる分子ががん細胞株にどう影響を与えるかを予測するためのさまざまなAIアプローチを評価することを目指してるんだ。この研究は、化学的特徴を化合物の他の特性と組み合わせて、各分子の全体像を作り出し、AIモデルによって行われる予測の精度を向上させるんだ。
機械学習アプローチ
異なる機械学習法を使って薬の効果を予測することができるんだ。ここでいくつかの研究されている方法を紹介するよ:
線形回帰
線形回帰は、他のモデルを比較するための基本的な方法を確立するんだ。入力特徴と結果の間に直線的な関係を見つけることによって結果を予測するんだ。シンプルではあるけど、より複雑なモデルを評価するための有用な基準になるんだ。
ランダムフォレスト
ランダムフォレストは、決定木の集まりを使って予測精度を向上させる方法なんだ。さまざまな木の結果を平均化することでエラーを減らして、異常データや特定の状況をうまく処理できるようにするんだ。
極端勾配ブースティング
この高度な方法は、一連の木を通じて予測を改善するんだ。各新しい木は、前のものからのエラーを修正することを目指すんだ。予測タスク、特に複雑なデータセットにおいて強いパフォーマンスで知られているよ。
ディープニューラルネットワーク
ディープニューラルネットワークは、複数の層を通じて働く高度なシステムで、データ内の複雑な関係をキャッチすることができるんだ。これらのネットワークは慎重な設定が必要で、研究者はオーバーフィッティングのリスクを減らすためにさまざまなテクニックを使ってるんだ。
指向メッセージパッシングニューラルネットワーク
これは分子表現を処理するために設計された特定のグラフベースのニューラルネットワークなんだ。分子の構造を活用して効果的な予測を行うから、原子と結合の関係が重要な作業に適しているんだ。
パフォーマンスの測定
これらのモデルが結果を予測する能力を確認するために、いくつかのパフォーマンス指標が使われるんだ。例えば、相関係数は、予測結果と実際の結果との関係の強さを測定するし、平方根平均二乗誤差は、予測が実際の結果からどれだけズレているかを定量化するんだ。
他にも重要な指標として、マシューズ相関係数があって、特に不均衡なデータセットでの分類の質を評価するんだ。それからヒット率は、モデルによって行われた正しい陽性識別の割合を評価するんだ。
モデルパフォーマンスの評価
モデルを検証するために、ランダムデータの分割と分子の類似性に基づく分割の2つのアプローチが使われたんだ。ランダム分割法は、分子の類似性に焦点を当てずにデータを訓練セットとテストセットに分けるんだ。一方、異なる分子のアプローチは、テストセットには訓練セットにある分子とは全く異なる分子だけを含むようにするんだ。
ランダム分割は一般的に、テストセットに馴染みのある分子が含まれることが多いため、より良いパフォーマンスをもたらすけど、異なるアプローチはモデルの一般化をテストするために、より挑戦的な環境を提供するんだ。
結果
結果は異なるAIモデルの効果を示してるんだ。最初のランダム分割テストでは、極端勾配ブースティングのようなモデルが最も良いパフォーマンスを発揮したよ。でも、ハイパーパラメータを調整した後、指向メッセージパッシングニューラルネットワークが最高のパフォーマンスを示し、最も低いエラー率を達成し、強力な予測能力を示したんだ。
類似性のない分子でテストした場合、パフォーマンスは低下したけど、指向メッセージパッシングニューラルネットワークは全体的に最良の結果を維持したんだ。これが、その堅牢性を示していて、全く異なる化学物質に直面しても良く機能できる可能性があるってことを示唆しているんだ。
薬剤発見への影響
この結果は、指向メッセージパッシングニューラルネットワークのような高度なAIモデルを使うことで、薬剤発見の初期段階で大いに役立つことを示唆しているんだ。がん細胞株に対するさまざまな化合物の効果を正確に予測できるから、新しい治療法の探索を効率化できるんだ。
研究者たちがこれらのモデルをさらに洗練させるにつれて、今後の研究では異なるデータの種類を組み合わせたり、他のがんタイプからの知識を適用したりして、予測精度をさらに向上させる可能性があるんだ。異なるデータソースを統合することで、バーチャルスクリーニングプロセスの効率が高まって、潜在的な新薬に関するより良い洞察を提供できるかもしれないよ。
AIを駆使したアプローチでがん治療を改善する可能性は大きいんだ。この技術をどう活用していくか学び続けていく中で、より効果的な薬剤発見プロセスを作っていくことが目標なんだ。患者のために新しい治療法を見つけられるようなね。
まとめると、AIと機械学習の進展は薬剤発見を革命的に変える大きな可能性を秘めてるんだ。包括的なデータセットと洗練されたモデルを活用することで、がんとの戦いで本当に違いをもたらす効果的な治療法を見つける可能性が高まるんだ。
タイトル: Graph neural networks best guide phenotypic virtual screening on cancer cell lines
概要: Artificial intelligence is increasingly driving early drug design, offering novel approaches to virtual screening. Phenotypic virtual screening (PVS) aims to predict how cancer cell lines respond to different compounds by focusing on observable characteristics rather than specific molecular targets. Some studies have suggested that deep learning may not be the best approach for PVS. However, these studies are limited by the small number of tested molecules as well as not employing suitable performance metrics and dissimilar-molecules splits better mimicking the challenging chemical diversity of real-world screening libraries. Here we prepared 60 datasets, each containing approximately 30,000 to 50000 molecules tested for their growth inhibitory activities on one of the NCI-60 cancer cell lines. We evaluated the performance of five machine learning algorithms for PVS on these 60 problem instances. To provide a comprehensive evaluation, we employed two model validation types: the random split and the dissimilar-molecules split. The models were primarily evaluated using hit rate, a more suitable metric in VS contexts. The results show that all models are more challenged by test molecules that are substantially different from those in the training data. In both validation types, the D-MPNN algorithm, a graph-based deep neural network, was found to be the most suitable for building predictive models for this PVS problem.
著者: Sachin Vishwakarma, Saiveth Hernandez-Hernandez, Pedro J. Ballester
最終更新: 2024-06-30 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.06.26.600790
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.06.26.600790.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。