神経プロセスを使った薬の安全性予測の進展
新しい方法で薬の副作用の早期発見が改善された。
― 1 分で読む
新しい薬を作る上での大きな挑戦の一つは、プロセスの後半で現れる予期しない副作用、いわゆる有害薬物反応(ADR)だよね。たまに、すごく期待されていた薬が、たくさんの時間とお金をかけたのに副作用のせいで却下されちゃうこともある。さらに、薬が承認されてから数年後に予期しない反応が見つかると、販売停止になっちゃって、企業にとっては大きなコストとなり、患者にも影響が出るんだ。これは珍しいことじゃなくて、1953年から2013年の間に462以上の薬が市場から取り除かれたことがあるんだよ。肝臓の問題が一番多い副作用なんだ。
こういう副作用を早めに予測できれば、薬の開発でかなりのコストを削減できるかもしれない。もし科学者たちが失敗する可能性のある候補を特定できれば、資源を大量に投資する前にそれを捨てることができるんだ。
薬の開発における機械学習の活用
機械学習(ML)モデルは、ADRを早期に特定するのに役立つ可能性があるんだ。これらのモデルは、可能性のある薬をスクリーニングするのを手伝って、化学者たちがモデルの予測に基づいて副作用を確認したり除外したりするための具体的なテストを行えるようにする。だけど、問題なのは、ほとんどの薬にはあまり多くの副作用が知られていないことなんだ。過去に承認された薬の数は限られていて、信頼性のある副作用ラベルもほとんどないんだ。さらに、副作用は薬が市場に出てから何年も経ってから見つかることがあるから、既存のデータセットには情報が不完全なことが多い。それでも、承認された各薬はすでに多くのADRと関係があるかもしれなくて、これらの反応を予測するのはマルチタスク問題として扱えるかもしれない。こうすることで、データの効率が高まり、不完全なデータセットを扱う際にモデルが強化されるかもしれない。
ニューラルプロセスの導入
ニューラルプロセス(NP)は、メタラーニング用に設計されたニューラルネットワークの一種で、異なるタスク間で効率よく情報を共有できるんだ。少しのラベルデータだけで正確な予測ができるんだ。NPはトレーニング中に異なる関数からランダムにデータをサンプリングするから、スパースデータセットに適しているんだ。最近、研究者たちはこれらのモデルが薬関連の機能を予測するのにどのように使えるかを調べているんだ。
この研究では、ADR予測のために条件付きニューラルプロセス(CNP)に焦点を当てているよ。歴史的な副作用を含むデータセット(SIDER)を使って評価しているんだ。このデータセットは、さまざまな薬に関連する副作用について詳細な情報を提供してくれる。
条件付きニューラルプロセスの仕組み
私たちの分析では、特定の薬がある副作用を持っているかどうかを表すために、バイナリ値の関数のセットを使うんだ。各薬は、副作用を持っている(1)か持っていない(0)に分類される。私たちの目標は、データセットの既知の関係を使って新しい薬の副作用の存在を予測することなんだ。
CNPは主に3つのステップで動作するよ。まず、エンコーダーネットワークを使って既知のデータ(コンテキスト)の表現を作る。次に、これらの表現を組み合わせてデータのグローバルな理解を形成する。最後に、デコーダーネットワークがこの全体的な表現を使って新しい薬の副作用を予測するんだ。
トレーニング中、モデルは各関数をトレーニングサイクルごとに一度だけ見るし、データはランダムにサンプリングして異なる既知情報とターゲットのセットを作る。モデルは、現在のデータに基づいて最高の予測を提供するように調整されるんだ。
CNPと他のモデルの比較
CNPのパフォーマンスを2つの従来のモデル、ランダムフォレスト(RF)とXGBoost(XGB)と比較したよ。これらのモデルは分野で一般的で、CNPの効果を測るベンチマークとして機能するんだ。
SIDERデータセットには1556の分子(主に薬)についての情報が含まれていて、5880のADRと14万以上の分子と副作用のペアがリストアップされている。私たちはデータセットをランダムにトレーニンググループとテストグループに分けてモデルのパフォーマンスを評価した。
スパースデータセットをシミュレートするために、トレーニングデータとテストデータから半分のラベルを削除する実験を行ったんだ。これにより、限られた情報でモデルがどれだけうまくパフォーマンスできるかを評価できた。
モデルの評価
最初の実験では、CNPが完全なデータセットとスパースなデータセットの両方でADRをどれだけ予測できるか見てみた。各薬が特定の副作用を持っているかどうかを正しく特定する必要があったんだ。私たちの結果は、CNPが両方のシナリオで従来のモデルよりも優れていることを示したよ。面白いことに、スパースデータセットでRFとXGBのパフォーマンスが低下する中、CNPはその効果を維持していた。これは、CNPが不完全なデータでもさまざまな関数から情報を活用できるからかもしれないね。
さらに、私たちはモデルによって予測された確率がどれだけ適切にキャリブレーションされているかも調べた。つまり、予測が副作用が真実である可能性を正確に反映しているかを見たんだ。CNPとRFは合理的なキャリブレーションを示していて、真の結果をよく反映していた。一方、XGBはキャリブレーションに苦しんでいて、真のポジティブの可能性を過小評価することが多かったんだ。
異なるカテゴリ間でのパフォーマンス
私たちは、CNPがデータセット内のさまざまな生理学的システムにおいてどれだけうまく機能するかも見てみた。さまざまなシステムにおけるADR予測を理解することは、薬の開発にとって重要なんだ。いくつかのカテゴリを分析した結果、CNPはすべての生理学的システムで従来のモデルよりも一貫して優れたパフォーマンスを示したよ。
結論
私たちの研究は、CNPを使ったメタラーニングアプローチがADR予測において従来の単一タスクモデルに対して大きなメリットを提供する可能性があることを示唆しているよ。分子フィンガープリントを使用することで、CNPは副作用の分析においてXGBoostやランダムフォレストよりも高い精度とより良いキャリブレーションを示した。
ただし、私たちの研究はSIDERのバイナリラベルにのみ焦点を当てていて、ADRに関連する重大度や頻度などの多くの重要な要素を見落としていることに注意が必要だよ。これらの要素は、実際のシナリオで副作用を理解するために重要だけど、公開されているデータセットにはよく欠けているんだ。だから、NPの薬の開発における可能性を完全に探求し、他の現代の学習アプローチとのより厳密な比較を行うためにはさらなる研究が必要なんだ。
これらのモデルを探求することで、医薬品化学者が情報に基づいた意思決定を行うための実用的なアプリケーションが生まれ、新しい治療法の安全性と有効性が向上するかもしれないね。
タイトル: Calibrated prediction of scarce adverse drug reaction labels with conditional neural processes
概要: Adverse drug reactions (ADRs) are a major source of concern in the development of novel pharmaceuticals. ADRs may be identified in the late stages of development or even after commercialization, which may lead to failure or discontinuation after spending enormous resources on candidate molecules. Thus, predicting ADRs early in the process could help reduce costs by avoiding future failures. However, due to the low number of drugs approved, the amount of historical datapoints on ADRs is limited, which makes their prediction challenging for traditional chemoinformatics methods. Interestingly, each approved drug may have been annotated for hundreds of ADRs, which opens the door to framing ADR prediction as a multi-task or meta-learning problem. In this work, we adopt a meta-learning approach to ADR prediction by applying conditional neural processes (CNPs) to the publicly available Side Effect Resource (SIDER). Our results suggest that CNPs are competitive against single-task baselines even when trained on sparse datasets with missing labels. Furthermore, we find that their predictions are well-calibrated. Finally, we evaluate their performance on ADRs associated to different physiological systems and confirm good predictions across organ classes. Our findings suggest that meta-learning strategies may be beneficial for data-limited clinical endpoints like ADRs.
著者: Sergio Bacallado, M. Garcia-Ortegon, S. Seal, S. Singh, A. Bender
最終更新: 2024-06-10 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.06.07.598036
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.06.07.598036.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。