Simple Science

最先端の科学をわかりやすく解説

# 生物学# 癌生物学

薬の発見におけるデータの質の役割

高品質なデータは、成功する薬の発見とAI統合にとってめっちゃ大事だよ。

― 1 分で読む


データが薬の発見の成功を左データが薬の発見の成功を左右するモデルを超える。質の高いデータは、薬の設計において複雑な
目次

新しい薬を作って承認を得るのは、時間とお金がかかる大変な仕事だよね。2009年から2018年までの間に47社の63の薬を調べた研究によると、新薬を市場に出すのに平均約13.3億ドルかかるんだって。これをもっと安く早くするために、多くの研究者がコンピュータ支援薬デザイン(CADD)を使うようになっていて、これが結構うまくいってるみたい。CADDは成功する可能性が高い実験に科学者が集中できるように助けるんだ。

薬発見におけるAIの台頭

最近、人工知能(AI)や機械学習(ML)、特に深層学習をCADDに使うことへの関心が高まってるよ。深層ニューラルネットワーク(DNN)は、ランダムフォレスト(RF)やサポートベクターマシン(SVM)などの従来の機械学習方法よりも、化学構造がどのように薬として機能するかを予測するのに優れてるんだ。一つ注目すべき例は、マルチタスク深層ニューラルネットワーク(MT-DNN)というモデルで、ある有名なコンペで最高の成績を収めたんだ。

薬のテストでは、分子は通常複数のテストで調べられるんだけど、MT-DNNはそれぞれのテストで分子がどれだけうまく機能するかを予測するように設計されているんだ。このコンペの後、研究者たちはDNNモデルとRFモデルを比較する研究を行い、DNNモデルの方が常に良い予測をしていたことがわかった。しかし、21のデータセットを調べた別の研究では、DNN、RF、そして単純な方法である変数最近傍も同様に機能することがわかった。これにより、より複雑なAI手法を開発することが実際に薬のスクリーニングにおいて大きな改善をもたらすのか疑問が生じてる。

データ中心のAIへのシフト

2021年、ある科学者がAIアルゴリズムを改善する代わりに、これらのアルゴリズムを訓練するために使うデータに焦点を当てるべきだと提案したんだ。モデル中心のアプローチは、アルゴリズム自体を調整してAIの性能を高めようとするものなんだけど、データ中心のアプローチは、これらのモデルに投入されるデータの質を改善することに焦点を当てるんだ。例えば、データのラベリングのエラーを修正することが含まれる。

化学データベースは1億以上の化合物を含んでて、ケモインフォマティクスの専門家たちは手動で清潔で信頼できるデータセットを作るのに苦労してるよ。だからCADDで使うデータの質を向上させる自動化された方法が必要だって明らかになってる。しかし、そんな方法を作る前に、薬のデザインに適したデータが何かを特定することが大切なんだ。研究者たちは効果的なケモインフォマティクスデータのための4つの重要な属性を特定したんだ:データの表現、データの質、データの量、データの構成。

高品質なデータの重要性

AI研究は通常、高品質なデータを集めることから始まるんだけど、データセットが大きくなればなるほど、データのクリーニングや準備が難しくなるんだ。最近の研究では、AI研究で使われる多くの有名なデータセットにラベリングエラーがあって、これがモデルが偏った予測をする要因になってることがわかったよ。しかしケモインフォマティクスでは、化学データが急速に成長してるから、これが問題になることは少ないみたい。

データの質に関して、研究者たちは信頼できる新しいベンチマーク化学データセットを作ろうとしてるんだ。BRAFアクティブとイナクティブという化合物のクラスに焦点を当てていて、BRAFはいくつかの種類の癌に関わるタンパク質だから、効果的な薬を開発するのが重要なんだ。この新しいデータセットを使って、彼らは非常に高い精度を達成するためのモデルを訓練し、データの4つの柱がAIの性能にどう影響するかを調べることができたんだ。

データ表現を探る

データを増やすことだけじゃなくて、データを適切に表現する方法を選ぶことも重要なんだ。研究者たちは、さまざまな化学表現を使って異なる機械学習アルゴリズムをテストして、これが性能にどう影響するかを見ているよ。いくつかの研究では、組み合わせた表現を使うことで、マシンの学習方法を改善できるって提案してる。

彼らは異なるフィンガープリントを使ってたくさんの予測モデルを作ったんだけど、フィンガープリントの中には、いくつかの組み合わせが他よりも良い結果を出すことがわかったんだ。研究者たちは、異なる表現がモデルの精度にどう影響したかを体系的に検討して、ほぼ1,400の予測モデルを開発したんだ。

データの質と量を分析

次に、データの質、量、構成が予測性能にどう影響するかを調べたんだ。彼らは、特定の分子フィンガープリントに基づいたいくつかのトップモデルを選んで、CADDにおける従来のデータ慣行を改善する方法を示したんだ。例えば、特定のイナクティブ化合物をコントロールとして使用することが隠れたバイアスを引き起こし、予測に悪影響を及ぼすことがわかった。

彼らは異なるサイズと種類のデータセットを使ってモデルをテストし、アクティブとイナクティブの数が増えることが性能にどう影響するかを見たんだ。結果、イナクティブの数を増やしてもモデルの精度が必ずしも向上するわけではないことがわかったんだ。

薬のスクリーニングのための機械学習アルゴリズム

さまざまな機械学習方法を評価するために、彼らは5つの異なるアルゴリズムを訓練したんだ:k最近傍法(kNN)、ナイーブベイズ(NBayes)、勾配ブースト決定木(GBDT)、ランダムフォレスト(RF)、サポートベクターマシン(SVM)。それぞれ55の異なる分子表現のうちの1つを使って、1,375の予測モデルを生成したんだ。

すべてのモデルにおいて、トレーニングとテスト中の精度に実際の違いはなかったよ。最も良い成績を収めたモデルは、特定のフィンガープリントの組み合わせを使用して素晴らしい精度を達成したんだ。結果は、この薬のスクリーニング設定ではRFとSVMが特に効果的だって示してる。

データセットの構成とサイズ

データセットのサイズと構成がモデルの性能に大きく影響したんだ。一部のアルゴリズムはアクティブとイナクティブのコントロールの不均衡に対してより敏感だったけど、他のアルゴリズムはそれほど影響を受けなかった。研究者たちは、アクティブ化合物の数が少なくても、多くのイナクティブコントロールがあればモデルの信頼性が向上することを確認したんだ。

彼らはイナクティブ化合物の数が増えると、モデルがほぼ完璧な精度を達成できることがわかったんだけど、感度が落ちてアクティブ化合物を真に識別できる能力が低下することもわかったんだ。

イナクティブ化合物の役割

薬の発見では、化合物をアクティブとイナクティブのカテゴリに分類するためにしばしば恣意的な閾値が設定されるんだ。でも、一部のイナクティブ化合物は本当にイナクティブではなくて、単に効果が少ないだけかもしれない。これが訓練データセットに含まれると、予測性能が下がる可能性があるんだ。

これらの効果が少ない化合物が影響を及ぼすかをテストするために、研究者たちはそれらをデータセットに追加したんだけど、精度が下がり始めたよ。性能の低下は、主にモデルが真のアクティブ化合物を識別する能力の低下によるものでした。

デコイを使うことの影響

DUD-Eデータセットはベンチマーク用としてよく使われるけど、ここにはイナクティブ物質を表すためのデコイ化合物が含まれてるんだ。彼らは、これらのデコイを使うことが効果の少ない化合物と同様に予測モデルの精度に影響するかを調べたんだけど、驚くべきことに、デコイで訓練されたモデルは精度が大きく下がらなかったんだ。

デコイはあまり偏りを生じさせなかったけど、それだけで訓練すると偽陽性率が高くなることがわかったよ。だから、モデル訓練のためにイナクティブ化合物を選ぶときは注意が必要で、デコイを使うことがモデルを誤解させて過度に楽観的な性能指標につながる可能性がある。

AIモデルにおけるデータの質

多くのコンピュータ科学者は「ゴミ入れればゴミ出る」って言葉を知っていて、これは予測モデルにおけるデータの質の重要性を強調してるよね。それでも多くの現在のAIの実践はモデルに焦点を当てていて、データの質にはあまり重視されてないんだ。

データの質を改善するために、研究者たちはデータセットのクリーニングと検証に対して体系的なアプローチを提唱したんだ。化学データの独自のニーズを理解することが、効果的な予測モデルを構築するために重要だって強調してたよ。

データ中心とモデル中心のアプローチのバランス

データ中心のアプローチは重要だけど、モデルの質を犠牲にしちゃいけないんだ。一部のAIモデルは特定のタスクに自然に適しているからね。結果として、適切なデータ表現を使えば、よりシンプルなモデルでもうまく機能できるって示されたよ。

モデルをデータに適応させるのも大事だけど、データ自体の質も高いことを確保するのは同じくらい重要だね。ケモインフォマティクスでは、両方のアプローチが競争するのではなく、補完し合うべきなんだ。

AIを使った薬の発見の未来

薬の発見における深層学習への関心が高まっているけど、これらの方法は効果を発揮するために大量のデータが必要なんだ。多くの薬ターゲットには関連する化合物が少ないから、深層学習に頼るのが難しくなる。

伝統的な機械学習技術に焦点を当て、高品質なデータセットを確保することで、研究者たちはバーチャルスクリーニングで素晴らしい結果を出せるようになるんだ。目指すのは、入手可能なデータでうまく機能するツールを構築することで、質を量より重視することなんだ。

高品質なデータセットの確立

ベンチマークデータセットを持つことは、予測モデルの効果を評価するために重要なんだ。研究者たちは、BRAFアクティブとイナクティブのベンチマークデータセットを開発して、モデルがどれだけうまく機能しているかを明確に理解できるようにしたんだ。データセットの質を高めることで、より信頼性の高い比較や結論を導き出せるようになったんだ。

彼らの研究は、多くの現在の薬の発見手法がモデルの複雑さに過度に焦点を当てていて、データの質にはあまり注意を払っていないことを強調してるよ。また、モデル間の性能の違いはしばしば最小限であり、データの質がこれまで理解されていたよりも重要な役割を果たすことを示しているんだ。

結論

全体的に、良いデータが大事だってことが強調されてるね。データの質、量、表現を改善することで、薬の発見において大きな進展が見られるかもしれないんだ。データ中心とモデル中心のアプローチの重要性を認識することで、研究者たちはバーチャルスクリーニングやコンピュータ支援薬デザインにおいて、より効果的な戦略を展開できるようになるんだ。

今後は、これらのアプローチの組み合わせが、ケモインフォマティクスのAI研究におけるさらなる突破口を切り開く基盤を築くかもしれないね。より効率的で信頼性の高い薬の発見プロセスを目指すことができるんだ。

オリジナルソース

タイトル: Establishing the foundations for a data-centric AI approach for virtual drug screening through a systematic assessment of the properties of chemical data

概要: Researchers have adopted model-centric artificial intelligence (AI) approaches in cheminformatics by using newer, more sophisticated AI methods to take advantage of growing chemical libraries. It has been shown that complex deep learning methods outperform conventional machine learning (ML) methods in QSAR and ligand-based virtual screening1-3 but such approaches generally lack explanability. Hence, instead of developing more sophisticated AI methods (i.e., pursuing a model-centric approach), we wanted to explore the potential of a data-centric AI paradigm for virtual screening. A data-centric AI is an intelligent system that would automatically identify the right type of data to collect, clean and curate for later use by a predictive AI and this is required given the large volumes of chemical data that exist in chemical databases - PubChem alone has over 100 million unique compounds. However, a systematic assessment of the attributes and properties of suitable data is needed. We show here that it is not the result of deficiencies in current AI algorithms but rather, poor understanding and erroneous use of chemical data that ultimately leads to poor predictive performance. Using a new benchmark dataset of BRAF ligands that we developed, we show that our best performing predictive model can achieve an unprecedented accuracy of 99% with a conventional ML algorithm (SVM) using a merged molecular representation (Extended + ECFP6 fingerprints), far surpassing past performances of virtual screening platforms using sophisticated deep learning methods. Thus, we demonstrate that it is not necessary to resort to the use of sophisticated deep learning algorithms for virtual screening because conventional ML can perform exceptionally well if given the right data and representation. We also show that the common use of decoys for training leads to high false positive rates and its use for testing will result in an over-optimistic estimation of a models predictive performance. Another common practice in virtual screening is defining compounds that are above a certain pharmacological threshold as inactives. Here, we show that the use of these so-called inactive compounds lowers a models sensitivity/recall. Considering that some target proteins have a limited number of known ligands, we wanted to also observe how the size and composition of the training data impact predictive performance. We found that an imbalance training dataset where inactives outnumber actives led to a decrease in recall but an increase in precision, regardless of the model or molecular representation used; and overall, we observed a decrease in the models accuracy. We highlight in this study some of the considerations that one needs to take into account in future development of data-centric AI for CADD.

著者: Allen Chong, S.-X. Phua, Y. Xiao, W. Y. Ng, H. Y. Li, W. W. B. Goh

最終更新: 2024-09-09 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.03.28.587184

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.03.28.587184.full.pdf

ライセンス: https://creativecommons.org/licenses/by-nc/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事

機械学習部分的にクラスが分離されたデータのためのFedMRでフェデレーテッドラーニングを改善する

FedMRは部分クラスデータを使ったフェデレーテッドラーニングの課題に取り組み、モデルのパフォーマンスを向上させる。

― 1 分で読む