新しい方法で分子構造と細胞効果を結びつける
MoCoPは、分子と細胞のデータを組み合わせて、薬の発見予測を強化するんだ。
― 1 分で読む
目次
近年、細胞を研究するために画像を使う方法が人気になってきたんだ。これにより、小さな分子が細胞にどんな影響を与えるかを特定できる。いろんな細胞の形やサイズを示す大量の画像を作成することで、研究者たちは異なる小分子の働きを理解しやすくなる。この文章では、分子構造と細胞画像の情報を組み合わせて、生物学的システムでの分子の振る舞いを予測するのを改善する「分子-形態コントラスト事前学習(MoCoP)」という新しい方法について紹介するよ。
分子-形態の関係の重要性
分子の構造とそれが生きている細胞に与える影響の関係は、薬の発見にとって重要だよ。研究者は、分子の構造の変化が生物学的ターゲットとの相互作用にどんな影響を与えるかを予測する必要がある。これを「定量的構造-活性関係(QSAR)モデル化」と呼ぶんだ。従来、QSARモデルは化学的特性や分子の2Dや3Dの見た目に基づいた説明など、多くのデータに依存している。
でも、利用可能なデータの量がモデルの効果を制限することがある。テストが高くついたり時間がかかったりする場合、研究者は小さなデータセットからも貴重な洞察を得られる方法が必要だよ。これに対処するために、いくつかの戦略が開発されている。例えば、少ない例から学ぶことができる技術や、より多様なデータに基づいて効率的に予測する技術などがある。
細胞イメージングの役割
最近の薬の発見のトレンドでは、高コンテンツスクリーニングが使われていて、科学者たちはさまざまな小分子で処理された細胞の画像をキャッチしてる。セルペインティングアッセイという方法は、細胞の形態に対する異なる分子の影響を明らかにする詳細な画像を作り出す。この画像は、研究者たちが小分子の化学構造だけでなく、さらに大きな影響を理解するための追加データとして役立つんだ。
利点がある一方で、細胞画像を使用する際には課題もあるよ。例えば、画像は異なるバッチや撮影条件によって変わることがある。この不一致は、異なるデータセット全体で一般化できる信頼性のあるモデルを作るのを難しくすることがある。さらに、従来のモデルは、対応する画像がある分子にしか効果的ではないから、広範なスクリーニングプロセスでの使用が制限される。
MoCoPアプローチ
MoCoPは、分子データと細胞イメージングを組み合わせて、両方の情報源から学習できるより包括的なモデルを作成することを目指しているよ。このアプローチでは、分子の特徴に焦点を当てたモデルと細胞の形態に集中したモデルを同時に訓練するんだ。
MoCoPは「コントラスト学習」と呼ばれる特定の訓練技術を使い、モデルが分子とそれらの細胞への影響との類似点と違いを理解しやすくする。これらのペアデータセットを比較することで、分子と細胞の特性のより統一された表現を作り出せるようになる。
大規模データセットでのスケールアップ
MoCoPの効果をテストするために、研究者たちは約100,000の分子と600,000の細胞画像を含む大規模データセットを集めた。このデータセットはJUMP-CPコンソーシアムからのもので、さまざまな細胞プロファイルが含まれているよ。訓練プロセスをスケールアップすることで、大きなデータセットを使うことが、モデルのパフォーマンスを向上させるかどうかを確認することを目指したんだ。
モデルを訓練する中で、研究者たちはモデルが対応する分子または形態データをどれだけ正確に取得できるかを測定した。結果は、訓練中により多くのデータを使用すると、モデルが正確な予測をするのが上手くなることを示した。これは、大規模データセットへのアクセスが機械学習モデルの訓練を大幅に強化できることを示唆している。
事前訓練モデルの評価
MoCoPを使ってモデルを訓練した後、研究者たちはさまざまなタスクでの性能をテストした。具体的には、QSARモデルの評価によく使われるChEMBL20データセットに関連する予測を見たよ。MoCoPを使うことで、訓練中に使用したデータの量に関係なく、モデルのパフォーマンスが向上することが分かった。
他の方法との比較では、MoCoPは従来の訓練方法を常に上回った。少量のデータしか利用できなかった場合でも、事前訓練されたモデルは良いパフォーマンスを維持できた。これは、データが限られている場合でもMoCoPを使う可能性を強調している。
内部データセットでのパフォーマンス
公共データセットの他に、研究者たちはGSKの内部データに対してもMoCoPを評価した。このデータセットには、分子が体内でどのように代謝されるかを評価するなど、さまざまなテストが含まれていた。MoCoPで訓練されたモデルは、従来の方法と比較して結果の予測において顕著な改善を示したよ。
「スキャフォールド分割」と呼ばれるプロセスを使うことで、研究者は訓練、検証、テストセットに異なる化合物のグループが含まれるようにして、モデルのパフォーマンスをより効果的に評価できた。この方法により、与えられたデータに基づいてアクティビティを予測する能力を公正に評価できたんだ。
高次元データの重要性
この研究は、薬の発見における予測を改善するために、高次元データ、たとえば細胞イメージングを利用する価値をすごく強調している。複数の情報源からのデータを組み合わせることで、研究者は分子構造と生物学的効果の間の複雑な関係をよりよく捉えるモデルを作成できるんだ。
研究の結果、細胞画像だけでなく、さまざまな高コンテンツアッセイからデータを活用することで、モデルのパフォーマンスをさらに向上させる可能性があることが示唆されているよ。今後の研究では、遺伝子発現やタンパク質相互作用など、他の生物学的リードアウトからのデータを取り入れることで、QSARモデリングにおける予測をどのように強化できるかを探っていくかもしれない。
結論
要するに、MoCoPメソッドは、研究者が分子データと細胞データを統合して薬の発見における予測を向上させる方法において重要な進歩を表している。この研究の結果は、このアプローチを使うことで研究者がモデルのパフォーマンスを改善できることを示しているよ、特に小さなデータセットで作業する場合にね。
全体的に、この研究は大規模で高品質のデータセットの重要性を強調していて、薬の発見分野における今後の研究への有望な方向性を提供しているんだ。多様なデータソースを活用できることは、より良い予測につながり、最終的には科学者たちがより効率的に有望な薬の候補を特定するのを助けることができるよ。
タイトル: Molecule-Morphology Contrastive Pretraining for Transferable Molecular Representation
概要: Image-based profiling techniques have become increasingly popular over the past decade for their applications in target identification, mechanism-of-action inference, and assay development. These techniques have generated large datasets of cellular morphologies, which are typically used to investigate the effects of small molecule perturbagens. In this work, we extend the impact of such dataset to improving quantitative structure-activity relationship (QSAR) models by introducing Molecule-Morphology Contrastive Pretraining (MoCoP), a framework for learning multi-modal representation of molecular graphs and cellular morphologies. We scale MoCoP to approximately 100K molecules and 600K morphological profiles using data from the JUMP-CP Consortium and show that MoCoP consistently improves performances of graph neural networks (GNNs) on molecular property prediction tasks in ChEMBL20 across all dataset sizes. The pretrained GNNs are also evaluated on internal GSK pharmacokinetic data and show an average improvement of 2.6% and 6.3% in AUPRC for full and low data regimes, respectively. Our findings suggest that integrating cellular morphologies with molecular graphs using MoCoP can significantly improve the performance of QSAR models, ultimately expanding the deep learning toolbox available for QSAR applications.
著者: Cuong Q. Nguyen, Dante Pertusi, Kim M. Branson
最終更新: 2023-06-26 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.09790
ソースPDF: https://arxiv.org/pdf/2305.09790
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。