機械学習で薬の発見を進める
AIを使って薬のターゲット特定を強化し、発見コストを削減する。
― 1 分で読む
新しい薬を市場に出すコストが10億ドルを超えて、さらに増加してるんだ。同時に、人間のゲノムの配列解析の改善によって、新しい病気や既存の病状のバリエーションが明らかになってる。従来の薬の発見方法は、一度に一つの病気をターゲットにして、多くの化合物を個別にテストすることが多いから、新しい病気の発見に追いつくのが難しい。こうした変化に対応するためには、薬の発見のあらゆるステージで新しい方法が必要なんだ。現代のテクノロジー、特に人工知能(AI)と機械学習は、大量のデータを活用できる領域で特に役立つんだよ。
薬の発見の課題
薬の発見において、一つ重要なステップは、潜在的な薬がどのタンパク質に影響を与えるかを見極めること。これをターゲット同定って呼ぶんだ。時には、薬が実験室でのテストで期待が持てるけど、どう作用するかを示すためにさらに調査が必要になる。このステップは高くつくし、時間がかかって、明確な結果が得られないことが多いんだ。
単一の実験方法では、薬のターゲットを確定的に見つけることはできない。プロテオミクスは、タンパク質を研究し、プルダウンアッセイや薬がタンパク質の安定性に与える影響を観察することで、未知のターゲットを特定できるんだ。別のアプローチでは、アッセイパネルを使って、薬が特定の既知のターゲットクラス、例えばキナーゼと相互作用するかどうかをチェックする。しかし、この方法は潜在的なターゲットの一部しかテストできないんだ。
最近、詳細な生物学的情報を提供する新しい技術が登場した。例えば、Cell Paintingのような画像ベースのプロファイリングアッセイは、顕微鏡で細胞の形やサイズの変化を調べることで、化学物質の詳細なシグネチャを作成する。これらのアッセイは、何百万もの化合物を迅速に処理し、遺伝子の変化を使ってヒトゲノムのすべての遺伝子を観察できるんだ。
薬のターゲット同定における機械学習
この研究では、ターゲット同定プロセスをより速く、正確にするために機械学習の方法を適用することに焦点を当ててるんだ。潜在的な薬とそのターゲットタンパク質をつなげたいんだ。これにより、どう作用するかを説明する助けになるし、薬の開発にとって非常に重要なんだよ。
CPJUMP1というデータセットを使ってて、これはさまざまな化合物とその影響に関連する遺伝子の変化を含んでいる。このデータセットには302の化合物と160の遺伝子が含まれてる。目的は、Cell Paintingアッセイから生成された視覚プロファイルに基づいて、化合物が特定の遺伝子と相互作用する可能性を予測する機械学習モデルを作ることなんだ。
化合物が遺伝子に影響を与えるかどうかを確認する従来の方法は、プロファイルを比較することに依存しているけど、これには限界がある。私たちのアプローチは、トランスフォーマーモデルを使って、これは大規模なデータセットの中で関係を理解するのに期待が持たれているAIの一種なんだ。この相互作用をより正確に予測するんだ。
実験的アプローチ
私たちの方法がどれだけ効果的かを見極めるために、遺伝子-化合物ペアが本物のつながりを持つかどうかを予測するモデルを開発したんだ。CPJUMP1データセットを、関連している可能性が高い化合物と遺伝子のペアを含むように設計したよ。
モデルをテストするためにさまざまな戦略を使った。一つは、特定の化合物を除外して、モデルがまだつながりを識別できるかを見ること。もう一つは、特定の遺伝子を除外すること。最後のアプローチは、無作為に化合物と遺伝子のペアを除外すること。これらのアプローチは、異なる状況下でモデルがどれだけ良くパフォーマンスするかを理解するのに役立つんだ。
モデルのパフォーマンスを比較するために、直接プロファイルをマッチングする方法、類似性ベースのアプローチ、各遺伝子ターゲットごとに別の分類器を訓練する方法の3つのベースライン方法を使用した。私たちのモデルは、遺伝子の形態を使って予測を強化し、ベースラインよりも良い結果を出せることを目指してるんだ。
結果
私たちの発見は、モデルがトレーニングデータから化合物のつながりが知られているシナリオで良く機能することを示してる。トレーニング中に見たことのない化合物の場合でも、モデルは可能な遺伝子のつながりを予測することができたけど、以前のつながりを示していない遺伝子を特定しようとする際には効果が薄かった。
新しい遺伝子に関しては、モデルは大きな挑戦に直面した。化合物のシナリオとは違って、似た化合物はしばしば機能的関係を共有してるけど、新しい遺伝子を予測するシナリオはもっと多様性がある。この遺伝子の多様性が、新しい遺伝子のつながりを特定するのを難しくして、パフォーマンスが低下する原因になってるんだ。
さらに掘り下げるために、遺伝子と化合物の両方がトレーニングで見落とされた場合の別のテスト方法も探求した。この場合、モデルは一般的に苦しんで、トレーニングセットで両方のコンポーネントが以前にポジティブなつながりを持っている場合を除いて、うまくいかなかったんだ。
考察
結果は、画像ベースのプロファイリングと機械学習を組み合わせることで、どの薬がどのタンパク質と相互作用するかを予測するもっと正確な手段を提供することを示している。モデルは、特に以前に観察されたつながりのために、十分なバックグラウンドデータが利用可能な場合にターゲットをうまく予測するよ。
ただし、新しい遺伝子に関する課題は、より多様なタンパク質をカバーする広範なデータセットの必要性を強調している。多くの薬が複数のターゲットに影響を与えるから、トレーニングデータはこの複雑さを反映する必要があるんだ。
今後の研究では、より大きなデータセットを集めて、予測能力を向上させるための異なる戦略を検討するべきだ。化学構造やタンパク質の機能に基づく追加のデータソースを統合することで、モデルの効果をさらに向上させることができるかもしれない。
結論
私たちの研究は、画像ベースのプロファイリングと機械学習を組み合わせて薬のターゲット識別を強化する可能性を示している。この方法は、薬の発見プロセスのコストを大幅に削減し、新しい治療法を見つけるまでのタイムラインを短縮するかもしれない。
新しい遺伝子ターゲットの予測力を向上させることは依然として課題だけど、薬の発見を進めるためには重要なんだ。遺伝子-ターゲットの相互作用の複雑さをよりよく反映したデータセットを作成し、この多様性に対応した方法を開発するためには、さらなる研究が必要なんだ。
これらの技術を継続的に改善して、さまざまなデータソースを統合することで、薬の発見のプロセスを効率化して、新しく効果的な治療ソリューションの道を切り開けるかもしれないね。
タイトル: Cell morphological representations of genes enhance prediction of drug targets
概要: Identifying how a given chemical of interest exerts its impact on biological systems is a critical step in developing new medicines and chemical products. The mechanism of a query compound of interest can sometimes be identified when its image-based morphological profile matches a compound in a library of well-annotated compound profiles. In this study, we demonstrate a significant improvement in classification performance by incorporating side information: gene representations. We generate these representations using the morphological profiles of cells where the level of a single genes expression has been artificially increased or decreased. The genes are selected as those encoding known protein targets of annotated compounds in the library. A transformer model is trained to classify gene-compound pairs, where each pair represents a potential interaction between a gene and a compound, as true or false. Subsequently, the model generates a ranked list of likely target genes for a previously unseen query compound. Although the strategy exhibits high performance only for compounds that target previously encountered genes - likely due to the limited size of our training dataset - the performance increase demonstrates a notable improvement over simply matching compound profiles directly to compound profiles or to gene profiles. Larger datasets may improve the prediction capabilities of this approach, enabling the prediction of gene targets for novel compounds, which can then be experimentally validated.
著者: Shantanu Singh, N. S. Iyer, D. J. Michael, S.-Y. G. Chi, J. Arevalo, S. N. Chandrasekaran, A. E. Carpenter, P. Rajpurkar
最終更新: 2024-06-10 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.06.08.598076
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.06.08.598076.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。