Simple Science

最先端の科学をわかりやすく解説

# 生物学# ゲノミクス

AIを使った毒性評価の進歩

AIツールが公衆衛生のための毒性データ予測を向上させる。

― 1 分で読む


有害性評価におけるAI有害性評価におけるAIAIは有毒データ予測のギャップを埋める。
目次

毒性評価は、化学物質や薬などが生物にどのように影響を与えるかをテストするプロセスだよ。毒性を理解することは、公衆の健康と安全を確保するためにめっちゃ重要なんだ。これまでに、科学者たちは伝統的な実験室テストから、毒性ゲノミクスのような先端技術を使った新しい手法まで、さまざまな毒性評価方法を考案してきたんだ。

限られたデータの課題

新しい毒性評価方法を開発する上での大きな障害の一つは、データの限られた入手可能性なんだ。これって、異なる物質が体の異なる部分にどう影響するかを理解するための結果や発見が足りないってこと。十分なデータがないと、研究者が正確な評価をするのが難しいんだ。

そこで登場するのがDrugMatrixプロジェクト。DrugMatrixは、伝統的な毒性エンドポイントに関する過去のデータと新しいアプローチのデータを統合したデータリソースなのよ。化学物質がさまざまな臓器に与える影響や、遺伝子がこれらの化学物質にどう反応するかを調べた研究から情報を集めてるんだ。

DrugMatrixって何?

DrugMatrixは、ラットを使った研究から得られた情報を含む重要なデータベースで、さまざまな化学物質が健康にどう影響するかを理解するためのもの。600以上の異なる化学物質についてのデータがあって、肝臓、腎臓、心臓、脳などのさまざまな組織のデータも含まれてる。目的は、化学物質がさまざまな生物学的システムにどのように影響するかを包括的に提供することなんだ。

データベースでは、遺伝子発現を分析するために、CodeLinkプラットフォームとAffymetrixプラットフォームの2つの技術を使ってるよ。CodeLinkプラットフォームは分析対象の組織の範囲が広いけど、Affymetrixプラットフォームは今でも広く使われてる。DrugMatrixのほとんどの研究は、遺伝子発現データと標準的な臨床病理測定を組み合わせて、毒性の影響の全体像を提供してるんだ。

DrugMatrixには豊富なデータがあるけど、約88%の潜在的エンドポイントがまだ欠けてる。これは、特に化学物質にさらされても目に見える損傷がない組織に関する情報のギャップがたくさんあるってことだよ。

データのギャップを埋めるための人工知能の利用

欠けているデータの問題を解決するために、研究者たちは今、人工知能(AI)や機械学習技術を使ってるんだ。これらの方法は、DrugMatrixの既存の情報に基づいて欠けているエンドポイントを推定したり予測したりするのに役立つ。

革新的なアプローチの一つは、L1000やS1500+のような技術を使って、限られた数の遺伝子からデータを外挿して、より包括的な遺伝子発現のプロファイルを作成すること。これは、部分的な情報を使って、個人の遺伝的構成の完全な画像を推測するのに似てるね。

最近では、生成対抗ネットワーク(GAN)などの高度なAI手法が出てきたよ。これらの方法は、化学物質の種類、影響を受ける臓器、用量など、複数の要因を分析して、全ゲノムにわたる遺伝子発現を予測できるんだ。

稀な信号の問題に対処する

こうしたAI技術は予測を改善できるけど、一つの問題が残ってる。それは、データの補完中に稀だけど重要な信号が失われること。毒性データの多くの重要な信号は稀で、正確に予測するのが難しいんだ。例えば、遺伝子発現の正の値は過剰発現を示し、負の値は過剰減少を示すよ。

化学物質の影響についての重要な情報を持つかもしれない稀なカテゴリーは、しばしば見落とされちゃう。これらの稀なカテゴリーの予測を改善するために、研究者たちはハイブリッドサンプリング技術を使ってるよ。これにより、モデルがより良く学習して、より正確な結果を得られるようになるんだ。

ToxiComplアプローチ

研究者たちは、DrugMatrixの欠けている毒性データをより良く予測するためのToxiComplという方法を開発したんだ。ToxiComplはハイブリッドサンプリング手法を取り入れて、モデルが重要だけど稀な信号に集中できるようにしつつ、全体的な精度も維持できるようにしてる。

この方法は、既存のデータが正確な予測を行うのに十分であることを確認するところから始まる。次に、行列補完技術を使ってギャップを埋める。目標は、今後の毒性学研究に役立つような完全なデータセットを作成することなんだ。

ToxiComplの予測の検証

ToxiComplが行った予測が正確であることを確認するために、研究者たちは2つの標準的な検証方法を使ってる。最初の方法は、既存のデータの少しの部分を保持して、予測が実際の値とどれだけ一致するかをテストすること。2つ目の方法は、生物学的な観点から予測されたデータを調べ、遺伝子発現のパターンや関係を探ることだよ。

研究の結果、ToxiComplは素晴らしい結果を出した。遺伝子発現レベルの予測において、低い誤差率を示し、関連するカテゴリーを特定する精度も高かった。研究者たちは、既知の毒性マーカーに対してToxiComplの予測を検証し、毒素が異なる組織にどのように影響するかについての理解を深めたんだ。

DrugMatrixのデータ構造

DrugMatrixのデータを構造化された形式に整理すると、約193,000行と3,000列があることがわかった。各行は個々の処理群を表していて、化学物質、用量、曝露の期間に関する情報が含まれてる。一方、列は遺伝子発現、臨床化学、組織病理学などの異なる測定の種類を表してるんだ。

データには、組織病理学、臨床化学、血液学などのいくつかのカテゴリがあるよ。例えば、遺伝子発現のカテゴリーでは、データは対照サンプルと比較した治療サンプルの比率として提示される。ただし、データは不均等に分布していて、肝臓や腎臓に大きく焦点が当てられているけど、他の組織はそうでもない。

行列補完技術

研究者たちは、DrugMatrixデータセットの欠けている部分を再構築するために行列補完技術を使ってる。彼らは、ほとんどの行列が低ランクであると想定されているため、成功裏に補完できると考えている。これは、データの中に潜在的なパターンや関連性があって、行列補完方法がそれらを抽出できるってことなんだ。

そのために、Funk-SVDのような技術を使って、行列を観察されたエントリーから学ぶことができる2つの別々の行列に因子分解してる。このアプローチにより、元の行列の行と列の関係に基づいて欠けているエントリーを予測できるようになるんだ。

稀なカテゴリーに焦点を当てた予測の改善

データの中には多くの重要な信号が稀に存在するため、研究者たちはこれらのカテゴリーの予測を改善することを目指してる。単に標準的な行列補完技術を適用するだけだと、重要だけど稀な信号を捉えられないことが多いよ。

この問題に対処するために、彼らはオーバーサンプリングとアンダーサンプリング技術を探求してる。オーバーサンプリングは、あまり一般的でないカテゴリーのデータポイントを複製して、よりバランスの取れたデータセットを作ること。一方、アンダーサンプリングは、より一般的なカテゴリーからランダムにポイントを削除することだね。

実験を通じて、両方のアプローチがデータセットの稀な信号の予測を改善することがわかった。ハイブリッドサンプリングを使うことで、両方の方法を組み合わせて、全体的なパフォーマンスを改善しながら、モデルの精度を維持したんだ。

最適なサンプリングのためのベイズ最適化

研究者たちは、手動でサンプリング分布を選ぶ代わりに、ベイズ最適化に目を向けた。これは、モデルのパフォーマンスを評価するための重要な指標である平均F1スコアを最大化する最適なサンプリング分布を見つけるのに役立つ。

さまざまな分布との初期テストを通じて、パフォーマンスを大幅に改善する分布を特定した。この方法は、予測精度を向上させるだけでなく、稀なカテゴリーを予測することと行列補完法の全体的なパフォーマンスのバランスを保つことを確実にするんだ。

連続的なDrugMatrixデータの予測

ToxiComplメソッドの性能をカテゴリーのデータを使用して改善した後、研究者たちはDrugMatrixの連続データの使用を探求することにした。これは、カテゴリーと連続値の両方を組み合わせることで、できるだけ多くの情報を保持することを可能にするんだ。

カテゴリーのデータから得た洞察を活用して、更新されたモデルは予測性能を維持し、連続データセットの残りのギャップを正確に埋めることができたんだ。

データ予測の代替アプローチ

ToxiComplを使用するだけでなく、研究者たちはDrugMatrixの欠けているデータを予測するための代替手法も探求した。例えば、彼らはランダムフォレストを実験して、入力に基づいて予測を行うための決定木を使用したけど、これらの方法はToxiComplのパフォーマンスには及ばなかった。

彼らはまた、データを処理するために複数の接続された層で構成される深層神経ネットワークを使うことも検討した。これらの方法はランダムフォレストよりは良いパフォーマンスを示したけど、やっぱりToxiComplには及ばなかったんだ。

毒性ゲノミクスのためのグラフ神経ネットワーク

研究者たちが考えた別の方向性は、グラフ神経ネットワーク(GNN)を使うこと。GNNは、データ内のさまざまな要素間の複雑な関係をモデル化できるので、毒性データセットに対処する強力なツールなんだ。でも、DrugMatrixにGNNを適用するのは、データ構造の複雑さから課題があるんだ。

将来的な研究は、これらの高度な技術を適用して、新しい洞察を見つけ、毒性ゲノミクスの予測を改善することに焦点を当てる予定だよ。

検証と生物学的特性の評価

予測されたデータが信頼性があって意味のある結果を生み出すことを確認するために、研究者たちはさまざまな検証技術を実施した。彼らは接続パターンを調べて、予測されたデータが測定されたデータセットの既知の効果とどれだけ一致しているかを見たんだ。予測された結果を既存の生物学的メカニズムと比較して、予測の正確性を評価したよ。

さらに、治療に使用された化学物質が影響を与えた生物学的経路を理解するためにパスウェイ分析を行った。これは、遺伝子リストを調べて、既知の経路との整合性があるかどうかを判断することを含むんだ。

転写バイオマーカーの特定

研究者たちは、予測されたデータに潜在的な転写バイオマーカーがあるかどうかを調査した。これらのバイオマーカーは、毒素に対する特定の生物学的反応を示していて、異なる組織がどのように影響を受けるかを提供するんだ。

遺伝子発現の変化を調べることで、彼らはいくつかの予測された反応が既知の有害化合物とよく一致していることを見つけた。これにより、予測モデルが有害物質への曝露の生物学的影響を効果的に捉えているという自信が得られたんだ。

完全なDrugMatrixの役割

Complete DrugMatrixは、研究者がデータにアクセスして分析するためのオンラインプラットフォームとなってる。ユーザーは特定の治療法を検索したり、遺伝子発現データを視覚化したり、予測された結果と測定された結果を比較したりできる。

このツールは、ユーザー体験を向上させ、データを探求し、潜在的な毒性についての結論を引き出し、今後の研究のための関連する洞察を見つける手段を提供してるよ。

結論と今後の方向性

毒性を理解することは、公衆の健康と安全のために重要だよ。DrugMatrixプロジェクトは、伝統的な毒性データと毒性ゲノミクスを統合して、物質が生物にどのように影響するかについての包括的な視点を提供することの重要性を強調してる。

ToxiComplの開発を通じて、研究者たちはAIや機械学習技術がデータのギャップを効果的に埋められることを示した。これにより、追加の動物実験を行わずに今後の毒性学研究が向上する可能性があるんだ。

研究者たちがグラフ神経ネットワークや他の高度な技術などの新しい方法を探求し続ける中で、化学物質と生物システムの関係についてのさらなる洞察を明らかにすることを目指してるよ。

予測を検証し、さまざまなデータソースを使用してモデルを改善し続ける努力は、DrugMatrixデータベースをさらに向上させるだけでなく、長期的に化学物質の生物学的影響を理解する上での重要な進展につながる可能性があるんだ。

オリジナルソース

タイトル: Completion of the DrugMatrix Toxicogenomics Database using ToxCompl

概要: The DrugMatrix Database contains systematically generated toxicogenomics data from short-term in vivo studies for over 600 chemicals. However, most of the potential endpoints in the database are missing due to a lack of experimental measurements. We present our study on leveraging matrix factorization and machine learning methods to predict the missing values in the DrugMatrix, which includes gene expression across eight tissues on two expression platforms along with paired clinical chemistry, hematology, and histopathology measurements. One major challenge we encounter is the skewed distribution of the available measured data, in terms of both tissue sources and values. We propose a method, ToxiCompl, that applies systematic hybrid sampling guided by Bayesian optimization in conjunction with low-rank matrix factorization to recover the missing values. ToxiCompl achieves good training and validation performance from a machine learning perspective. We further conduct an in-depth validation of the predicted data from biological and toxicological perspectives with a series of analyses. These include examining the connectivity pattern of predicted gene expression responses, characterizing molecular pathway-level responses from sets of differentially expressed genes, evaluating known transcriptional biomarkers of tissue toxicity, and characterizing pre-dicted apical endpoints. Our analysis shows that the predicted differential gene expression, broadly speaking, aligns with what would be anticipated. For example, in most instances, our predicted differentially expressed gene lists offer a connectivity level comparable to that of measured data in connectivity analysis. Using Havcr1, a known transcriptional biomarker of kidney injury, we identify treatments that, based on the predicted expression data, manifest kidney toxicity in a manner that is mechanistically plausible and supported by the literature. Characterization of the predicted clinical chemistry data suggests that strong effects are relatively reliably predicted, while more subtle effects pose a greater challenge. In the case of histopathological prediction, we find a significant overprediction due to positivity bias in the measured data. Developing methods to deal with this bias is one of the areas we plan to target for future improvement. The main advantage of the ToxiCompl approach is that, in the absence of additional experimental data, it drastically extends the toxicogenomic landscape into a number of data-poor tissues, thereby allowing researchers to formulate mechanistic hypotheses about effects in tissues that have been underrepresented in the literature. All measured and predicted DrugMatrix data (i.e., gene expression, clinical chemistry, hematology, and histopathology) are available to the public through an intuitive GUI interface that allows for data retrieval, gene set analysis and high dimensional visualization of gene expression similarity (https://rstudio.niehs.nih.gov/complete_drugmatrix/).

著者: Scott Sean Auerbach, G. Cong, R. M. Patton, F. Chao, D. L. Svoboda, W. M. Casey, C. P. Schmitt, C. Murphy, J. N. Erickson, P. Combs

最終更新: 2024-04-03 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.03.26.586669

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.03.26.586669.full.pdf

ライセンス: https://creativecommons.org/publicdomain/zero/1.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

著者たちからもっと読む

類似の記事

計算と言語プラットフォーム間でのヘイトスピーチ検出のための新しいフレームワーク

PEACEを紹介するよ。これは、さまざまなオンラインプラットフォームでヘイトスピーチの検出を強化するためのフレームワークなんだ。

― 1 分で読む