バルクトランスクリプトミクスデータの分析への新しいアプローチ
適応デジタル組織デコンボリューションは、大量のトランスクリプトーム解析の精度を向上させる。
― 1 分で読む
目次
バルクトランスクリプトミクスは、単一の細胞ではなく、細胞の集まりの中で遺伝子の活動を研究する方法だよ。この方法では、サンプル内の遺伝子発現の全体的なパターンを見てる。でも、結果は混乱を招くことがあって、いろんな細胞タイプの信号が混ざっちゃうんだ。どの細胞がどれくらい存在しているか分からないと、特定の遺伝子活動がどこから来ているのか判断するのが難しい。
この複雑さを理解するために、いくつかの技術が開発されて、バルクサンプル内の異なる細胞タイプの割合を推定する方法があるんだ。いくつかの方法は伝統的な統計に基づいていて、他の方法はもっと現代的な機械学習アプローチを使ってる。最近、組織の構造を考慮した空間トランスクリプトミクスが加わったことで、異なる細胞タイプの正確な測定の必要性がさらに高まったよ。
細胞タイプ推定の重要性
異なる細胞タイプの正確な推定は、バルクトランスクリプトミクスデータの効果的な分析にとって重要なんだ。細胞タイプを考慮せずに全体の遺伝子活動にだけ焦点を当てると、誤った結論を導くリスクがあるよ。例えば、腫瘍細胞と免疫細胞の両方が含まれるサンプルの場合、結果を正確に理解するためには、それぞれのタイプがどれくらいあるのかを知っておく必要があるんだ。
細胞の構成を改善するために、研究者たちは単一細胞RNAシーケンシングのデータとバルクトランスクリプトミクスデータを組み合わせた異なる方法を提案してる。これにより、混合物内のいろんな細胞タイプの割合を把握するためのより良い基準ポイントが得られるんだ。一部の技術は、知られた組成の人工的な細胞混合物を作成して、モデルを効果的に訓練することに依存してる。
伝統的な方法の限界
いろんな細胞タイプを推定する方法があるけど、ほとんどは他の細胞タイプや環境の影響からの未知の貢献を考慮してないんだ。伝統的なモデルは、分析に使う参照データに含まれていない細胞タイプを特定できないことが多い。これはかなり大きな問題で、参照から1つの細胞タイプを外すだけで、結果の精度が大幅に低下しちゃうんだ。
それに、参照プロファイルがどこから来るかもすごく大事。細胞が存在する環境は、その遺伝子発現パターンに影響を与えるから、バルクサンプルの条件に似た環境から導き出された参照プロファイルが必要だよ。
アダプティブデジタルティッシュデコンボリューション(ADTD)の導入
伝統的な方法の課題を克服するために、アダプティブデジタルティッシュデコンボリューション(ADTD)という新しいアプローチが作られたんだ。このアプローチは、隠れた細胞タイプの存在と遺伝子発現への環境の影響という2つの主要な問題に対処してる。
背景推定
ADTDは、デジタルティッシュデコンボリューション(DTD)という以前の方法を基にして始まる。DTDは既存の参照データを使って細胞タイプを推定するけど、ADTDは結果を隠す可能性のある背景ファイルからの貢献も考慮に入れてさらに進めてるんだ。つまり、ADTDは参照データに含まれていないかもしれない隠れた細胞タイプを探そうとしてる。
例えば、腫瘍からのバルクサンプルがあったら、そこに存在する免疫細胞は特定できるかもしれないけど、癌細胞からの信号に影響されることもあるよ。ADTDは、これらの貢献を分けて、サンプル内で何が起こっているのかをより明確にしようとしてるんだ。
参照プロファイルの適応
ADTDのもう一つの重要な特徴は、対象となるサンプルに基づいて参照プロファイルを調整する能力なんだ。細胞の分子的特性は周囲の環境によって変わるから、特定のサンプルの文脈に適応できる柔軟な参照プロファイルを持つことが重要なんだ。
ADTDは、バルクサンプルの特性に基づいて参照データをリスケールすることで、これを実現してる。静的な参照プロファイルを使う代わりに、ADTDは対象となるサンプルに合わせたプロファイルを作成して、細胞タイプやその活動のより正確な推定を助けてるんだ。
ADTDのプロセス
ADTDは、バルクトランスクリプトミクスデータを分析するために体系的なアプローチを使ってる。このプロセスにはデータ処理、モデル訓練、検証が含まれるよ。
人工混合物の作成
ADTDを効果的に訓練するために、研究者たちは既知の細胞組成から人工的な混合物を作成するんだ。これらの混合物は健康な組織や癌組織からのデータを基にして作られることがある。いろんな単一細胞データを使うことで、訓練データに幅広い細胞タイプが代表されるようにしてるんだ。
これらの人工的なバルクを作る目的は、実際のサンプル内の異なる細胞タイプの割合を正確に推定できるようにモデルを微調整することなんだ。
ADTDの検証
モデルの訓練の後、次のステップはその効果を検証することだよ。これは、元の訓練データには存在しない細胞タイプからの隠れた貢献を含む新しい混合物でADTDモデルをテストすることを含むんだ。このテスト混合物の中で、ADTDが知られた割合をどれだけ再現できるかを測定することで、その精度と信頼性を評価できるんだ。
ADTDが効果的に機能するためには、十分な数のサンプルが必要なんだ。たとえ小さなサンプルサイズでも、方法が堅牢なら信頼できる推定が得られるよ。
他の方法との比較でのADTDのパフォーマンス
ADTDは、EPICやCIBERSORTなどのいくつかの既存の方法を上回ることが示されていて、特に隠れた貢献が重要な役割を果たす環境で特に効果を発揮してるんだ。異なる細胞タイプの既知の割合を使ったテストでは、ADTDは常により良い精度を示したよ。
ADTDの大きな利点の一つは、異なるサンプルタイプに適応できる柔軟性なんだ。癌組織を含む実験では、ADTDは以前は見られなかった細胞タイプからの貢献を正確に推定できて、伝統的な方法では見逃されるかもしれない洞察が得られるんだ。
ハイパーパラメータ調整の重要性
ADTDを使う時、研究者はモデルの動作に影響を与えるいくつかのハイパーパラメータを設定する必要があるんだ。推定が正確であるためには、2つのハイパーパラメータの間で正しいバランスを見つけることが重要だけど、研究によるとADTDは比較的堅牢で、これらのパラメータの異なる設定によって性能が大きく変わることはないみたい。
これは、ユーザーが以前の知識に基づいて最初のパラメータ値を採用しても、成功した結果が得られることを示唆してるよ。だから、ADTDはユーザーフレンドリーで、さまざまな文脈に適応できるんだ。
ADTDの応用
ADTDは、特に癌生物学の理解においてさまざまな分野での利用が期待されているよ。癌サンプルからのバルクトランスクリプトミクスデータを分析することで、ADTDは治療戦略を情報提供するかもしれない細胞タイプ特異的な遺伝子活動を強調できるんだ。
例えば、癌ゲノムアトラスのデータに適用すると、ADTDは異なる乳がんサブタイプ間の遺伝子調節のパターンを特定できるよ。この種の分析は、異なるタイプの癌細胞が免疫細胞とどのように相互作用するかを理解する手助けになって、よりターゲットを絞った治療へとつながるかもしれない。
結論
バルクトランスクリプトミクスは、異なる細胞タイプ間の遺伝子活動を理解するための強力なツールなんだ。でも、このデータを正しく解釈するためには、細胞の割合や環境条件を注意深く考慮する必要があるよ。
ADTDは、この分野での大きな進歩を表していて、隠れた細胞の貢献を考慮し、特定のサンプルに基づいて参照プロファイルを調整する適応的で柔軟なアプローチを提供してる。体系的な訓練と検証を通じて、ADTDは特に腫瘍のような複雑なサンプルを分析する際に、従来の方法よりも精度が向上していることを示してる。
研究が進化し続ける中で、ADTDのような方法は、バルクトランスクリプトミクスデータから意味のある洞察を引き出す上で重要な役割を果たし、最終的にはさまざまな病気の診断や治療の改善に寄与するだろうね。
タイトル: Adaptive Digital Tissue Deconvolution
概要: MotivationThe inference of cellular compositions from bulk and spatial transcriptomics data increasingly complements data analyses. Multiple computational approaches were suggested and recently, machine learning techniques were developed to systematically improve estimates. Such approaches allow to infer additional, less abundant cell types. However, they rely on training data which do not capture the full biological diversity encountered in transcriptomics analyses; data can contain cellular contributions not seen in the training data and as such, analyses can be biased or blurred. Thus, computational approaches have to deal with unknown, hidden contributions. Moreover, most methods are based on cellular archetypes which serve as a reference; e.g., a generic T-cell profile is used to infer the proportion of T-cells. It is well known that cells adapt their molecular phenotype to the environment and that pre-specified cell archetypes can distort the inference of cellular compositions. ResultsWe propose Adaptive Digital Tissue Deconvolution (ADTD) to estimate cellular proportions of pre-selected cell types together with possibly unknown and hidden background contributions. Moreover, ADTD adapts prototypic reference profiles to the molecular environment of the cells, which further resolves cell-type specific gene regulation from bulk transcriptomics data. We verify this in simulation studies and demonstrate that ADTD improves existing approaches in estimating cellular compositions. In an application to bulk transcriptomics data from breast cancer patients, we demonstrate that ADTD provides insights into cell-type specific molecular differences between breast cancer subtypes. Availability and implementationA python implementation of ADTD and a tutorial are available at Gitlab and zenodo (doi:10.5281/zenodo.7548362). [email protected] and [email protected] Supplementary informationSupplementary material is available at Bioinformatics online.
著者: Michael Altenbuchinger, F. Görtler, M. Mensching-Buhr, O. Skaar, S. Schrod, T. Sterr, A. Schäfer, T. Beissbarth, A. Joshi, H. U. Zacharias, S. N. Grellscheid
最終更新: 2024-04-11 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2023.02.08.527583
ソースPDF: https://www.biorxiv.org/content/10.1101/2023.02.08.527583.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。