曲線データ技術を使った遺伝子相互作用のモデル化
新しい方法で遺伝子の相互作用やがんの種類の理解が進んでる。
― 1 分で読む
自然界の多くのシステムでは、単純なモデルを使って説明できる複雑な挙動が見られるんだ。例えば、人間のゲノムには何千もの遺伝子があるけど、これらの遺伝子が一緒に働くことで単純な特徴が生まれるから、その機能を効果的に研究できる。こういう組織を理解したいときには、重要なデータポイント間の関係を保ちながら、複雑なデータを単純な形にする技術を使うんだ。
従来の方法もこのプロセスに役立つけど、広がったデータ群を結びつけるのには苦労することが多い。局所的な関係をうまく捉えられる一方で、データポイントが離れていると全体のパターンを表現するのが難しい。これを改善するために、"-VAE"という手法を開発したんだけど、これはデータポイントの組織を低次元で滑らかにする特別な技術を使ってる。
この手法を、さまざまな癌組織からのバルクRNAシーケンシングや、幹細胞研究からの単一細胞RNAシーケンシングといった異なるタイプの遺伝子発現データで試したんだ。結果として、異なる癌の種類に関連するパターンを見つけ出せて、まったく新しい組織タイプにもスムーズに適応できた。
自然界では、多くのシステムが高次元の状態を持ちながら、単純な挙動を生み出すことがある。例えば、気体分子の挙動はシンプルな方程式で説明できることが多いけど、多くの変数が関与しているんだ。同じように、遺伝子も少ない次元で要約できるような相互作用をする。良いモデルは、データを数少ない解釈可能な次元だけで捉えつつ、まだテストされていない新たな状況についても正確に予測できるんだ。
複雑なデータから単純なモデルを見つけるという課題は、長い間続いてきたよ。主成分分析(PCA)などの伝統的な方法は一貫した結果を出すけど、ほとんどのデータ変動を説明するために多くの次元が必要になり、その結果、理解が難しくなることがある。UMAPや変分オートエンコーダーのような新しいモデルは、データポイント間の類似性を保持して簡単な構造を学ぶことができるけど、トレーニングサンプルの不足している領域では長距離のデータトレンドを歪めてしまうことがあるんだ。これがデータ内の重要な関係を解釈するのを難しくする。
最近、幾何学の進展によって、データ表現がどれだけ曲がっているかを測定することで、より正確なデータモデルを作成する手助けが始まった。データ表現の形状を制御することで、その正確性を向上できるよ。そして、我々は多くの特徴があっても、効果的なモデルを保つために、曲率の単純な定義を使うことに焦点を当てている。
私たちのアプローチには二つの主な側面がある。まず、データセットが大きくなってもよくスケールする形で曲率を計算し、推定に頼らず重要な関係を計算できるようにする。次に、データ表現の曲率を調整して歪みを減らし、曲率が低いときに我々の手法が単純なモデルと一致するのを助けるんだ。
この手法をバルクRNAシーケンシングと単一細胞RNAシーケンシングデータの両方に適用した。バルクRNAシーケンシングでは、癌組織内の複雑な組織を捉えて、異なる癌のタイプのクリアなイメージを作った。単一細胞RNAシーケンシングでは、幹細胞がさまざまな細胞タイプに分化する方法を正確に予測できた。
データモデルにおける曲率の概念
標準の変分オートエンコーダーは、観察できない隠れ変数を考慮しつつ、データが特定の確率分布から生じているとモデル化するツールなんだ。目標は、これらの隠れ要素を考慮した後、観察データに最も合った分布を見つけ出すこと。しかし、このプロセスの最適化は難しい場合がある。
この点に対処するため、VAEはしばしば神経ネットワークを使ってエンコーダーやデコーダーを作り、データ分布の上限を最適化する。これには、モデルが元のデータを再現できる精度や、潜在的な表現が仮定された分布、通常はガウス分布とどれだけ一致するかを測定することが含まれる。
強みがある一方で、VAEは非線形変換によって複雑で解釈しにくい結果をもたらすこともある。これらのモデルを解釈しやすくするためには、潜在空間の距離がデータ空間の距離にうまく対応するようにする必要がある。つまり、表現を滑らかに保ち、急激な変化を避けたいんだ。
これを実現するために、私たちはモデルに二つの主な条件を課す。まず、潜在空間の点間の距離が、結果として得られるデータ空間の距離と一致するようにしたい。だから、モデルのさまざまな点で曲率を正則化することに焦点を当てる。これは、我々のモデルによって元のデータポイントのグリッドがどれだけ歪められているかを測ることを意味する。
次に、潜在空間の直線がデータ空間に戻るときに直線のままであるようにしたい。曲率を効果的に正則化することで、元のデータの滑らかで一貫した表現を保つことができるんだ。
この方法論は、RNAシーケンシングデータでうまく機能することが実証されている。バルクRNAシーケンシングにおいては、癌データベースからの統合データセットを利用し、健康な組織と癌組織の複雑な関係をうまく捉えた。単一細胞RNAシーケンシングでは、私たちの手法が幹細胞の集団から潜在的な細胞運命を予測するのに役立ち、彼らの将来の経路がどのように予測できるかを明らかにした。
曲率を効果的に正則化する
UMAPのような従来の手法は、ポイントとその最近傍の間の不類似グラフを作成し、その後データを低次元に埋め込む。UMAPは異なる組織タイプをクラスター化するのが得意だけど、私たちのモデルが遺伝子空間で明確で解釈可能な結果を生成するかどうかを見たいんだ。
私たちの方法を適用すると、データを通して滑らかな多様体を学ぶことができて、異なる組織間の関係が示される。UMAPが素晴らしいクラスターリングを提供する一方で、私たちの方法はデータ全体の重要な関係を維持しつつ、データを視覚化できるんだ。
私たちの方法から学んだ多様体を分析すると、それが一貫した幾何学を保っていることに気づく。データポイント間の関係が、UMAPよりも均一に関連している。分析によって、生物学的機能の異なる軸が明らかになり、さまざまな組織に特徴づけられた遺伝子がどのように相互作用し、共変するかを観察できるようになる。
例えば、健康な組織から癌へと広がるトレンドを表すさまざまな軸を特定できる。私たちのモデルは、異なる癌のタイプを明確に分けつつ、滑らかで解釈しやすい遷移を示している。
遺伝子発現の3Dアトラスを構築する
私たちの以前の調査から得た洞察をもとに、TCGAとGTExの統合データセットを使用して遺伝子発現の3Dアトラスを作成した。この埋め込みでは、健康な組織と癌との関係が捉えられ、異なる生物学的機能が明らかになる。
データを視覚化すると、二つの主な軸が見えてくる。一つの軸は肝臓と筋肉をつなぎ、もう一つは血液から脳を結んでいる。これらの軸を遺伝子空間に戻してデコードすると、関係がどれほど曲がっているかを視覚的に理解できるんだ。
各組織は特定の遺伝子シグネチャに基づいて色分けされ、表現の勾配が生物学的プロセスへの洞察を提供する。例えば、免疫応答遺伝子とその場所との間に強い関連が見られ、血流から脳に至るパスウェイが癌の進行と一致することがわかる。
さらに、さまざまな癌腫が健康な組織の対応物からどのように広がるかも観察できる。この明確で幾何学的に定義された構造は、健康な状態と病的状態の関係を簡単に特定できるようにする。
未見データへの一般化
私たちの手法の強みの一つは、新しいデータタイプに適応する能力だ。これをテストするために、乳がん組織のサンプルを取り、それを我々のモデルに埋め込んでみた。システムは、他のタイプと比較して特異な特徴を持つトリプルネガティブ乳がんのようなサブタイプを効果的に特定した様子を示した。
特定の乳がんサンプルをトレーニング中に除外した場合でも、私たちのモデルはこれらの未見組織を埋め込み空間に正確に配置できた。この特徴は、以前に観察したデータポイントと未見のデータポイントとの関係を維持する独自の能力を示している。
さまざまなテストを通じて、我々の手法が従来のモデルを一貫して上回ることを確認した。つまり、我々のアプローチは、トレーニングセットに含まれていないデータに直面した場合でも、信頼できる予測を提供できるんだ。
曲がった埋め込みを使った細胞運命の予測
さらに私たちの手法の効果をテストするために、幹細胞に関する系譜トレーシング実験のデータを調べた。研究者たちは、ゼロ日目に一群の幹細胞にラベルを付け、2日目、4日目、6日目にその分化を追跡した。-VAEアプローチを使うことで、これらの細胞が特定の細胞タイプに分化する可能性のある様子を視覚化できた。
データを視覚化すると、私たちのモデルは伝統的な手法よりも将来の運命に基づいて細胞を分離できているのがわかった。PCAを使ったプロットでは、細胞がうまくクラスター化されていなかったのに対し、私たちの方法は明確に異なる未来の結果を示し、分類精度を向上させている。
加えて、私たちは2日目の細胞に焦点を当ててモデルを再トレーニングし、後の段階を正確に再埋め込みできた。埋め込まれた点同士の相関は強い関係を示し、時間をかけた進行的な変化を捉える我々のモデルの強さを際立たせた。
最終的に、私たちの手法は複雑な生物学的関係を明らかにするだけでなく、細胞運命の予測も可能にしていて、生物学的プロセスを理解するための強力なツールになっている。
結論
複雑なデータからシンプルで解釈可能なモデルを見つけることは、さまざまな分野、特に生物学において重要だ。データ内の重要な構造と関係を維持することに焦点を当てることで、我々のアプローチは基礎的な生物学的プロセスのよりクリアなイメージを築く。データ表現の曲率を正則化することで、より解釈可能で一貫した予測が得られることがわかった。
私たちの手法を使って、未見データへの一般化がより良く、複雑な遺伝子相互作用の視覚化がクリアになった。この研究は、高次元データが低次元構造をどのように明らかにできるかの理解に新たな扉を開き、癌の挙動から幹細胞の分化までの洞察を提供する。私たちの発見は、データ分析への幾何的理解の組み込みの可能性を強調し、生物学研究やその先において、より効果的なモデルへの道を切り開くものだ。
タイトル: $\Gamma$-VAE: Curvature regularized variational autoencoders for uncovering emergent low dimensional geometric structure in high dimensional data
概要: Natural systems with emergent behaviors often organize along low-dimensional subsets of high-dimensional spaces. For example, despite the tens of thousands of genes in the human genome, the principled study of genomics is fruitful because biological processes rely on coordinated organization that results in lower dimensional phenotypes. To uncover this organization, many nonlinear dimensionality reduction techniques have successfully embedded high-dimensional data into low-dimensional spaces by preserving local similarities between data points. However, the nonlinearities in these methods allow for too much curvature to preserve general trends across multiple non-neighboring data clusters, thereby limiting their interpretability and generalizability to out-of-distribution data. Here, we address both of these limitations by regularizing the curvature of manifolds generated by variational autoencoders, a process we coin ``$\Gamma$-VAE''. We demonstrate its utility using two example data sets: bulk RNA-seq from the The Cancer Genome Atlas (TCGA) and the Genotype Tissue Expression (GTEx); and single cell RNA-seq from a lineage tracing experiment in hematopoietic stem cell differentiation. We find that the resulting regularized manifolds identify mesoscale structure associated with different cancer cell types, and accurately re-embed tissues from completely unseen, out-of distribution cancers as if they were originally trained on them. Finally, we show that preserving long-range relationships to differentiated cells separates undifferentiated cells -- which have not yet specialized -- according to their eventual fate. Broadly, we anticipate that regularizing the curvature of generative models will enable more consistent, predictive, and generalizable models in any high-dimensional system with emergent low-dimensional behavior.
著者: Jason Z. Kim, Nicolas Perrin-Gilbert, Erkan Narmanli, Paul Klein, Christopher R. Myers, Itai Cohen, Joshua J. Waterfall, James P. Sethna
最終更新: 2024-03-01 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2403.01078
ソースPDF: https://arxiv.org/pdf/2403.01078
ライセンス: https://creativecommons.org/licenses/by-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。