シングルセル埋め込みの評価:新しいアプローチ
研究者たちは、単一細胞の埋め込みにおける生物学的関連性を評価する新しい方法を提案しています。
― 1 分で読む
目次
単一細胞の埋め込みは、生物学研究でさまざまな細胞の種類やその挙動を研究するために一般的に使われるようになった。研究者たちは、細胞の種類や状態が時間とともにどのように変わるか、また、異なる病気や臓器の種類などのさまざまな条件でどのように異なるかを観察するためにこれらの埋め込みを利用している。ヒト細胞アトラスのような単一細胞データが増加する中で、多くの研究者がさまざまな単一細胞データセットで機能する標準的な埋め込みを開発しようとしている。広く使われているため、これらの埋め込みが実際の生物学的変化をどれだけ反映しているかを評価することが重要だ。
細胞埋め込みにおける修正の重要性
有用な細胞埋め込みを作成する上での重要な要素は、サンプルの取り扱いや分析の変動から生じる技術的問題、つまりバッチ効果に対処することだ。これらの変動は真の生物学的信号を覆い隠してしまうことがあり、誤った結論を導く可能性がある。統合手法は、これらのバッチ特有の問題を軽減しつつ、重要な生物学的情報を保持することを目的としている。研究者たちは、通常、これらの統合された細胞埋め込みの有効性を二つの方法で評価する:まず、異なるバッチからの細胞がどれだけうまく混じり合っているかを確認し、次に同じタイプの細胞がどれだけ密にグループ化されているかを確認する。
埋め込み評価の課題
この研究では、研究者たちは既存の評価方法が埋め込みを評価する際に見落とされている課題を指摘した。彼らは、標準的な指標でより良い性能を発揮するが、生物学的に有用な埋め込みを生成しないモデル「Islander」を作成した。Islanderは、細胞タイプラベルに基づいて学習するシンプルな構造であり、異なる臓器からのさまざまなヒト組織サンプルでテストされた。
研究者たちは、11の異なるヒト組織アトラスでIslanderを訓練した。これには、さまざまな臓器からの350万以上の細胞が含まれていた。その後、Islanderの性能を次元削減手法やバッチ統合手法など他の方法と比較した。
Islanderの性能に関する発見
すべてのテストで、Islanderは12の標準的な指標で他の戦略を上回ることができることを示した。これは主に、指標が細胞タイプがどれだけ明示的に示されているか、異なるバッチがクラスタ内でどれだけ混ざっているかに焦点を当てていたためだ。Islanderが埋め込みを細胞タイプの注釈と整合させた際には、明確に分離されたグルーピングを作り出したが、これは大きな欠点があった。明確な「孤島」を形成するのが得意だったが、異なる細胞タイプ間の大きな関係を見失い、歪んだ生物学的表現につながった。
生物学的構造の歪み
例えば、発達中のヒトの肺の中で、Islanderは異なるタイプの線維芽細胞を特定した。これらは結合組織細胞の一種だ。元の分析では、これらの細胞が密接に関連していることを示す連続体が示されていた。しかし、Islanderはこれらの細胞タイプを完全に分離し、この自然な連続性を妨げてしまった。この歪みは、細胞の発達段階でも見られ、元の分析では発達の進行が明確だったが、Islanderはこれらの関係を曖昧にした。
細胞の周囲の不一致
Islanderのもう一つの問題は、「細胞の孤島」がモデルの異なる実行で異なってドリフトしたことだ。細胞の小さなサブセットの場合、特定の細胞タイプの周囲の近隣が大きく異なり、一貫性の欠如が明らかになった。Islanderは全体的には良いスコアを持っていたが、細胞タイプ間の関係は不明瞭になり、さらなる分析における誤解を招く可能性があった。
新しい指標の導入
品質評価基準のこれらの問題により、研究者たちは評価の詳細な関係にのみ焦点を当てることがその有用性を制限する可能性があると考えた。細胞タイプ間の広い関係を認識することも重要な要素で、ノイズに対してより安定している可能性がある。研究者たちが同じ埋め込みを広範な分類を用いて評価した際、Islanderは他のいくつかの方法よりもスコアが低く、詳細な関係への集中には欠点があったことを示唆した。
これに対処するために、研究者たちは埋め込みの品質を評価するための新しいフレームワーク「scGraph」を開発した。この方法は、埋め込みに基づいて異なる細胞タイプの類似性を表すグラフ構造を作成することによって、異なる細胞タイプがどれほど似ているかを評価する。scGraphは、複数のバッチから作成された合意グラフと比較し、技術的変動の影響を減らしつつ真の生物学的構造をより明確に示す。
scGraphの性能
scGraphを適用すると、埋め込み手法間で異なる性能が明らかになった。Islanderは、細胞クラスタ間の複雑な関係を捕えるのが得意なHarmonyやscPoliと比べてスコアが低かった。この新しい指標は、Islanderの結果に見られる「ドリフトする細胞の孤島」というアーティファクトを明らかにした。
興味深いことに、scGraphは高次元の埋め込みを好む傾向があり、豊富なデータセットが細胞タイプ間の関係をよりよく理解することを示している。しかし、scGraphの仮定である「機能的に似た細胞は近くにある」というのは、すべてのケースで成り立つわけではないという制限もある。
結論
要約すると、研究者たちはIslanderを通じて既存の品質指標の弱点を強調し、さまざまなデータセットで良い性能を発揮するが、生物学的構造を歪める統合アプローチを提示した。これらの制限に対抗するために、彼らは細胞タイプ間の関係を異なるレベルでどれだけ保持しているかをよりバランスの取れた見方を提供する新しい方法「scGraph」を提案した。
この研究は、計算生物学におけるさまざまな要因を考慮する重要性を強調し、今後の方法はこれらの洞察を考慮すべきだと示唆している。細胞埋め込みの評価方法の弱点に対処することで、今後の生物学的解釈や発見がより良いものになるかもしれない。
データセットと前処理
分析には、11の異なる細胞アトラスの生のシーケンシングデータが収集され、合計で350万以上の細胞プロファイルが含まれている。それぞれのデータセットは一様な前処理プロトコルを受け、高品質の細胞データのみが保持されるようにしている。リードや遺伝子が少なすぎる細胞は除外され、データの整合性が保たれている。
評価指標
細胞埋め込みは、その品質を測るためにいくつかの指標を用いて評価された。これには孤立した細胞のラベル、相互情報スコア、さまざまなクラスタリング手法が含まれている。次元削減やデータ統合に使用された手法も比較のために評価された。
Islanderモデル設計
Islanderはデータから学習する層を持つシンプルなモデルとして設計されている。情報を処理する隠れ層や、細胞タイプの数に一致する出力層を含んでいる。この構造により、入力データから意味のある埋め込みを抽出できる。
トレーニング設定
トレーニングプロセスでは、細胞とそのタイプ情報をサンプリングし、誤った予測に対してペナルティを課す損失関数を使用した。モデルは、パフォーマンスを向上させるためにいくつかのラウンドにわたり最適化され、オーバーフィッティングを防ぐための戦略が講じられた。
隣接計算
細胞の関係を評価するために、研究者たちは埋め込み空間での異なる細胞タイプの重心に基づいて近接性を計算した。この計算には、外れ値データを除去して精度を向上させることが含まれ、最も代表的なポイントが使用されて近さを決定する。
scGraphフレームワーク
scGraphフレームワークは、異なる細胞タイプ間の関係を強調し、どれだけ密接に関連しているかを評価する。個々のグラフを合意グラフと比較することで、基礎となる生物学的構造を明らかにし、細胞関係に関する貴重な洞察を提供する。
今後の方向性
今後、研究者たちは弱い監督を統合したり、追加のモデリング手法を探求することで細胞埋め込みの分析をさらに改善できると述べている。これらの分野での進歩は、複雑な生物学的システムを理解するためのより洗練されたアプローチへの道を開くかもしれない。
タイトル: Metric Mirages in Cell Embeddings
概要: Although biological studies increasingly rely on embeddings of single cell profiles, the quality of these embeddings can be challenging to assess. Such evaluations are especially important for avoiding misleading biological interpretations, assessing the accuracy of integration methods, and establishing the zero-shot capabilities of foundational models. Here, we posit that current evaluation metrics can be highly misleading. We show this by training a three-layer perceptron, Islander , which outperforms all 11 leading embedding methods on a diverse set of cell atlases, but in fact distorts biological structures, limiting its utility for biological discovery. We then present a metric, scGraph, to flag such distortions. Our work should help learn more robust and reliable cell embeddings.
著者: Hanchen Wang, J. Leskovec, A. Regev
最終更新: 2024-04-02 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.04.02.587824
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.04.02.587824.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。