遺伝子発現予測モデルの課題
研究によると、遺伝子発現の予測では基本的なモデルが複雑なモデルよりも優れていることがわかった。
― 1 分で読む
細胞の挙動を理解することは、生物学での大きな課題なんだ。細胞が異なる条件にどう反応して変わるかを知ることで、健康や病気についてもっと学べるし、新しい治療法の手がかりにもなる。これまでの研究者たちは、コンピュータープログラムを使ってこれらの変化をモデル化する方法をたくさん開発してきた。人気のあるアプローチは、ブール論理や常微分方程式を使うことだ。最近では、深層学習技術がこの分野で注目を集めているよ。
細胞は、遺伝子、タンパク質、物理的特性の画像など、さまざまなデータを使って研究される。中でも、遺伝子発現データは、比較的安価で分析するための確立された方法があるから、最もよく使われる。遺伝子発現は細胞内のタンパク質の働きを完全には反映しないけれど、細胞の全体的な状態を把握するためには役立つんだ。特に有用な遺伝子発現データは、細胞の環境の一部を変えて、その後遺伝子がどう反応するかを測定する実験から得られる。これにより、特定の変化が細胞の挙動にどう影響するかをキャッチできる。ただ、この種のデータを集めるのは、通常の未変更の細胞で遺伝子発現を測る以上に複雑なこともある。
細胞を分析する上での課題を克服するために、最近では深層学習に基づくいくつかの高度なモデルが開発されている。これらのモデルは、大量の遺伝子発現データで訓練されて、遺伝子同士の相互作用や信号のパターンを学ぶことができる。初期の訓練が終わった後は、条件が変わった実験データを使って、細胞がどう反応するかを予測するようにモデルを調整することができる。
これらのモデルは、特定の遺伝子ツールを使って細胞を何らかの方法で変えた後の遺伝子発現の変化を予測するのに良い結果を出している。これらのモデルをテストする主な方法は、見たことのない新しい状況で遺伝子発現をどれだけうまく予測できるかを見ることだ。
ベンチマーキングの課題
でも、この分野で異なる機械学習モデルの性能を比較するのは難しいんだ。過去の研究では、テストセットの選び方や性能を測るための指標が結果に大きく影響することが示されている。テストセットがうまく設計されてなかったり、間違った指標を使ったりすると、モデルが実際にどれだけ機能しているかを見極めるのが難しくなる。さらに、細胞が遺伝的変化にどう反応するかを予測するモデルは、まったく新しい細胞タイプでの影響を予測するためにも使えるけど、現在のテストはほとんどが特定の予測に集中している。
この研究では、scGPTという特定の深層学習モデルを、他のいくつかのシンプルなモデルと異なるデータセットを使ってテストしてみた。驚くことに、scGPTはトレーニングデータを単に平均しただけの非常に基本的なモデルよりもパフォーマンスが悪かった。遺伝子オントロジー用語のような生物学的情報を利用するより高度なモデルは、scGPTよりもはるかに良い結果を出した。研究者たちはまた、テストに使われたデータの変動が少なかったため、モデルのパフォーマンスを正確に評価するのが難しかったことを発見した。
scGPTモデルの詳細
scGPTモデルは、トランスフォーマーと呼ばれる深層学習アーキテクチャに基づいている。これは、ラベルなしで大量の単一細胞RNAシーケンスデータで訓練された。これにより、モデルは遺伝子やそれらの関係を学ぶことができる。モデルは、その後、遺伝子が改変された後にどう振る舞うかを予測するなど、さまざまなタスクに使える。
研究のベンチマーキング部分では、3つのデータセットが使われた。これらのデータセットは、遺伝的変化と単一細胞シーケンシングを組み合わせて、遺伝子の活性がどのように影響を受けるかを見るために作成された。最初のデータセットには、1種類の遺伝的変化を受けた68,000以上の単一細胞が含まれていた。2番目のデータセットには91,000以上の単一細胞があり、複数の遺伝的変化が含まれていた。3番目のデータセットには、より広範な遺伝的変化からの162,000以上の単一細胞が含まれていた。
モデルのパフォーマンスを評価するために、各単一細胞レベルで予測が行われた。予測された遺伝子発現データは平均され、実際のデータと比較された。研究者たちは、予測がどれだけ真の値に一致しているかを測るためにいくつかの指標を用いた。
結果
scGPTのパフォーマンスをシンプルなモデルと比較すると、結果は驚くべきものだった。トレーニングデータセットの値を単に平均した基本的なモデルが、頻繁にscGPTを上回った。生物学的知識を活用したより複雑なモデルは、さらに良い結果を出した。この発見は、scGPTモデルが訓練されたデータを考慮に入れた場合、その効果について疑問を投げかけた。
結果は、モデルが生の遺伝子発現データを見たときに似たようなパフォーマンスを示したが、それらの指標は単独ではあまり意味がなかった。対照的に、遺伝子発現の違いを改変後にどれだけ予測できたかを見ると、基本的なモデルが再び良いパフォーマンスを示した。最も重要な遺伝子の変化を見たとき、scGPTはうまくいったけど、既知のターゲット遺伝子の発現を直接モデル化していたから、助けられた可能性がある。
データの変動がパフォーマンスに与える影響
研究者たちは、ベンチマーキングに使われたデータセットを詳しく調べて、各データセットに多くの単一細胞があった一方で、異なる遺伝的変化の種類はずっと少なかったことを発見した。この限られた数の遺伝的変化は、シンプルなモデルがうまく機能するのを助けた可能性があり、より複雑なモデルが効果的に学ぶには変動が不足していたんだ。
データセット間で遺伝子発現の違いを分析したところ、多くの類似点が見つかった。例えば、あるデータセットでは、特定の遺伝的変化の後に遺伝子が自分を表現する方法に高い類似性が見られた。これは、研究が細胞機能の特定の部分に影響を与える摂動に焦点を当てていたため、予想されていた。他のデータセットは異なる程度の類似性を示し、1つのデータセットはより広範な遺伝的変化の範囲により、より幅広い反応を示していた。
結論
この研究では、遺伝的変化に対して細胞がどう反応するかを予測する際に、基本的なモデルがより複雑なscGPTモデルをしばしば上回ることが明らかになった。既存の生物学的知識を考慮に入れたより高度なモデルは、scGPTよりもさらに良いパフォーマンスを発揮した。研究結果は、ベンチマーキングで使われているデータセットがモデルのパフォーマンスを正しく評価するために十分な多様性を提供していない可能性も示唆している。
また、単一細胞RNAシーケンシングデータの制限も明らかになった。このタイプのデータは細胞の違いについての洞察を提供するけど、平均データを使うモデルと比較した場合に常に明確な利点を提供するわけではないかもしれない。
将来的には、より多様なデータと遺伝的変化のバリエーションを含むベンチマーキング手法が、遺伝子改変後の細胞の挙動を予測するために異なるモデルのパフォーマンスを正確に評価するために重要になるだろう。
タイトル: Benchmarking a foundational cell model for post-perturbation RNAseq prediction
概要: Accurately predicting cellular responses to perturbations is essential for understanding cell behaviour in both healthy and diseased states. While perturbation data is ideal for building such predictive models, it is considerably sparser than baseline (non-perturbed) cellular data. To address this limitation, several foundational cell models have been developed using large-scale single-cell gene expression data. These models are fine-tuned after pre-training for specific tasks, such as predicting post-perturbation gene expression profiles, and are considered state-of-the-art for these problems. However, proper benchmarking of these models remains an unsolved challenge. In this study, we benchmarked a recently published foundational model, scGPT, against baseline models. Surprisingly, we found that even the simplest baseline model - taking the mean of training examples - outperformed scGPT. Furthermore, machine learning models that incorporate biologically meaningful features outperformed scGPT by a large margin. Additionally, we identified that the current Perturb-Seq benchmark datasets exhibit low perturbation-specific variance, making them suboptimal for evaluating such models. Our results highlight important limitations in current benchmarking approaches and provide insights into more effectively evaluating post-perturbation gene expression prediction models.
著者: Bence Szalai, G. Csendes, K. Z. Szalay
最終更新: 2024-10-01 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.09.30.615843
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.09.30.615843.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。