スcooby:遺伝子発現予測の新モデル
スクービーは、DNAシーケンスを使って単一細胞レベルで遺伝子の振る舞い予測を改善する。
― 1 分で読む
目次
生物の世界は複雑で、遺伝子がどう協力して特性や行動に影響を与えるかを理解することは、研究の重要な分野だよ。科学者たちは、DNA配列に基づいて遺伝子の振る舞いを予測するために、人工知能の一種である深層学習をますます使っているんだ。この分野での興奮する発展の一つが「scooby」という新しいモデルで、これによって研究者はDNA配列に基づいて個々の細胞での遺伝子の発現を予測できるようになったよ。このモデルは特に血液細胞から得られた遺伝子データの分析にうまく機能するんだ。
scoobyは何をするの?
scoobyは、DNA配列から直接、単一細胞の遺伝子発現やクロマチンのアクセシビリティを予測するために設計されているんだ。遺伝子発現は、細胞内で遺伝子がどれくらいオンまたはオフになっているかを指し、クロマチンのアクセシビリティは、遺伝子のDNAがどれくらい簡単にアクセスされて読み取れるかを測るんだ。これは、どちらの要素も遺伝子の機能や調節に寄与するから重要なんだよ。
scoobyは、以前のモデル、例えば「Borzoi」を基にしていて、これは多くの細胞からのバルク(または平均)データに基づいて遺伝子発現を予測していたんだ。でも、scoobyは個別の細胞に焦点を当てて、さらに一歩進んでいるんだ。これは、異なる細胞が同じ遺伝子を異なる方法で発現することがあるから、特定の役割や環境によるんだ。
scoobyの働き
scoobyは、既知の配列や関連するゲノムプロファイルからの大量のデータを使用して機能するんだ。このモデルは、遺伝子配列のさまざまな特徴を統合し、多くの例から学ぶことができるんだ。約20万塩基対のDNAのセグメントで動作していて、予測に必要な情報をキャッチするには十分な文脈なんだよ。
scoobyの重要な特徴の一つは、二つの情報源を統合していることだ:scRNA-seqとscATAC-seq。scRNA-seqは遺伝子発現に関する情報を提供し、scATAC-seqはそれらの遺伝子周辺のクロマチンのアクセシビリティについての洞察を与えてくれるんだ。両方のデータを使用することで、scoobyは単一細胞レベルでの遺伝子調節の全体像を提供できるんだよ。
主要な革新
scoobyはいくつかの新しいアイデアを導入して、単一細胞データの予測を改善しているんだ。まず、DNA配列の表現であるシーケンス埋め込みを適応させて、低ランク適応という方法を使っているんだ。つまり、scoobyは全体的な訓練を失うことなく、異なるデータセットの特定の特徴を学ぶことができるんだ。
二つ目の革新は、軽量なデコーディングメカニズムだよ。全ての細胞を別々のタスクとして扱うのではなく、scoobyは多くの細胞からの情報を使用して予測を行うんだ。このアプローチは、異なる細胞の間の類似点を利用しながらも、正確な予測を提供できるんだ。
scoobyの性能評価
scoobyがどれだけうまく機能するかを確認するために、研究者たちは多くの骨髄細胞を含む特定のデータセットでテストしたんだ。目標は、モデルが遺伝子発現とクロマチンのアクセシビリティを正確に予測できるかを見ることだったんだ。モデルの予測は、実際の観察値と比較され、結果は高い一致率を示したんだよ。
例えば、特定の細胞の遺伝子発現プロファイルを見たときに、scoobyは実際の実験で観察されたものに近い遺伝子発現レベルを予測できたんだ。この実際のデータに一致する能力は、scoobyが単一細胞での遺伝子の振る舞いを効果的にモデル化できることを示しているんだ。
遺伝子発現カウントの予測
scoobyの中心的なタスクの一つは、異なる細胞タイプで特定の遺伝子がどれくらい発現しているかを予測することなんだ。この予測は、予測値と遺伝子発現の観察値の相関を計算することで評価されたんだ。結果は、scoobyが重要なマーカー遺伝子の特定の発現レベルを正確にキャッチできることを示していたんだよ。
例えば、血液細胞の文脈で、一部の遺伝子は赤血球や白血球といった異なるタイプの細胞を区別するのに重要な役割を果たしているんだ。scoobyは、限られたデータしかないときでも、これらの遺伝子の発現レベルを予測できることを示したんだ。
未知の細胞状態への一般化
scoobyのもう一つの興味深い側面は、訓練中に含まれていなかった細胞タイプへの予測を一般化できることだよ。特定のカテゴリーの細胞が訓練中に意図的に除外されたときでも、scoobyはこれらの未知の細胞に対して正確な予測を行うことができたんだ。この新しい状況に学習を広げる能力は、モデルの頑健性を示しているんだ。
さらに、scoobyは細胞が発生し、分化するにつれて遺伝子発現の変化を追跡できるんだ。これは血液細胞形成のようなプロセスを理解するのに特に重要なんだよ。発生のタイムラインに沿って細胞を整理することで、scoobyは遺伝子発現が時間と共にどう変化するかについての洞察を提供したんだ。
転写因子の調査
転写因子は、遺伝子発現を調節する重要な役割を果たすタンパク質なんだ。さまざまな転写因子とその結合部位を分析することで、scoobyは遺伝子の振る舞いに対する影響を評価できるんだ。研究者たちは、これらの変化が遺伝子発現レベルにどう影響するかを見るために変異をシミュレートすることができるんだ。
scoobyは、異なる状況でどの転写因子がより影響力を持つかを示しながら、遺伝子発現に対するさまざまな転写因子の影響を測定できるんだ。この理解は、さまざまな細胞タイプでの異なる調節メカニズムがどのように機能するかを把握するのに重要なんだ。
eQTLにおける変異効果の予測
遺伝子変異は、遺伝子がどれだけ発現するかに影響を与える可能性があって、これらの関係を特定することはゲノム学では重要な分野なんだ。通常、研究者たちは、遺伝子変異と遺伝子発現レベルを結びつける表現定量的形質座位(EQTL)を通じてこれらの効果を研究するんだ。
scoobyは、特定の遺伝子変異が異なる細胞タイプで遺伝子発現にどのように影響を与えるかについて、より正確な予測を提供することで、既存の方法を改善しているんだ。このモデルは、以前のモデルと比較して、観察されたeQTLの効果との高い一致率を示していて、遺伝学の研究において強力なツールとなる可能性があるんだ。
細胞タイプ特異的なeQTLの分析
scoobyのもう一つの利点は、eQTLの影響をより詳細に分析できることだよ。全ての細胞タイプにわたる遺伝子発現の広範な見方を提供する代わりに、scoobyは特定の変異が個々の細胞タイプで遺伝子発現にどのように影響を与えるかを特定できるんだ。これは、これらの変異の生物学的関連性を理解するのに重要なんだよ。
例えば、いくつかのeQTLは特定の血液細胞では特定の効果を示し、他の細胞にはほとんど影響を与えないことがあったんだ。こうした変異を特定することで、研究者たちは遺伝学と特定の健康状態や特徴との関係をより良く理解できるようになるんだ。
scoobyの発見の影響
scoobyの導入は、遺伝的データの分析方法において重要な進展を示しているんだ。単一細胞レベルで遺伝子の振る舞いを予測できるようにすることで、このモデルは発生、分化、疾病メカニズムを含む多数の生物学的プロセスに対する洞察を提供する可能性があるんだよ。
さらに、scoobyの発見は、参照アトラスの統合にも使用できることを示唆していて、これは新しい遺伝データを既存のデータセットと統合して、細胞の多様性や遺伝子調節についての理解を深めるプロセスなんだ。
将来の方向性
研究者たちは、scoobyが疾患の背後にある遺伝的調節をさらに深く掘り下げる能力を含むさまざまな応用に大きな可能性があると見ているんだ。scoobyを利用することで、科学者たちは特定の健康状態につながるメカニズムを明らかにし、最終的には治療や予防策に役立てたいと考えているんだ。
さらに、このモデルのアーキテクチャは、メチル化データやタンパク質相互作用などの他のデータタイプを統合することを可能にし、予測能力をさらに高めることができるんだ。この適応性によって、scoobyは今後のゲノム研究のための多様なツールとなるんだよ。
結論
scoobyはゲノム学の分野において重要な前進を示しているんだ。単一細胞レベルで遺伝子発現とクロマチンのアクセシビリティを予測するための堅実で効率的な方法を提供することで、scoobyは科学的発見の新たな道を開いているんだ。複数のデータソースを統合し、さまざまな文脈で一般化できる能力は、遺伝子調節の複雑さとその健康や疾病への影響を解明しようとする研究者たちにとって貴重なリソースになるんだ。
scoobyや同様のモデルの開発が進むことで、遺伝子の理解の境界が広がり、生物学と医学における将来のブレークスルーへの道を切り開いていくだろうね。
タイトル: scooby: Modeling multi-modal genomic profiles from DNA sequence at single-cell resolution
概要: Understanding how regulatory DNA elements shape gene expression across individual cells is a fundamental challenge in genomics. Joint RNA-seq and epigenomic profiling provides opportunities to build unifying models of gene regulation capturing sequence determinants across steps of gene expression. However, current models, developed primarily for bulk omics data, fail to capture the cellular heterogeneity and dynamic processes revealed by single-cell multi-modal technologies. Here, we introduce scooby, the first model to predict scRNA-seq coverage and scATAC-seq insertion profiles along the genome from sequence at single-cell resolution. For this, we leverage the pre-trained multi-omics profile predictor Borzoi as a foundation model, equip it with a cell-specific decoder, and fine-tune its sequence embeddings. Specifically, we condition the decoder on the cell position in a precomputed single-cell embedding resulting in strong generalization capability. Applied to a hematopoiesis dataset, scooby recapitulates cell-specific expression levels of held-out genes and cells, and identifies regulators and their putative target genes through in silico motif deletion. Moreover, accurate variant effect prediction with scooby allows for breaking down bulk eQTL effects into single-cell effects and delineating their impact on chromatin accessibility and gene expression. We anticipate scooby to aid unraveling the complexities of gene regulation at the resolution of individual cells.
著者: Julien Gagneur, J. C. Hingerl, L. D. Martens, A. Karollus, T. Manz, J. D. Buenrostro, F. J. Theis
最終更新: 2024-09-23 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.09.19.613754
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.09.19.613754.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。
参照リンク
- https://github.com/lauradmartens/scvi-tools/tree/poissonmultivi
- https://github.com/lauradmartens/SnapATAC2
- https://github.com/lauradmartens/subset-bam
- https://github.com/johahi/borzoi-pytorch
- https://github.com/lauradmartens/peft
- https://github.com/GSK-AI/seq2cells
- https://hocomoco12.autosome.org/downloads_v12
- https://docs.scvi-tools.org/en/stable/tutorials/notebooks/atac/scbasset.html
- https://www.finucanelab.org/data
- https://www.ebi.ac.uk/gwas/docs/file-downloads
- https://github.com/gagneurlab/scooby
- https://github.com/gagneurlab/scooby_reproducibility