データを組み合わせたことで進化した単一細胞生物学
言語と実験データを使って、単一細胞研究における遺伝子予測を改善する。
Ana-Maria Istrate, D. Li, T. Karaletsos
― 1 分で読む
目次
ファウンデーションモデルは、最近いろんな分野、特に生物学で注目を集めている強力なツールだよ。このモデルは、膨大なデータから重要な情報を学べるからすごいんだ。言語処理やコンピュータビジョンの進歩に触発されて、ファウンデーションモデルは生物研究でも大きな役割を果たすようになって、特に単一細胞生物学の分野で活躍している。この分野が注目されているのは、今では単一細胞RNAシーケンシングから得られるデータセットがたくさんアクセスできるようになったからなんだ。
単一細胞生物学の台頭
単一細胞生物学は、個々の細胞の行動や特性を調べるんだ。これは、同じタイプに属していても細胞がどう違うかを理解するのに重要なんだ。重要な研究の一環として、単一細胞RNAシーケンシングがあって、これは細胞レベルでの遺伝子の発現を測定するんだ。大きなデータセットが入手可能になったことで、ファウンデーションモデルを使って単一細胞の生物データの複雑さを理解できるようになった。
遺伝子表現の重要性
単一細胞生物学の主なタスクの一つは、遺伝子の表現を作成することなんだ。ファウンデーションモデルは、実験データを見て遺伝子の振る舞いを学ぶことができて、通常は遺伝子発現のカウントを使って遺伝子の活動を理解するんだ。でも、遺伝子を表現する他の方法もあって、それが追加の文脈を提供することがあるよ。例えば、言語を表現として使うのが一つのアプローチで、genePTのようなモデルは科学文献からの情報を使って遺伝子の表現を作成しようとしているんだ。これは、生物プロセスに関する知識の多くが研究記事から来ているから、すごく重要なんだ。
科学文献の役割
科学文献は遺伝子やその機能についての膨大な情報を含んでいるんだ。私たちが知っていることの多くは、発表された研究を通じて共有されていて、これらのテキストに貴重な洞察が閉じ込められちゃっているんだ。この情報を取り入れることで、モデルは遺伝子とその振る舞いをよりよく理解できるようになるんだ。つまり、文献に含まれる知識が実験データから学ぶ表現を強化できるってわけだね。
実験的アプローチと言語ベースのアプローチの組み合わせ
この研究では、単一細胞データを調べる際に、遺伝子の二つの異なる表現を組み合わせる影響を見たいと思ってる。最初の表現は実験中に集めたデータから来ていて、二つ目は科学文献のような言語源から得た知識を使用しているんだ。特に、これら二つの情報が遺伝子の発現に対する遺伝子変化の影響を予測するのにどう役立つかに興味があるんだ。
遺伝子変動の種類
遺伝子変動は、特定の遺伝子に変更を加えてそれが遺伝子発現にどう影響するかを見ることを指すんだ。遺伝子を一つずつ変更したり、複数の遺伝子を同時にいじったりするなど、いろんなタイプの遺伝子変動があるよ。目的は、これらの変化が細胞の全体的な行動にどのように影響するかを理解することなんだ。
私たちの研究では、主に二つの変動のカテゴリーに焦点を当てている。一つ目は一遺伝子変動で、特定の遺伝子を変更すること、もう一つは二遺伝子変動で、二つの遺伝子を同時に変更したときの影響を見ているんだ。
研究質問
調査を進めるために、いくつかの研究質問を立てたよ:
- 特定のタスクに対して、生物学的な情報をうまく学べるモデルを、情報を直接モデルに埋め込むことなく作成できるか?
- 言語と実験データの組み合わせを使うことで、より良い結果を得られるか?
- モデルに統合する知識のキュレーションはどれくらい重要か?
方法論
これらの質問に答えるために、scGPTという、scRNA-seqデータを扱うために設計された広く使われているファウンデーションモデルから始めたよ。私たちはscGPTを変更して、遺伝子レベルで言語ベースの情報を取り入れたんだ。各遺伝子は、異なる科学的な情報源から得られた言語表現を受け取るようになった。最初はNCBI遺伝子データベースの要約から始めて、それをUniProtのタンパク質要約と組み合わせたんだ。
遺伝子表現の重要性
私たちのアプローチの目的は、実験データと文献から得た知識を組み合わせて、より強力なモデルを作ることなんだ。文献からの追加情報を取り入れることで、私たちは遺伝子変動後の遺伝子発現の変化を予測する能力を向上させたいと思ってる。
情報源の実験
私たちのテストでは、遺伝子に関連する情報のさまざまなソースを探ったよ。例えば、遺伝子の機能やプロセス、細胞内での位置についての洞察を提供するGene Ontology(GO)データベースの注釈を見たんだ。私たちは、大規模な言語モデル(LLM)によって生成された埋め込みを使って、この知識を効果的に集約したよ。
分析からの発見
私たちの分析からはいくつかの重要な洞察が得られたよ:
テキスト表現の追加価値:言語ベースの表現は、実験データから学んだ生物学的表現と組み合わせて、追加で補完的な情報を提供できる。
異なる情報の種類:さまざまな科学的知識のソースは、異なる利点を提供する。たとえば、遺伝子が細胞内のどこにあるかに関する情報(細胞成分)は、一遺伝子変動においてより役立つし、タンパク質要約は二遺伝子変動にとってより有益だよ。
慎重なキュレーションが重要:私たちが含める言語ベースの情報を選択的に選ぶことによって、モデルのパフォーマンスを向上させることができて、時にはハードコーディングされた生物学的知識に依存したモデルを超える結果を出せることがあるんだ。
モデルアーキテクチャ
私たちの変更されたモデル、scGenePTでは、遺伝子発現データと、言語ソースから得られた追加の表現を組み合わせたんだ。各遺伝子について、生物学的データとテキスト表現の両方を含む全体的な表現を計算した。これにより、モデルは複数のタイプの情報を同時に学べるようになるんだ。
パフォーマンス評価
私たちのモデルの効果を評価するために、遺伝子変動の影響を予測する能力を測定したよ。私たちは一遺伝子と二遺伝子変動の例を含むデータセットを使用した。伝統的なモデルと比較することで、私たちの組み合わせ方法が予測を大幅に改善できるかを見たいと思ったんだ。
評価結果
パフォーマンスを評価したとき、私たちは次のことを見つけたよ:
予測の改善:言語ベースの表現を追加することで、モデルの変動による遺伝子発現の変化を予測する能力が明らかに改善された。
複雑なケースでの高い影響:最も大きな改善が見られたのは、二遺伝子変動で、これは遺伝子間の相互作用の可能性があるため、内在的により挑戦的なんだ。言語ベースの知識は、これらの予測を作るためのより豊かな文脈を提供してくれた。
異なる知識源がユニークな利点を提供:私たちの発見は、文献からの特定の知識の種類が異なる種類の変動に特に有用であることを示唆している。例えば、細胞成分の情報は、一遺伝子変動にとって特に価値があったんだ。
結論
実験から得たデータと科学文献からの洞察を組み合わせることで、単一細胞生物学における遺伝子の振る舞いをモデル化する強力な方法を提供しているんだ。私たちの作業は、遺伝子変動をよりよく理解するために言語ベースの知識を取り入れる重要性を強調している。このアプローチを活用することで、実験データだけに頼るのではなく、モデルの予測能力を向上させることができるんだ。
今後の方向性
これからの探究には、多くのエキサイティングな可能性があるよ。異なるタイプの言語ベースの情報がモデルのパフォーマンスにどのように影響するかをさらに探ったり、知識をより効果的にキュレーションするための戦略を立てたりできるし。さらに、さまざまなデータセットやより複雑な生物学的質問に対して私たちの組み合わせモデルをテストすることで、貴重な洞察が得られるかもしれない。言語と実験データを統合することで、モデルのパフォーマンスを向上させるだけでなく、より深い生物学的洞察を発見し、単一細胞生物学の分野で重要な進展を遂げる可能性があるんだ。
タイトル: scGenePT: Is language all you need for modeling single-cell perturbations?
概要: Modeling single-cell perturbations is a crucial task in the field of single-cell biology. Predicting the effect of up or down gene regulation or drug treatment on the gene expression profile of a cell can open avenues in understanding biological mechanisms and potentially treating disease. Most foundation models for single-cell biology learn from scRNA-seq counts, using experimental data as a modality to generate gene representations. Similarly, the scientific literature holds a plethora of information that can be used in generating gene representations using a different modality - language - as the basis. In this work, we study the effect of using both language and experimental data in modeling genes for perturbation prediction. We show that textual representations of genes provide additive and complementary value to gene representations learned from experimental data alone in predicting perturbation outcomes for single-cell data. We find that textual representations alone are not as powerful as biologically learned gene representations, but can serve as useful prior information. We show that different types of scientific knowledge represented as language induce different types of prior knowledge. For example, in the datasets we study, subcellular location helps the most for predicting the effect of single-gene perturbations, and protein information helps the most for modeling perturbation effects of interactions of combinations of genes. We validate our findings by extending the popular scGPT model, a foundation model trained on scRNA-seq counts, to incorporate language embeddings at the gene level. We start with NCBI gene card and UniProt protein summaries from the genePT approach and add gene function annotations from the Gene Ontology (GO). We name our model "scGenePT", representing the combination of ideas from these two models. Our work sheds light on the value of integrating multiple sources of knowledge in modeling single-cell data, highlighting the effect of language in enhancing biological representations learned from experimental data.
著者: Ana-Maria Istrate, D. Li, T. Karaletsos
最終更新: 2024-10-28 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.10.23.619972
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.10.23.619972.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。
参照リンク
- https://www.ncbi.nlm.nih.gov/gene/
- https://geneontology.org
- https://github.com/yiqunchen/GenePT/blob/main/input_data/gene_info_table.csv
- https://www.ncbi.nlm.nih.gov/gene/5454
- https://www.ncbi.nlm.nih.gov/gene/1027
- https://github.com/bowang-lab/scGPT
- https://drive.google.com/drive/folders/1oWh_-ZRdhtoGQ2Fw24HP41FgLoomVo-y
- https://zenodo.org/records/10833191