GET: 音声転写の規制のための新しいツール
GETは、さまざまなヒト細胞タイプにおける転写因子の理解を深める。
― 1 分で読む
目次
転写調節は重要な研究分野で、遺伝子疾患や癌などのさまざまな生物学的プロセスにおいて重要な役割を果たしてるんだ。このプロセスは、特定のDNA領域と相互作用して遺伝子発現を制御する転写因子と呼ばれるタンパク質のセットを含んでいるんだ。細胞が遺伝子の活動を調整する能力は、細胞が適切に機能するために不可欠なんだ。
転写因子の役割
転写因子は特定のDNA配列に結合して遺伝子の転写を調整するタンパク質なんだ。他のタンパク質、つまりコアクチベーターやメディエーターと一緒に働いて、RNAポリメラーゼIIというRNAをDNAから作る酵素の仕事を助けるんだ。異なる細胞タイプには独自の調節領域があるけど、タンパク質とDNAの基本的な相互作用は、周囲の条件が同じなら異なる細胞タイプでも一貫してることが多いんだ。
特定の転写因子がどのように機能するかについては、かなり理解が進んでるけど、個々の細胞タイプに焦点を当てがちなんだ。これが、さまざまな転写因子がどのように協力して異なる細胞タイプで異なる遺伝子発現パターンを作り出すのかを見えにくくしてるんだ。
技術の進歩
最近のシーケンシング技術や機械学習の進歩により、科学者たちは多くの細胞タイプで遺伝子発現やノンコーディング調節機能を調べることができるようになったんだ。従来の方法には限界があって、以前に訓練された細胞タイプに基づいてしか予測できないことが多いんだ。これが新しい細胞に結果を適用する能力を制限してしまうんだ。
GPTやESMのような新しい基盤モデルは、この分野での期待が持たれてるんだ。これらのモデルは、さまざまなデータに基づいて構築されているため、異なる生物学的文脈での一般的なパターンや関係を学ぶことができるんだ。転写調節において、基盤モデルは複雑な相互作用を理解するのを助けて、特定のタスクや条件に合わせた予測を行えるようになるんだ。
GETの紹介
General Expression Transformer(GET)を紹介するよ。これは213種類のヒト細胞タイプにおける転写調節を研究するために特別に設計された基盤モデルなんだ。GETは非常に効果的で適応性があって、クロマチンアクセシビリティデータから学ぶことで、特定のDNA領域が転写因子にとってどれだけアクセス可能かを洞察することができるんだ。このモデルは、馴染みのある細胞タイプでも馴染みのない細胞タイプでも、遺伝子発現を正確に予測するだけでなく、さまざまなシーケンシング技術にもよく適応するんだ。
GETは、規制要素を特定し、さまざまな転写因子の機能を理解する際に、以前のモデルよりも効果的であることが証明されてるんだ。GETを通じて、ほぼすべての遺伝子について貴重な洞察を得ることができるんだ。
GETのパフォーマンス
GETは、さまざまな細胞タイプでの遺伝子発現を効果的に予測し、実験結果と比較して高い精度を示しているんだ。また、胎児細胞から成人細胞への結果を一般化する能力も示していて、再訓練なしでできるんだ。この適応性が、異なるライフステージで関連する共通の調節メカニズムを抽出するための強力なツールになってるんだ。
GETのパフォーマンスを評価するために、トレーニング中に特定の細胞タイプを除外してみた結果、驚くほど正確に遺伝子発現を予測できることがわかったよ。例えば、胎児アストロサイトでの発現を予測する際、GETの予測は観察データに非常に近いものだったんだ。
GETの移転性
GETの最も重要な特徴の一つは、さまざまなデータ生成プラットフォームで使えることなんだ。これにより、リンパ節や神経膠腫細胞からのマルチオムシーケンシングなど、異なるタイプのデータから遺伝子発現を成功裏に予測できるんだ。データ収集の方法に関係なく、モデルはその予測力を保ってるんだ。
異なる実験設定でGETを適用することで、研究者は新しい条件下での調節要素についての洞察を得ることができるんだ。これは、遺伝子調節がしばしば乱れる癌細胞で、これらの要素がどのように機能するかを理解するのに特に役立つんだ。
規制要素の予測
GETは、以前に見たことのない細胞タイプでの発現を引き起こす規制要素を予測するのも得意なんだ。大規模並列レポータアッセイ(MPRA)に似た方法を使用して、GETはこの特定のデータで訓練されずに多くの遺伝子配列の調節活動を評価できるんだ。
GETが行う予測は実験結果とよく一致していて、さまざまな文脈での規制要素を発見する上でのその有効性をさらに確認することができるんだ。
重要な規制因子の特定
モデルがクロマチンアクセシビリティデータを分析できることで、特定の細胞タイプにおけるシス規制要素(CRE)を特定できるんだ。これらの要素は、特にヘモグロビン調節のような複雑な生物学的プロセスを理解するための貴重なターゲットになり得るんだ。
GETを通じて、研究者たちは、胎児ヘモグロビンレベルを調節する重要な転写因子であるGATAを特定することができたんだ。この特定プロセスは、遺伝子発現を理解し、治療目的のために操作する上で重要なんだ。
転写因子相互作用についての洞察
GETは遺伝子発現を予測するだけでなく、転写因子がどのようにお互いに相互作用するかについての洞察も提供するんだ。モチーフ間の相互作用を分析することで、研究者は異なる生物学的文脈で協力している転写因子のネットワークを特定できるんだ。
こういった相互作用は、特定の因子がどのように遺伝子発現を調節するために協力または競合するかを説明するのに役立つんだ。これらのダイナミクスを理解することで、薬の開発や治療介入の新たなターゲットを見出すことができるかもしれないんだ。
構造カタログの構築
GETが行う予測を利用して、研究者たちは転写因子相互作用の構造カタログを作り始めてるんだ。これには、これらのタンパク質の三次元構造とどのように相互作用するかを予測することが含まれるんだ。
AlphaFoldのような高度なモデリング技術を使うことで、科学者たちは転写因子がどのように集まって複合体を形成するかを視覚化できるんだ。この構造情報は、遺伝子調節の生化学的基盤を理解し、変化がどのように病気を引き起こすかを理解するために重要なんだ。
ケーススタディ:PAX5の役割
GETの有用性の注目すべき例の一つは、B細胞前駆体急性リンパ芽球性白血病(B-ALL)の文脈で重要なPAX5遺伝子への応用なんだ。この遺伝子は、さまざまな白血病のケースでしばしば変異していて、その規制ネットワークを理解することで病気への洞察を得ることができるんだ。
GETを使ったPAX5の分析を通じて、研究者たちはG183S変異のような変異によって影響を受けるかもしれない特定の転写因子相互作用を特定できたんだ。この変異はPAX5の結合能力を変えることで、白血病の発症にどのように寄与するかを明らかにしているんだ。
GETの今後の方向性
GETは転写調節の理解において大きな進歩を遂げてきたけど、改善の余地もあるんだ。たとえば、モデルは主にクロマチンアクセシビリティデータに依存していて、似たような結合モチーフを持つ転写因子には苦労するかもしれないんだ。今後のGETのバージョンでは、転写因子の結合や活動を測定するさまざまなアッセイからのデータなど、より詳細な生物学的情報を含めることができればいいな。
能力を拡張することで、GETは研究者が遺伝子調節やさまざまな遺伝的変異が生物学的プロセスにどのように影響を与えるかをより明確に把握する手助けができるんだ。これが、複雑な特性や障害の理解を深め、新しい治療戦略を切り開く道になるかもしれないんだ。
結論
GETは、幅広いヒト細胞タイプにおける転写調節の研究において意味のある進歩を示しているんだ。多様なデータセットを統合し、洗練されたモデリング技術を採用することで、GETは遺伝子発現の予測において高い精度を達成するんだ。その適応性は、基礎研究と臨床応用の両方において貴重なツールになってるんだ。
研究者が遺伝子調節の複雑さを探求し続ける中、GETのようなモデルは、異なる生物学的文脈で遺伝子がどのように振る舞うかを制御する複雑なネットワークを明らかにする上で重要になるんだ。こうした研究から得られる洞察は、遺伝学、ゲノミクス、パーソナライズドメディスンの分野を前進させる可能性があるんだ。
タイトル: GET: a foundation model of transcription across human cell types
概要: Transcriptional regulation, involving the complex interplay between regulatory sequences and proteins, directs all biological processes. Computational models of transcription lack generalizability to accurately extrapolate in unseen cell types and conditions. Here, we introduce GET, an interpretable foundation model designed to uncover regulatory grammars across 213 human fetal and adult cell types. Relying exclusively on chromatin accessibility data and sequence information, GET achieves experimental-level accuracy in predicting gene expression even in previously unseen cell types. GET showcases remarkable adaptability across new sequencing platforms and assays, enabling regulatory inference across a broad range of cell types and conditions, and uncovering universal and cell type specific transcription factor interaction networks. We evaluated its performance on prediction of regulatory activity, inference of regulatory elements and regulators, and identification of physical interactions between transcription factors. Specifically, we show GET outperforms current models in predicting lentivirus-based massive parallel reporter assay readout with reduced input data. In fetal erythroblasts, we identify distal (>1Mbp) regulatory regions that were missed by previous models. In B cells, we identified a lymphocyte-specific transcription factor-transcription factor interaction that explains the functional significance of a leukemia-risk predisposing germline mutation. In sum, we provide a generalizable and accurate model for transcription together with catalogs of gene regulation and transcription factor interactions, all with cell type specificity.
著者: Raul Rabadan, X. Fu, S. Mo, A. Buendia, A. Laurent, A. Shao, M. d. M. Alvares-Torres, T. Yu, J. Tan, J. Su, R. Sagatelian, A. A. Ferrando, A. Ciccia, Y. Lan, D. M. Owens, T. Palomero, E. P. Xing
最終更新: 2024-07-03 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2023.09.24.559168
ソースPDF: https://www.biorxiv.org/content/10.1101/2023.09.24.559168.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。