Simple Science

最先端の科学をわかりやすく解説

# 生物学# ゲノミクス

C. elegansの転写因子に関する新しい見解

統一された遺伝子調節ネットワークが転写因子の新しい役割を明らかにする。

― 1 分で読む


C.C.elegansの転写因子の洞察かにしたよ。新しいGRNが重要な転写因子の役割を明ら
目次

転写因子(TF)は、細胞の発生、アイデンティティの維持、さまざまな課題への対応に重要な役割を果たすタンパク質だよ。TFは特定のDNAの部分にくっついて、近くの遺伝子の活性を制御するんだ。ヒトでは、TFは同じ染色体上のかなり遠くにある遺伝子にも影響を与えることができるんだけど、これはクロマチンルーピングっていうプロセスによるんだ。一方、C. elegansっていう単純な生物では、TFが遺伝子のプロモーター領域、つまり遺伝子が読み始める近くで主に相互作用するんだ。

TFはとても重要だから、進化の過程で保存されてきたんだ。この共通の性質があるおかげで、科学者たちはC. elegansみたいなモデル生物を使ってTFやそれらの役割について学ぶことができたよ。たとえば、研究者たちはC. elegansや果実バエのDrosophila melanogasterで、特定のSMAD TFをその変異特性に基づいて初めて特定して名前付けしたんだ。面白いことに、たとえ2つの種がとても異なるTFタンパク質を持っていても、これらのTFが好んで結合するDNA配列は非常に似ていることがあるんだ。

TFは作られた後にさまざまに修飾されることがあって、それによって働き方が変わることがあるよ。だからTFがどれだけ存在しているか(mRNAやタンパク質レベルで)を見るだけじゃ、実際に何をしているかはわからないことがあるんだ。たとえば、DAF-16っていうTFは、リン酸化というプロセスで修飾されて細胞核に入れずに、仕事をさせないようにされることがある。細胞がストレスに直面すると、TF活性の迅速な変化が重要になるんだ。他のTFであるHSF-1の活性化など、熱ショックの時に特に重要なるよ。科学者たちはTFがどこにいるかやDNAへの結合の仕方の変化を時々見ることができるけど、これらの変化はよくターゲット遺伝子への影響を通じて間接的にしか見えないんだ。

TFがどれだけ活性かを見積もるために、研究者たちは遺伝子発現データに基づく方法を使うことが多いよ。これらの方法は、TFが制御することが知られている遺伝子の発現を見ているんだ。しかし、それぞれのTFによって影響を受ける遺伝子が何かを事前に知っている必要があって、これを遺伝子調節ネットワーク(GRN)って呼ぶんだ。多くの研究者がC. elegansでこれらのネットワークを特定するために苦労してきたけど、異なる研究は全体の姿を示す部分だけを提供しているんだ。だからC. elegansの研究コミュニティには、TF活性を効果的に推定するための包括的なリソースがなかったんだ。

研究の目的

この研究は、C. elegans特有のTF-ターゲット相互作用に関する異なるリソースを統合して、一つのGRNを作ることを目指しているよ。この新しいGRNは、既存の方法と合わせてTFの活性を推定するのに使えるかもしれない。TF活性の推定のために、さまざまなデータソースと方法がどれだけうまく機能するかを評価するために、大規模なRNA-seq実験のデータセットが集められたんだ。さまざまな条件からのRNA-seqデータに適用したとき、得られたGRN(CelEsTと呼ばれる)は、知られているTFの機能を確認しただけでなく、あまり研究されていないTFが重要な役割を果たす可能性があることも示したよ。

科学者たちは、TFが調節する遺伝子の事前知識GRNと一緒に遺伝子発現データを使ってTFの活性を推定することができるよ。いくつかの既存の方法がこれを実行できて、一つのソフトウェアパッケージであるdecouplerは、いくつかのオプションを提供しているんだ。方法の中で、単変量線形モデルは一度に一つのTFを使うけど、多変量線形モデルはすべてのTFを一緒に見て、重なり合うターゲット遺伝子を持つTFの効果を分けることができるよ。TFのすべてのターゲット遺伝子のスコアを合計する方法もあるんだ。decouplerパッケージは、さまざまな方法の結果を組み合わせた合意スコアを提供することができるよ。

利用可能なリソース

C. elegansのGRNを作成するために、3つの主要なリソースが特定されたんだ。最初のソースはmodERNで、これはTFを研究する数百のChIP-seq実験を含んでいるよ。次はCisBPで、TFのDNA結合モチーフに関する情報を集めているリソースだよ。三つ目は、TFと遺伝子プロモーター間の相互作用を特定する強化された酵母ワンハイブリッドアッセイデータセットなんだ。合計で596の知られているC. elegans TFのデータが編纂されたよ。

得られたGRNのパフォーマンスを評価するために、ベンチマークパイプラインが使われたんだ。このパイプラインは、さまざまな摂動中のTF発現の実際の変化と、推定されたTF活性がどれだけ一致するかをチェックするんだ。TF活性を推定するために使われる方法の正確性は、特定の指標を使って定量化されたよ。

GRNのパフォーマンス

潜在的なTFターゲットは、遺伝子プロモーターへの結合に基づいて特定されたんだ。フィルタリングプロセスは、まず複数の実験にどれだけ頻繁に現れたかに基づいてターゲットを優先順位付けしたよ。一部のゲノム領域はTFが過剰に分布していることが知られていて、これらの地点でどのTFが活性なのかを特定するのが難しいんだ。パフォーマンスを向上させるために、これらの「高占有ターゲット」(HOT)領域に位置するターゲットは除外されたよ。その結果、これらの領域を除外することで、TF活性の推定において全ての方法でパフォーマンスが向上したんだ。

この研究はまた、TFごとのターゲット数の理想的なカットオフポイントも強調したよ。DNA結合モチーフから得られたGRNの場合、各TFの最大カットオフ1500ターゲットでベストなパフォーマンスが見られたんだ。分析によると、遺伝子のプロモーター領域内での特定のTFの複数の結合部位を考慮することは、結合ターゲットのネットワークパフォーマンスを向上させなかったんだ。

異なるソースからのデータを組み合わせることで、最終的なネットワークが作成され、TFの数が大幅に増え、異なるデータセットに現れる相互作用に重みをつけることでパフォーマンスが向上したんだ。

TF結合モチーフの保存

さらなる焦点は、異なる種にわたるTF結合モチーフの保存にあったんだ。この側面は、特定されたTF-ターゲット関係の妥当性を強化するのに役立つよ。C. elegansの遺伝子のプロモーター配列を10の関連種と比較したとき、TFが結合モチーフに基づいて相互作用のオーバラップが高いケースがたくさん見つかったんだ。これらの相互作用に対する保存確率を計算することで、研究者たちは最も関連性の高いTF-ターゲットペアを絞り込むことができたよ。

この保存に基づくフィルタリングを使うことで、少ないターゲットセットでもパフォーマンスが著しく向上したんだ。この戦略は、研究者がTFの最も重要なターゲットを特定するのを効率的に助けて、データにおける不要なノイズを最小限に抑えることができるよ。

CelEsTとその応用

新しく作成されたネットワーク、CelEsTは、知られている生物学を確認したり新しい洞察を発見したりするために、さまざまなRNA-seqデータセットに対して徹底的にテストされたんだ。インスリン/IGF1様シグナル伝達経路での重度の変異体からのRNA-seqデータを分析することで、DAF-16 TFの重要な役割を確認したよ。同様に、熱ショック条件の下で、HSF-1が応答における重要なプレイヤーであることが分かったけど、他のTFの活性も観察されたんだ。

さらに、この研究はC. elegansがPseudomonas aeruginosaっていう特定の種類の細菌に感染したときの応答を調べたよ。ZIP-2 TFが感染に対する遺伝子発現を形成する上で重要な役割を果たしていることがわかったんだ。

最後に、この研究はオスと雌雄同体のTF活性の違いを見て、HLH-30 TFが生物の性別によって異なる活性を持っていることに注目したよ。

結論

CelEsTの導入はC. elegansを研究する研究者にとって重要なツールで、TF活性の推定を助けて遺伝子調節への洞察を提供するんだ。この研究は、既存のデータリソースを効果的に使うためのロードマップを提供していて、過去の実験を再評価して新しい洞察を得る可能性も大きいよ。今後、ベンチマークデータセットを豊かにしたりGRNを洗練させたりする努力が、科学コミュニティにさらなる利益をもたらすだろうね。

全体的に、発見は、古いデータでも適切なツールや方法で分析することで新しい洞察を得ることができることを強調しているよ。遺伝子発現データからTF活性を推定する力は、さまざまな生物学的プロセスの遺伝的基盤をよりよく理解するのにつながるんだ。

オリジナルソース

タイトル: CelEsT: a unified gene regulatory network for estimating transcription factor activities in C. elegans

概要: Transcription factors (TFs) play a pivotal role in orchestrating the intricate patterns of gene regulation critical for development and health. Although gene expression is complex, differential expression of many genes is often due to regulation by just a handful of TFs. Despite extensive efforts to elucidate TF-target regulatory relationships in C. elegans, existing experimental datasets cover distinct subsets of TFs and leave data integration challenging. Here I introduce CelEsT, a unified gene regulatory network (GRN) designed to estimate the activity of 487 distinct C. elegans TFs - [~]58% of the total - from gene expression data. To integrate data from ChIP-seq, DNA-binding motifs, and eY1H screens, different GRNs were benchmarked against a comprehensive set of TF perturbation RNA-seq experiments and identified optimal processing of each data type. Moreover, I showcase how leveraging conservation of TF binding motifs in the promoters of candidate target orthologues across genomes of closely-related species can distil targets into a select set of highly informative interactions, a strategy which can be applied to many model organisms. Combined analyses of multiple datasets from commonly-studied conditions including heat shock, bacterial infection and male-vs-female comparison validates CelEsTs performance and highlights previously overlooked TFs that likely play major roles in co-ordinating the transcriptional response to these conditions. CelEsT can be used to infer TF activity on a standard laptop computer within minutes. Furthermore, an R Shiny app is provided for the community to perform rapid analysis with minimal coding experience required. I anticipate that widespread adoption of CelEsT will significantly enhance the interpretive power of transcriptomic experiments, both present and retrospective, thereby advancing our understanding of gene regulation in C. elegans and beyond.

著者: Marcos Francisco Perez

最終更新: 2024-06-27 00:00:00

言語: English

ソースURL: https://www.biorxiv.org/content/10.1101/2024.06.26.597625

ソースPDF: https://www.biorxiv.org/content/10.1101/2024.06.26.597625.full.pdf

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。

類似の記事