昆虫ゲノムの調節アノテーションの進展
新しい方法が昆虫のゲノムの調節配列を効果的に予測する。
― 1 分で読む
目次
ここ20年で、科学者たちは研究された動物のゲノムの数を大幅に増やしてきたんだ。最初は数少ないゲノムしか配列が解読されてなかったけど、今では8,000以上に達してる。ただ、多くのゲノムは完全ではないんだ。これらのゲノムの30%未満が染色体レベルで整理されてて、その中でも詳しい注釈が付けられてるのは28%だけ。重要な調節配列が足りないのが大きな問題で、これは遺伝子の機能にかなり影響するんだ。これらの調節配列、別名シス調節モジュール(CRM)は、エンハンサーやサイレンサーを含む。これらの配列を理解することは、遺伝子がどのように制御されているかや、遺伝子ネットワークがどう機能するかを把握する上で重要なんだ。さらに、これらの調節配列の変化は進化に大きく影響したり、病気に寄与したりすることもある。
調節配列を理解する上での課題
調節注釈が不足している一因は、CRMを発見するのが難しくて時間がかかるからなんだ。長年、科学者たちは詳細な実験を通じてしかCRMを見つけられなかった。新しい手法が開発されて、より広範で迅速なCRMの特定が可能になったけど、異なる技術によって結果が一貫しないことが多いんだ。この不一致が、さまざまな細胞タイプやライフステージにおけるCRMの包括的な地図を作るのを難しくしてる。特に昆虫は非常に多様で、動物種の大部分を占めているからね。ほとんどの昆虫は、お互いにやよく研究されている種であるDrosophila melanogaster(ショウジョウバエ)ともあまり遺伝的な類似点がない。だから、ある種から別の種への知識移転が難しくなるんだ。それに、多くの昆虫が複雑なライフサイクルを持ってるから、CRMを研究するのがさらに大変なんだ。
新しい方法の開発:SCRMshaw
この課題に対処するために、SCRMshawという革新的な計算手法を作ったんだ。これは「Supervised Cis-Regulatory Module prediction」の略で、エンハンサーを特に精度高く予測することを目指してる。SCRMshawは、配列解析されたゲノムと、遺伝子の活動パターンを共有する15〜30の既知のエンハンサーから成るトレーニングセットだけを必要とする。この方法は、機能が似ているエンハンサーは配列の特徴も似ているという原則に基づいていて、研究者が容易に見つけられるものや、従来のアライメント方法で見えるものとは異なる特徴を持ってるけど、機械学習を使うことで検出できるんだ。これにより、SCRMshawは転写因子の正確な結合部位や調節遺伝子の発現パターンを知らなくてもエンハンサーを効果的に見つけられる。
重要なのは、SCRMshawが既存のDrosophila melanogasterのデータを利用して、何百万年も前に分岐した異なる昆虫種のエンハンサーを発見するためのモデルを訓練できること。多くの昆虫の間で保存された非コーディングDNA配列が不足していることを考えると、この種を超えた適用は重要なんだ。
複数の昆虫ゲノムの調節注釈
この研究では、SCRMshawを使って33の昆虫ゲノムに注釈を付けたんだ。トレーニングセットには検証済みのDrosophilaのエンハンサーを使った。選ばれた種はさまざまな昆虫の目を代表していて、約10%の知られている昆虫種の包括的なゲノムアセンブリーのスナップショットを提供してる。予測されたエンハンサーは検索可能なデータベースで利用可能になってて、ユーザーは特定の種や組織タイプ、または可能なターゲット遺伝子を調べることができる。
いくつかのシミュレーションや検証実験を行って、SCRMshawがどれだけ効果的かを確認したんだ。結果は、昆虫の調節注釈に関する初めての詳細なリソースで、他の昆虫ゲノムが配列されるにつれて成長していく予定だよ。
エンハンサーを予測するSCRMshawの効率
SCRMshawは、全ての完全変態昆虫にわたってエンハンサーを見つけるのに特に効果的だということが分かってる。この方法は、共通の機能で定義された既知のエンハンサーのトレーニングセットを使用して、短いDNAサブシーケンスのカウント分布を反映する統計モデルを作成する。モデルは、ターゲットゲノム内の重なる配列ウィンドウを評価して、高スコアの領域を潜在的なエンハンサーとして予測する。さまざまな昆虫のゲノムにSCRMshawを適用したとき、蚊、カブトムシ、ハチを含むいくつかの種で、さらなる実験に基づいた約75%の予測成功率が得られた。
この結果は、昆虫のエンハンサーの配列間にまだ発見されていない類似点が存在することを示唆していて、特に複数の遺伝子調節ネットワークに関連するものがある。これにより、SCRMshawをもっと多くの配列された昆虫ゲノムに適用することにしたんだ。
SCRMshawの使用のためのワークフロー
SCRMshawを多くの配列されたゲノムに適用するために、体系的なワークフローを開発した。このワークフローは、組織特異的なエンハンサー配列の迅速な予測のためにゲノムの適切な準備を保証する。これには、結果の評価と、よく研究されたDrosophilaのゲノムに基づいてゲノムの部分に注釈を付けることが含まれる。手順は次の通り:
入力要件:SCRMshawは、任意のゲノムのために2つのファイルを必要とする:ゲノム配列ファイルとゲノム注釈ファイル。ゲノムファイルは、SCRMshawを実行する前に特定の要素の確認を行う。
SCRMshawの実行:プログラムは、好ましい設定を使用して実行される。
ポストプロセッシング:SCRMshawの生の出力は、予測されたエンハンサーの最終セットを決定するために洗練される。予測のサイズと質を改善するために調整が行われる。
オルソロジーマッピング:予測された遺伝子をDrosophilaの既知の遺伝子にリンクさせて、予測されたエンハンサーをより効果的に評価できるようにする。
33の昆虫ゲノムの注釈
最初に利用可能性と多様性に基づいて選ばれた33の昆虫ゲノムで分析を行った。結果として、合計で約290万のエンハンサーを予測し、各種で約87,000の予測を平均して行った。いくつかの予測が重なるかもしれないけど、110万以上のユニークな配列を特定した。これらの予測されたエンハンサーの平均サイズは約750塩基対だった。
単一の遺伝子座に対する複数のエンハンサー予測
SCRMshawが単一の遺伝子座内に複数のエンハンサーを予測することがよくある。これは、「シャドウエンハンサー」の概念と一致していて、似たようなエンハンサーのセットが同じ遺伝子を調整するために一緒に働くんだ。SCRMshawがエンハンサーを信頼できるように予測しているのか、ただの偶然でやっているのかを確認するために、さまざまなゲノムを使ってシミュレーションを行った。結果は、特定の遺伝子座では、SCRMshawが期待以上に頻繁にエンハンサーを予測していることを示していて、この発見はSCRMshawがあなたの予測を無作為にしていないことを支持してる。
種間でのオルソロギー遺伝子座に関する発見
SCRMshawの大事なアイデアの一つは、調節戦略が種間で保存されている可能性があることなんだ。SCRMshawが異なる種で同じ遺伝子の場所にエンハンサーをどれだけ予測できたかを調べた。観察したところ、考慮する種の数が増えるにつれて共通の予測されたエンハンサーの数が減少したけど、SCRMshawの結果は常に共通の遺伝子座での予測エンハンサーがランダムな予測の提案よりも多いことを示してた。
開いたクロマチン領域との相関
活性エンハンサーは通常、アクセス可能なクロマチンの領域に存在することが多い。SCRMshawの予測が本当にオープンクロマチン領域内に位置しているかを確認するために、さまざまな種のデータセットを比較した。ほとんどの場合、SCRMshawの予測とオープンクロマチン領域との間には重要な重複が見られ、その結果、SCRMshawの予測に自信を持つことができた。
リポータ遺伝子分析による検証
予測されたエンハンサーが本当に機能しているかをテストするために、リポータ遺伝子分析を行った。Drosophilaの選ばれた予測に対してテストを行ったところ、77%のテストされた配列がエンハンサー活性を示す高い成功率が得られた。これらの配列のかなりの部分も、正しい組織特異的な活性を示していて、SCRMshawの予測をさらに検証することができた。
昆虫調節注釈リソース
さまざまなテストから得られた結果は、SCRMshawが異なる昆虫種全体で調節配列を効果的に予測できることを示している。これらの情報を利用できるようにするために、私たちは予測から得られたすべての調節注釈を含むデータベースを作成した。このデータベースは、すべての配列された昆虫の初期の調節注釈を提供するプロジェクトの一部なんだ。
継続的な努力と今後の方向性
SCRMshawは強力なツールだけど、まだ限界や改善の余地がある。ゲノムアセンブリーのエラーや繰り返し配列の特定不足などの問題が結果に影響を与える可能性があるんだ。SCRMshawの予測は出発点として捉えるべきで、興味のある予測には必ず検証実験が必要だよ。
今回の研究で示した調節注釈は初期バージョンで、今後進化し続ける予定。もっとトレーニングデータセットが利用可能になって、追加の種が配列されるにつれて、これらの注釈を更新していくつもり。私たちの結果は、真の陽性と偽陽性の予測の良いバランスを示していて、SCRMshawが将来の昆虫調節ゲノム研究に役立つ可能性を示唆してる。
結論
要するに、この研究は昆虫における遺伝子発現の調節メカニズムを理解する上での大きな進歩を示しているんだ。エンハンサーを予測するために開発された手法、SCRMshawはさまざまな種で堅牢な結果を示していて、作成した包括的なデータベースは、さらなる昆虫ゲノムを研究したい研究者にとって貴重なリソースになるだろう。私たちが方法を洗練し続け、データを集め続けることで、遺伝子調節の理解は深まり続け、遺伝学、進化、農業などの分野に広い影響を与える可能性があるんだ。
タイトル: Regulatory genome annotation of 33 insect species
概要: Annotation of newly-sequenced genomes frequently includes genes, but rarely covers important non-coding genomic features such as the cis-regulatory modules--e.g., enhancers and silencers--that regulate gene expression. Here, we begin to remedy this situation by developing a workflow for rapid initial annotation of insect regulatory sequences, and provide a searchable database resource with enhancer predictions for 33 genomes. Using our previously-developed SCRMshaw computational enhancer prediction method, we predict over 2.8 million regulatory sequences along with the tissues where they are expected to be active, in a set of insect species ranging over 360 million years of evolution. Extensive analysis and validation of the data provides several lines of evidence suggesting that we achieve a high true-positive rate for enhancer prediction. One, we show that our predictions target specific loci, rather than random genomic locations. Two, we predict enhancers in orthologous loci across a diverged set of species to a significantly higher degree than random expectation would allow. Three, we demonstrate that our predictions are highly enriched for regions of accessible chromatin. Four, we achieve a validation rate in excess of 70% using in vivo reporter gene assays. As we continue to annotate both new tissues and new species, our regulatory annotation resource will provide a rich source of data for the research community and will have utility for both small-scale (single gene, single species) and large-scale (many genes, many species) studies of gene regulation. In particular, the ability to search for functionally-related regulatory elements in orthologous loci should greatly facilitate studies of enhancer evolution even among distantly related species.
著者: Marc S. Halfon, H. Asma, E. Tieke, K. D. Deem, J. Rahmat, T. Dong, X. Huang, Y. Tomoyasu
最終更新: 2024-07-10 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.01.23.576926
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.01.23.576926.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。