植物のゲノムサイズを測る新しい方法
MGSEは、マッピングデータを使って植物のゲノムサイズを信頼性高く推定する方法を提供してるよ。
Boas Pucker, S. Natarajan, J. Gehrke
― 1 分で読む
目次
植物のゲノムはかなり複雑で、そのサイズを測るのは難しいことがある。顕微鏡で染色体のサイズを測ることはできるけど、単一の細胞内の全てのDNAの総長はしばしば不明のままだ。特に、長年研究されてきたモデル植物のアラビドプシス・タリアナにとってはそうだ。
ゲノムサイズ測定の歴史的手法
過去には、科学者たちは様々な生化学的手法を使ってゲノムサイズを推定していた。再結合動態、フェルゲンフォトメトリー、定量的ゲルブロットハイブリダイゼーション、サザンブロット、フローサイトメトリーなどの技術が含まれていた。ただ、これらの手法は通常、基準ゲノムを必要とし、つまり既知の配列とサンプルを比較するんだ。
技術の進歩により、次世代シーケンシングが登場し、科学者たちはDNA配列をより効果的に分析できるようになった。この新しいアプローチは、k-merとして知られる小さなDNAセグメントの中のパターンを見つけることに依存している。JellyFishやKmergenie、Tallymer、Kmerlight、ゲノムキャラクター見積もり(gce)など、これらのk-merを分析するための様々なツールが開発された。新しい手法は貴重な洞察を提供するけど、通常、より多くのシーケンスデータを必要とするんだ。
ゲノムサイズ測定の課題
測定技術が改善されても、いくつかの課題が残っている。植物のゲノムの一部、例えばヌクレオラス組織領域(NOR)や中心体は、組み立てが難しいことが多い。つまり、組み立てのサイズからゲノムのサイズを直接推測することはできない。実際、組み立てのサイズは実際のゲノムサイズの下限を提供することがある。
アラビドプシス・タリアナのゲノムサイズの推定は大きく異なり、初期の推定値では7000万塩基対(Mbp)から211Mbpまでのサイズが示されている。しかし最近の研究では、より正確な推定が一般的に125Mbpから165Mbpの間に落ち着いていることが示された。この不一致は、使用される手法や具体的なサンプルの違いから生じることが多い。
マッピングベースのゲノムサイズ推定(MGSE)
新しい手法:ゲノムサイズを推定するための新しい有望なアプローチがマッピングベースのゲノムサイズ推定(MGSE)だ。この手法は、Pythonスクリプトを使ってリードマッピングデータを分析し、カバレッジ情報を処理してゲノムのサイズを予測する。MGSEは以前のツールとは異なり、様々なシーケンシング技術からの短いリードと長いリードの両方を扱える。
MGSEを効果的に利用するために、特定の植物の品種、例えばアラビドプシス・タリアナの異なるアクセッションからデータセットを分析した。高品質な基準ゲノムを用いてマッピングすることで、スクリプトはその領域のヌクレオチドの平均カバレッジを計算する。これは全体のゲノムサイズを推定するために重要だ。
分析したデータセット
研究では、アラビドプシス・タリアナのアクセッション、コロンビア-0(Col-0)やニーダーゼンツ-1(Nd-1)からの様々なシーケンシングデータセットを使用した。これらのデータセットは公的なデータベースから取得され、基準ゲノムに対するリードマッピングが含まれていた。他の植物、例えばビート(Beta vulgaris)に関しても、様々なアクセッションを分析してMGSEの広範な適用性を評価した。
MGSEを使ったアラビドプシス・タリアナのゲノムサイズ推定
MGSEを用いて、科学者たちはアラビドプシス・タリアナのアクセッションCol-0とNd-1のゲノムサイズを推定した。カバレッジを計算するのに最適な基準領域を見つけるために、異なる領域がテストされた。推定値は、GenomeScopeやgceなどの他のツールの結果と比較された。
Col-0の推定は、報告された最大の組み立てサイズを下回るゲノムサイズを予測した。MGSEは異なるサンプル間でのばらつきが低いため、有望に見え、ほぼ完全なゲノム配列の平均に近い値と一致していた。一方、他のツールは異なる予測を提供し、一部は非常に低いゲノムサイズを報告した。
MGSE手法をNd-1に適用したところ、他の方法よりも信頼できる推定値を示した。分析の結果、Nd-1のゲノムサイズは約138~140Mbpであるべきだと示唆された。
ビート(Beta vulgaris)のゲノムサイズ評価
次に、MGSEを使ってビートのゲノムサイズを推定した。そのゲノムの複雑さを考慮すると、サイズの予測には異なる品種のシーケンシングデータを考慮する必要があった。分析の結果、以前の推定は過小評価であることが示され、MGSEは真のゲノムサイズの妥当な範囲を提供し、おおよそ600から758Mbpの間であることを示唆した。
一部のサンプルは低いカバレッジを示し、これは異なる亜種に属する可能性があることを示しているが、MGSEは一般的にビートのゲノムサイズを推定するのにうまく機能した。
イネ(Oryza sativa)のゲノムサイズ推定
イネもMGSEを使って分析された。最近完全なゲノム配列が報告され、この手法はさまざまなシーケンシングデータを評価してゲノムサイズを推定した。MGSEの結果は推定される完全なゲノムサイズに近く、その効果を強調した。
様々な植物種における応用
MGSEは多くの植物種に対応できるように設計されていた。分析にはBrachypodium distachyon、Solanum lycopersicum、Zea maysなどが含まれていた。一般的に、MGSEによって生成された予測は他のツールのそれと似ているが、時折より安定した推定を提供することがあった。
Brachypodium distachyonの場合、MGSEは組み立てサイズをわずかに上回るゲノムサイズを推定し、他のツールはしばしば低い値を予測した。Zea maysでは、MGSEは他の方法と比較して性能が向上した。
MGSEの性能と将来展望
MGSEは高品質なゲノム組み立てに適用される場合に最も良く機能し、各位置の正確なカバレッジ計算を必要とする。MGSEの大きな利点の一つは、汚染DNAからのリードを除外する能力であり、高い汚染のケースに対応できる。
今後のゲノム研究は高い連結性のある組み立てとリードマッピングを生成する可能性が高く、MGSEは研究者にとって貴重なリソースとなるだろう。また、MGSEは複雑で多倍体の種のゲノム分析においても有望で、遺伝子の複数のコピーが存在する場合にも役立つ。
一つの課題としては、異なるゲノム領域間でのGC含量の変動があり、これがシーケンシングバイアスを招く可能性がある。これらのバイアスに対処することは、ゲノムサイズ予測のさらなる精緻化のために重要だ。
全体として、ロングリードシーケンシング技術の進展が続く中で、MGSEは植物ゲノム研究者にとって重要なツールとなる可能性があり、植物以外の様々な種にも適用できるだろう。
結論
植物のゲノムサイズを正確に測定することは、挑戦的だけど必要な追求が続いている。MGSEの導入は、研究者がゲノムサイズを効果的に推定する新しい道を提供し、以前の手法が直面していた問題に対処することができる。高品質な組み立てとリードマッピングを活用することで、MGSEは植物遺伝学の理解を深めるための貴重な洞察を提供できる。これが引き続きテストされ、洗練されることで、幅広い植物種にわたって信頼できるゲノムサイズの推定を提供することが期待される。
タイトル: Mapping-based genome size estimation
概要: While the size of chromosomes can be measured under a microscope, obtaining the exact size of a genome remains a challenge. Biochemical methods and k-mer distribution-based approaches allow only estimations. An alternative approach to estimate the genome size based on high contiguity assemblies and read mappings is presented here. Analyses of Arabidopsis thaliana and Beta vulgaris data sets are presented to show the impact of different parameters. Oryza sativa, Brachypodium distachyon, Solanum lycopersicum, Vitis vinifera, and Zea mays were also analyzed to demonstrate the broad applicability of this approach. Mapping-based Genome Size Estimation (MGSE) and additional scripts are available on GitHub: https://github.com/bpucker/MGSE.
著者: Boas Pucker, S. Natarajan, J. Gehrke
最終更新: 2024-10-24 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/607390
ソースPDF: https://www.biorxiv.org/content/10.1101/607390.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。