ゲノム測定のためのDNAリードの信頼性評価
研究は、ゲノムサイズを測定するためのDNA読み取り方法の信頼性を調べている。
― 1 分で読む
精密ゲノミクスは、医療、環境健康、持続可能な農業、生物科学において重要な役割を果たしてるよ。最近の進展、特に「EvidentialGene」というプロジェクトでは、Gnodesっていうプログラムを使って、ゲノム内のDNA量を正確に測ることを目指しているんだ。これにより、ゲノム内の複雑さを特定できるようになって、特に繰り返し構造がある部分が対象だよ。この研究から得た知見は、新しいゲノムプロジェクトを進めるために活かされる予定なんだ。
この分野での注目すべき成果の一つは、モデル植物であるアラビドプシスのゲノムの再構築で、20年間続いていた不一致を解決したことだよ。この問題は主に、重要なコーディング遺伝子や大量のサテライトDNAを含む重複した領域が欠落していたことに関連してたんだ。
研究の焦点
この研究の主な目的は、ゲノムサイズやその主要成分を測る際の異なるタイプのDNAリードの信頼性を評価することだよ。さまざまなゲノムアセンブリが参考にされるけど、組み立て手法自体に焦点を当てるのではなく、細胞計測法を用いて比較するんだ。測定誤差が存在して、特定が難しいことも知られているよ。DNA測定には、生物的特性(種、個体、組織や細胞の種類など)が影響を及ぼす。
実験室や分子の方法、シーケンシングマシンの種類、データ処理に使う計算方法もよく影響を与えるんだ。それぞれの要因が、独自の誤差の可能性を引き入れるよ。
生物的要因
種の中でも、個体や組織のレベルで変異が起こることがあるんだ。最近の発見では、ショウジョウバエの種の中でゲノムサイズの不一致が記録されていて、特定の細胞内の一部の繰り返し領域が正しく複製されていないことが測定バイアスを引き起こしてたんだ。例えば、トウモロコシでは、異なる集団間でゲノムサイズの幅が広く、長末端繰り返しトランスポゾンの活動により、2から3ギガベース以上の変動が見られるよ。
実験室の方法
バイオサンプルの処理方法、特にDNAの抽出が結果に大きく影響を与えることがあるんだ。例えば、同じ植物から取った2つのサンプルが、1つは40%のアブラムシDNAで汚染されていることが分かって、違っていたんだ。実験室での実践、組織の選択や成長条件も、ゲノムDNAの含有量に影響することがあるよ。
シーケンシングの方法
異なるシーケンシング手法や技術がDNAサンプルに影響を与えることがあるんだ。以前の短いリードのシーケンシング手法では、PCR増幅を頻繁に使っていてそれがバイアスを導入したんだけど、最近のPCRフリーのアプローチは、バイアスが少ないことが示されているよ。Pacific BiosciencesやOxford Nanoporeのようなロングリードシーケンシング技術は、特定の繰り返し配列でアーティファクトを生じる場合があるんだ。
計算処理
シーケンシングデータの処理は、エラー修正からデータフィルタリングまで、いくつかのステップがあるんだけど、これがゲノムアセンブリや測定に影響するんだ。DNAデータを簡素化しようとする多くの計算ステップは、生物的に重要な重複配列を削除することがあるよ。
改善の可能性
理論的には、これらの要因を制御してゲノム測定やアセンブリの精度を高めることができるけど、実際には、特定の生物にとってどの要因が重要なのかを見分けるのが難しくなるんだ。例えば、アラビドプシスでは、最初のゲノムアセンブリが不完全だと分かっているにも関わらず、その後の研究では部分アセンブリを完全なものとして扱っていたよ。
この研究はシーケンシング方法に焦点を当てているけど、生物的および実験室の要因も考慮して、同じバイオサンプルと実験室の方法を共有するプロジェクトからのデータをフィルタリングして比較しているんだ。計算処理中のエラー修正方法は、この文脈では問題になっていないよ。
DNAリードタイプの信頼性
この研究では、短いリードのIlluminaシーケンシング、高忠実度および低忠実度のリード(Pacific Biosciencesから)、高精度および低精度のリード(Oxford Nanoporeから)の5つのDNAリードタイプの信頼性を調べているよ。結果は、高精度と低精度のリードタイプの両方が偏りのない測定を提供しないかもしれないことを示していて、多くの公開された低精度サンプルはエラー修正を受けていて、これがさらなるバイアスを生じる可能性があるんだ。
ゲノムサイズの測定は、観察されたDNA断片サイズとDNAリードの数から基本的な式を使って計算されるんだけど、DNA断片がゲノムの偏りのないサンプルを表しているという前提はしばしば間違っていることがあるよ。非核源からの汚染物質を考慮しないと、正確な測定ができないんだ。
発見
結果として、短リードと長リードのDNA手法は、ゲノムサイズや内容の測定で似たような結果を出しているけど、生物的、分子的、および方法論的要因に関しては重要な考慮事項があるんだ。完全に信頼できる結果を提供する単一の方法は見つからなかったけど、特定のDNA測定アプローチの組み合わせがより一貫した結果をもたらし、しばしば細胞計測の測定と密接に一致することが分かったよ。5つのDNAリードタイプを使って、5種のゲノムサイズを測定したんだけど、このバラエティが異なるタイプの間でゲノムサイズを信頼性高く測定することの複雑さを強調しているんだ。
DNAリードタイプ間の比較
結果は、DNAリーディングから導出されたゲノムサイズが細胞計測の測定と比較して重要な違いがあったことを示していて、アセンブリは一般的に小さい推定値を生成しているんだ。研究対象の5種を詳しく調べたところ、人間のゲノムは3200メガベース、トウモロコシのゲノムは約2600メガベースだったよ。他の種にはゼブラフィッシュ、ソルガム、お米が含まれているんだ。
特定の発見では、ゲノムアセンブリは通常、細胞計測の測定よりも小さいことが示されている。特に、人間のゲノムサイズは細胞計測の測定に近かったけど、他のほとんどはかなりそれを下回っていたんだ。また、高忠実度リードタイプの平均は細胞計測の測定に対して88%だったことも記録されているよ。
コピー数の不一致
リボソームRNA遺伝子や他の高重複領域のコピー数は大きく変動することがあって、アセンブリでの過小評価につながることがよくあるんだ。例えば、人間のゲノムアセンブリは特定の遺伝子のコピーが約230だけど、他のDNAタイプでは300コピーで測定されることもある。対照的に、トウモロコシはアセンブリで400コピーだけど、特定のDNAタイプでは3000〜4000コピーで測定されるかもしれないよ。
これは、高コピー領域を正確に測定するのが難しいことを強調していて、最近の多くのゲノムアセンブリがまだ重複した遺伝子数に欠けている可能性があることを示唆しているよ。
DNAタイプ間の合意
高コピーゲノムコンテンツの信頼性を評価するために、この研究では3種での異なるリードタイプの合意を調べたんだ。合意がある場合は、2つ以上のタイプがこれらの領域について類似した推定値を提供していることを示すけど、これは必ずしも検証手法として完璧ではないよ。
データで観察された傾向は、合意のレベルが異なり、ロングリードタイプが一般的により一貫した結果を示していることを示しているんだ。要約すると、Ontl型が最も信頼性の高い合意を持っていて、Pblo型は高コピーの測定が過剰に出ていることがあったよ。
マッピングと未配置の塩基
DNAリードをゲノムアセンブリに正確にマッピングするのは複雑なプロセスなんだ。長いリードの一部が直接マッピングできない問題があり、特に繰り返し領域でよく見られるんだ。これらの「未配置」塩基は、再アラインメントする際に総ゲノムコンテンツに大きく寄与することがあるから、考慮しなければならないよ。
長いリードは、短いリードに比べて未配置塩基の割合が高くなる傾向があって、測定されたゲノムサイズや内容の不一致を引き起こす可能性があるんだ。特に重複領域の複雑さを理解するためには、これらの未配置の部分を慎重に扱うことが重要だよ。
正確な測定のための推奨事項
ゲノムサイズと内容の測定の正確性を向上させるために、この研究では偏りの少ないロングリードタイプを使って評価することを提案しているよ。細胞計測や定量PCRのような追加の方法が結果のクロスバリデーションに役立つんだ。また、アセンブリのためのDNAフィルタリング中にコンテンツを測定することも、ゲノムアセンブリの完全性を確認するための品質チェックになるよ。
全体的に見て、DNAからのゲノムアセンブリは細胞計測の測定よりも小さいことが多いけど、両方の方法からの知見を組み合わせて、慎重な実験室技術を用いることで、より信頼性の高いゲノムサイズの決定ができるんだ。
結論
ゲノムサイズと内容の正確な測定は、ゲノムアセンブリの検証にとって重要なんだ。この研究の結果は、DNA測定にバイアスを持ち込む要因を理解する重要性を強調しているよ。正確な方法を採用してさまざまなエラー源を制御することで、研究者は生物のゲノムの景観についてより信頼性の高い知見を得ることができるんだ。
タイトル: Measuring DNA contents of animal and plant genomes with Gnodes, the long and short of it.
概要: Measurement of DNA contents of genomes is valuable for understanding genome biology, including assessments of genome assemblies, but it is not a trivial problem. Measuring contents of DNA shotgun reads is complicated by several factors: biological contents of genomes at species, individual and tissue or cell levels, laboratory methods, sequencing technology and computational processing for measurement and assembly. This compares, and shares, complications with cytometric (Cym) and related molecular measurements of genome size and contents. There is an obvious discrepancy between cytometric measurements and current long-read genome assemblies (Asm): genome assemblies average 12% below Cym measured sizes, differing in amounts of duplicated content. This report examines five DNA read types to see if they can be used for more precise and reliable discrimination of major genome contents and sizes. The read types are short, accurate Illumina, long Pacific Biosciences, of low and high accuracy, and long Oxford Nanopore Technology of low and high accuracy. Gnodes is the measurement tool used, which maps DNA to assembly, and measures DNA copy numbers for major genome contents of genes, transposons, repeats, and others, using as a measurement unit the single copies of unique conserved genes. Public data of five well studied genomes, human, corn, zebrafish, sorghum and rice, are used for the primary evidence of this work. Results of this are mixed and open to interpretations: In broad terms, all DNA types measure about the same genome contents, at or below 90% agreement, which is a level that the other complications can contribute. For precision above a 90% level, long read types differ in supporting larger cytometric sizes (low accuracy reads), or smaller assembly sizes (high accuracy reads), with accurate short-reads roughly between. The weight of evidence suggests that low accuracy long reads are less biased for genome measurement, that high accuracy long reads have a bias of reduced duplications introduced by computational averaging or filtering. The several complicating factors noted can produce discrepancies larger than this average Cym - Asm difference, and are a problem to control.
著者: Don Gilbert
最終更新: 2024-10-06 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.10.06.616888
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.10.06.616888.full.pdf
ライセンス: https://creativecommons.org/licenses/by-nc/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。