DNAメチル化研究における非転換エラーの調査
この記事では、DNAメチル化研究における非変換エラーの影響を調べてるよ。
― 1 分で読む
シトシンメチル化は、DNAに起こる重要な化学変化なんだ。主にヘテロクロマチンと呼ばれる特定の領域で発生して、遺伝子がオフになることに関連してる。この変化を調べる方法の一つがビスルファイト処理ってやつ。これはDNAにナトリウムビスルファイトを加えて、メチル化されてないシトシンをウラシルに変える過程なんだ。次にPCRっていうステップで、ウラシルがチミンに変わる。メチル化されたシトシンはそのまま。シーケンシングの過程を経た後、得られたDNAの断片はリファレンスゲノムと揃えられる。各ポジションでチミンとシトシンの塩基の数をカウントすることで、科学者たちは特定のサイトでメチル化されてる細胞の数を把握できるんだ。
でもビスルファイト処理には大きな問題があって、DNAを傷めてしまうことがあるから、良い結果を得るにはかなりの量の出発材料が必要なんだ。初期の研究では、ゲノム全体のメチル化を広く調べるための方法が提供されたけど、複雑でデリケートな手法に依存していたから、大きなサンプルにはスケールしにくかった。そこで「タグメンテーション」っていう方法が開発された。この技術はTn5トランスポザースっていう特別な酵素を使って、DNAを切りながら特定のタグを同時に付けるんだ。このアプローチは古い方法に比べてずっと少ない出発材料で済むけど、まだ課題もある。
最初のタグメンテーションプロセスは、一つのタグを使って第二のタグを付ける複雑なステップを含んでた。新しい適応では、二つのタグを使ってプロセスを簡略化することで、出発材料が多すぎる問題を軽減できるかもしれない。新しい方法では、初期プロセス中に残されたギャップを埋めることを目指していて、理論的にはゲノムDNAの元のメチル化パターンが変わらないはずなんだ。二つのタグを使うことで、元のストランドと補完ストランドを区別できるから、得られる情報が増える可能性もある。
それでも、真のメチル化状態を確定するのは、メチル化されてないシトシンをチミンに変換する信頼できるプロセスに大きく依存してる。研究者たちが行う品質管理の一つは、未メチル化のコントロールDNAのサンプルを含めて、変換がどれだけうまくいっているかを測ることなんだ。理想的な状況では、すべての未メチル化のシトシンがチミンに変わるんだけど、過去の研究では小さな割合の配列が未変換のままだったことが分かった。研究者たちは、これらのエラーはDNA構造の稀な断裂が原因で、断片全体に連鎖反応を引き起こす可能性があると示唆している。もしこれらの断片がメチル化されたヌクレオチドで延長されると、実際のメチル化状態を不正確に表現することになりかねない。
この記事では、ストランドディスプレースメントタグメンテーションを使用する際の未変換エラーの問題を解明することを目指している。まず、これらのエラーがどこでどのように発生するかを探るつもりだ。それから、真のメチル化レベルを調べる際にこれらのエラーを統計的に考慮する方法を提案し、こうした問題があっても信頼できるメチル化レベルが理解できることを示すよ。
未変換エラー
DNA内のシトシンの未変換に関しては、これらのエラーがどこで発生し、その頻度を特定することが重要だ。アラビドプシス・タリアナ(植物)、ショウジョウバエ(果物バエ)、およびファージλ(ウイルス)の3つの生物でこれを調べた。これらの生物のゲノムにはシトシンメチル化がないから、得られた結果に見られる未メチル化のシトシンはエラーによるものに違いない。
私たちはA.タリアナのクロロプラストDNAの特定の領域に焦点を当てた。他の半分はその核DNAと類似点があるからだ。私たちのアプローチはTn5酵素の濃度やPCR増幅のサイクル数を変更して、これらの要因からのエラーの可能性を探った。非変換率は時には17%に達する高い数値だった。A.タリアナのクロロプラストのメチル化レベルが通常非常に低いことを考えると、これは驚きだった。サンプルによるバリエーションはあったけど、これらの高い率は特定の種や使われた手法に関連しているわけではなさそうだ。
未変換の分布を見て、配列を3つのグループに分類した。大多数のリード(約71%)はエラーが見られなかった。残りのリードは完全に未変換のものと、変換された塩基と未変換の塩基が混在しているものに分かれた。この分布から、これらのエラーを引き起こすには2つの異なるプロセスが関与しているかもしれないことがわかった。この発見は、哺乳類における過去のエラー率の報告と対照的で、はるかに低いレベルの記録があった。
もっと詳しく調べてみると、未変換エラーはリードの終わりに近い部分で発生する傾向があることがわかった。シーケンスの長さとともに品質が一般的に低下するからかもしれない。でも、ほとんどのリードで高品質のスコアが観察されたことから、他の要因も関与している可能性がある。また、これらのエラーは調べられるDNAのストランドによって異なる可能性があることも示された。いくつかのストランドが他のものよりも高いエラー率を示していた。
ゲノム全体のバリエーション
次に、未変換率がゲノム全体で一貫しているかどうかを調べた。A.タリアナのクロロプラストを分析した結果、150bpセグメントにわたってエラー率の大きなバリエーションが観察された。ある領域では他の領域の5倍もエラーが多いことがあり、テストした異なるサンプル間でも一貫していた。観察されたバリエーションは、ランダムサンプリングのエラーから期待されるものよりもはるかに大きかったんだ。
こうした違いの可能性を探る中で、未変換率と各セグメントのカバレッジとの間に弱い相関があることに気づいた。つまり、多くのリードのある領域で必ずしもエラー率が低いわけではなかった。興味深いことに、未変換率とGC含量の間には正の相関があって、ゲノムの特定の領域が本質的にエラーが起きやすい可能性があることを示唆している。
私たちの発見は、未変換エラーがランダムではなく、分析しているDNAの特定の特性に依存する可能性があることを示している。この結論は、いくつかのセグメントだけを元に、ゲノムの大きな部分に対するエラー率をどう見積もるかについて重要な考慮事項を提起している。
Tn5トランスポザースと未変換エラー
観察結果をまとめると、未変換エラーは異なる生物で高い率で発生し、リード内やゲノム全体で変動していることがわかった。これらのエラーは、完全に未変換のリードを生じさせるプロセスと、一部が未変換のリードを生じさせるプロセスの2つから成っているようだ。特に、配列の端に偏っている。主な理論は、Tn5トランスポザースがDNAに断裂を生じさせ、それがBstポリメラーゼがこれらの断片をメチル化されたヌクレオチドを使って修復または延長する際にさらなる問題を引き起こす可能性があるというものだ。つまり、未メチル化のはずのサイトが、実際にはこれらの技術的エラーのためにメチル化されたように見える可能性があるってこと。
これが他のプロセスに与える影響も考慮する必要がある。特定のステップでメチル化されたヌクレオチドを用いる手法は、重大な変換エラーを引き起こす可能性があるけど、他の技術も同様の問題に直面する可能性が高い。もしシングルストランドの断裂が両方のケースで起きれば、メチル化レベルの報告に影響が出るかもしれない。
どうやってこれらの未変換エラーに対処するか?一つの方法は、複数の未変換シトシンを含むリードをフィルタリングすることがある。でも、このアプローチはメチル化が重要な機能を持つ植物ではあまり効果的ではないかもしれない。他の人たちは、未変換シトシンの数や位置に基づいて異なるスコアリングシステムを使うことを提案している。でも、こうした方法はしばしば部分未変換リードの複雑さを見落として、本当のメチル化への大きな影響には十分に対処できていない。
幸いなことに、こうしたエラーは生きた細胞ではなく、制御された実験室環境で発生するから、統計的にモデル化することができる。これにより、エラーのパターンをよりよく理解し、真のメチル化レベルを推定するための方法を洗練できるんだ。
メチル化の推定とサンプルサイズ
平均メチル化レベルを推定する際には、未変換エラーの存在が結果を歪める可能性があることを認識することが重要だ。これらのエラーは、メチル化されたシトシンの見かけの数に影響を与えて、適切に対処しないと誤解を招く結論に至る。だけど、私たちの研究は、こうしたエラーが統計的平均に与える影響は、実際のサンプリングプロセス中に生じる内在性のバリエーションよりも少ないことを示している。
未変換エラーが平均メチル化の推定にどう影響するかを調べるために、シミュレーションを行った。これらのシミュレーションには、変換されたリードと未変換のリードの両方が含まれていて、実際のメチル化レベルをどれだけ復元できるかを観察した。リードの数を変えた結果、リードの数を増やすことが、単に変換エラーを修正するよりも推定の正確性に大きな正の影響を与えることがわかった。
これは、実際には、正確なメチル化の推定を確保する最良の方法はサンプルサイズを増やすことだということを示唆している。これは、より深いシーケンシングを通じてより多くのデータを生成するか、分析に複数の領域を組み込むことで行うことができ、これは生物学的に意味があり、結果の堅牢性を向上させることができる。
さらに、未変換エラーが推定されたメチル化レベルに潜在的な上方バイアスを生じさせても、私たちの発見は、統計的に考慮すれば、平均推定値が真の値に近く、体系的なバイアスなしであることを示している。これは、誤差の不正確さに対処するための統計的補正の効果を示し、推定値の質を改善するための重要な要素としてサンプルサイズを考慮する重要性を強調している。
メチル化状態の分類
場合によっては、研究者たちはDNAの領域がメチル化されているかどうかを定量化するのではなく、分類することにもっと興味があるかもしれない。例えば、遺伝子調節に関する質問に対処するために、ある領域が未メチル化、遺伝子ボディ様メチル化、またはトランスポーザブルエレメント(TE)様メチル化に分類されるかを理解することは非常に役に立つ。
この分類を達成するために、観察された変換および未変換リードのパターンに基づいて証拠を評価するモデルを使用できる。例えば、未メチル化が期待される領域では、すべての未変換シトシンはエラーとして扱われる。逆に、遺伝子ボディ様メチル化DNAでは、特定のサイトでメチル化が期待されるが、他のサイトでは期待されない。
私たちの分析は、未メチル化であると期待される領域が確かにその特性を示した一方、積極的に調節されていることが知られているTEはほぼすべてTE様メチル化として分類されたことを示した。分類プロセスは、未変換エラーがあってもこれらの発見の一貫性を強調する以前の研究と類似の結果をもたらした。
遺伝子メチル化の分類はより多様で、遺伝子調節の複雑な性質を反映している。この変動は未変換エラーや分類アプローチの方法の違いから生じた可能性があり、私たちの結果と以前の研究の間に見られる違いにつながっている。
結論
要約すると、ストランドディスプレースメントタグメンテーションの使用により、DNAのメチル化パターンを研究するためのビスルファイトシーケンシングがよりアクセスしやすくなった。でも、この方法は結果を複雑にする重要な未変換エラーを引き起こすんだ。これらのエラーとその原因を理解することは、メチル化データを正確に解釈するためには不可欠なんだ。
私たちは、未変換エラーがメチル化の推定に影響を与えることを示したが、適切な統計モデルを使えばこれらのエラーを効果的に調整できることも示した。サンプルサイズを増やすことも、平均メチル化の推定の信頼性を改善するためには重要で、研究者たちがシトシンメチル化の役割についてより意味のある洞察を得られるようにすることができる。
全体的に、課題は残っているものの、タグメンテーションプロトコルの進展と未変換エラーに対処するための方法の改善が、DNAメチル化とその生物学的意義についてのより深い理解への道を開いているんだ。
タイトル: Bisulphite sequencing in the presence of cytosine-conversion errors
概要: Bisulphite treatment of DNA converts unmethylated cytosines to thymine, and is a common method to infer the methylation status of cytosines when coupled with sequencing. Tagmentation approaches to bisulphite sequencing use a transposase to simultaneously make double-stranded breaks and ligate adaptors to the resulting fragments, allowing for higher throughput with less starting material. However, it has also been noted that certain tagmentation protocols have an unusually high number unmethylated cytosines that are not converted to thymine. Here we describe this phenomenon in detail, and find that results are consistent with single strand nicks by the transposase, followed by strand displacement of part or all of the DNA fragment, leading to erroneous incorporation of methylated cytosines. Nevertheless we show that these errors can be accounted for in downstream analysis and need not impede biological conclusions. We provide a Python package to allow users to implement this framework. Ultimately the additional effort of accounting for errors must be traded off against the scalability of the protocol in planning experiments.
著者: Magnus Nordborg, T. J. Ellis, V. Nizhynska, R. Pisupati, A. Molla-Morales
最終更新: 2024-09-19 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.09.16.613193
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.09.16.613193.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。