noise2readを使って配列精度を改善する
新しい方法が次世代シーケンシングデータの信頼性を高めるよ。
― 1 分で読む
目次
次世代シーケンシング(NGS)は、遺伝学や生物学の研究方法を変えたんだ。DNAを速く、大量にシーケンスできるようになったことで、研究者たちは全ゲノムや特定の遺伝子を今まで以上に効果的に調べることができるようになった。この技術は、遺伝子の発現を理解したり新しい遺伝子の変異を発見したりするための様々な研究に欠かせなくなってる。
でも、NGSは完璧じゃない。生成されるシーケンスに間違いが入り込むことがあるんだ。例えば、DNAの基本単位である塩基が追加されたり削除されたり、ある塩基が別のものに変わったりすることがある。こうしたエラーは、サンプルの準備やDNAの増幅、実際のシーケンシングの段階で起こることがある。
エラー率は比較的低いけど、データの量が膨大なため、多くのエラーが蓄積されることになる。例えば、いくつかのデータセットではエラーの数が数十万に達することもある。これが、正確なデータに依存している研究者にとって大きな問題になるんだ。
シーケンシングにおけるエラーの課題
研究者がNGSデータを分析するとき、こうしたエラーによって問題が発生することがよくある。時には、間違ったデータをバックグラウンドノイズとして無視したり、逆に悪いデータを正しいものとして扱ったりすることがある。これが遺伝子の機能や変異についての誤解を招くことになる。
遺伝データの質と信頼性を向上させるためには、こうしたエラーを無視するんじゃなくて修正することが大事なんだ。目標は、データをクリーンにして、解析が正確な結果を生むようにすることだね。
シーケンシングにおけるエラーの主な原因の一つがポリメラーゼ連鎖反応(PCR)だ。この技術は、特定のDNAセグメントをたくさんコピーするために使われて、分析しやすくするんだ。PCRは一般的に非常に正確だけど、間違いが起こることもある。コピーされたDNAにエラーがあることもあれば、元のサンプルには存在しなかった新しいシーケンスが作られることもある。こうしたエラーが、NGSによって生成された最終的なシーケンスに引き継がれることがある。
シーケンスリードのエラー検出
生成された多くのリードの中からこうした間違ったシーケンスを特定するのは、結構難しいんだ。これには二つの主な理由がある。まず、疑わしい低頻度のリードも実際には本物で正確なことがあるんだ。ただ他のシーケンスより少ない回数コピーされているだけなんだよ。次に、時には間違ったシーケンスが正しいものと非常に似ていることがあって、見分けるのが難しいんだ。
この問題に対処するために、研究者たちはリードをグラフに整理してエラーを検出する方法を開発した。このグラフでは、一意なシーケンスがノードとして機能し、接続がそれらのシーケンスの類似点や違いを示す。これらの接続を研究することで、どのシーケンスがエラーを含んでいる可能性があるかを特定できる。
このアプローチでは、二つの似たシーケンスが一つまたは二つの塩基が異なるためにリンクされることがある。一方のシーケンスが頻繁に現れ、もう一方が珍しい場合、珍しい方にエラーが含まれている可能性が高いから、研究者はそれをより豊富なシーケンスに合わせて修正することを選ぶことができる。
修正方法の構築
シーケンスリードのエラーを効果的に修正するために、noise2readと呼ばれる方法が開発された。この三段階のプロセスは、高度なアルゴリズムを使用して異なるシーケンスのエラーを検出し修正する。
最初のステップでは、単一の塩基エラーを持つシーケンスを調べる。この段階では、信頼性の高い高頻度シーケンスと接続されている低頻度シーケンスを特定する。ツールは、この低頻度シーケンスを高頻度シーケンスに合わせて調整する。
次の段階では、二つの誤った塩基を持つシーケンスを探す。この段階では、非常に似ているシーケンスのグループに焦点を当て、どのシーケンスが間違っている可能性が高いかを特定するために機械学習を用いる。
最後に、シーケンシングデータにPCRプロセスからの増幅エラーが多数含まれている場合は、第三の段階がオプションになる。この追加のステップは、さらに精度を向上させることを目的としている。
方法の仕組み
noise2readの成功の鍵は、本物のリードとエラーを含んでいるリードを区別する能力にある。この方法は、周波数情報を使ってシーケンスを正確に分類する。例えば、珍しいシーケンスがいくつかの一般的なシーケンスに接続されている場合、それは珍しい方にエラーがある可能性が高い。
noise2readはシーケンスからグラフを構築し、研究者がそれらの関係を視覚化できるようにする。高頻度のシーケンスは、接続に基づいて低頻度のシーケンスを調整するのを助ける。
このプロセスには、トレーニングデータの収集が含まれる。このトレーニングデータは、間違ったものまたは正しいものとして識別されたシーケンスで構成される。データが確立されたら、その方法は機械学習技術を適用して予測をさらに改善する。
パフォーマンスの評価
noise2readが効果的であることを確認するために、他の既存の方法と比較して評価される。結果は、noise2readが新しいエラーを導入することなく、エラーを修正する点で他の方法を一貫して上回ることを示している。
実際のデータセットやシミュレーションデータセットを使ったテストを通じて、noise2readがデータの質を改善する能力が非常に高いことが明らかになる。これにより、正確なシーケンシングデータに依存する分析に大きな改善がもたらされる。
下流分析に対する影響
シーケンシングエラーを修正することの影響は、単にデータを改善するだけに留まらない。ユニークなマイクロRNA(miRNA)シーケンスや一塩基多型(SNP)を識別するような様々なアプリケーションが、これらの修正から恩恵を受ける。
研究者がmiRNAの発現を調べるとき、真の違いとエラーを区別することが重要になる。noise2readは、どの変異が本物の生物学的信号で、どれがシーケンシングプロセスのアーティファクトであるかを明確にするのに役立つ。
同様に、SNPプロファイリングにおいても、遺伝子シーケンスの真の変化とエラーを区別することが、病気に関連する遺伝的変異に対するより良い洞察を得るための鍵となる。
noise2readの実用的な応用
noise2readの効果は、ウイルスシーケンシングなどの他の重要な分野に関する研究で特に際立っている。SARS-CoV-2やサル痘のようなウイルスにおいて、シーケンシングエラーの修正は、健康に影響を与える可能性のある遺伝的変異や突然変異の理解を深めるのに役立った。
参照ゲノムシーケンスのエラーを修正することで、研究者たちはウイルスの多様性や進化についてのより正確な視点を得ることができ、これはワクチンの設計や病気の動態の理解に不可欠なんだ。
シーケンシングエラー修正の未来
noise2readは大きな可能性を示しているものの、まだ改善の余地がある。スピードや効率を向上させることは、大規模なデータセットをさらに効果的に管理するために重要だ。また、アルゴリズムの進化も、進化するシーケンシング技術の複雑さや関連するエラーをよりよく捉えるために優先される。
将来の研究では、エラー検出や修正プロセスをさらに強化できる深層学習手法の統合に焦点が当てられるかもしれない。こうした革新は、シーケンシングデータの分析や解釈の仕方を変える可能性が高い。
結論
次世代シーケンシングは遺伝学や生物学を革新したけど、シーケンシングプロセス中に導入されるエラーによって課題も生じている。noise2readのような方法は、これらのエラーを修正しデータの完全性を向上させるために大きな進展を表している。
グラフ理論と機械学習を組み合わせることで、noise2readはシーケンシングデータの質を向上させるだけじゃなく、生物学的分析の正確性も高めている。これによって、研究者たちはゲノム研究からより信頼性の高い結論を導き出すことができ、最終的には遺伝学やその健康への影響についての理解が進むんだ。
タイトル: Turn `noise' to signal: accurately rectify millions of erroneous short reads through graph learning on edit distances
概要: Although the per-base erring rate of NGS is very low at 0.1% to 0.5%, the percentage/probability of erroneous reads in a short-read sequencing dataset can be as high as 10% to 15% or in the number of millions. Correction of these wrongly sequenced reads to retrieve their huge missing value will improve many downstream applications. As current methods correct only some of the errors at the cost of introducing many new errors, we solve this problem by turning erroneous reads into their original states, without bringing up any non-existing reads to keep the data integrity. The novelty of our method is originated in a computable rule translated from PCR erring mechanism that: a rare read is erroneous if it has a neighbouring read of high abundance. With this principle, we construct a graph to link every pair of reads of tiny edit distances to detect a solid part of erroneous reads; then we consider them as training data to learn the erring mechanisms to identify possibly remaining hard-case errors between pairs of high-abundance reads. Compared with state-of-the-art methods on tens of datasets of UMI-based ground truth, our method has made a remarkably better performance under 19 metrics including two entropy metrics that measure noise levels in a dataset. Case studies found that our method can make substantial impact on genome abundance quantification, isoform identification, SNP profiling, and genome editing efficiency estimation. For example, the abundance level of the reference genome of SARS-CoV-2 can be increased by 12% and that of Monkeypox can be boosted by 52.12% after error correction. Moreover, the number of distinct isomiRs is decreased by 31.56%, unveiling there are so many previously identified isomiRs that are actually sequencing errors. Author summaryDetecting short-read sequencing errors and correcting the related erroneous reads is a long-standing problem in bioinformatics. Current error correction algorithms correct only small parts of the errors but simultaneously introduce thousands of non-existing sequences. We present a new method to rectify erroneous reads under 300 bp produced by PCR-involved miRNA-sequencing, small RNA sequencing, or paired-end RNA sequencing, regardless of platform or sample type. Our method is the first kind considering the PCR erring mechanism and machine learning technique to improve sequencing data quality by turning millions of erroneous short reads into their original state without bringing up any non-existing sequences into the read set. Our error correction method can make a significant impact on a wide range of cutting-edge downstream applications. The observations and advantages in the case studies lay down strong evidence to question the accuracies of current downstream research outcomes and open new avenues to conduct downstream analysis whenever short-read data are adopted.
著者: Jinyan Li, P. Ping, S. Su, X. Cai, T. Lan, X. Zhang, H. Peng, Y. Pan, W. Liu
最終更新: 2024-04-09 00:00:00
言語: English
ソースURL: https://www.biorxiv.org/content/10.1101/2024.04.05.588226
ソースPDF: https://www.biorxiv.org/content/10.1101/2024.04.05.588226.full.pdf
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた biorxiv に感謝します。