Verbesserung der Sequenzierungsgenauigkeit mit noise2read
Eine neue Methode verbessert die Zuverlässigkeit von Daten aus der Next-Generation-Sequenzierung.
― 7 min Lesedauer
Inhaltsverzeichnis
- Die Fehlerherausforderung in der Sequenzierung
- Fehlererkennung in sequenzierten Reads
- Entwicklung einer Korrekturmethode
- Wie die Methode funktioniert
- Leistungsbewertung
- Auswirkungen auf nachgelagerte Analysen
- Praktische Anwendungen von Noise2read
- Die Zukunft der Korrektur von Sequenzierungsfehlern
- Fazit
- Originalquelle
Die nächste Generation der Sequenzierung (NGS) hat die Art und Weise, wie wir Genetik und Biologie studieren, verändert. Indem wir DNA schnell und in grossen Mengen sequenzieren können, können Forscher ganze Genome oder spezifische Gene effektiver betrachten als je zuvor. Diese Technologie ist für verschiedene Studien unerlässlich, einschliesslich des Verständnisses von Genexpressionen und der Entdeckung neuer Genvariationen.
Allerdings ist NGS nicht perfekt. Der Prozess kann Fehler in den erzeugten Sequenzen einführen. Diese Fehler beinhalten das Hinzufügen oder Entfernen von Basen (den Bausteinen der DNA) oder das Ändern einer Base in eine andere. Solche Fehler können in verschiedenen Phasen des Sequenzierungsprozesses auftreten, wie z.B. bei der Probenvorbereitung, der Amplifizierung von DNA oder während der eigentlichen Sequenzierung.
Obwohl die Fehlerquoten relativ niedrig sind, bedeutet die schiere Datenmenge, dass viele Fehler sich ansammeln. Zum Beispiel können in einigen Datensätzen die Fehler in den Hunderttausenden liegen. Das kann zu einem hohen Prozentsatz an Sequenzen führen, die Fehler enthalten, was für Forscher, die auf genaue Daten für ihre Analysen angewiesen sind, ein erhebliches Problem darstellt.
Die Fehlerherausforderung in der Sequenzierung
Wenn Forscher NGS-Daten analysieren, stossen sie oft auf Probleme aufgrund dieser Fehler. Manchmal behandeln sie fehlerhafte Daten als Hintergrundrauschen und ignorieren sie, während sie in anderen Fällen versehentlich schlechte Daten als korrekt behandeln. Das kann zu irreführenden Schlussfolgerungen über Genfunktionen oder -variationen führen.
Um die Qualität und Zuverlässigkeit genetischer Daten zu verbessern, ist es entscheidend, diese Fehler zu korrigieren und nicht einfach abzutun. Das Ziel ist es, die Daten zu bereinigen, um sicherzustellen, dass die Analysen genaue Ergebnisse liefern.
Eine der Hauptquellen für Fehler in der Sequenzierung ist die Polymerase-Kettenreaktion (PCR). Diese Technik wird verwendet, um viele Kopien spezifischer DNA-Abschnitte zu erstellen, damit sie einfacher analysiert werden können. Während die PCR im Allgemeinen sehr genau ist, können Fehler auftreten. Manchmal kann die kopierte DNA Fehler enthalten oder es können neue Sequenzen entstehen, die in der ursprünglichen Probe nicht vorhanden waren. Diese Fehler können in die endgültigen von NGS generierten Sequenzen übernommen werden.
Fehlererkennung in sequenzierten Reads
Diese fehlerhaften Sequenzen unter den vielen generierten Reads zu identifizieren, kann ziemlich herausfordernd sein. Es gibt zwei Hauptgründe für diese Schwierigkeit. Erstens, einige seltene Reads, die verdächtig aussehen, sind in der Tat echt und genau. Sie werden einfach weniger oft kopiert als andere Sequenzen, was sie wie potenzielle Fehler erscheinen lässt. Zweitens kann manchmal eine falsche Sequenz einer korrekten sehr ähnlich sein, sodass es schwer ist, sie auseinanderzuhalten.
Um damit umzugehen, haben Forscher Methoden entwickelt, um Fehler zu erkennen, indem sie die Reads in einem Graphen organisieren. In diesem Graphen dienen einzigartige Sequenzen als Knoten, und Verbindungen zeigen Ähnlichkeiten oder Unterschiede zwischen diesen Sequenzen an. Durch das Studium dieser Verbindungen können Forscher herausfinden, welche Sequenzen wahrscheinlich Fehler enthalten.
In diesem Ansatz können zwei ähnliche Sequenzen verbunden sein, weil sie sich nur in einer oder zwei Basen unterscheiden. Wenn eine Sequenz häufig erscheint, während die andere selten ist, ist es wahrscheinlich, dass die seltene Sequenz Fehler enthält, und die Forscher können entscheiden, sie so zu korrigieren, dass sie der häufigeren Sequenz entspricht.
Entwicklung einer Korrekturmethode
Um Fehler in sequenzierten Reads effektiv zu korrigieren, wurde eine Methode namens noise2read entwickelt. Dieser dreistufige Prozess sucht nach Fehlern in verschiedenen Sequenzen und behebt sie mithilfe fortschrittlicher Algorithmen.
Zunächst untersucht die Methode Sequenzen mit einem einzelnen Basisfehler. Der erste Schritt besteht darin, seltene Sequenzen zu identifizieren, die mit häufigeren, zuverlässigeren Sequenzen verbunden sind. Das Tool passt dann diese seltenen Sequenzen an die sichereren hochfrequenten an.
In der zweiten Phase sucht die Methode nach Sequenzen mit zwei fehlerhaften Basen. Diese Phase konzentriert sich auf Gruppen von Sequenzen, die sich sehr ähnlich sind, und verwendet Maschinelles Lernen, um zu helfen, welche Sequenzen wahrscheinlich falsch sind.
Schliesslich, wenn die Sequenzierungsdaten viele Amplifizierungsfehler aus PCR-Prozessen enthalten, ist eine dritte Phase optional. Dieser zusätzliche Schritt zielt darauf ab, die Genauigkeit weiter zu verfeinern und zu verbessern.
Wie die Methode funktioniert
Der Schlüssel zum Erfolg von noise2read liegt in ihrer Fähigkeit, zwischen echten Reads und solchen mit Fehlern zu unterscheiden. Die Methode verwendet Frequenzinformationen, um Sequenzen genau zu klassifizieren. Zum Beispiel, wenn eine seltene Sequenz mit mehreren häufigen Sequenzen verbunden ist, hat die seltene wahrscheinlich Fehler.
Noise2read erstellt einen Graphen aus den Sequenzen, der es den Forschern ermöglicht, Beziehungen zwischen ihnen zu sehen. Hochfrequente Sequenzen helfen, niedere Frequenzen basierend auf ihren Verbindungen anzupassen.
Der Prozess beinhaltet das Sammeln von Trainingsdaten. Diese Trainingsdaten bestehen aus Sequenzen, die als fehlerhaft oder korrekt identifiziert wurden. Sobald diese Daten festgelegt sind, wendet die Methode Techniken des maschinellen Lernens an, um ihre Vorhersagen weiter zu verbessern.
Leistungsbewertung
Um sicherzustellen, dass noise2read effektiv ist, wird es mit anderen bestehenden Methoden bewertet. Die Ergebnisse zeigen, dass noise2read andere Methoden kontinuierlich übertrifft, was die Korrektur von Fehlern betrifft, ohne neue einzuführen.
Durch Tests mit realen und simulierten Datensätzen wird deutlich, dass noise2read sehr gut darin ist, die Datenqualität zu verbessern. Dies führt zu erheblichen Verfeinerungen in Analysen, die auf genauen Sequenzierungsdaten basieren.
Auswirkungen auf nachgelagerte Analysen
Die Auswirkungen der Korrektur von Sequenzierungsfehlern gehen über die blosse Verbesserung der Daten hinaus. Verschiedene Anwendungen profitieren von diesen Korrekturen, insbesondere in Bereichen wie der Identifizierung einzigartiger mikroRNA (miRNA)-Sequenzen und einfacher Nukleotidpolymorphismen (SNPs).
Wenn Forscher sich miRNA-Expressionen ansehen, wird es entscheidend, zwischen echten Unterschieden und Fehlern zu unterscheiden. Noise2read kann helfen, zu klären, welche Variationen echte biologische Signale sind und welche Artefakte des Sequenzierungsprozesses.
Ähnlich kann bei der SNP-Profilierung die Unterscheidung zwischen realen Änderungen in genetischen Sequenzen und Fehlern zu besseren Einsichten in genetische Variationen führen, die mit Krankheiten verbunden sind.
Praktische Anwendungen von Noise2read
Die Effektivität von noise2read wird in Studien hervorgehoben, die andere wichtige Bereiche betreffen, wie die virale Sequenzierung. Bei Viren wie SARS-CoV-2 und Monkeypox hat die Korrektur von Sequenzierungsfehlern zu einem besseren Verständnis genetischer Variationen und Mutationen geführt, die möglicherweise Auswirkungen auf die Gesundheit haben.
Durch die Korrektur von Fehlern in den Referenzgenomsequenzen können Forscher ein genaueres Bild der viralen Vielfalt und Evolution entwickeln, was entscheidend für die Entwicklung von Impfstoffen und das Verständnis der Krankheitsdynamik ist.
Die Zukunft der Korrektur von Sequenzierungsfehlern
Während noise2read grosses Potenzial zeigt, gibt es noch Raum für Verbesserungen. Die Verbesserung von Geschwindigkeit und Effizienz wird wichtig sein, um grössere Datensätze effektiver zu verwalten. Ausserdem bleibt die Weiterentwicklung der Algorithmen eine Priorität, um die Komplexität der sich entwickelnden Sequenzierungstechnologien und ihrer zugehörigen Fehler besser zu erfassen.
Zukünftige Forschungen könnten sich auch darauf konzentrieren, tiefere Lernmethoden zu integrieren, die die Fehlererkennung und -korrekturprozesse weiter verbessern könnten. Solche Innovationen werden wahrscheinlich die Art und Weise verändern, wie Sequenzierungsdaten analysiert und interpretiert werden.
Fazit
Die nächste Generation der Sequenzierung hat die Genetik und Biologie revolutioniert, bringt aber auch Herausforderungen mit sich aufgrund der Fehler, die während des Sequenzierungsprozesses eingeführt werden. Methoden wie noise2read stellen einen erheblichen Fortschritt bei der Korrektur dieser Fehler und der Verbesserung der Datenintegrität dar.
Durch die Nutzung einer Kombination aus Graphentheorie und maschinellem Lernen verbessert noise2read nicht nur die Qualität der Sequenzierungsdaten, sondern auch die Genauigkeit biologischer Analysen. Dies stellt sicher, dass Forscher zuverlässigere Schlussfolgerungen aus ihren genomischen Studien ziehen können, was letztlich unser Verständnis der Genetik und ihrer Auswirkungen auf die Gesundheit voranbringt.
Titel: Turn `noise' to signal: accurately rectify millions of erroneous short reads through graph learning on edit distances
Zusammenfassung: Although the per-base erring rate of NGS is very low at 0.1% to 0.5%, the percentage/probability of erroneous reads in a short-read sequencing dataset can be as high as 10% to 15% or in the number of millions. Correction of these wrongly sequenced reads to retrieve their huge missing value will improve many downstream applications. As current methods correct only some of the errors at the cost of introducing many new errors, we solve this problem by turning erroneous reads into their original states, without bringing up any non-existing reads to keep the data integrity. The novelty of our method is originated in a computable rule translated from PCR erring mechanism that: a rare read is erroneous if it has a neighbouring read of high abundance. With this principle, we construct a graph to link every pair of reads of tiny edit distances to detect a solid part of erroneous reads; then we consider them as training data to learn the erring mechanisms to identify possibly remaining hard-case errors between pairs of high-abundance reads. Compared with state-of-the-art methods on tens of datasets of UMI-based ground truth, our method has made a remarkably better performance under 19 metrics including two entropy metrics that measure noise levels in a dataset. Case studies found that our method can make substantial impact on genome abundance quantification, isoform identification, SNP profiling, and genome editing efficiency estimation. For example, the abundance level of the reference genome of SARS-CoV-2 can be increased by 12% and that of Monkeypox can be boosted by 52.12% after error correction. Moreover, the number of distinct isomiRs is decreased by 31.56%, unveiling there are so many previously identified isomiRs that are actually sequencing errors. Author summaryDetecting short-read sequencing errors and correcting the related erroneous reads is a long-standing problem in bioinformatics. Current error correction algorithms correct only small parts of the errors but simultaneously introduce thousands of non-existing sequences. We present a new method to rectify erroneous reads under 300 bp produced by PCR-involved miRNA-sequencing, small RNA sequencing, or paired-end RNA sequencing, regardless of platform or sample type. Our method is the first kind considering the PCR erring mechanism and machine learning technique to improve sequencing data quality by turning millions of erroneous short reads into their original state without bringing up any non-existing sequences into the read set. Our error correction method can make a significant impact on a wide range of cutting-edge downstream applications. The observations and advantages in the case studies lay down strong evidence to question the accuracies of current downstream research outcomes and open new avenues to conduct downstream analysis whenever short-read data are adopted.
Autoren: Jinyan Li, P. Ping, S. Su, X. Cai, T. Lan, X. Zhang, H. Peng, Y. Pan, W. Liu
Letzte Aktualisierung: 2024-04-09 00:00:00
Sprache: English
Quell-URL: https://www.biorxiv.org/content/10.1101/2024.04.05.588226
Quell-PDF: https://www.biorxiv.org/content/10.1101/2024.04.05.588226.full.pdf
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.