Simple Science

La science de pointe expliquée simplement

# Biologie# Bioinformatique

Améliorer la précision du séquençage avec noise2read

Une nouvelle méthode améliore la fiabilité des données de séquençage de nouvelle génération.

― 9 min lire


Correction des erreurs deCorrection des erreurs dedonnées de séquençaged'erreurs dans le séquençage génétique.noise2read simplifie la correction
Table des matières

Le Séquençage de nouvelle génération (NGS) a changé la façon dont on étudie la génétique et la biologie. En nous permettant de séquencer l'ADN rapidement et en grande quantité, les chercheurs peuvent examiner l'ensemble des génomes ou des gènes spécifiques plus efficacement que jamais. Cette technologie est devenue essentielle pour diverses études, comme comprendre les expressions des gènes et découvrir de nouvelles variations génétiques.

Cependant, le NGS n'est pas parfait. Le processus peut introduire des Erreurs dans les séquences qu'il génère. Ces erreurs peuvent inclure l'ajout ou le retrait de bases (les éléments constitutifs de l'ADN) ou le changement d'une base en une autre. De telles erreurs peuvent survenir à différentes étapes du processus de séquençage, comme dans la préparation des échantillons, l'amplification de l'ADN, ou pendant le séquençage lui-même.

Bien que les taux d'erreur soient relativement bas, le volume de données signifie que beaucoup d'erreurs s'accumulent. Par exemple, dans certains ensembles de données, les erreurs se chiffrent en centaines de milliers. Cela peut entraîner un pourcentage élevé de séquences contenant des erreurs, ce qui peut constituer un problème significatif pour les chercheurs qui comptent sur des données précises pour leurs analyses.

Le défi des erreurs dans le séquençage

Quand les chercheurs analysent les données NGS, ils rencontrent souvent des problèmes à cause de ces erreurs. Parfois, ils considèrent les données erronées comme du bruit de fond et les ignorent, tandis que dans d'autres cas, ils traitent par erreur de mauvaises données comme étant correctes. Cela peut mener à des conclusions trompeuses sur les fonctions ou les variations des gènes.

Pour améliorer la qualité et la fiabilité des données génétiques, il est crucial de corriger ces erreurs plutôt que de les écarter. L'objectif est de nettoyer les données pour s'assurer que les analyses aboutissent à des résultats précis.

Une des principales sources d'erreurs dans le séquençage est la Réaction en chaîne par polymérase (PCR). Cette technique est utilisée pour faire de nombreuses copies de segments spécifiques de l'ADN afin de les rendre plus faciles à analyser. Bien que la PCR soit généralement très précise, des erreurs peuvent survenir. Parfois, l'ADN copié peut contenir des erreurs, ou de nouvelles séquences peuvent être créées qui n'existaient pas dans l'échantillon original. Ces erreurs peuvent être transférées dans les séquences finales générées par le NGS.

Détection des erreurs dans les lectures séquencées

Identifier ces séquences erronées parmi le grand nombre de lectures générées peut être assez compliqué. Il y a deux raisons principales à cette difficulté. D'abord, certaines lectures à faible fréquence qui semblent suspectes sont en fait authentiques et précises. Elles sont simplement copiées moins souvent que d'autres séquences, ce qui les fait apparaître comme des erreurs potentielles. Ensuite, parfois une séquence incorrecte peut être très similaire à une correcte, ce qui rend difficile de les distinguer.

Pour gérer cela, les chercheurs ont développé des méthodes pour détecter les erreurs en organisant les lectures dans un graphe. Dans ce graphe, les séquences uniques servent de nœuds, et les connexions indiquent des similitudes ou des différences entre ces séquences. En étudiant ces connexions, les chercheurs peuvent identifier quelles séquences sont susceptibles de contenir des erreurs.

Dans cette approche, deux séquences similaires pourraient être liées parce qu'elles diffèrent par une ou deux bases. Si une séquence apparaît fréquemment tandis que l'autre est rare, il est probable que la rare contient des erreurs, et les chercheurs peuvent choisir de la corriger pour qu'elle corresponde à la séquence plus abondante.

Construction d'une méthode de correction

Pour corriger efficacement les erreurs dans les lectures séquencées, une méthode appelée noise2read a été développée. Ce processus en trois étapes cherche et rectifie les erreurs dans différentes séquences à l'aide d'algorithmes avancés.

Au départ, la méthode examine les séquences avec une seule erreur de base. La première étape consiste à identifier les séquences à faible fréquence qui sont connectées à des séquences à haute fréquence, qui sont plus fiables. L'outil ajustera alors ces séquences à faible fréquence pour les faire correspondre aux séquences à haute fréquence plus certaines.

À la deuxième étape, la méthode cherche des séquences avec deux bases erronées. Cette étape se concentre sur des groupes de séquences très similaires et utilise l'Apprentissage automatique pour aider à identifier quelles séquences sont susceptibles d'être incorrectes.

Enfin, si les données de séquençage contiennent beaucoup d'erreurs d'amplification dues aux processus PCR, une troisième étape est optionnelle. Cette étape supplémentaire vise à affiner et à améliorer encore la précision.

Comment la méthode fonctionne

La clé du succès de noise2read réside dans sa capacité à distinguer les lectures authentiques de celles contenant des erreurs. La méthode utilise les informations de fréquence pour classer les séquences avec précision. Par exemple, si une séquence rare est connectée à plusieurs séquences communes, il est probable que la rare contienne des erreurs.

Noise2read construit un graphe à partir des séquences, permettant aux chercheurs de voir les relations entre elles. Les séquences à haute fréquence aident à ajuster les séquences à faible fréquence en fonction de leurs connexions.

Le processus consiste à collecter des données d'entraînement. Ces données d'entraînement se composent de séquences identifiées comme erronées ou correctes. Une fois ces données établies, la méthode applique des techniques d'apprentissage automatique pour améliorer encore ses prédictions.

Évaluation des performances

Pour s'assurer que noise2read est efficace, elle est évaluée par rapport à d'autres méthodes existantes. Les résultats montrent que noise2read surpasse constamment les autres en termes de correction des erreurs sans en introduire de nouvelles.

À travers des tests avec de véritables ensembles de données et des données simulées, il devient évident que noise2read est très capable d'améliorer la qualité des données. Cela conduit à des améliorations significatives dans les analyses qui dépendent de données de séquençage précises.

Impacts sur les analyses en aval

L'impact de la correction des erreurs de séquençage s'étend au-delà de l'amélioration des données. Plusieurs applications bénéficient de ces corrections, surtout dans des domaines comme l'identification de séquences uniques de microARN (miRNA) et de polymorphismes nucléotidiques simples (SNPs).

Quand les chercheurs examinent les expressions de miRNA, il devient crucial de distinguer entre les vraies différences et les erreurs. Noise2read peut aider à clarifier quelles variations sont de véritables signaux biologiques et lesquelles sont des artefacts du processus de séquençage.

De même, dans le profilage des SNP, distinguer les véritables changements dans les séquences génétiques des erreurs peut mener à de meilleures perspectives sur les variations génétiques associées aux maladies.

Applications pratiques de noise2read

L'efficacité de noise2read est mise en avant dans des études concernant d'autres domaines critiques, comme le séquençage viral. Pour des virus comme le SARS-CoV-2 et le Monkeypox, la correction des erreurs de séquençage a permis de mieux comprendre les variations génétiques et les mutations qui peuvent affecter les résultats de santé.

En corrigeant les erreurs dans les séquences du génome de référence, les chercheurs peuvent développer une image plus précise de la diversité et de l'évolution virale, ce qui est essentiel pour concevoir des vaccins et comprendre la dynamique des maladies.

L'avenir de la correction des erreurs de séquençage

Bien que noise2read montre de grandes promesses, il reste encore place à l'amélioration. Améliorer la vitesse et l'efficacité sera important pour gérer des ensembles de données plus volumineux plus efficacement. De plus, faire progresser les algorithmes reste une priorité pour mieux capturer les complexités des technologies de séquençage évolutives et les erreurs qui leur sont associées.

Les recherches futures pourraient également se concentrer sur l'intégration de méthodes d'apprentissage plus profond, ce qui pourrait encore améliorer les processus de détection et de correction d'erreurs. De telles innovations vont probablement changer la façon dont les données de séquençage sont analysées et interprétées.

Conclusion

Le séquençage de nouvelle génération a révolutionné la génétique et la biologie, mais il pose également des défis à cause des erreurs introduites pendant le processus de séquençage. Des méthodes comme noise2read représentent des progrès significatifs dans la correction de ces erreurs et l'amélioration de l'intégrité des données.

En utilisant une combinaison de théorie des graphes et d'apprentissage automatique, noise2read améliore non seulement la qualité des données de séquençage mais aussi l'exactitude des analyses biologiques. Cela garantit que les chercheurs peuvent tirer des conclusions plus fiables de leurs études génomiques, faisant avancer notre compréhension de la génétique et de ses implications pour la santé.

Source originale

Titre: Turn `noise' to signal: accurately rectify millions of erroneous short reads through graph learning on edit distances

Résumé: Although the per-base erring rate of NGS is very low at 0.1% to 0.5%, the percentage/probability of erroneous reads in a short-read sequencing dataset can be as high as 10% to 15% or in the number of millions. Correction of these wrongly sequenced reads to retrieve their huge missing value will improve many downstream applications. As current methods correct only some of the errors at the cost of introducing many new errors, we solve this problem by turning erroneous reads into their original states, without bringing up any non-existing reads to keep the data integrity. The novelty of our method is originated in a computable rule translated from PCR erring mechanism that: a rare read is erroneous if it has a neighbouring read of high abundance. With this principle, we construct a graph to link every pair of reads of tiny edit distances to detect a solid part of erroneous reads; then we consider them as training data to learn the erring mechanisms to identify possibly remaining hard-case errors between pairs of high-abundance reads. Compared with state-of-the-art methods on tens of datasets of UMI-based ground truth, our method has made a remarkably better performance under 19 metrics including two entropy metrics that measure noise levels in a dataset. Case studies found that our method can make substantial impact on genome abundance quantification, isoform identification, SNP profiling, and genome editing efficiency estimation. For example, the abundance level of the reference genome of SARS-CoV-2 can be increased by 12% and that of Monkeypox can be boosted by 52.12% after error correction. Moreover, the number of distinct isomiRs is decreased by 31.56%, unveiling there are so many previously identified isomiRs that are actually sequencing errors. Author summaryDetecting short-read sequencing errors and correcting the related erroneous reads is a long-standing problem in bioinformatics. Current error correction algorithms correct only small parts of the errors but simultaneously introduce thousands of non-existing sequences. We present a new method to rectify erroneous reads under 300 bp produced by PCR-involved miRNA-sequencing, small RNA sequencing, or paired-end RNA sequencing, regardless of platform or sample type. Our method is the first kind considering the PCR erring mechanism and machine learning technique to improve sequencing data quality by turning millions of erroneous short reads into their original state without bringing up any non-existing sequences into the read set. Our error correction method can make a significant impact on a wide range of cutting-edge downstream applications. The observations and advantages in the case studies lay down strong evidence to question the accuracies of current downstream research outcomes and open new avenues to conduct downstream analysis whenever short-read data are adopted.

Auteurs: Jinyan Li, P. Ping, S. Su, X. Cai, T. Lan, X. Zhang, H. Peng, Y. Pan, W. Liu

Dernière mise à jour: 2024-04-09 00:00:00

Langue: English

Source URL: https://www.biorxiv.org/content/10.1101/2024.04.05.588226

Source PDF: https://www.biorxiv.org/content/10.1101/2024.04.05.588226.full.pdf

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à biorxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires