Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología# Bioinformática

Mejorando la precisión de secuenciación con noise2read

Un nuevo método mejora la fiabilidad de los datos de secuenciación de próxima generación.

― 8 minilectura


Corrección de errores enCorrección de errores endatos de secuenciaciónerrores en la secuenciación genética.noise2read simplifica la corrección de
Tabla de contenidos

La Secuenciación de próxima generación (NGS) ha cambiado la forma en que estudiamos la genética y la biología. Al permitirnos secuenciar ADN rápidamente y en grandes cantidades, los investigadores pueden analizar genomas completos o genes específicos de manera más efectiva que nunca. Esta tecnología se ha vuelto esencial para varios estudios, incluyendo la comprensión de las expresiones genéticas y el descubrimiento de nuevas variaciones genéticas.

Sin embargo, la NGS no es perfecta. El proceso puede introducir Errores en las secuencias que genera. Estos errores incluyen añadir o eliminar bases (los bloques de construcción del ADN) o cambiar una base por otra. Tales errores pueden ocurrir en diferentes etapas del proceso de secuenciación, como la preparación de muestras, amplificación de ADN o durante la secuenciación en sí.

Aunque las tasas de error son relativamente bajas, el gran volumen de datos significa que muchos errores se acumulan. Por ejemplo, en algunos conjuntos de datos, los errores pueden llegar a ser cientos de miles. Esto puede llevar a un alto porcentaje de secuencias con errores, lo que puede ser un gran problema para los investigadores que dependen de datos precisos para sus análisis.

El Problema del Error en la Secuenciación

Cuando los investigadores analizan datos de NGS, a menudo se encuentran con problemas debido a estos errores. A veces, tratan los datos erróneos como ruido de fondo y los ignoran, mientras que en otros casos, tratan erróneamente los datos incorrectos como si fueran correctos. Esto puede llevar a conclusiones engañosas sobre funciones o variaciones genéticas.

Para mejorar la calidad y fiabilidad de los datos genéticos, es crucial corregir estos errores en lugar de descartarlos. El objetivo es limpiar los datos para asegurar que los análisis den resultados precisos.

Una de las principales fuentes de errores en la secuenciación es la Reacción en Cadena de la Polimerasa (PCR). Esta técnica se usa para hacer muchas copias de segmentos de ADN específicos para facilitar su análisis. Aunque la PCR es generalmente muy precisa, pueden ocurrir errores. A veces, el ADN copiado puede tener errores, o se pueden crear nuevas secuencias que no existían en la muestra original. Estos errores pueden trasladarse a las secuencias finales generadas por la NGS.

Detectando Errores en Lecturas Secuenciadas

Identificar estas secuencias erróneas entre las muchas lecturas generadas puede ser bastante complicado. Hay dos razones principales para esta dificultad. Primero, algunas lecturas de baja frecuencia que parecen sospechosas son, de hecho, genuinas y precisas. Simplemente se copiaron menos veces que otras secuencias, lo que las hace parecer errores potenciales. Segundo, a veces una secuencia incorrecta puede ser muy similar a una correcta, lo que dificulta distinguirlas.

Para manejar esto, los investigadores han desarrollado métodos para detectar errores organizando las lecturas en un gráfico. En este gráfico, las secuencias únicas sirven como nodos, y las conexiones indican similitudes o diferencias entre esas secuencias. Al estudiar estas conexiones, los investigadores pueden identificar qué secuencias probablemente contienen errores.

En este enfoque, dos secuencias similares podrían estar vinculadas porque difieren en una o dos bases. Si una secuencia aparece con frecuencia mientras que la otra es rara, es probable que la rara contenga errores, y los investigadores pueden optar por corregirla para que coincida con la secuencia más abundante.

Construyendo un Método de Corrección

Para corregir efectivamente errores en lecturas secuenciadas, se desarrolló un método llamado noise2read. Este proceso en tres etapas busca y rectifica errores en diferentes secuencias utilizando algoritmos avanzados.

Inicialmente, el método examina secuencias con un solo error de base. El primer paso consiste en identificar secuencias de baja frecuencia que están conectadas a secuencias de alta frecuencia, que son más confiables. La herramienta luego ajustará estas secuencias de baja frecuencia para que coincidan con las más ciertas de alta frecuencia.

En la segunda etapa, el método busca secuencias con dos bases erróneas. Esta etapa se centra en grupos de secuencias que son muy similares y utiliza Aprendizaje automático para ayudar a identificar cuáles secuencias probablemente son incorrectas.

Por último, si los datos de secuenciación contienen muchos errores de amplificación de los procesos de PCR, una tercera etapa es opcional. Este paso extra tiene como objetivo refinar y mejorar aún más la precisión.

Cómo Funciona el Método

La clave del éxito de noise2read radica en su capacidad para distinguir entre lecturas genuinas y aquellas que contienen errores. El método usa información de frecuencia para clasificar las secuencias con precisión. Por ejemplo, si una secuencia rara está conectada a varias secuencias comunes, es probable que la rara tenga errores.

Noise2read construye un gráfico a partir de las secuencias, lo que permite a los investigadores ver relaciones entre ellas. Las secuencias de alta frecuencia ayudan a ajustar las de baja frecuencia según sus conexiones.

El proceso implica recopilar datos de entrenamiento. Estos datos de entrenamiento consisten en secuencias identificadas como erróneas o correctas. Una vez establecidos estos datos, el método aplica técnicas de aprendizaje automático para mejorar aún más sus predicciones.

Evaluando el Rendimiento

Para asegurarse de que noise2read sea efectivo, se evalúa en comparación con otros métodos existentes. Los resultados muestran que noise2read supera consistentemente a los demás en términos de corrección de errores sin introducir nuevos.

A través de pruebas con conjuntos de datos reales y simulados, queda claro que noise2read es muy capaz de mejorar la calidad de los datos. Esto lleva a importantes refinamientos en análisis que dependen de datos de secuenciación precisos.

Impactos en Análisis Subsiguientes

El impacto de corregir errores de secuenciación va más allá de solo mejorar los datos. Varias aplicaciones se benefician de estas correcciones, especialmente en áreas como la identificación de secuencias únicas de microARN (miRNA) y polimorfismos de un solo nucleótido (SNPs).

Cuando los investigadores miran las expresiones de miRNA, distinguir entre diferencias reales y errores se vuelve crucial. Noise2read puede ayudar a aclarar cuáles variaciones son señales biológicas genuinas y cuáles son artefactos del proceso de secuenciación.

De manera similar, en el perfilado de SNPs, distinguir cambios reales en las secuencias genéticas de los errores puede llevar a mejores conocimientos sobre las variaciones genéticas asociadas con enfermedades.

Aplicaciones Prácticas de Noise2read

La efectividad de noise2read se destaca en estudios que involucran otras áreas críticas, como la secuenciación viral. Para virus como SARS-CoV-2 y Monkeypox, la corrección de errores de secuenciación ha llevado a una mejor comprensión de las variaciones genéticas y mutaciones que pueden impactar los resultados de salud.

Al corregir errores en las secuencias del genoma de referencia, los investigadores pueden desarrollar una imagen más precisa de la diversidad y evolución viral, lo que es esencial para diseñar vacunas y entender la dinámica de las enfermedades.

El Futuro de la Corrección de Errores en Secuenciación

Si bien noise2read muestra gran promesa, aún hay margen de mejora. Mejorar la rapidez y eficiencia será importante para manejar conjuntos de datos más grandes de manera más efectiva. Además, avanzar en los algoritmos sigue siendo una prioridad para capturar mejor las complejidades de las tecnologías de secuenciación en evolución y sus errores asociados.

La investigación futura también podría enfocarse en integrar métodos de aprendizaje más profundos, lo que podría mejorar aún más los procesos de detección y corrección de errores. Tales innovaciones probablemente cambiarán la forma en que se analizan e interpretan los datos de secuenciación.

Conclusión

La secuenciación de próxima generación ha revolucionado la genética y la biología, pero también presenta desafíos debido a los errores introducidos durante el proceso de secuenciación. Métodos como noise2read representan un avance significativo en la corrección de estos errores y en la mejora de la integridad de los datos.

Al usar una combinación de teoría de gráficos y aprendizaje automático, noise2read no solo mejora la calidad de los datos de secuenciación, sino que también incrementa la precisión de los análisis biológicos. Esto asegura que los investigadores puedan sacar conclusiones más confiables de sus estudios genómicos, avanzando en última instancia nuestra comprensión de la genética y sus implicaciones para la salud.

Fuente original

Título: Turn `noise' to signal: accurately rectify millions of erroneous short reads through graph learning on edit distances

Resumen: Although the per-base erring rate of NGS is very low at 0.1% to 0.5%, the percentage/probability of erroneous reads in a short-read sequencing dataset can be as high as 10% to 15% or in the number of millions. Correction of these wrongly sequenced reads to retrieve their huge missing value will improve many downstream applications. As current methods correct only some of the errors at the cost of introducing many new errors, we solve this problem by turning erroneous reads into their original states, without bringing up any non-existing reads to keep the data integrity. The novelty of our method is originated in a computable rule translated from PCR erring mechanism that: a rare read is erroneous if it has a neighbouring read of high abundance. With this principle, we construct a graph to link every pair of reads of tiny edit distances to detect a solid part of erroneous reads; then we consider them as training data to learn the erring mechanisms to identify possibly remaining hard-case errors between pairs of high-abundance reads. Compared with state-of-the-art methods on tens of datasets of UMI-based ground truth, our method has made a remarkably better performance under 19 metrics including two entropy metrics that measure noise levels in a dataset. Case studies found that our method can make substantial impact on genome abundance quantification, isoform identification, SNP profiling, and genome editing efficiency estimation. For example, the abundance level of the reference genome of SARS-CoV-2 can be increased by 12% and that of Monkeypox can be boosted by 52.12% after error correction. Moreover, the number of distinct isomiRs is decreased by 31.56%, unveiling there are so many previously identified isomiRs that are actually sequencing errors. Author summaryDetecting short-read sequencing errors and correcting the related erroneous reads is a long-standing problem in bioinformatics. Current error correction algorithms correct only small parts of the errors but simultaneously introduce thousands of non-existing sequences. We present a new method to rectify erroneous reads under 300 bp produced by PCR-involved miRNA-sequencing, small RNA sequencing, or paired-end RNA sequencing, regardless of platform or sample type. Our method is the first kind considering the PCR erring mechanism and machine learning technique to improve sequencing data quality by turning millions of erroneous short reads into their original state without bringing up any non-existing sequences into the read set. Our error correction method can make a significant impact on a wide range of cutting-edge downstream applications. The observations and advantages in the case studies lay down strong evidence to question the accuracies of current downstream research outcomes and open new avenues to conduct downstream analysis whenever short-read data are adopted.

Autores: Jinyan Li, P. Ping, S. Su, X. Cai, T. Lan, X. Zhang, H. Peng, Y. Pan, W. Liu

Última actualización: 2024-04-09 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.04.05.588226

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.04.05.588226.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares