Analizando Mutaciones en los Genomas de SARS-CoV-2
Un estudio sobre la evolución de las mutaciones de SARS-CoV-2 usando datos de secuenciación.
― 7 minilectura
Tabla de contenidos
- El papel de las tecnologías de secuenciación
- Rastreando mutaciones y variantes
- Brechas en la investigación existente
- El desafío de la diversidad intra-hospedador
- Abordando problemas de calidad de datos
- Técnicas de reducción de dimensionalidad
- Nuestro enfoque
- Resumen del pipeline de curación
- Procesando bibliotecas de secuenciación de SARS-CoV-2
- Llamada de iSNV y métricas
- Visualizando datos con reducción de dimensionalidad
- Analizando iSNVs emergentes
- Resolviendo artefactos en los datos
- Identificando patrones en las mutaciones
- Finalizando el conjunto de datos de iSNV
- Conclusión
- Fuente original
La aparición del SARS-CoV-2 durante la pandemia de COVID-19 ha resaltado la importancia de estudiar los genomas virales. Con los avances en tecnología de Secuenciación, los investigadores pueden rastrear cómo cambia el virus con el tiempo. Esto es particularmente importante para entender cómo surgen nuevas variantes, conocidas como variantes de preocupación (VOCs). Estas variantes son el resultado de Mutaciones que ocurren a medida que el virus se propaga entre personas. Identificar estos cambios puede proporcionar información valiosa sobre cómo se comporta el virus y cómo podría ser tratado.
El papel de las tecnologías de secuenciación
La secuenciación de alto rendimiento permite a los científicos leer rápidamente el material genético del virus. Esta tecnología ha permitido a los investigadores realizar estudios exhaustivos sobre el virus SARS-CoV-2, lo que les permite monitorear de cerca sus mutaciones. Entender cómo muta el virus es esencial para monitorear la propagación de diferentes variantes e identificar nuevas variantes que puedan representar una amenaza.
Rastreando mutaciones y variantes
Las mutaciones en el virus pueden categorizarse según dónde ocurren: dentro de una persona infectada o durante la transmisión entre individuos. Las mutaciones intra-hospedador ocurren dentro de una persona, mientras que las mutaciones inter-hospedador suceden a medida que el virus se propaga de una persona a otra. Ambos tipos de mutaciones son importantes para rastrear la evolución viral. Factores como los errores de replicación y el sistema inmunológico del hospedador pueden afectar estas mutaciones, por lo que es crucial estudiarlas.
Brechas en la investigación existente
Aunque se han realizado muchos estudios sobre las mutaciones del SARS-CoV-2, todavía hay una brecha en entender cómo interaccionan estas mutaciones dentro y entre hospedadores. Algunos investigadores han sugerido que los virus pueden evolucionar en individuos con infecciones a largo plazo o pasar de animales a humanos. Además, la aparición de nuevas variantes puede ser más común en áreas con menos monitoreo genómico. Todos estos factores contribuyen a la naturaleza dinámica de la evolución viral.
El desafío de la diversidad intra-hospedador
La secuenciación de próxima generación (NGS) ha generado una gran cantidad de datos sobre el SARS-CoV-2. Aunque existen muchas bibliotecas de datos de secuenciación, el análisis de la diversidad intra-hospedador sigue siendo limitado. Esto significa que todavía hay muchas preguntas sin respuesta sobre cómo evoluciona el virus dentro de un individuo. La presencia de errores en los datos de secuenciación puede complicar este análisis, llevando a conclusiones inexactas.
Abordando problemas de calidad de datos
Para mejorar la fiabilidad del análisis de variantes intra-hospedador, los investigadores utilizan diversos métodos para asegurar la Calidad de los datos. Esto incluye filtrar datos de baja calidad y abordar tipos específicos de errores de secuenciación que pueden afectar los resultados. Al aplicar prácticas consistentes en los estudios, los investigadores pueden obtener resultados más fiables respecto a la diversidad intra-hospedador.
Técnicas de reducción de dimensionalidad
Para manejar la complejidad de los datos genómicos, los científicos suelen usar técnicas de reducción de dimensionalidad. Estos métodos ayudan a simplificar la representación de datos, facilitando su análisis. Técnicas como el Análisis de Componentes Principales (PCA), t-SNE y PHATE son comúnmente utilizadas en estudios genómicos. Cada uno de estos métodos tiene sus ventajas y desafíos, pero pueden ayudar a los investigadores a descubrir patrones significativos en grandes conjuntos de datos.
Nuestro enfoque
Para llenar las brechas de investigación, utilizamos un conjunto completo de bibliotecas de NGS de SARS-CoV-2 disponibles públicamente. Este conjunto de datos representa los primeros años de la pandemia y proporciona una rica fuente de información para estudiar las mutaciones virales. Nuestro enfoque combina herramientas de bioinformática, medidas de control de calidad y métodos de reducción de dimensionalidad para identificar mutaciones mientras minimizamos errores.
Resumen del pipeline de curación
Nuestro método implica dos pasos principales. El primer paso se centra en el procesamiento y control de calidad de un gran conjunto de bibliotecas. El segundo paso trata sobre el análisis de variantes de nucleótidos singulares intra-hospedador (iSNVs) dentro de cada biblioteca. Este enfoque sistemático es esencial para obtener resultados fiables de conjuntos de datos complejos.
Procesando bibliotecas de secuenciación de SARS-CoV-2
Comenzamos seleccionando y descargando un número significativo de bibliotecas de secuenciación de bases de datos disponibles públicamente. Después de limpiar los datos eliminando lecturas de baja calidad y artefactos de secuenciación, filtramos las bibliotecas según su calidad para retener solo secuencias de alta calidad para un análisis posterior.
Llamada de iSNV y métricas
Una vez completado el control de calidad, llamamos a los iSNVs de las bibliotecas filtradas. Este proceso implica determinar cuántos tipos diferentes de nucleótidos están presentes en cada posición genómica. Luego calculamos métricas específicas para evaluar la calidad de estos iSNVs, incluyendo su frecuencia y la probabilidad de errores.
Visualizando datos con reducción de dimensionalidad
Usando las técnicas de reducción de dimensionalidad, visualizamos la distribución de iSNVs a través de las bibliotecas. Esto nos permitió identificar grupos de bibliotecas que comparten características similares, proporcionando información sobre cómo diferentes variables como el centro de secuenciación o la linaje de variante impactan los datos.
Analizando iSNVs emergentes
Después de filtrar nuestro conjunto de datos, nos centramos en un tipo específico de mutación llamada iSNVs emergentes de novo. Al aplicar estrictas medidas de control de calidad, identificamos un gran número de estas mutaciones, que son vitales para entender la evolución viral intra-hospedador. La importancia de estas mutaciones radica en su potencial papel en el desarrollo de nuevas variantes virales.
Resolviendo artefactos en los datos
A lo largo de nuestro análisis, encontramos el problema de los artefactos-errores que surgen durante la secuenciación, los cuales pueden engañar nuestras conclusiones sobre los datos. Para mitigar estos artefactos, aplicamos criterios de filtrado adicionales basados en métricas que evalúan la probabilidad de sesgo. Esto ayudó a refinar aún más nuestro conjunto de datos al eliminar posibles errores.
Identificando patrones en las mutaciones
Al analizar los iSNVs de alta calidad restantes, notamos patrones distintos vinculados a centros de secuenciación específicos. Nuestro análisis reveló que algunas bibliotecas contenían un número inusualmente alto de mutaciones, lo que indica que las prácticas del centro de secuenciación podrían afectar la calidad de los datos. Esto resalta la necesidad de un examen cuidadoso de los protocolos de secuenciación empleados por diferentes centros.
Finalizando el conjunto de datos de iSNV
A través de un filtrado y análisis meticulosos, llegamos a un conjunto de datos refinado de iSNVs que se puede utilizar para investigaciones futuras. Nuestro conjunto de datos final comprende un número sustancial de iSNVs filtrados manteniendo alta calidad. Este conjunto de datos es valioso para estudiar la evolución del virus SARS-CoV-2 y puede ayudar en futuras estrategias de respuesta a pandemias.
Conclusión
La evolución continua del virus SARS-CoV-2 y la aparición de nuevas variantes enfatizan la importancia de estudiar los genomas virales. Al utilizar técnicas de secuenciación avanzadas y un análisis riguroso de datos, los investigadores pueden obtener información crítica sobre cómo cambia el virus con el tiempo y cómo impacta la salud pública. Nuestro flujo de trabajo completo para analizar datos virales intra-hospedador no solo avanza nuestra comprensión del SARS-CoV-2 sino que también contribuye a los esfuerzos más amplios para gestionar brotes virales en el futuro.
Título: Refining SARS-CoV-2 Intra-host Variation by Leveraging Large-Scale Sequencing Data
Resumen: Understanding the evolution of viral genomes is essential for elucidating how viruses adapt and change over time. Analyzing intra-host single nucleotide variants (iSNVs) provides key insights into the mechanisms driving the emergence of new viral lineages, which are crucial for predicting and mitigating future viral threats. Despite the potential of next-generation sequencing (NGS) to capture these iSNVs, the process is fraught with challenges, particularly the risk of capturing sequencing artifacts that may result in false iSNVs. To tackle this issue, we developed a workflow designed to enhance the reliability of iSNV detection in large heterogeneous collections of NGS libraries. We use over 130,000 publicly available SARS-CoV-2 NGS libraries to show how our comprehensive workflow effectively distinguishes emerging viral mutations from sequencing errors. This approach incorporates rigorous bioinformatics protocols, stringent quality control metrics, and innovative usage of dimensionality reduction methods to generate representations of this high-dimensional dataset. We identified and mitigated batch effects linked to specific sequencing centers around the world and introduced quality control metrics that consider strand coverage imbalance, enhancing iSNV reliability. Additionally, we pioneer the application of the PHATE visualization approach to genomic data and introduce a methodology that quantifies how related groups of data points are within a two-dimensional space, enhancing our ability to explain clustering patterns based on their shared genetic characteristics. Our workflow sheds light on the complexities of viral genomic analysis with state-of-the-art sequencing technologies and advances the detection of accurate intra-host mutations, opening the door for an enhanced understanding of viral adaptation mechanisms.
Autores: Julie Hussin, F. Mostefai, J.-C. Grenier, R. Poujol
Última actualización: 2024-05-01 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.04.26.591384
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.04.26.591384.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.