Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología# Bioinformática

SVarp: Una Nueva Herramienta para el Descubrimiento de Variantes Estructurales

SVarp mejora la identificación de variantes estructurales usando pangenomas y lecturas largas de secuencias de ADN.

― 6 minilectura


SVarp: Herramienta paraSVarp: Herramienta parael Descubrimiento deVariantesgenómica.estructurales en la investigaciónSVarp mejora la detección de variantes
Tabla de contenidos

El Análisis Genómico estudia el conjunto completo de ADN en un organismo, incluyendo todos sus genes. Desde que se lanzó el primer borrador del genoma humano en 2001, los científicos han usado principalmente un solo genoma de referencia para entender la información genética. Este genoma de referencia estaba destinado a representar a todos los humanos, pero tiene sus limitaciones. Por ejemplo, solo muestra una versión de cada gen y no toma en cuenta las diferencias que se encuentran en varias poblaciones. Estas diferencias pueden llevar a sesgos cuando los científicos mapean las secuencias de ADN de vuelta a este genoma de referencia.

Importancia de las Variantes Estructurales

En el pasado, la mayoría de la investigación se centraba en pequeños cambios en el ADN, como cambios de nucleótido únicos o pequeñas inserciones y eliminaciones, llamados SNPs e Indels. Sin embargo, ha habido un creciente interés en las variantes estructurales (SVs). Las SVs son cambios más grandes en el ADN y pueden tener un impacto más significativo en la salud y las enfermedades. Pueden afectar más partes del genoma en comparación con cambios más pequeños como SNPs e Indels.

Recientemente, ha habido dos grandes avances en la genómica: mejoras en la tecnología de secuenciación y la finalización de una ensamblaje del genoma humano más completo. Nuevos métodos de secuenciación permiten a los científicos leer tramos más largos de ADN, y la finalización de un nuevo genoma de referencia ha llenado algunos vacíos que antes estaban ausentes. A pesar de estos avances, encontrar SVs, especialmente en áreas difíciles del genoma, sigue siendo complicado.

El Problema con los Métodos Actuales

La mayoría de los métodos para descubrir SVs dependen de mapear las secuencias de ADN a un genoma de referencia lineal. Este enfoque puede llevar a errores porque si la referencia no incluye todas las versiones posibles de un gen, se hace difícil identificar con precisión las SVs. Los algoritmos utilizados para hacer coincidir las lecturas con el genoma a menudo pasan por alto muchas variantes porque no pueden tener en cuenta las diferentes formas de los genes presentes en una población.

Para superar este problema, los investigadores están intentando usar múltiples versiones del genoma humano, conocidas como Pangenomas. Al combinar diferentes haplotipos (las variaciones de genes de diferentes individuos) en una estructura de grafo, los científicos esperan reducir el sesgo que proviene de usar solo un genoma de referencia.

Presentando SVarp

Aquí, presentamos SVarp, una nueva herramienta diseñada para encontrar SVs utilizando genomas de grafo y lecturas largas de ADN. SVarp tiene como objetivo identificar SVs adicionales que no están presentes en una referencia lineal. En lugar de solo listar variantes, SVarp crea secuencias de variantes en fase, que son más flexibles para un análisis posterior. Así, los científicos pueden estudiar estas variantes sin estar limitados a un solo genoma de referencia.

Cómo Funciona SVarp

SVarp procesa las secuencias de ADN en varios pasos:

  1. Lecturas de Alineación: Comienza con secuencias de ADN mapeadas a un grafo de pangenoma. La herramienta identifica posibles sitios de variantes buscando grandes inserciones o eliminaciones en el ADN. Estas se detectan a través de un proceso que examina qué tan bien las lecturas se alinean con el grafo.

  2. Identificación de Variantes: La herramienta busca variaciones dentro de las lecturas alineadas y detecta cambios más grandes que podrían no encajar perfectamente en una alineación. Agrupa lecturas relacionadas que apuntan a la misma variante. Esto ayuda a reducir errores que pueden ocurrir cuando las lecturas están demasiado juntas.

  3. Fase: Para crear variantes en fase precisas, SVarp utiliza información adicional para distinguir entre diferentes versiones de genes presentes en individuos. Esta información ayuda a agrupar las lecturas en conjuntos según su fondo genético.

  4. Ensamblaje: El siguiente paso implica ensamblar estos grupos de lecturas en secuencias de consenso llamadas svtigs. Estos svtigs representan las variantes encontradas en el ADN y se crean filtrando cualquier señal poco fiable.

  5. Filtrado Final: Después de generar svtigs, SVarp las alinea de nuevo al grafo de pangenoma. Este paso asegura que se eliminen duplicados o falsos positivos, mejorando la precisión de los resultados.

Evaluando el Rendimiento de SVarp

Para evaluar qué tan bien funciona SVarp, los investigadores realizaron pruebas utilizando datos simulados que incluían tanto SVs pequeños como grandes. Los resultados mostraron que SVarp tenía un alto nivel de precisión, detectando la mayoría de las variantes de manera confiable. En pruebas del mundo real utilizando datos de diferentes genomas humanos, los svtigs producidos por SVarp coincidieron estrechamente con ensamblajes de genomas de alta calidad, demostrando una buena concordancia.

Descubriendo Más Variantes

El enfoque de SVarp es significativo porque permite el descubrimiento de SVs adicionales que los métodos existentes podrían pasar por alto. Al no estar limitado a un solo genoma de referencia lineal, los científicos pueden entender mejor la diversidad genética de los humanos y cómo diferentes variantes contribuyen a la salud y las enfermedades.

Direcciones Futuras

En el futuro, los investigadores planean mejorar aún más la referencia del pangenoma incorporando svtigs generados por SVarp. Esto ayudará a llenar vacíos y proporcionará una imagen aún más completa de la genética humana. Además, SVarp aún puede ser utilizado para producir llamadas de variantes respecto a un genoma de referencia lineal, convirtiéndolo en una herramienta valiosa en la investigación genómica.

Conclusión

En resumen, SVarp representa una nueva dirección en el análisis genómico, centrándose en la identificación de variantes estructurales de una manera más flexible. Su capacidad para trabajar con lecturas largas y grafos de pangenoma ofrece un enfoque prometedor para descubrir las complejidades de la genética humana. Con los avances continuos en genómica, herramientas como SVarp jugarán un papel crucial en mejorar nuestra comprensión de la salud, las enfermedades y la diversidad genética presente en diferentes poblaciones.

Fuente original

Título: SVarp: pangenome-based structural variant discovery

Resumen: The linear human reference genome that we use today does not represent the haplotypic diversity of the global human population. This raises bias in genomic read alignment and limits our ability to call large structural variations (SV), especially at highly polymorphic loci. Thus, many SV alleles remain unresolved. Recent efforts to transition to a graph-based reference genome resulted in the generation of the first draft human pangenome reference, but tools to call SVs relative to the pangenome reference are presently lacking. In this study, we present the SVarp algorithm, aiming to discover haplotype resolved SVs on top of a pangenome reference using long sequencing reads. SVarp outputs local assemblies of SV alleles, termed svtigs, instead of a VCF file of SV breakpoints, which we propose as a general exchange format allowing for flexible downstream analyses. In order to assess the accuracy of svtigs, we used simulated and real human genomes. Simulations allowed us to make exact breakpoint comparisons against the true callsets. We observed [~]96% recall with deletions, insertions and duplications larger than 1,000bp, showing that SVarp can reliably detect genomic structural variants not yet represented in the graph. On the other hand, we compared SVarp output for ONT sequencing data at 20X coverage against independent genome assemblies of the same samples and found that [~]82% of our svtig predictions are validated by the assemblies by a match with more than 85% sequence identity. SVarp was implemented using C++ and its source code is available at https://github.com/asylvz/SVarp under MIT license.

Autores: Arda Soylev, J. Ebler, S. Pani, T. Rausch, J. Korbel, T. Marschall

Última actualización: 2024-02-18 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.02.18.580171

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.02.18.580171.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares