Abordando el sesgo de referencia en la investigación genética
Biastools ayuda a identificar y medir el sesgo de referencia para un análisis genético más preciso.
― 10 minilectura
Tabla de contenidos
- Estrategias para Abordar el Sesgo de Referencia
- Introducción de Biastools
- Perspectivas de Biastools
- Objetivos de un Alineador de Lectura Ideal
- Medir el Sesgo de Referencia en Experimentos de Simulación
- Tipos de Sesgo de Referencia
- Observaciones sobre el Sesgo Local
- Visualizando el Sesgo de Referencia en Indels
- Comparando Diferentes Herramientas de Alineación
- Midiendo el Sesgo con Lecturas Reales
- Detectando el Sesgo en Genomas No Caracterizados
- Abordando el Sesgo de Referencia Cerca de Variantes Estructurales
- Comparando Diferentes Representaciones de Referencia
- Desempeño Computacional de Biastools
- Conclusión
- Fuente original
Cuando los científicos estudian el ADN, a menudo comparan las secuencias de ADN con un genoma de referencia conocido. Esto les ayuda a identificar diferencias que podrían indicar variaciones genéticas. Sin embargo, este proceso puede tener un problema conocido como sesgo de referencia. El sesgo de referencia ocurre cuando los métodos utilizados para alinear las lecturas de secuencias al genoma de referencia no tienen en cuenta con precisión todas las diferencias genéticas. Esto significa que a veces, los métodos pueden pasar por alto o identificar incorrectamente partes de la secuencia de ADN, lo que lleva a errores en los resultados.
El sesgo de referencia es especialmente problemático en ciertas áreas de investigación. Por ejemplo, puede distorsionar las mediciones de variaciones genéticas en regiones altamente variables, que son áreas del genoma que tienden a cambiar considerablemente de un individuo a otro. También puede afectar estudios sobre ADN antiguo, que a menudo está fragmentado y es más difícil de alinear. Además, puede influir en los análisis de señales epigenómicas, que son cambios que influyen en la actividad de los genes sin alterar la secuencia de ADN en sí.
Estrategias para Abordar el Sesgo de Referencia
Los enfoques recientes para combatir el sesgo de referencia implican el uso de colecciones de secuencias genómicas conocidas como pangénomos. Estos pangénomos incluyen muchos variantes conocidas de genes, permitiendo alineaciones más precisas porque los alineadores pueden considerar tanto los alelos de referencia como los alternativos. Esto puede ayudar a reducir los errores que normalmente se ven al usar genomas de referencia estándar.
Los investigadores han estado ocupados desarrollando herramientas que emplean estos nuevos métodos. Al indexar variaciones genéticas usando gráficos y utilizando diferentes tipos de métodos de alineación, los científicos buscan reducir el sesgo de referencia. Algunas herramientas prácticas que han surgido de esta investigación incluyen varios alineadores que utilizan un gráfico de pangéno.
A pesar de estos avances, el concepto de sesgo de referencia no ha sido examinado a fondo. Los estudios anteriores que intentaron reducir el sesgo a menudo lo evaluaron de diferentes maneras, lo que llevó a confusión ya que no hay medidas o herramientas estándar para identificar causas específicas del sesgo de referencia.
Introducción de Biastools
Para abordar estos problemas, los científicos han desarrollado una herramienta llamada Biastools. Esta herramienta está diseñada para medir y diagnosticar el sesgo de referencia en conjuntos de datos, especialmente aquellos de individuos diploides, como los humanos. Tiene diferentes modos para ayudar a los investigadores a entender mejor el sesgo de referencia.
Modo de simulación
En el modo de simulación, Biastools permite a los usuarios realizar experimentos simulando lecturas de secuenciación de ADN. Los investigadores pueden comparar cómo funcionan diferentes programas de alineación y pueden categorizar las razones del sesgo de referencia. Por ejemplo, pueden determinar si el sesgo surge de diferencias genéticas, secuencias repetitivas u otros problemas.
Modo de Predicción
En el modo de predicción, Biastools analiza conjuntos de datos de secuenciación reales de individuos con variaciones genéticas conocidas. Cuantifica el nivel de sesgo de referencia y predice qué sitios específicos son los más afectados. Este modo puede ayudar a los investigadores a entender cómo el sesgo podría impactar sus hallazgos.
Modo de Escaneo
En el modo de escaneo, Biastools examina conjuntos de datos donde las variaciones genéticas son desconocidas. Identifica áreas donde es probable que ocurra sesgo de referencia basado en la profundidad de lectura, la densidad de alelos alternativos y otras inconsistencias. Esto ayuda a los investigadores a detectar regiones problemáticas incluso cuando carecen de información detallada sobre la composición genética del individuo.
Perspectivas de Biastools
Usando Biastools, los investigadores han investigado el sesgo de referencia en diferentes escenarios y herramientas de alineación. Sus hallazgos han confirmado estudios previos que indicaron que incluir más variantes genéticas en un gráfico de pangéno de referencia puede reducir significativamente el sesgo de referencia. Curiosamente, encontraron que algunos métodos de alineación son mejores para reducir el sesgo relacionado con inserciones y eliminaciones durante el proceso de mapeo.
Por otro lado, ciertas estrategias de alineación que son más indulgentes con alineaciones locales tienden a mostrar niveles más altos de sesgo. Además, usar Biastools reveló diferencias sustanciales en el sesgo de referencia al comparar alineaciones utilizando diferentes ensamblajes de genoma.
Objetivos de un Alineador de Lectura Ideal
En un escenario ideal, un alineador de lectura mapearía con precisión cada lectura de vuelta a su verdadero origen sin favorecer un variante genética sobre otra. Además, un método para analizar las alineaciones de lectura contaría alelos de referencia y alternativos sin introducir sesgo. Sin embargo, la realidad es que las herramientas de alineación y los genomas de referencia no son perfectos. Varios factores interactúan para producir patrones únicos de sesgo de referencia, haciendo crucial tener herramientas confiables como Biastools para la medición y análisis.
Medir el Sesgo de Referencia en Experimentos de Simulación
Usando el modo de simulación de Biastools, los investigadores realizaron experimentos comenzando con un archivo de formato de llamada de variante que describe las variaciones genéticas. Generaron un genoma de referencia personalizado y simularon datos de secuenciación de genoma completo. Luego, se utilizaron varias herramientas de alineación para alinear estos datos al genoma de referencia.
Los investigadores midieron tres tipos de equilibrio genético a través de sitios heterocigotos para ilustrar el sesgo de referencia:
- Equilibrio de Simulación (SB): La proporción de lecturas simuladas del haplotipo que lleva la referencia.
- Equilibrio de Mapeo (MB): El equilibrio en sitios heterocigotos basado solo en lecturas que tanto se originaron en el sitio como se alinearon correctamente.
- Equilibrio de Asignación (AB): El equilibrio después de usar un algoritmo para asignar el haplotipo de origen a cada lectura.
Al calcular estos equilibrios, los investigadores pudieron identificar instancias de sesgo de referencia y entender cómo varios factores contribuyen al sesgo visto en los datos.
Tipos de Sesgo de Referencia
Para categorizar instancias de sesgo de referencia, los investigadores calcularon combinaciones de las tres medidas de equilibrio. Usaron estas medidas para determinar si el sesgo se introdujo durante la etapa de mapeo o el proceso de asignación. La categorización incluyó eventos como sesgo de pérdida, sesgo de flujo y sesgo local.
Sesgo de Pérdida
El sesgo de pérdida ocurre cuando las lecturas que llevan alelos alternativos no se alinean correctamente, lo que lleva a una subrepresentación de esos alelos en el análisis.
Sesgo de Flujo
El sesgo de flujo involucra lecturas que se alinean a un sitio pero provienen de otra parte del genoma, causando desalineación en los resultados.
Sesgo Local
El sesgo local ocurre cuando las lecturas se alinean correctamente pero el método de asignación no logra clasificarlas con precisión debido a factores como secuencias repetitivas o huecos en la alineación.
Observaciones sobre el Sesgo Local
Los investigadores notaron que usar un método de asignación consciente del contexto redujo el sesgo local en comparación con métodos ingenuos. Esto se debe a que el enfoque consciente del contexto busca alelos y sus secuencias circundantes, lo que ayuda a aclarar el origen de las lecturas. Sin embargo, aún encontró desafíos en casos con errores de secuenciación o superposiciones con variantes cercanas.
Visualizando el Sesgo de Referencia en Indels
Los investigadores evaluaron el sesgo de referencia al observar el impacto de la longitud de inserciones y eliminaciones en el sesgo de alineación. Encontraron que el método de asignación ingenuo exhibía un sesgo considerable, mientras que el método consciente del contexto se mantenía cerca del equilibrio simulado. Este patrón indicaba que inserciones más largas tendían a causar más sesgo en los resultados.
Comparando Diferentes Herramientas de Alineación
Los investigadores realizaron los análisis anteriores utilizando varias herramientas de alineación para entender cómo cada una se desempeñó en minimizar el sesgo de referencia. Observaron que diferentes herramientas arrojaban diferentes niveles de sesgo, particularmente en cómo manejaban huecos y alineaciones locales.
Los hallazgos generales indicaron que los alineadores con estrategias de alineación de extremo a extremo tendían a producir resultados más equilibrados en comparación con aquellos que permitían alineaciones locales flexibles.
Midiendo el Sesgo con Lecturas Reales
Los investigadores aplicaron Biastools a conjuntos de datos reales donde tenían conocimiento previo de sitios heterocigotos. En este caso, se centraron en el equilibrio de asignación para detectar el sesgo de referencia. La evaluación mostró resultados prometedores, indicando que el modelo simple identificó con éxito sitios sesgados en datos reales.
Detectando el Sesgo en Genomas No Caracterizados
En escenarios donde las variaciones genéticas del individuo son desconocidas, Biastools aún puede identificar regiones sesgadas en los datos. Los investigadores hipotetizaron que patrones en la profundidad de lectura, la densidad de alelos alternativos y casos de evidencia diploide inconsistente señalarían un posible sesgo. Usando un método que calcula estadísticas en ejecución sobre los datos de secuenciación, Biastools permite la detección de estos patrones de sesgo sin requerir información genética detallada.
Abordando el Sesgo de Referencia Cerca de Variantes Estructurales
Los investigadores encontraron que muchas regiones sesgadas estaban ubicadas cerca de variantes estructurales o áreas donde el genoma de referencia estaba incompleto. Esto sugiere que el sesgo de referencia a menudo ocurre en regiones donde la evidencia genética es más compleja o está mal representada.
Comparando Diferentes Representaciones de Referencia
Los investigadores compararon el desempeño de diferentes estrategias de alineación utilizando varias referencias de genoma. Encontraron que alinear a una representación más completa del genoma ayudaba a reducir el sesgo de referencia, especialmente en regiones previamente identificadas como problemáticas.
Desempeño Computacional de Biastools
La eficiencia de Biastools fue evaluada midiendo el tiempo y el uso de memoria durante varias etapas de procesamiento. En general, la herramienta demostró una eficiencia considerable, permitiendo a los investigadores analizar datos genómicos complejos sin demandas computacionales excesivas.
Conclusión
Biastools es un avance significativo en los esfuerzos continuos para entender y mitigar el sesgo de referencia en la investigación genética. Proporciona a los investigadores las herramientas necesarias para medir, categorizar y visualizar instancias de sesgo de manera efectiva. A medida que el campo continúa evolucionando, herramientas como Biastools serán esenciales para asegurar interpretaciones más precisas de los datos genéticos.
Al identificar y abordar el sesgo de referencia temprano en el proceso de alineación, Biastools puede ayudar a mejorar la precisión de los resultados en diversas aplicaciones de la investigación genómica. A medida que la comunidad científica sigue desarrollando nuevos alineadores y representaciones de referencia, Biastools puede servir como un estándar mediante el cual se evalúan estos métodos, lo que finalmente conducirá a mejores métodos para entender la variación genética.
Con mejoras en los modelos que predicen el sesgo de referencia y refinamientos en el análisis de contextos genómicos complejos, Biastools jugará un papel crucial en futuros estudios, allanando el camino para obtener una comprensión más clara de la investigación genética y sus aplicaciones.
Título: Measuring, visualizing and diagnosing reference bias with biastools
Resumen: Many bioinformatics methods seek to reduce reference bias, but no methods exist to comprehensively measure it. Biastools analyzes and categorizes instances of reference bias. It works in various scenarios, i.e. (a) when the donors variants are known and reads are simulated, (b) when donor variants are known and reads are real, and (c) when variants are unknown and reads are real. Using biastools, we observe that more inclusive graph genomes result in fewer biased sites. We find that end-to-end alignment reduces bias at indels relative to local aligners. Finally, we use biastools to characterize how T2T references improve large-scale bias.
Autores: Mao-Jan Lin, S. Iyer, N.-C. Chen, B. Langmead
Última actualización: 2024-02-15 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2023.09.13.557552
Fuente PDF: https://www.biorxiv.org/content/10.1101/2023.09.13.557552.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.