Avances en Grafos de Recombinación Ancestral y Variantes Estructurales
Nuevas herramientas mejoran la comprensión de la diversidad genética y las variantes estructurales en las poblaciones humanas.
― 8 minilectura
Tabla de contenidos
- Entendiendo el Espacio del Borde en los ARGs
- Desarrollo de Herramientas para Detectar Supresión de Recombinación
- Análisis de Datos Humanos Reales
- Entendiendo la Probabilidad de Ruptura de Bordes
- Herramientas para Análisis de Espacio de Clado
- Detección de Variantes Estructurales en Datos Simulados
- Aplicación a Genomas Humanos del Mundo Real
- Conclusión
- Fuente original
En genética, entender la historia familiar de un grupo de muestras es crucial. Una forma de hacerlo es a través de algo llamado un Gráfico de Recombinación Ancestral (ARG). Un ARG muestra cómo diferentes secuencias genéticas se relacionan entre sí a lo largo del tiempo. Se crea conectando muchos "árboles locales" más pequeños, cada uno describiendo una parte de la historia genética en un punto específico del genoma. Cuando estos árboles se unen mediante eventos de recombinación, obtenemos una imagen más completa de las relaciones genéticas entre las muestras.
Los ARGs ayudan a los científicos a ver cómo se formó la diversidad genética y pueden ser más eficientes que métodos más antiguos, como alinear múltiples secuencias genéticas. Usando ARGs, los investigadores pueden hacer estimaciones sólidas sobre eventos evolutivos pasados. Sin embargo, en la realidad, no siempre podemos ver la verdadera historia familiar y a menudo tenemos que armarla con los datos que tenemos, que generalmente consisten en secuencias genéticas actuales. Esto puede ser una tarea complicada porque buscar a través de todos los posibles ARGs que podrían encajar con los datos es bastante complejo.
Aunque ha habido un progreso significativo en la reconstrucción de ARGs para muestras grandes, todavía hay dificultades. Muchos métodos que funcionan bien en simulaciones pueden tener problemas con datos reales, y hay una necesidad de mejorar cómo evaluamos la calidad de las reconstrucciones de ARG. Los investigadores han encontrado que diferentes herramientas pueden producir resultados notablemente diferentes para el mismo conjunto de datos, indicando la necesidad de una mayor investigación.
Otro desafío es que la mayoría de los métodos actuales se enfocan solo en cambios genéticos pequeños, como sustituciones de bases individuales. A menudo pasan por alto cambios más grandes, conocidos como Variantes Estructurales (SV), como duplicaciones e inversiones de material genético. Las SV son significativas porque contribuyen a la evolución y pueden afectar rasgos en las poblaciones. Sin embargo, no se han realizado estudios de manera efectiva usando ARGs para analizar SV en conjuntos de datos reales, aunque se han hecho algunas simulaciones.
Entendiendo el Espacio del Borde en los ARGs
Cada parte de un ARG, conocida como un "borde", tiene un espacio genómico específico donde existe en los árboles locales. Al profundizar en los modelos matemáticos detrás de los ARGs, los investigadores pueden derivar la distribución teórica del espacio del borde. Esto significa que pueden entender cuán largo se espera que sea cada borde y con qué frecuencia los Bordes se interrumpen por eventos de recombinación.
Analizar ARGs reconstruidos a través de diferentes métodos revela variaciones en cuán bien estas herramientas capturan la distribución esperada de los espacios de los bordes. Por ejemplo, algunas herramientas podrían reflejar con precisión la longitud esperada de un borde, mientras que otras pueden producir consistentemente bordes que son más largos o más cortos de lo esperado. Entender por qué esto sucede para cada herramienta puede ayudar a mejorar futuras reconstrucciones de ARGs.
Desarrollo de Herramientas para Detectar Supresión de Recombinación
Una nueva herramienta computacional, llamada DoLoReS, ha sido desarrollada para identificar áreas donde la recombinación está suprimida entre Clados de muestras genéticas. Cuando los individuos tienen una inversión, que es una forma en la que el material genético puede reorganizarse, la recombinación en esa región a menudo se reduce. Esto da lugar a patrones únicos que los investigadores pueden usar para encontrar inversiones.
Probar esta herramienta implica aplicarla tanto a datos simulados como a conjuntos de datos reales, como los provenientes de grandes estudios poblacionales. El método muestra promesa al capturar con precisión las señales de las SV y detectar regiones significativas de recombinación suprimida.
Análisis de Datos Humanos Reales
Para entender mejor las variantes estructurales entre los humanos, los investigadores aplicaron DoLoReS a un gran conjunto de datos genómicos conocido como el Proyecto de Genomas 1000 (1KGP). Este análisis reveló diversas variantes estructurales conocidas, como la inversión 17q21.31, común entre las poblaciones europeas. Al estimar la frecuencia de esta variante en diferentes poblaciones, los investigadores pueden ver cómo estas variaciones afectan la diversidad y los rasgos humanos.
El método también permitió la identificación de variantes estructurales novedosas y proporcionó información sobre reordenamientos complejos dentro del genoma. Notablemente, los ARGs reconstruidos aún lograron captar señales de la presencia de SV, aunque las reconstrucciones iniciales no las tenían en cuenta.
Entendiendo la Probabilidad de Ruptura de Bordes
Al analizar ARGs, es crucial entender la probabilidad de que un borde sea interrumpido por un evento de recombinación. La probabilidad está influenciada por la longitud del borde y su posición. Los bordes más largos generalmente tienen una menor probabilidad de ser interrumpidos en comparación con los más cortos.
Esta relación es significativa, ya que ayuda a moldear nuestra comprensión de cómo cambia la diversidad genética a lo largo del tiempo. Al crear modelos para simular estos eventos, los investigadores pueden cuantificar mejor los resultados esperados de la recombinación genética.
Herramientas para Análisis de Espacio de Clado
El concepto de clados también es esencial en este campo. Un clado se refiere a un grupo de muestras que comparten un ancestro común. El espacio genómico de un clado puede darnos información importante sobre las relaciones genéticas entre esas muestras. Al analizar la distribución esperada de los espacios de clado, los investigadores pueden desarrollar pruebas estadísticas para verificar longitudes inusuales, lo que puede indicar supresión local de la recombinación.
Cuando se aplican a ARGs reconstruidos, estas pruebas pueden revelar hallazgos significativos, ayudando a identificar áreas donde probablemente ocurren variaciones estructurales. Esto puede incluir la identificación de inversiones, que son importantes para entender la composición genética de las poblaciones.
Detección de Variantes Estructurales en Datos Simulados
Para evaluar más a fondo las capacidades de los nuevos métodos, los investigadores llevaron a cabo estudios de simulación. Estos estudios involucraron la creación de ARGs con variantes estructurales conocidas y la evaluación de cuán bien los métodos podían detectarlas. Los resultados mostraron que las pruebas identificaron efectivamente regiones específicas de recombinación suprimida vinculadas a inversiones, confirmando su potencial utilidad para estudios futuros.
Aplicación a Genomas Humanos del Mundo Real
Además de los datos simulados, los métodos se aplicaron a datos genómicos reales, revelando diversas variantes estructurales en genomas humanos. Estos hallazgos proporcionan información sobre las frecuencias poblacionales de ciertas variantes y ayudan a estimar su historia evolutiva.
Por ejemplo, los investigadores encontraron una inversión conocida en el cromosoma 17, que ha sido bien estudiada en poblaciones europeas. Pudieron estimar una frecuencia promedio de esta inversión entre diferentes grupos poblacionales, contribuyendo a la discusión en curso sobre la diversidad genética humana.
Además, los métodos permitieron a los investigadores explorar regiones adicionales de variación estructural, vinculando variantes identificadas a genes y enfermedades conocidas. Esta conexión entre el análisis genético y los rasgos del mundo real subraya la importancia de esta investigación para la genética médica y evolutiva.
Conclusión
La investigación en curso sobre ARGs y sus aplicaciones para identificar variantes estructurales ha revelado mucho sobre la diversidad genética humana. Al desarrollar nuevas herramientas y métodos, los científicos pueden comprender mejor las complejidades de nuestros genomas.
Mejorar los métodos para reconstruir ARGs y analizar variantes estructurales seguirá proporcionando valiosas ideas sobre la evolución y adaptación humana. Con los avances continuos en herramientas computacionales y métodos estadísticos, los investigadores están bien posicionados para enfrentar los desafíos de entender la diversidad genética en las poblaciones humanas. La integración de estos métodos en el análisis genético de rutina no solo mejorará nuestra comprensión de la historia humana, sino que también ayudará en el estudio de enfermedades genéticas y rasgos.
Los hallazgos enfatizan la importancia de considerar las variantes estructurales en la investigación genética y el potencial de los ARGs para capturar estas complejidades. Este progreso en genética sin duda conducirá a nuevos descubrimientos y a una comprensión más profunda de las intrincadas relaciones que dan forma a la diversidad genética entre los humanos.
Título: The length of haplotype blocks and signals of structural variation in reconstructed genealogies
Resumen: Recent breakthroughs have enabled the inference of genealogies from large sequencing data-sets, accurately reconstructing local trees that describe genetic ancestry at each locus. These genealogies should also capture the correlation structure of local trees along the genome, reflecting historical recombination events and factors like demography and natural selection. However, whether reconstructed genealogies do accurately capture this correlation structure has not been rigorously explored. This is important to address, since uncovering regions that depart from expectations can drive the discovery of new biological phenomena. Addressing this is crucial, as uncovering regions that deviate from expectations can reveal new biological phenomena, such as the suppression of recombination allowing linked selection over broad regions, evidenced in humans and in adaptive introgression events in various species. We use a theoretical framework to characterise properties of genealogies, such as the distribution of genomic spans of clades and edges, and demonstrate that our theoretical results match observations in various simulated scenarios. Testing genealogies reconstructed using leading approaches, we find departures from theoretical expectations for all methods. However, for the method Relate, a set of simple corrections results in almost complete recovery of the target distributions. Applying these corrections to genealogies reconstructed using Relate for 2504 human genomes, we observe an excess of clades with unexpectedly long genomic spans (125 with p < 1 {middle dot} 10-12 clustering into 50 regions), indicating localised suppression of historical recombination. The strongest signal corresponds to a known inversion on chromosome 17, while the second strongest represents a previously unknown inversion on chromosome 10, which is most common (21%) in S. Asians and correlates with GWAS hits for a range of phenotypes including immunological traits. Other signals suggest additional large inversions (4), copy number changes (2), and complex rearrangements or other variants (12), as well as 28 regions with strong support but no clear classification. Our approach can be readily applied to other species, and show that genealogies offer previously untapped potential to study structural variation and its impacts at a population level, revealing new phenomena impacting evolution.
Autores: Anastasia Ignatieva, M. Favero, J. Koskela, J. Sant, S. R. Myers
Última actualización: 2024-06-19 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2023.07.11.548567
Fuente PDF: https://www.biorxiv.org/content/10.1101/2023.07.11.548567.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.