Avances en el Análisis de ADN Antiguo con READv2
La herramienta READv2 mejora el estudio de las relaciones del ADN antiguo.
― 7 minilectura
Tabla de contenidos
Estudiar cómo se relacionan los seres vivos entre sí se ha vuelto una parte clave de la investigación del ADN antiguo. Esto es importante para entender cómo vivían y se relacionaban los grupos prehistóricos. Por ejemplo, los investigadores han explorado las estructuras sociales de los neandertales y otros humanos antiguos. Un gran beneficio de esta investigación es que ayuda a mantener los datos limpios al detectar muestras duplicadas o parientes cercanos. Esto permite a los científicos analizar los datos de población con precisión.
En los últimos años, los estudios han permitido a los investigadores analizar hasta 100 individuos de un solo sitio arqueológico, lo que muestra una fuerte necesidad de mejores herramientas y métodos en este campo. El análisis del ADN antiguo ha avanzado mucho, con mejoras en los procedimientos de laboratorio y métodos informáticos diseñados específicamente para el ADN antiguo, que es diferente del ADN moderno.
La Herramienta READ
En 2018, se presentó una herramienta llamada READ para ayudar a los investigadores a averiguar cómo están relacionados los individuos basándose en datos de ADN antiguo. Funciona tomando pequeños fragmentos de información genética y calculando cuánto difieren entre sí. Esto ayuda a clasificar Relaciones como padre-hijo, hermanos o individuos no relacionados.
Originalmente, READ trabajaba con un tipo específico de datos de entrada y dividía el genoma en secciones pequeñas para su análisis. Al comparar estas secciones, podía clasificar relaciones de manera efectiva, incluso con datos muy limitados. Con el tiempo, se han desarrollado más métodos que pueden manejar menos datos y proporcionar distinciones más finas entre tipos de relaciones. Sin embargo, READ sigue siendo popular entre muchos investigadores porque es fácil de usar y no requiere una preparación de datos o cálculos complejos.
Mejoras Recientes
Debido a la popularidad de READ, se desarrolló una nueva versión llamada READv2 para funcionar mejor y más rápido. La nueva versión está construida en Python 3, mientras que la original estaba en Python 2 y R. Usar un solo lenguaje de programación simplifica el proceso y evita problemas que surgen al usar múltiples lenguajes.
READv2 cambia el formato del archivo de entrada para hacerlo más pequeño y más rápido de analizar. También procesa los datos todo dentro de un solo script, lo que reduce la necesidad de archivos temporales y disminuye los errores que pueden surgir al usar múltiples scripts. Las mejoras han llevado a una reducción significativa en el tiempo de procesamiento. Por ejemplo, analizar un conjunto de datos de 94 individuos que tardaba casi cinco horas con READv1 ahora se puede hacer en unos ocho minutos y medio con READv2.
Aunque READv2 usa más memoria, la cantidad necesaria es manejable en la mayoría de las computadoras personales modernas. Incluso puede manejar Conjuntos de datos muy grandes, lo que lo hace más útil para investigadores que trabajan con colecciones extensas de datos de ADN antiguo.
Tamaño de Ventana y Análisis
En la primera versión, READ usó un tamaño de ventana predeterminado de un millón de pares de bases para analizar el genoma. Sin embargo, este tamaño nunca se había probado contra otros tamaños. Los investigadores descubrieron que ventanas más pequeñas daban mejores resultados, pero el mejor resultado provino de analizar todo el genoma de una vez.
Al mirar diferentes tipos de relaciones, la nueva versión mostró algunos resultados prometedores. Funcionó bien incluso con cantidades muy bajas de datos de secuencias. Se enfrentó a un desafío significativo al intentar clasificar relaciones más distantes, como parientes de tercer grado. READv2 pudo clasificar estas relaciones, pero necesitaba más datos para hacerlo con precisión.
Para relaciones de primer grado, READv2 ahora puede identificar si los individuos son hermanos o padre-hijo, lo que no era parte de la herramienta original. Esto se logró al observar cuán similares eran sus secciones del genoma y usando umbrales específicos para distinguir entre los dos.
Pruebas y Rendimiento
Para evaluar qué tan bien funciona READv2, los investigadores lo probaron en relaciones conocidas utilizando datos simulados que incluían todas las complejidades de los conjuntos de datos genéticos reales. Crearon una variedad de escenarios genéticos para ver qué tan bien la herramienta podía clasificar relaciones.
En estas pruebas, READv2 funcionó excepcionalmente bien, identificando correctamente las relaciones adecuadas en muchos casos. Sin embargo, quedó claro que a medida que los datos disminuían, algunas clasificaciones se volvían menos precisas. Se establecieron umbrales cuidadosos para asegurar que cantidades bajas de datos no llevaran a clasificaciones incorrectas.
Una parte importante de usar READv2 es el concepto de "SNPS efectivamente superpuestos". Esta es una medida de la información genética útil disponible para la clasificación. Tener un mayor número de SNPs efectivamente superpuestos conduce a clasificaciones más precisas para todos los tipos de relaciones.
Aplicación a Datos Reales
La verdadera fortaleza de READv2 entra en juego cuando se aplica a conjuntos de datos reales. Un ejemplo involucró un estudio significativo de individuos de un sitio neolítico en Francia. Los investigadores primero usaron READ para estimar relaciones y luego recurrieron a otro software para diferenciar entre padre-hijo y hermanos.
Con las mejoras en READv2, fue posible analizar el mismo conjunto de datos más rápido y sin necesidad de cambiar entre diferentes herramientas. Esto hizo que el proceso fuera más eficiente y fluido, permitiendo obtener resultados de una vez.
Los resultados de READv2 fueron comparables a los obtenidos de la combinación de READ y el software adicional en el estudio original. Muchos pares de individuos fueron clasificados con precisión, confirmando los hallazgos de la investigación.
En general, READv2 funcionó bien en la identificación de relaciones y proporcionó información sustancial sin la complejidad añadida de usar múltiples herramientas.
Conclusión
El desarrollo de READv2 marca un gran avance en el análisis del ADN antiguo para entender las relaciones biológicas. Ofrece velocidad y eficiencia mejoradas, facilitando a los investigadores el análisis de grandes conjuntos de datos. Se espera que esta herramienta se convierta en un elemento crucial en estudios destinados a reconstruir árboles genealógicos antiguos y entender las dinámicas sociales en comunidades prehistóricas.
Al permitir la clasificación de varios tipos de relaciones y manejar datos complejos de manera efectiva, READv2 se destaca entre los métodos disponibles para obtener información del ADN antiguo. Ofrece un enfoque fácil de usar mientras sigue proporcionando resultados poderosos, lo que la hace valiosa para los investigadores en el campo de la arqueogenómica.
A medida que los estudios continúan creciendo en tamaño y complejidad, la capacidad de analizar grandes cantidades de datos de ADN antiguo de manera rápida y precisa será crucial. Las mejoras en READv2 la posicionan bien para futuros esfuerzos de investigación y seguramente contribuirán a muchos nuevos descubrimientos en el campo.
Perspectivas Futuras
De cara al futuro, el enfoque estará en refinar las herramientas disponibles para estudiar el ADN antiguo y mejorar la clasificación de relaciones distantes. A medida que la tecnología evoluciona y los conjuntos de datos se expanden, los métodos utilizados en este campo tendrán que mantenerse al día.
La introducción de métricas significativas como “SNPs efectivamente superpuestos” contribuirá a comparaciones más confiables entre estudios. Esto facilitará generalizaciones y mejorará la comprensión de las relaciones genéticas entre diferentes poblaciones.
En general, el futuro se ve prometedor para el estudio del ADN antiguo, con READv2 liderando el camino para proporcionar análisis eficientes y precisos. A medida que los investigadores continúan trabajando con conjuntos de datos más grandes y complejos, herramientas como esta serán fundamentales para desentrañar las historias ocultas en nuestro pasado antiguo.
Título: READv2: Advanced and user-friendly detection of biological relatedness in archaeogenomics
Resumen: The possibility to obtain genome-wide ancient DNA data from multiple individuals has facilitated an unprecedented perspective into prehistoric societies. Studying biological relatedness in these groups requires tailored approaches for analyzing ancient DNA due to its low coverage, post-mortem damage, and potential ascertainment bias. Here we present READv2 (Relatedness Estimation from Ancient DNA version 2), an improved Python 3 re-implementation of the most widely used tool for this purpose. While providing increased portability and making the software future-proof, we are also able to show that READv2 (a) is orders of magnitude faster than its predecessor; (b) has increased power to detect pairs of relatives using optimized default parameters; and, when the number of overlapping SNPs is sufficient, (c) can differentiate between full-siblings and parent-offspring, and (d) can classify pairs of third-degree relatedness. We further use READv2 to analyze a large empirical dataset that has previously needed two separate tools to reconstruct complex pedigrees. We show that READv2 yields results and precision similar to the combined approach but is faster and simpler to run. READv2 will become a valuable part of the archaeogenomic toolkit in providing an efficient and user-friendly classification of biological relatedness from pseudohaploid ancient DNA data.
Autores: Torsten Günther, E. Alacamlı, T. Naidoo, S. Aktürk, M. N. Güler, I. Mapelli, K. B. Vural, M. Somel, H. Malmström, T. Günther
Última actualización: 2024-01-23 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.01.23.576660
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.01.23.576660.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.