ROADIES: Una Nueva Herramienta para el Análisis Genómico
ROADIES simplifica el análisis de datos genómicos, creando árboles de especies de manera eficiente y precisa.
― 7 minilectura
Tabla de contenidos
La secuenciación del genoma avanza rápidamente, permitiendo a los científicos mapear el ADN de muchos organismos diferentes de manera más precisa y completa que nunca. En los próximos años, puede haber miles, incluso millones, de estas secuencias de ADN disponibles. Esta información valiosa puede ayudar a responder preguntas importantes sobre cómo las especies están relacionadas entre sí a lo largo del tiempo. Sin embargo, analizar estos datos es complejo y requiere muchos pasos detallados. Por lo tanto, hay una necesidad creciente de crear sistemas Automatizados que puedan analizar estas secuencias de manera eficiente y generar árboles precisos que muestren cómo se relacionan las diferentes especies.
La necesidad de automatización
A pesar de la alta demanda de herramientas automatizadas en el análisis de Datos Genómicos, crear sistemas que puedan inferir con Precisión estos árboles de especies sigue siendo un reto. No hay un método específico que haya ganado aceptación universal para esta tarea. Los métodos actuales a menudo intentan tener en cuenta las diferencias que pueden surgir de las secuencias de genes que no siempre coinciden perfectamente debido a cambios evolutivos. Sin embargo, estos procesos generalmente requieren mucho trabajo manual y son propensos a errores. Por ejemplo, un problema central es que los métodos de análisis tradicionales dependen en gran medida de anotaciones de genes precisas, lo cual puede ser complicado y requiere conocimientos especializados.
El análisis consta de varios pasos, incluyendo seleccionar y anotar genes de ciertas especies, encontrar genes similares en otras especies y elegir los mejores métodos para comparar y analizar estos genes. Cada paso puede consumir mucho tiempo y ser complejo, lo que lleva a la necesidad de automatización.
Presentando ROADIES
Para abordar estos desafíos, desarrollamos una herramienta llamada ROADIES. Esta herramienta automatiza el proceso de generar árboles de especies a partir de secuencias de genoma en bruto, asegurando precisión,fiabilidad y velocidad. El nombre ROADIES significa "Estimación de árboles de especies sin referencia, sin ortología, sin alineación y consciente de la discordancia", destacando sus características clave:
Sin referencia: ROADIES no requiere un genoma de referencia ni anotaciones. Este enfoque reduce el sesgo y simplifica el proceso de análisis.
Sin ortología: La herramienta no necesita identificar genes ortólogos (genes en diferentes especies que evolucionaron de un ancestro común). Puede analizar árboles genéticos que incluyen múltiples copias de genes, reduciendo errores asociados con la detección de ortología.
Sin alineación: ROADIES construye alineaciones internamente, eliminando la necesidad de alineaciones preexistentes por parte de los usuarios.
Consciente de la discordancia: La herramienta gestiona eficazmente las discrepancias que pueden surgir en los árboles de genes debido a diferentes historias evolutivas.
ROADIES ha sido probado usando tres conjuntos de datos grandes: mamíferos, aves y moscas de la fruta, y ha mostrado resultados prometedores en términos de precisión y velocidad en comparación con métodos tradicionales.
Logros de ROADIES
Al evaluar el rendimiento de ROADIES en el conjunto de datos de 240 mamíferos placentarios, mostró un alto grado de coincidencia con investigaciones establecidas. Por ejemplo, produjo un árbol que se alineó estrechamente con el árbol de referencia, indicando relaciones precisas entre las especies. El análisis también mostró que ROADIES puede producir filogenias confiables incluso a medida que aumenta el número de árboles de genes.
Uno de los beneficios significativos de ROADIES es la velocidad que ofrece. Puede procesar grandes cantidades de datos genómicos en mucho menos tiempo que los métodos convencionales, que a menudo tardan semanas o meses en completarse. ROADIES puede lograr velocidades que son más de 176 veces más rápidas que los enfoques tradicionales.
Además, ROADIES también fue probado en conjuntos de datos de 100 genomas de moscas de la fruta y 363 genomas de aves. Logró niveles altos de apoyo para sus relaciones estimadas, confirmando su efectividad en diferentes tipos de conjuntos de datos.
Los modos operativos de ROADIES
ROADIES ofrece a los usuarios tres modos operativos diferentes para equilibrar precisión y velocidad:
Modo preciso: Esta es la configuración predeterminada que proporciona la mayor precisión al usar procesos de alineación detallados y métodos robustos de estimación de árboles.
Modo equilibrado: Este modo busca un equilibrio entre velocidad y precisión, utilizando métodos más rápidos para la estimación del árbol de genes mientras mantiene una buena fiabilidad.
Modo rápido: Como su nombre indica, este modo prioriza la velocidad sobre la precisión, haciéndolo adecuado para usuarios que necesitan resultados rápidos y pueden aceptar menor precisión.
El pipeline de ROADIES
El flujo de trabajo de ROADIES consta de varios pasos, comenzando con el muestreo aleatorio de secuencias de genes de genomas de entrada. Cada secuencia de gen se trata como una entidad separada para análisis. La herramienta realiza alineaciones pareadas para encontrar secuencias homólogas en todos los genomas, filtra alineaciones de baja calidad y luego realiza múltiples alineaciones de secuencias.
A continuación, se estiman árboles de genes a partir de las múltiples alineaciones de secuencias. Finalmente, ROADIES construye un Árbol de especies basado en los árboles de genes recopilados. Todo el proceso es altamente configurable, permitiendo a los usuarios adaptar varios parámetros según sus necesidades específicas.
Rendimiento y resultados
ROADIES ha demostrado su capacidad para producir árboles filogenéticos de manera precisa y eficiente en conjuntos de datos variados. Por ejemplo, la herramienta mostró un fuerte rendimiento al generar una filogenia de 240 mamíferos placentarios, logrando una baja puntuación de distancia en comparación con el árbol de referencia establecido. Este acuerdo sugiere que ROADIES es capaz de inferir con precisión relaciones evolutivas, incluso en conjuntos de datos complejos.
En el caso de las moscas de la fruta y las aves, ROADIES también mantuvo altos niveles de precisión y velocidad. Los resultados confirman aún más que ROADIES puede ser empleado en diferentes especies y conjuntos de datos, haciéndolo versátil para la investigación biológica.
El futuro de ROADIES
El desarrollo de ROADIES es solo el comienzo. A medida que los datos genómicos continúan creciendo en tamaño y complejidad, la demanda de herramientas de análisis precisas y eficientes como ROADIES solo aumentará. Las mejoras futuras incluyen explorar formas de utilizar tecnología GPU para acelerar aún más las tareas computacionales, mejorar la escalabilidad para conjuntos de datos aún más grandes y refinar métodos para el enraizamiento de árboles y la cuantificación de incertidumbre.
Al actualizar y mejorar continuamente ROADIES, el objetivo es crear una herramienta que no solo sea efectiva, sino también fácil de usar para los investigadores de diversos campos, haciendo que el análisis genómico sea accesible y eficiente.
Conclusión
ROADIES representa un gran paso adelante en la automatización del análisis de datos genómicos. Aborda las complejidades y desafíos que han obstaculizado tradicionalmente este campo y proporciona un enfoque eficiente, preciso y flexible para construir árboles de especies a partir de secuencias genómicas en bruto. Con sus resultados prometedores y desarrollo continuo, ROADIES está posicionado para convertirse en un recurso valioso para investigadores que trabajan en biología evolutiva y campos relacionados.
Título: Accurate, scalable, and fully automated inference of species trees from raw genome assemblies using ROADIES
Resumen: Inference of species trees plays a crucial role in advancing our understanding of evolutionary relationships and has immense significance for diverse biological and medical applications. Extensive genome sequencing efforts are currently in progress across a broad spectrum of life forms, holding the potential to unravel the intricate branching patterns within the tree of life. However, estimating species trees starting from raw genome sequences is quite challenging, and the current cutting-edge methodologies require a series of error-prone steps that are neither entirely automated nor standardized. In this paper, we present ROADIES, a novel pipeline for species tree inference from raw genome assemblies that is fully automated, easy to use, scalable, free from reference bias, and provides flexibility to adjust the tradeoff between accuracy and runtime. The ROADIES pipeline eliminates the need to align whole genomes, choose a single reference species, or pre-select loci such as functional genes found using cumbersome annotation steps. Moreover, it leverages recent advances in phylogenetic inference to allow multi-copy genes, eliminating the need to detect orthology. Using the genomic datasets released from large-scale sequencing consortia across three diverse life forms (placental mammals, pomace flies, and birds), we show that ROADIES infers species trees that are comparable in quality with the state-of-the-art approaches but in a fraction of the time. By incorporating optimal approaches and automating all steps from assembled genomes to species and gene trees, ROADIES is poised to improve the accuracy, scalability, and reproducibility of phylogenomic analyses. Code and Data availabilityThe source code of ROADIES is freely available under the MIT License on GitHub (https://github.com/TurakhiaLab/ROADIES), and the documentation for ROADIES is available at https://turakhia.ucsd.edu/ROADIES/. The details of the input datasets used in the manuscript are listed in Supplementary Tables 1-3. All inferred gene trees and species trees are to be deposited to Dryad with links to be made available on the aforementioned GitHub repository. [email protected]
Autores: Yatish Turakhia, A. Gupta, S. Mirarab
Última actualización: 2024-06-01 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.05.27.596098
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.05.27.596098.full.pdf
Licencia: https://creativecommons.org/licenses/by-nc/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.