Presentamos VEHoP: Una Nueva Herramienta para Análisis Filogenómico
VEHoP simplifica estudios filogenómicos usando diferentes fuentes de datos genómicos.
― 8 minilectura
Tabla de contenidos
- Métodos Tempranos de Filogenética
- Secuenciación de Nueva Generación y Filogenómica
- La Importancia de Usar Datos de Genoma
- Desafíos en el Análisis Filogenómico
- Herramientas Existentes y sus Limitaciones
- Introducción de VEHoP
- Pruebas de VEHoP
- Perspectivas de los Estudios de Caso
- Utilización de Datos Infrautilizados
- Las Ventajas de VEHoP
- Limitaciones de VEHoP
- Conclusión
- Fuente original
- Enlaces de referencia
La Filogenética estudia cómo están relacionados los seres vivos. Esto es importante para los investigadores que quieren saber más sobre la evolución y las conexiones entre diferentes especies. Los científicos usan varios tipos de información, como rasgos físicos y datos genéticos, para averiguar cómo se relacionan los organismos. Entre ellos, se suelen usar moléculas biológicas como el ADN y las proteínas para crear diagramas llamados Árboles filogenéticos, que muestran estas relaciones de forma visual.
Métodos Tempranos de Filogenética
Antes, los investigadores usaban principalmente uno o dos genes para hacer estos árboles. Algunos de los genes que se elegían al principio eran el subunidad I de la citocromo c oxidasa mitocondrial, la subunidad 4 de la NADH deshidrogenasa y los genes de ARN ribosómico nuclear. Con el tiempo, a medida que la tecnología mejoró, los científicos empezaron a usar Genomas mitocondriales completos para hacer sus árboles. Pero aún había algunos desafíos. A veces, los árboles no representaban con precisión las verdaderas relaciones entre especies. Esto podía pasar por varios factores, como la mezcla de genes entre diferentes especies, diferencias en cómo evolucionaron los genes, o errores en el árbol en sí. Por eso, había necesidad de mejores métodos que pudieran enfrentar estos desafíos de forma efectiva.
Filogenómica
Secuenciación de Nueva Generación yCon los avances en la tecnología de secuenciación, los investigadores empezaron a enfocarse en usar información genética más completa obtenida de genomas completos, un campo conocido como filogenómica. Este enfoque ha ganado atención en varios campos de estudio. Tener más datos de diferentes especies ayuda a reducir errores al averiguar cómo se relacionan las especies. Sin embargo, reunir suficientes datos de todas las especies objetivo puede ser poco realista. Algunas especies viven en lugares de difícil acceso, como el fondo marino, y otras son tan raras que los científicos podrían tener solo unas pocas muestras preservadas disponibles.
Además, algunos grupos de especies podrían no estar bien representados en los datos disponibles, lo que lleva a un muestreo sesgado. Cuando los investigadores intentan construir un árbol sin datos completos, las lagunas significativas pueden cambiar cómo se ve el árbol. Además, es imposible incluir especies extintas en estos estudios genéticos, ya que su ADN no puede ser secuenciado.
La Importancia de Usar Datos de Genoma
Usar datos a nivel de genoma ofrece mucha más información que analizar solo uno o dos genes. A medida que la tecnología de secuenciación ha mejorado, un montón de genomas y transcriptomas (el conjunto completo de transcripciones de ARN) se han vuelto disponibles públicamente. Sin embargo, muchos de estos conjuntos de datos se recopilaron inicialmente para otros fines, como ensamblar genomas de organelos o analizar la expresión génica. Por eso, mucha información valiosa sigue estando infrautilizada en estudios filogenéticos.
Desafíos en el Análisis Filogenómico
Para un análisis filogenómico exitoso, los datos de genoma completo de varias especies son ideales. Sin embargo, en la realidad, muchos investigadores solo tienen acceso a unos pocos genomas bien estudiados, mientras que otros solo tienen datos parciales de transcriptomas o lecturas de ADN crudo. Usar estos tipos de datos mixtos requiere varios pasos para preparar los datos para el análisis. Estos pasos pueden incluir asegurar la calidad de los datos, ensamblar el genoma y anotarlo correctamente. Identificar Ortólogos, que son genes en diferentes especies que evolucionaron a partir de un ancestro común, también es crucial para un análisis preciso. Todo este proceso puede llevar mucho tiempo y no ser sencillo para quienes no tienen experiencia en bioinformática.
Herramientas Existentes y sus Limitaciones
Hay algunas herramientas disponibles para ayudar a los investigadores a analizar datos filogenéticos, incluyendo Read2Tree. Sin embargo, las bases de datos existentes que se usan en estas herramientas no siempre están completamente personalizadas y a menudo requieren muchos ajustes manuales. Otra herramienta, GeneMiner, está diseñada para extraer marcadores genéticos pero puede ser ineficiente para un análisis filogenómico más amplio debido a instrucciones poco claras y un bajo número de ortólogos utilizables.
Introducción de VEHoP
Para superar estos desafíos, se ha desarrollado una nueva técnica llamada VEHoP. VEHoP significa Filogenómica Basada en Homología, Versátil y Fácil de Usar. Permite a los investigadores usar varios tipos de entradas de datos, incluidos genomas, transcriptomas y genomas borrador, en cualquier combinación. Los usuarios simplemente necesitan proporcionar los archivos de datos y especificar algunas configuraciones antes de comenzar el análisis.
Una vez que los archivos de entrada están listos, VEHoP los procesa y genera varios archivos de salida, incluyendo alineaciones de un solo gen y un árbol filogenético final. Este proceso simplificado hace que sea mucho más fácil para los investigadores realizar estudios filogenómicos sin complicarse con pasos complejos.
Pruebas de VEHoP
Para evaluar el rendimiento de VEHoP, los investigadores lo probaron usando dos estudios de caso. El primero involucró un grupo de ostras. Los investigadores recopilaron datos de diez especies de ostras, utilizando genomas bien anotados, genomas borrador creados a partir de lecturas de secuenciación y nuevos transcriptomas. Luego compararon diferentes conjuntos de datos para ver qué tan consistentemente VEHoP podía determinar las relaciones entre las especies. Los resultados mostraron que VEHoP producía de manera eficiente árboles confiables que coincidían con los obtenidos a partir de genomas de alta calidad.
El segundo estudio de caso se centró en un grupo de caracoles de aguas profundas con relaciones evolutivas poco claras. Usando VEHoP, los investigadores pudieron analizar con éxito un conjunto de datos de genomas mitocondriales, revelando un orden de ramificación consistente entre las especies examinadas. En contraste, otras herramientas existentes tuvieron problemas para proporcionar la misma claridad.
Perspectivas de los Estudios de Caso
Los investigadores notaron que VEHoP funcionaba bien incluso con datos fragmentados de genomas mal anotados, proporcionando resultados comparables a los de conjuntos de datos de alta calidad. La flexibilidad de VEHoP permite a los investigadores usar diversas fuentes de datos, mejorando significativamente el potencial para estudios filogenéticos más completos.
Utilización de Datos Infrautilizados
Las enormes cantidades de datos genómicos disponibles en plataformas públicas, incluyendo genomas no anotados y secuencias crudas, pueden ser difíciles de aprovechar debido a inconsistencias en calidad y cobertura. VEHoP tiene como objetivo hacer un mejor uso de estos datos, extrayendo homólogos relevantes con mayor facilidad. Este enfoque puede mejorar enormemente el muestreo de taxones, llevando a árboles filogenéticos más confiables y claros.
Las Ventajas de VEHoP
Una ventaja significativa de VEHoP es su capacidad para analizar diferentes tipos de datos en un solo flujo de trabajo. Los investigadores pueden definir conjuntos de datos personalizados para referencia, combinando genomas de alta calidad de especies cercanamente relacionadas sin estar limitados a bases de datos en línea existentes. VEHoP conserva cuidadosamente cada ortólogo que cumpla con los criterios establecidos, mientras permite a los usuarios filtrar estos resultados aún más si lo desean.
Limitaciones de VEHoP
Aunque VEHoP muestra promesas, todavía existen algunas limitaciones. Por ejemplo, el proceso puede quedar atascado al alinear ciertas secuencias, lo que lleva a tiempos de análisis más largos en casos específicos. Además, si los datos de lectura cruda no son suficientes, el análisis resultante podría dar lugar a órdenes de ramificación inconsistentes. Actualmente, VEHoP solo está disponible para sistemas Linux, pero se están realizando esfuerzos para hacerlo accesible en otras plataformas también.
Conclusión
VEHoP representa un avance significativo en el análisis filogenómico. Su diseño fácil de usar permite a los investigadores analizar rápidamente varios tipos de datos de manera eficiente, facilitando explorar las relaciones evolutivas entre los organismos vivos. Al aprovechar las enormes cantidades de datos genómicos disponibles, VEHoP tiene el potencial de mejorar el muestreo de taxones en estudios filogenéticos, llevando a conclusiones más robustas sobre la historia evolutiva. Su desarrollo podría impactar enormemente cómo los investigadores estudian y comprenden la interconexión de la vida en la Tierra.
Título: VEHoP: A Versatile, Easy-to-use, and Homology-based Phylogenomic pipeline accommodating diverse sequences
Resumen: Phylogenomics has become a prominent method in systematics, conservation biology, and biomedicine, as it can leverage hundreds to thousands of genes derived from genomic or transcriptomic data to infer evolutionary relationships. However, obtaining high-quality genomes and transcriptomes requires samples preserved with high-quality DNA and RNA and demands considerable sequencing costs and lofty bioinformatic efforts (e.g., genome/transcriptome assembly and annotation). Notably, only fragmented DNA reads are accessible in some rare species due to the difficulty in sample collection and preservation, such as those inhabiting the deep sea. To address this issue, we here introduce the VEHoP (Versatile, Easy-to-use Homology-based Phylogenomic) pipeline, designed to infer protein-coding regions from DNA assemblies and generate alignments of orthologous sequences, concatenated matrices, and phylogenetic trees. This pipeline aims to 1) expand taxonomic sampling by accommodating a wide range of input files, including draft genomes, transcriptomes, and well-annotated genomes, and 2) simplify the process of conducting phylogenomic analyses and thus make it more accessible to researchers from diverse backgrounds. We first evaluated the performance of VEHoP using datasets of Ostreida, yielding robust phylogenetic trees with strong bootstrap support. We then applied VEHoP to reconstruct the phylogenetic relationship in the enigmatic deep-sea gastropod order Neomphalida, obtaining a robust phylogenetic backbone for this group. The VEHoP is freely available on GitHub (https://github.com/ylify/VEHoP), whose dependencies can be easily installed using Bioconda.
Autores: Jin Sun, Y. Li, X. Liu, C. Chen, J.-W. Qiu, K. Kocot
Última actualización: 2024-07-24 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.07.24.604968
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.07.24.604968.full.pdf
Licencia: https://creativecommons.org/licenses/by-nc/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.