Avances en MATEdb2: Un recurso para estudios de evolución animal
MATEdb2 amplía el acceso a datos genómicos para la investigación sobre la evolución animal.
― 7 minilectura
Tabla de contenidos
En los últimos años, ha habido un gran aumento en la disponibilidad de información genética de varios animales. Este aumento ha facilitado el estudio de las relaciones entre diferentes Especies y cómo han evolucionado. Sin embargo, los científicos todavía enfrentan desafíos al analizar estos datos porque necesitan estar bien preparados antes de poder usarlos. Se están publicando regularmente muchos Genomas de alta calidad, lo que ayuda a los investigadores a responder preguntas complicadas sobre la evolución animal, como las relaciones entre diferentes grupos de animales o cambios en ciertas partes de su ADN.
Además, los científicos a menudo utilizan Transcriptomas, que son colecciones de todo el ARN en un organismo específico, para obtener información sobre las proteínas que producen los animales. Este método es rentable y simple en comparación con el estudio de genomas completos. Permite a los investigadores recopilar datos importantes sobre cómo evolucionan los genes en animales que no han sido tan estudiados.
Debido a la gran cantidad de Datos Genómicos y transcriptómicos disponibles, los científicos tienen un montón de recursos para usar. Sin embargo, estos datos no pueden aplicarse directamente a estudios sin una preparación adecuada. Los conjuntos de datos más antiguos a menudo sufren de menor calidad de datos, lo que puede influir mucho en los hallazgos de la investigación. Diferentes métodos utilizados para procesar estos datos también pueden dificultar la comparación de resultados y conducir a errores en los hallazgos. Por ejemplo, el método utilizado para ensamblar transcriptomas puede causar diferencias significativas en el número de genes identificados en un conjunto de datos. Además, los nombres estandarizados para las proteínas no siempre se usan en diferentes conjuntos de datos, lo que dificulta el emparejamiento de datos para un análisis posterior. Esta situación puede ser particularmente desafiante para grupos de investigación más pequeños que carecen de herramientas computacionales avanzadas o experiencia.
Para ayudar a abordar estos desafíos, se creó una base de datos llamada Metazoan Assemblies from Transcriptomic Ensembles (MATEdb), que contiene ensamblajes de transcriptomas de alta calidad para varios artrópodos y moluscos. La segunda versión de esta base de datos (MATEdb2) ya ha sido lanzada, mejorando la versión anterior en algunas formas clave.
Mayor Cobertura Taxonómica
La versión inicial de MATEdb se centró en 335 especies de artrópodos y moluscos, poniendo especial énfasis en representar diferentes linajes dentro de estos grupos. MATEdb2 amplía el conjunto de datos para incluir un total de 970 especies de casi todos los grupos de animales conocidos que tienen datos genómicos o transcriptómicos disponibles públicamente. Esto incluye algunas especies que nunca habían sido representadas en tales bases de datos antes. Al expandir la cobertura taxonómica, los investigadores pueden comprender mejor la variedad de formas de vida y sus relaciones evolutivas.
La representación de especies en MATEdb2 se muestra visualmente, mostrando el número de conjuntos de datos disponibles para cada grupo de animales, separados por el tipo de datos (genomas y transcriptomas). Este alcance ampliado proporciona a los investigadores recursos más completos para sus estudios.
Mejora del Proceso Analítico para Genomas
En la versión anterior de MATEdb, los investigadores descargaban secuencias de ADN codificantes (CDS) y archivos de proteínas directamente de repositorios públicos. Sin embargo, las discrepancias entre estos archivos a menudo requerían correcciones manuales, lo que consumía mucho tiempo. Estos problemas surgían debido a las formas inconsistentes en que diferentes investigadores anotaban y publicaban sus archivos genómicos. A veces, las secuencias de proteínas que se subían no se alineaban bien con los archivos adjuntos, complicando el análisis posterior. En algunos casos, incluso bases de datos públicas reputadas tenían errores o datos faltantes, lo que las hacía menos confiables.
Para superar estos desafíos, MATEdb2 introduce un pipeline estandarizado para obtener secuencias codificantes y archivos de proteínas directamente de archivos FASTA de genomas y de anotación. Este nuevo proceso aborda problemas encontrados en la versión anterior y simplifica el flujo de trabajo para los investigadores.
El nuevo pipeline analítico tiene varias mejoras clave. Primero, incluye un proceso estandarizado para obtener el isoforma de proteína más largo de los genomas, asegurando consistencia. Segundo, se ha ajustado el umbral de calidad para incluir conjuntos de datos. El requisito original de un puntaje de BUSCO del 85%, que evalúa la integridad de los datos genéticos, resultó ser demasiado estricto al buscar una representación taxonómica más amplia. Por lo tanto, este umbral se ha reducido al 70%, permitiendo la inclusión de algunas especies biológicamente interesantes que pueden no tener datos de alta calidad pero que siguen siendo valiosas para la investigación.
Compilación de Datos Genómicos
Para crear el MATEdb2 actualizado, se recopilaron archivos de ensamblaje y anotación de genomas para cada especie de fuentes como NCBI Datasets o enlaces de descarga directa de otros repositorios. La información de origen de cada especie está documentada para transparencia, y se desarrolló un script personalizado para automatizar el proceso de descarga.
Una vez que se obtuvieron los archivos, se utilizó una herramienta de software llamada AGAT para aislar las isoformas de proteínas más largas. Este paso aseguró que los investigadores tuvieran la secuencia de proteína más relevante para cada gen. Las secuencias se estandarizaron a una convención de nombres común utilizada en toda la base de datos MATEdb2, y se creó un archivo de conversión para mantener un seguimiento de los nombres originales. Este proceso simplifica la gestión de datos y mejora la usabilidad para los investigadores.
La integridad de los genes se evaluó utilizando un método llamado BUSCO, que mide cuántos genes completos y fragmentados están presentes en un conjunto de datos. Más del 75% de las especies incluidas en MATEdb2 cumplieron con el umbral original del 85% para la integridad. Sin embargo, para alrededor del 25% de las especies, particularmente aquellas que se estudian menos como los tardígrados y los anélidos, se redujo el umbral al 70% para asegurarse de que especies importantes aún pudieran incluirse. En algunos casos, se añadieron transcritos específicos incluso si estaban ligeramente por debajo del umbral debido a su importancia taxonómica.
Anotación Funcional del Repertorio Genético
Después de compilar la lista de genes de isoformas de proteína más larga para cada especie, esta información fue anotada utilizando una herramienta de software llamada eggNOG-mapper. Además, se empleó un nuevo pipeline llamado FANTASIA. FANTASIA permite la anotación de conjuntos completos de proteínas utilizando un método basado en modelos de lenguaje de proteínas. Este enfoque avanzado trata las secuencias de proteínas como oraciones, utilizando técnicas de procesamiento del lenguaje natural para extraer información.
El nuevo proceso de anotación funcional proporciona a los investigadores no solo los términos de Gene Ontology (GO) que se predicen, sino también embeddings de proteínas en bruto derivados del modelo de lenguaje. Estos embeddings ofrecen más información sobre las secuencias de proteínas y sus posibles funciones. Al usar este enfoque de anotación mejorado, MATEdb2 tiene como objetivo proporcionar a los investigadores herramientas y datos valiosos para apoyar su trabajo en el estudio de la evolución animal.
Conclusión
El lanzamiento de MATEdb2 representa una mejora significativa sobre su predecesor, ampliando los datos disponibles y refinando el proceso de análisis para los investigadores que estudian la evolución animal. Al aumentar la cobertura taxonómica e implementar un enfoque más estandarizado para la compilación y anotación de datos, MATEdb2 busca facilitar la investigación en este campo. Proporciona un recurso rico que puede ayudar a los investigadores a abordar preguntas importantes sobre las relaciones entre diferentes especies animales y cómo han evolucionado a lo largo del tiempo. Con acceso a datos genómicos y transcriptómicos de alta calidad, los científicos pueden entender mejor las complejidades de la vida en la Tierra y los procesos evolutivos que la han modelado.
Título: MATEdb2, a collection of high-quality metazoan proteomes across the Animal Tree of Life to speed up phylogenomic studies
Resumen: Recent advances in high throughput sequencing have exponentially increased the number of genomic data available for animals (Metazoa) in the last decades, with high-quality chromosome-level genomes being published almost daily. Nevertheless, generating a new genome is not an easy task due to the high cost of genome sequencing, the high complexity of assembly, and the lack of standardized protocols for genome annotation. The lack of consensus in the annotation and publication of genome files hinders research by making researchers lose time in reformatting the files for their purposes but can also reduce the quality of the genetic repertoire for an evolutionary study. Thus, the use of transcriptomes obtained using the same pipeline as a proxy for the genetic content of species remains a valuable resource that is easier to obtain, cheaper, and more comparable than genomes. In a previous study, we presented the Metazoan Assemblies from Transcriptomic Ensembles database (MATEdb), a repository of high-quality transcriptomic and genomic data for the two most diverse animal phyla, Arthropoda and Mollusca. Here, we present the newest version of MATEdb (MATEdb2) that overcomes some of the previous limitations of our database: (1) we include data from all animal phyla where public data is available, (2) we provide gene annotations extracted from the original GFF genome files using the same pipeline. In total, we provide proteomes inferred from high-quality transcriptomic or genomic data for almost 1000 animal species, including the longest isoforms, all isoforms, and functional annotation based on sequence homology and protein language models, as well as the embedding representations of the sequences. We believe this new version of MATEdb will accelerate research on animal phylogenomics while saving thousands of hours of computational work in a plea for open, greener, and collaborative science.
Autores: Rosa Fernandez, G. I. Martinez-Redondo, C. Vargas-Chavez, K. Eleftheriadi, L. Benitez-Alvarez, M. Vazquez-Valls
Última actualización: 2024-06-18 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.02.21.581367
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.02.21.581367.full.pdf
Licencia: https://creativecommons.org/licenses/by-nc/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.