Avances en Pangenómica con la herramienta Panacus
Panacus simplifica el análisis de pangenomas usando técnicas gráficas innovadoras.
― 6 minilectura
Tabla de contenidos
La pangenómica es un campo que analiza el conjunto completo de genes en un grupo de organismos de la misma especie. Comenzó con el estudio de genomas bacterianos, donde los investigadores definieron el pangenoma como todos los genes presentes en diferentes cepas de una especie. En este contexto, el genoma central consiste en los genes que todas las cepas comparten, mientras que el genoma accesorio incluye genes que solo tienen algunas cepas.
El Cambio en el Enfoque
Al principio, el estudio de Pangenomas se centraba en los genes, lo que significaba que dependía de genomas completamente anotados. Este enfoque tenía sus límites porque no podía tener en cuenta las áreas no codificantes del ADN. Para superar esto, los investigadores introdujeron una nueva forma de definir pangenomas basada en secuencias de ADN en lugar de solo genes. Este enfoque basado en secuencias incluye tanto regiones codificantes como no codificantes de ADN, permitiendo acomodar organismos más complejos, como plantas y animales, que tienen genomas más grandes.
A pesar de las diferencias en cómo se definen los pangenomas, ambos métodos tratan el pangenoma como una colección que destaca la variabilidad y similitudes genéticas. Dos conceptos clave en pangenómica son el crecimiento del pangenoma y las curvas centrales. El crecimiento del pangenoma se refiere a cómo la cantidad total de información genómica aumenta a medida que se estudian más genomas. Este proceso comienza con un genoma y agrega otros con el tiempo. El orden en que se incluyen los genomas puede afectar el resultado, por lo que el crecimiento promedio se calcula sobre todas las posibles secuencias de inclusión. La curva central ilustra cómo cambia el tamaño del genoma central a medida que se añaden nuevos genomas.
Avances en la Representación
A medida que el campo se desarrolló, también lo hicieron las formas de representar los pangenomas. Uno de los avances más significativos fue el uso de gráficos para mantener el orden secuencial de los datos genómicos. En estos gráficos de secuencia, los nodos representan secuencias encontradas en varios genomas, mientras que los bordes muestran cómo aparecen estas secuencias una al lado de la otra dentro de un genoma. Estos gráficos se han vuelto valiosos para ensamblar secuencias de ADN a partir de muchas lecturas.
Sin embargo, los gráficos de secuencia pueden ser imprecisos, lo que significa que pueden no representar las secuencias reales con precisión. Para crear una representación más fiel, los investigadores desarrollaron gráficos de pangenomas que incluyen caminos que representan las secuencias originales. Estos gráficos de pangenomas, también llamados gráficos de variación, son el enfoque principal de una nueva herramienta diseñada para trabajar con ellos.
Presentando Panacus
Panacus es una nueva herramienta para extraer rápidamente información de pangenomas mostrados como gráficos de pangenomas. Soporta archivos en el formato de Ensamblaje de Fragmentos Gráficos, donde cada línea representa un segmento de ADN, un enlace entre segmentos o un camino. Los usuarios pueden concentrarse en partes específicas del pangenoma estableciendo umbrales de cobertura mínima o seleccionando regiones específicas.
Esta herramienta ayuda a contar varios elementos dentro de gráficos de pangenomas, como nodos, bordes y pares de bases, a los que se refiere colectivamente como Contables. Por ejemplo, la cobertura de un borde o un nodo se refiere al número de caminos distintos que los incluyen. Los usuarios pueden visualizar estas distribuciones de cobertura para un mejor análisis.
Características de Panacus
Una de las características clave de Panacus es su capacidad para calcular rápidamente el crecimiento del pangenoma y las curvas centrales. La herramienta proporciona estadísticas básicas y tablas de cobertura detalladas para diferentes contables. Además, genera un informe interactivo que resume los datos y las visualizaciones para un acceso fácil.
Panacus permite agrupar caminos basados en datos de muestra, facilitando el análisis de diferentes secuencias juntas. Los usuarios pueden excluir partes específicas del pangenoma para enfocar su análisis o establecer umbrales de cobertura mínima para obtener resultados más ajustados.
Panacus también ayuda a estimar el crecimiento del pangenoma y el tamaño central para genomas nuevos y no vistos. Incluye un script que permite a los usuarios extrapolar el crecimiento utilizando diferentes métodos estadísticos. Esto facilita hacer predicciones basadas en datos existentes.
Comparando Gráficos de Pangenomas
Para mostrar cuán efectiva es Panacus, se aplicó para estudiar dos gráficos de pangenomas específicos. El primer gráfico se basa en genomas humanos, mientras que el segundo se construyó a partir de diferentes cepas de Escherichia coli. Ambos gráficos se crearon utilizando herramientas específicas conocidas por ensamblar datos genómicos.
Al comparar Panacus con otra herramienta llamada odgi heaps, se encontró que aunque odgi heaps tarda más y usa más memoria, Panacus ofrece características adicionales que no están disponibles en odgi heaps. Esta comparación muestra la necesidad de herramientas eficientes para manejar la creciente cantidad de datos genómicos.
Analizando Partes Específicas del Pangenoma
Panacus permite a los investigadores concentrarse en regiones específicas dentro de un pangenoma. Por ejemplo, al estudiar regiones eucromáticas e intragénicas del pangenoma humano, los investigadores pueden obtener información que podría perderse al mirar el genoma completo. Este enfoque dirigido ayuda a evitar errores en el análisis de datos que pueden ocurrir debido a sub-alineación.
Al mapear la cobertura de regiones específicas, Panacus puede ilustrar efectivamente las diferencias en cómo se comparten los genes en el pangenoma humano. Por ejemplo, el análisis reveló que las regiones intragénicas, que generalmente son más conservadas, mostraron un patrón diferente en comparación con las regiones eucromáticas más amplias.
Conclusión
Panacus representa un paso importante en el campo de la pangenómica. Esta herramienta ofrece a los investigadores una forma robusta y eficiente de estudiar y comparar gráficos de pangenomas rápidamente. Al simplificar el proceso de generación de curvas de crecimiento y centrales, Panacus permite obtener una comprensión más profunda de la variabilidad genética y las similitudes entre diferentes organismos.
Más allá de simplemente comparar el mismo pangenoma construido con varias herramientas, Panacus también puede analizar pangenomas completamente diferentes, proporcionando una plataforma flexible para la investigación genética. A medida que este campo continúa creciendo, herramientas como Panacus jugarán un papel crucial en avanzar nuestro entendimiento de la genética y las complejidades de la vida.
Título: Panacus: fast and exact pangenome growth and core size estimation
Resumen: MotivationUsing a single linear reference genome poses a limitation to exploring the full genomic diversity of a species. The release of a draft human pangenome underscores the increasing relevance of pangenomics to overcome these limitations. Pangenomes are commonly represented as graphs, which can represent billions of base pairs of sequence. Presently, there is a lack of scalable software able to perform key tasks on pangenomes, such as quantifying universally shared sequence across genomes (the core genome) and measuring the extent of genomic variability as a function of sample size (pangenome growth). ResultsWe introduce Panacus (pangenome-abacus), a tool designed to rapidly perform these tasks and visualize the results in interactive plots. Panacus can process GFA files, the accepted standard for pangenome graphs, and is able to analyze a human pangenome graph with 110 million nodes in less than one hour. AvailabilityPanacus is implemented in Rust and is published as Open Source software under the MIT license. The source code and documentation are available at https://github.com/marschall-lab/panacus. Panacus can be installed via Bioconda at https://bioconda.github.io/recipes/panacus/README.html. ContactLuca Parmigiani ([email protected]), Daniel Doerr ([email protected]).
Autores: Luca Parmigiani, E. Garrison, J. Stoye, T. Marschall, D. Doerr
Última actualización: 2024-06-12 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.06.11.598418
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.06.11.598418.full.pdf
Licencia: https://creativecommons.org/licenses/by-nc/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.