Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología# Bioinformática

Avances en la ensamblaje del genoma viral con PenguiN

PenguiN mejora el ensamblaje de genomas virales y la taxonomía a partir de datos metagenómicos.

― 6 minilectura


PenguiN: Herramienta dePenguiN: Herramienta deEnsamblaje de Genomas deNueva Generaciónvirales.precisión en el ensamblaje de genomasPenguiN revoluciona la eficiencia y
Tabla de contenidos

La Metagenómica de escopeta es un método que se utiliza para estudiar el material genético de muestras ambientales. Al secuenciar directamente el ADN de estas muestras, los investigadores pueden analizar una enorme cantidad de pequeños fragmentos genéticos. En vez de tener que cultivar microbios específicos en el laboratorio, lo cual puede ser un proceso complicado y lento, este método permite a los científicos aprender rápidamente sobre la variedad de microbios presentes y sus funciones.

Esta técnica ha traído avances significativos en varios campos, especialmente en microbiología ambiental y en la investigación médica. Por ejemplo, estudios han mostrado fuertes conexiones entre las bacterias en nuestros intestinos y aspectos de nuestra salud, incluyendo nuestro sistema inmune, metabolismo y función cerebral.

El papel de los Fagos

Recientemente, ha habido un creciente interés en un tipo de virus llamado fagos, que infectan específicamente bacterias y arqueas. Entender los fagos es particularmente complicado porque sus anfitriones bacterianos suelen ser difíciles de cultivar en un laboratorio. Los métodos tradicionales para estudiar fagos se complican por el hecho de que encontrar condiciones adecuadas para cultivar tanto los virus como sus anfitriones puede ser muy complicado.

La metagenómica viral ha surgido como una herramienta poderosa para estudiar los fagos y explorar sus efectos en comunidades microbianas en diversos entornos, como suelos, ambientes acuáticos y el intestino humano. La investigación indica que los fagos juegan roles vitales en conformar la composición y diversidad de las poblaciones microbianas. Sin embargo, gran parte de la diversidad viral en el mundo sigue sin ser descubierta.

Desafíos en el Ensamblaje del genoma viral

Cuando los investigadores intentan ensamblar los genomas de virus a partir de datos metagenómicos, enfrentan varios desafíos. El tamaño pequeño de los genomas virales significa que a menudo representan solo una pequeña parte del material genético total, y suele haber mucho ruido de fondo de anfitriones bacterianos y eucariotas. Además, el proceso de replicación viral es propenso a errores, lo que lleva a muchas diferentes cepas, lo que complica aún más el ensamblaje del genoma.

El ensamblaje del genoma se puede hacer usando diferentes métodos. Una técnica, el ensamblaje por traslapes, implica encontrar traslapes entre las lecturas cortas y enlazarlas para crear secuencias más largas. Sin embargo, este método puede ser lento y requiere mucho procesamiento. Otra técnica, llamada ensamblaje de grafos de de Bruijn, simplifica este proceso al representar las secuencias como un grafo. Aunque este método es más rápido, tiene sus propias limitaciones, especialmente en la resolución de cepas de virus estrechamente relacionadas.

Presentando a PenguiN

Para abordar las dificultades del ensamblaje del genoma viral y mejorar la resolución de cepas, presentamos a PenguiN. Esta nueva herramienta combina las ventajas de los métodos de ensamblaje por traslapes y de grafos de de Bruijn. Funciona en dos etapas principales:

  1. Ensamblaje guiado por proteínas de regiones codificantes: Aquí, la herramienta traduce las lecturas cortas en secuencias de proteínas y ensambla las secuencias nucleotídicas correspondientes.
  2. Ensamblaje de nucleótidos para enlazar regiones codificantes: En esta etapa, la herramienta enlaza las regiones codificantes ensambladas a través de regiones no codificantes.

Usando un modelo estadístico bayesiano, PenguiN selecciona las extensiones más probables para ensamblar secuencias, permitiendo una mejor identificación de cepas. Con su rápida velocidad de procesamiento, PenguiN puede analizar conjuntos de datos metagenómicos complejos de manera más efectiva que otras herramientas de detección.

Efectividad de PenguiN

En pruebas que involucraron conjuntos de datos sintéticos con cepas conocidas, PenguiN mostró un rendimiento impresionante. Pudo recuperar casi el 100% del material genético de varias cepas estrechamente relacionadas. Otras herramientas tuvieron dificultades, a menudo omitiendo partes sustanciales de los genomas o completando el ensamblaje solo parcialmente.

Más pruebas usando un gran conjunto de datos de genomas de VIH-1 revelaron que PenguiN superó a otro software en términos de completitud del ensamblaje. A medida que aumentaba la complejidad de los datos, PenguiN continuó generando ensamblajes de mayor calidad con menos errores.

Pruebas en el mundo real

PenguiN también fue probado en muestras ambientales reales de lodos activados y ambientes acuáticos. En estos estudios, identificó numerosos fagos de ssRNA. La herramienta pudo diferenciar entre varias cepas y ensamblar genomas completos, mostrando que podía superar los métodos tradicionales que a menudo no producen resultados de alta calidad en escenarios del mundo real.

En total, PenguiN ensambló un número notable de genomas completos de fagos ssRNA, superando con creces lo que lograron otras herramientas. Los ensamblajes producidos no solo eran numerosos, sino que también mostraron consistencia y fiabilidad.

Ensamblaje del gen gen 16S rRNA

Un aspecto importante del estudio de comunidades microbianas es el análisis de genes 16S rRNA, ya que sirven como marcadores para identificar diferentes tipos de microbios. Similar al ensamblaje del genoma viral, la presencia de regiones conservadas e hipervariables en los genes 16S rRNA plantea desafíos para los ensambladores de grafos de de Bruijn. Al igual que con los genomas virales, PenguiN mostró una capacidad superior para recuperar estas secuencias, ensamblando muchas más fragmentos de genes 16S rRNA que otros ensambladores.

Conclusión

PenguiN se destaca como una herramienta innovadora para el ensamblaje de genomas virales y genes 16S rRNA a partir de datos metagenómicos. Su enfoque metódico permite a los investigadores ensamblar un mayor número de genomas resueltos por cepas en comparación con las herramientas existentes. A medida que la investigación continúa revelando la vasta diversidad de virus en diversos entornos, herramientas como PenguiN serán cruciales para ayudar a entender sus roles en los ecosistemas y su impacto en la salud.

La combinación de velocidad, eficiencia y precisión hace de PenguiN un contribuyente significativo en el campo de la metagenómica. Con los avances continuos en la tecnología de secuenciación, esta herramienta probablemente se volverá cada vez más valiosa para los investigadores que buscan descifrar las intrincadas relaciones entre microbios y sus entornos.

Fuente original

Título: Strain-resolved de-novo metagenomic assembly of viral genomes and microbial 16S rRNAs

Resumen: Metagenomics is a powerful approach to study environmental and human-associated microbial communities and, in particular, the role of viruses in shaping them. Viral genomes are challenging to assemble from metagenomic samples due to their genomic diversity caused by high mutation rates. In the standard de Bruijn graph assemblers, this genomic diversity leads to complex k-mer assembly graphs with a plethora of loops and bulges that are challenging to resolve into strains or haplotypes because variants more than the k-mer size apart cannot be phased. In contrast, overlap assemblers can phase variants as long as they are covered by a single read. Here, we present PenguiN, a software for strain resolved assembly of viral DNA and RNA genomes and bacterial 16S rRNA from shotgun metagenomics. Its exhaustive detection of all read overlaps in linear time combined with a Bayesian model to select strain-resolved extensions allow it to assemble severalfold more viral strain genomes and 16S rRNAs from various real and simulated short-read datasets than the state of the art.

Autores: Johannes Soeding, A. Jochheim, F. E. Jochheim, A. Kolodyazhnaya, E. Morice, M. Steinegger

Última actualización: 2024-03-29 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.03.29.587318

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.03.29.587318.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares