Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología # Bioinformática

Presentamos MANIAC: Una Nueva Herramienta para la Genómica Viral

MANIAC mejora la medición de ANI para el análisis de genomas virales.

Rafal J Mostowy, W. Ndovie, J. Havranek, J. Koszucki, J. Leconte, L. Chindelevitch, E. M. Adriaenssens

― 8 minilectura


MANIAC Transforma el MANIAC Transforma el Análisis del Genoma Viral entre virus. eficientemente la relación genética Nueva herramienta calcula
Tabla de contenidos

La Identidad Nucleotídica Promedio (ANI) es un método que se usa para medir cuán relacionados están entre sí diferentes microorganismos, como bacterias y virus. Al comparar secuencias genéticas específicas llamadas genes ortólogos, los científicos pueden ver cuántos de los nucleótidos (los bloques de construcción del ADN) son iguales entre dos organismos. Esta medida ayuda a los investigadores a entender la distancia evolutiva entre especies, guiar la taxonomía (la clasificación de organismos) y ayudar en otras áreas de la investigación microbiana.

Aunque el ANI es útil para parientes cercanos, sus limitaciones significan que no siempre proporciona distancias evolutivas precisas para organismos que no están muy relacionados. Sin embargo, el ANI se ha convertido en una herramienta clave en varios campos de la investigación microbiana, desempeñando un papel significativo en la clasificación de especies, la detección de eventos de transferencia de genes entre organismos y ayudando en estudios de metagenómica.

La Evolución de las Técnicas de Medición del ANI

Al principio, los investigadores usaban herramientas como BLAST para identificar genes ortólogos, lo que implicaba alinear secuencias de ADN para determinar la similitud genética. Sin embargo, a medida que avanzaron las tecnologías de secuenciación de nueva generación, crecieron los genomas microbianos disponibles para estudio. Como resultado, los métodos tradicionales se volvieron menos prácticos debido a la enorme cantidad de poder computacional que requerían.

Emergieron nuevas herramientas, permitiendo a los científicos realizar cálculos de ANI de manera más eficiente. Estos nuevos enfoques se pueden dividir en dos categorías principales: métodos basados en alineación y métodos sin alineación. Los métodos basados en alineación todavía dependen de buscar secuencias, pero han adoptado herramientas actualizadas como MUMmer que son más rápidas que BLAST, aunque pueden ser menos sensibles. Por otro lado, los métodos sin alineación utilizan secuencias cortas conocidas como k-mers para estimar directamente el ANI o identificar áreas para alineaciones locales. Estos métodos son mucho más eficientes y pueden manejar conjuntos de datos más grandes, pero pueden sacrificar algo de precisión al tratar con genomas lejanamente relacionados.

A pesar de la popularidad del ANI en el estudio de bacterias, su uso ha sido menos común en la investigación viral. Sin embargo, en los últimos años, el ANI ha comenzado a ganar terreno en la genómica viral para tareas como identificar nuevos virus, eliminar ADN bacteriano de secuencias virales, asignar taxonomía a nuevas cepas virales y examinar los límites genéticos entre poblaciones virales.

Diferencias Entre Genomas Bacterianos y Virales

Actualmente, la mayoría de las herramientas para calcular ANI han sido optimizadas para genomas bacterianos, funcionando mejor alrededor de un umbral del 95% de ANI para la clasificación de especies. Sin embargo, los genomas virales presentan desafíos únicos debido a su mayor variabilidad en las secuencias nucleotídicas, longitudes más cortas y falta de genes compartidos. Estas diferencias pueden hacer que los métodos estándar sean menos efectivos para los virus.

Existen algunos métodos específicamente diseñados para analizar genomas virales, pero no proporcionan una métrica clara para la proporción de similitud genética de los genomas alineados. Recientemente, se propuso una nueva herramienta llamada VIRIDIC, pero depende en gran medida de BLAST, lo que limita su escalabilidad para analizar conjuntos de datos más grandes.

Esto plantea la necesidad de una herramienta que pueda evaluar la relación genética en virus mientras considera las características únicas de los genomas virales, como:

  1. Tanto ANI como la fracción de alineación (AF) para tener en cuenta la variabilidad genética.
  2. Capacidad para medir ANI en umbrales más bajos, como el 70%.
  3. Escalabilidad para analizar conjuntos de datos con miles, o potencialmente millones, de genomas virales.

Introduciendo MANIAC para la Genómica Viral

Para abordar estos desafíos, se desarrolló un nuevo enfoque llamado MANIAC (Calculador Preciso de ANI basado en MMseqs2). MANIAC está diseñado para medir de manera eficiente tanto el ANI como el AF entre pares de genomas virales. Emplea una combinación de búsqueda sin alineación y técnicas basadas en alineación, asegurando sensibilidad y rapidez.

La herramienta opera en tres modos:

  1. Modo Genoma: Analiza secuencias de genoma completas.
  2. Modo de Secuencia Codificante (CDS): Trabaja con secuencias nucleotídicas de genes predichos.
  3. Modo de Proteína: Se centra en secuencias de aminoácidos y calcula la Identidad Promedio de Aminoácidos (AAI).

Esta versatilidad permite a los investigadores elegir el análisis más relevante para sus necesidades.

Cómo Calcula MANIAC ANI y AF

En el Modo Genoma, MANIAC divide los genomas en fragmentos más pequeños y no superpuestos y utiliza el módulo de búsqueda MMseqs2 para identificar secuencias similares entre estos fragmentos y los genomas completos. Un conjunto de parámetros determina cómo se lleva a cabo la búsqueda, incluyendo umbrales de identidad y métricas de cobertura.

Para cada par de genomas analizados, MANIAC calcula el ANI como la identidad promedio de los nucleótidos alineados. Considera ambas direcciones para cada par de genomas para obtener un único valor de ANI. Además, calcula el AF, que refleja la proporción de los genomas que fueron alineados durante el análisis.

Además, el diseño de MANIAC prioriza la sensibilidad y la precisión a través de una cuidadosa selección de parámetros, optimizando las búsquedas para asegurar que los resultados sean fiables incluso al trabajar con grandes conjuntos de datos.

La Escalabilidad de MANIAC

MANIAC está construido para manejar conjuntos de datos genómicos extensos, siendo capaz de procesar millones de pares de genomas de manera eficiente. Los primeros benchmarks indican que puede estimar con precisión el ANI y el AF al mismo nivel que métodos estándar establecidos, al mismo tiempo que es más rápido y más adaptable a diferentes tipos de genomas virales.

La herramienta equilibra velocidad y precisión, permitiendo a los investigadores realizar análisis a gran escala que antes eran poco prácticos. Esta capacidad es especialmente crucial en el campo en rápida evolución de la genómica viral, donde se están descubriendo continuamente nuevas secuencias.

Probando el Rendimiento de MANIAC

Para validar su efectividad, se comparó el rendimiento de MANIAC con herramientas bien conocidas como pyani, fastANI y Mash utilizando un conjunto de datos de genomas de fagos. Los resultados mostraron que MANIAC tenía una correlación muy alta con las estimaciones de ANI de pyani, superando a otras alternativas centradas en la velocidad.

La investigación demostró que incluso cuando se probó con datos simulados, MANIAC proporcionó consistentemente estimaciones precisas, especialmente para genomas virales con ANI por debajo del 80%. Esto indica que se puede confiar en él para comparaciones genéticas tanto cercanas como más distantes.

Aplicando MANIAC a Preguntas Biológicas

Habiendo establecido su eficiencia y precisión, se utilizó MANIAC para explorar dos áreas clave en la investigación viral:

  1. Investigando la Existencia de Brechas de ANI en Poblaciones de Fagos: La herramienta se usó para analizar un gran número de genomas de fagos para confirmar que existe una brecha de ANI, lo que sugiere límites evolutivos significativos dentro de las poblaciones virales.

  2. Clasificación Taxonómica de Géneros Virales: Al examinar ANI y AF, los investigadores buscaban mejorar la precisión de la clasificación de géneros virales recién identificados, facilitando una mejor comprensión y categorización de la diversidad viral.

Observaciones de las Distribuciones de ANI

El análisis de las distribuciones de ANI entre los genomas de fagos reveló un patrón bimodal, con una brecha de ANI distinta situada entre el 78% y el 85%. Esto sugiere discontinuidades evolutivas, similares a los hallazgos en poblaciones bacterianas, pero ajustadas a la dinámica única de la evolución viral.

Además, la presencia de muchos pares con alta ANI pero bajo AF destaca la importancia de considerar ambas métricas en la clasificación taxonómica, ya que el mosaico genético puede complicar asignaciones directas.

Conclusión

MANIAC representa un avance significativo en el campo de la genómica viral. Al ofrecer un medio eficiente para calcular ANI y AF, permite a los investigadores profundizar en las relaciones entre especies virales. La capacidad de la herramienta para manejar grandes conjuntos de datos mientras proporciona estimaciones precisas la posiciona como un recurso esencial para futuras investigaciones en virología y genómica microbiana.

En resumen, MANIAC no solo mejora el estudio de la genética viral, sino que también contribuye a la comprensión más amplia de cómo se clasifican y se relacionan entre sí las especies virales. A medida que los esfuerzos continúan refinando la taxonomía viral, herramientas como MANIAC desempeñarán un papel crucial en el establecimiento de límites y clasificaciones más claras en el diverso mundo de los virus.

Fuente original

Título: Exploration of the genetic landscape of bacterial dsDNA viruses reveals an ANI gap amidst extensive mosaicism

Resumen: Average Nucleotide Identity (ANI) is a widely used metric to estimate genetic relatedness, especially in microbial species delineation. While ANI calculation has been well optimised for bacteria and closely related viral genomes, accurate estimation of ANI below 80%, particularly in large reference datasets, has been challenging due to a lack of accurate and scalable methods. To bridge this gap, here we introduce MANIAC, an efficient computational pipeline optimised for estimating ANI and alignment fraction (AF) in viral genomes with divergence around ANI of 70%. Using a rigorous simulation framework, we demonstrate MANIACs accuracy and scalability compared to existing approaches, even to datasets of hundreds-of-thousands of viral genomes. Applying MANIAC to a curated dataset of complete bacterial dsDNA viruses revealed a multimodal ANI distribution, with a distinct gap around 80%, akin to the bacterial ANI gap ([~]90%) but shifted, likely due to viral-specific evolutionary processes such as recombination dynamics and mosaicism. We then evaluated ANI and AF as predictors of genus-level taxonomy using a logistic regression model. We found that this model has strong predictive power (PR-AUC=0.981), but that it works much better for virulent (PR-AUC=0.997) than temperate (PR-AUC=0.847) bacterial viruses. This highlights the complexity of taxonomic classification in temperate phages, known for their extensive mosaicism, and cautions against over-reliance on ANI in such cases. MANIAC can be accessed under https://github.com/bioinf-mcb/MANIAC. ImportanceWe introduce a novel computational pipeline called MANIAC, designed to accurately assess Average Nucleotide Identity (ANI) and alignment fraction (AF) between diverse viral genomes, scalable to datasets of over 100k genomes. Through the use of computer simulations and real data analyses, we show that MANIAC could ac- curately estimate genetic relatedness between pairs of viral genomes around 60-70% ANI. We applied MANIAC to investigate the question of ANI discontinuity in bacterial dsDNA viruses, finding evidence for an ANI gap, akin to the one seen in bacteria but around ANI of 80%. We then assessed the ability of ANI and AF to predict taxonomic genus boundaries, finding its strong predictive power in virulent, but not in temperate phages. Our results suggest that bacterial dsDNA viruses may exhibit an ANI threshold (on average around 80%) above which recombination helps maintain population cohesiveness, as previously argued in bacteria.

Autores: Rafal J Mostowy, W. Ndovie, J. Havranek, J. Koszucki, J. Leconte, L. Chindelevitch, E. M. Adriaenssens

Última actualización: 2024-12-07 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.04.23.590796

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.04.23.590796.full.pdf

Licencia: https://creativecommons.org/licenses/by-nc/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares