Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología# Bioinformática

Avanzando en el Análisis Filogenético con SPRTA

Un nuevo método mejora la fiabilidad filogenética en estudios de epidemiología genómica.

Nicola De Maio, N. Ly-Trong, B. Q. Minh, N. Goldman

― 8 minilectura


SPRTA: Una Nueva Era enSPRTA: Una Nueva Era enFilogenéticasalud.genómicos para mejores respuestas deSPRTA mejora el análisis de datos
Tabla de contenidos

Estudiar datos genómicos es clave para entender cómo diferentes especies, incluidos los virus, evolucionan con el tiempo. Una de las herramientas principales que se usa en este estudio se llama filogenética, que ayuda a los científicos a crear una estructura en forma de árbol que representa las relaciones entre diferentes genomas. Aunque los métodos tradicionales pueden estimar estas relaciones, muchas veces no abordan cuán confiables son estas estimaciones.

Esta limitación puede ser un problema, especialmente para los investigadores que analizan grandes conjuntos de datos genómicos. Por ejemplo, al estudiar un virus durante un brote, los investigadores necesitan asegurarse de que sus hallazgos sean precisos. Quieren saber qué mutaciones llevaron a características particulares del virus y cómo se propagaron estas mutaciones entre diferentes cepas.

Básicos de los Métodos Filogenéticos

Los métodos filogenéticos ayudan a representar la historia evolutiva de los genomas. Por ejemplo, los investigadores pueden usar enfoques como máxima verosimilitud, parsimonia y métodos heurísticos para construir un árbol filogenético. Este árbol muestra cómo están relacionados los diferentes genomas, pero estos métodos generalmente crean solo un árbol sin verificar cuán ciertos o inciertos son esas estimaciones.

Para abordar este problema, los científicos han desarrollado una técnica conocida como análisis de bootstrap, específicamente el método de bootstrap de Felsenstein. Este método permite a los investigadores tomar el conjunto de datos original y muestrearlo muchas veces (a menudo de 100 a 1000 veces) para crear múltiples árboles. Al examinar cuántos de estos árboles incluyen ciertos grupos (clados), los investigadores pueden asignar una puntuación de soporte a estos clados. Esto ayuda a indicar cuán confiables son las relaciones inferidas.

Desafíos con los Métodos Existentes

Aunque el bootstrap de Felsenstein se usa mucho, tiene desventajas al aplicarse a la epidemiología genómica, especialmente con grandes conjuntos de datos de brotes. Los desafíos incluyen:

  1. Alta Demanda Computacional: Estimar árboles filogenéticos utilizando métodos de bootstrap puede ser muy intensivo en recursos, lo que dificulta aplicar estos métodos durante pandemias cuando los investigadores manejan millones de genomas.

  2. Influencia de Taxa Rebelde: Algunas secuencias genómicas pueden ser menos confiables debido a incertidumbre o contaminación. Estos "taxa rebeldes" pueden afectar las puntuaciones de soporte de las ramas internas en los árboles, llevando a conclusiones engañosas.

  3. Limitaciones de las Puntuaciones de Soporte: Las puntuaciones de soporte de bootstrap a menudo se centran en clados en lugar de mutaciones individuales, que pueden ser más relevantes para entender cómo se propaga y cambia un virus.

  4. Incertidumbre en Ramas Cortas: En epidemiología genómica, a menudo solo unas pocas mutaciones definen un clado, lo que lleva a puntuaciones bajas de soporte, lo que puede hacer que el método sea demasiado cauteloso.

  5. Métodos Bayesianos: Estos métodos pueden medir la incertidumbre mejor, pero a menudo requieren recursos computacionales significativos, lo que los hace poco prácticos para grandes conjuntos de datos.

La Necesidad de un Nuevo Enfoque

Con el aumento de la epidemiología genómica, especialmente durante pandemias, hay una necesidad clara de nuevos métodos que puedan evaluar la confiabilidad filogenética de manera más eficiente. Esto requiere un enfoque en cómo evolucionan las mutaciones en lugar de solo en los clados.

Para llenar este vacío, los investigadores presentaron una nueva medida llamada SPRTA (Evaluación de Árbol Basada en SPR). Este nuevo enfoque se inspira en métodos existentes mientras mejora sus deficiencias, haciéndolo adecuado para analizar grandes conjuntos de datos genómicos.

Principios de SPRTA

SPRTA cambia el enfoque de cuántas veces aparece un clado en árboles muestreados a evaluar la confiabilidad de eventos de mutación a lo largo de ramas Filogenéticas. Esto significa que en lugar de solo ver si grupos de genomas están relacionados, SPRTA observa específicamente cómo y cuándo ocurrieron las mutaciones.

Conceptos Clave Detrás de SPRTA

  • Alineación de Secuencias Múltiples: Los investigadores comienzan con una colección de genomas que han sido alineados para identificar similitudes y diferencias.

  • Árbol Filogenético: Usando métodos como máxima verosimilitud, los investigadores crean un árbol que sugiere cómo podrían estar relacionados estos genomas.

  • Puntuación de Soporte: Para cada rama del árbol (que conecta dos genomas), SPRTA asigna una puntuación de soporte. Esta puntuación refleja la confiabilidad de la afirmación de que un genoma evolucionó a partir de otro.

  • Poda y Regrafting de Subárboles (SPR): En lugar de solo hacer pequeños cambios en la estructura del árbol, SPRTA considera reubicar subárboles enteros. Esto permite una exploración más integral de las posibles historias evolutivas.

Evaluación de la Confiabilidad de las Ramas

Para una rama dada del árbol, SPRTA evalúa muchas estructuras de árbol alternativas obtenidas a través de movimientos SPR. Cada una de estas ubicaciones alternativas se evalúa por su probabilidad dada la información genómica. Esto ayuda a determinar cuánta confianza se puede tener en la ubicación original de los genomas a lo largo del árbol.

Eficiencia Computacional de SPRTA

Una de las características destacadas de SPRTA es su eficiencia computacional. Se puede ejecutar junto con la inferencia del árbol filogenético sin añadir requisitos de tiempo o recursos significativos. Cuando se probó contra métodos tradicionales como el bootstrap de Felsenstein, SPRTA demostró una reducción significativa en el tiempo de ejecución y el uso de memoria, especialmente en grandes conjuntos de datos genómicos.

Aplicación a Genomas de SARS-CoV-2

Para mostrar la efectividad de SPRTA, los investigadores lo aplicaron a un gran conjunto de datos de genomas de SARS-CoV-2 recopilados durante la pandemia de COVID-19. Este conjunto de datos contenía más de 2 millones de genomas, lo que lo hacía demasiado grande para métodos filogenéticos tradicionales.

La estimación del árbol filogenético usando un software llamado MAPLE tomó alrededor de diez días. Después de crear el árbol, la evaluación de SPRTA tomó poco más de siete horas en un solo núcleo, lo que incluye la evaluación del soporte de las ubicaciones individuales de los genomas.

Hallazgos y Observaciones

A través de este análisis, los investigadores encontraron que muchos genomas tenían ubicaciones inciertas. Descubrieron:

  • Un número sustancial de genomas no tenía suficientes mutaciones para proporcionar un camino evolutivo claro.

  • Muchas ramas internas del árbol filogenético también mostraron incertidumbre, lo que indica desafíos para rastrear la historia ancestral de ciertos genomas.

  • El análisis destacó mutaciones específicas que parecían tener una alta variabilidad, generando preguntas sobre su confiabilidad y el impacto potencial en la comprensión de la evolución del virus.

Cómo SPRTA Mejora los Estudios Mutacionales

A diferencia de los métodos existentes que se centran en clados, SPRTA proporciona información sobre mutaciones individuales y su historia evolutiva. Esto es especialmente valioso para estudios epidemiológicos, donde entender mutaciones específicas puede informar decisiones sobre respuestas de salud pública y desarrollo de vacunas.

Los investigadores pueden ver un árbol filogenético anotado con puntuaciones SPRTA para obtener una imagen más clara de las partes confiables e inciertas del conjunto de datos. Esto permite un análisis más informado de cómo se propaga y muta el virus, permitiendo mejores modelos predictivos para futuros brotes.

Conclusión

A medida que el tamaño y la complejidad de los datos genómicos continúan creciendo, los métodos tradicionales luchan por mantenerse al día, lo que lleva a posibles errores en la interpretación. Con la introducción de SPRTA, los investigadores tienen una herramienta poderosa que no solo cumple con las demandas computacionales de grandes conjuntos de datos, sino que también cambia el enfoque hacia la comprensión de la dinámica evolutiva de mutaciones individuales.

Este nuevo enfoque mejora la confiabilidad del análisis filogenético en epidemiología genómica, proporcionando información vital para abordar rápidamente los desafíos de salud pública. Así, SPRTA abre nuevas avenidas para la investigación tanto en dinámica de enfermedades infecciosas como en biología evolutiva, ayudando a científicos y funcionarios de salud a responder más eficazmente a futuras pandemias.

En resumen, a medida que la epidemiología genómica se vuelve más crucial, métodos como SPRTA sin duda jugarán un papel clave en asegurar interpretaciones precisas y confiables de los datos genómicos, ayudando en la lucha contra enfermedades infecciosas en todo el mundo.

Fuente original

Título: This is SPRTA: assessing phylogenetic confidence at pandemic scales

Resumen: Phylogenetics plays a central role in evolutionary biology and genomic epidemiology. Assessing phylogenetic confidence and reliability is therefore crucial and methods to do this, such as Felsensteins bootstrap, are among the most used in modern science. However, methods based on Felsensteins bootstrap suffer from excessive computational demand, and are unsuitable for large datasets. Furthermore, most of these methods emerge from a cladistic framework which makes their results hard to interpret in the context of genomic epidemiology. We propose SPRTA (" SPR-based Tree Assessment"), an efficient and interpretable approach to assess confidence in phylogenetic trees. SPRTA shifts the paradigm of phylogenetic support measurement from evaluating the confidence in clades (groupings of taxa) to genome evolution histories, for example assessing if a lineage evolved from another considered lineage or not. This focus on evolutionary histories is particularly valuable in genomic epidemiology, where typically the evolutionary and transmission history of a pathogen are of interest, not clade content. We illustrate the use of SPRTA by investigating a global SARS-CoV-2 phylogenetic tree relating > 2M genomes, highlighting plausible alternative evolutionary origins of many SARS-CoV-2 variants. We have implemented SPRTA within the free and open source maximum likelihood phylogenetic software MAPLE, available from https://github.com/NicolaDM/MAPLE.

Autores: Nicola De Maio, N. Ly-Trong, B. Q. Minh, N. Goldman

Última actualización: 2024-10-21 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.10.21.619398

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.10.21.619398.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares