Avances en la Predicción de Amenazas de Virus Zoonóticos
Los investigadores desarrollan nuevos métodos para predecir virus que podrían infectar a los humanos.
― 6 minilectura
Tabla de contenidos
- La Necesidad de Mejores Modelos
- Creando Conjuntos de Datos Amplios
- Entrenando y Evaluando Modelos Predictivos
- Evaluando la Detección de Virus que Infectan Humanos
- Generalizando Predicciones para Nuevos Virus
- Desafíos en la Predicción de Linajes Virales Específicos
- Conclusión
- Fuente original
- Enlaces de referencia
Los virus zoonóticos, que pueden pasar de animales a humanos, amenazan nuestra salud. Es super importante estar al tanto de estos virus en animales que podrían infectar a las personas. Aunque hemos aprendido mucho sobre la diversidad genética de los virus en animales, entender cómo se comportan y sus efectos en los humanos requiere mucho trabajo humano. Actualmente, muchos métodos para predecir si un virus puede infectar humanos son limitados. Para ayudar con esto, los investigadores están creando modelos de aprendizaje automático que usan información genética de los virus para predecir si pueden infectar humanos.
La Necesidad de Mejores Modelos
A pesar de que hay modelos que predicen la infectividad de los virus, todavía hay muchas lagunas, lo que lo hace difícil para comparar y evaluar su efectividad. Un gran problema es la falta de conjuntos de datos estándar que se puedan usar para probar estos modelos. Además, evaluaciones pasadas pueden haber sobreestimado cuán bien funcionan algunos modelos, usando datos de virus que no son relevantes para la salud humana. Con nuevos virus surgiendo todo el tiempo, es importante que los modelos también puedan predecir la infectividad de estos virus desconocidos.
Para resolver este problema, los investigadores están juntando conjuntos de datos más amplios que cubren muchas familias virales. También están desarrollando nuevos modelos que pueden predecir mejor cómo los virus podrían infectar a los humanos. El objetivo es dar una imagen más clara de qué virus necesitan más estudio.
Creando Conjuntos de Datos Amplios
Los investigadores recogieron datos para 26 familias virales, enfocándose en las que se sabe que infectan a humanos. Juntaron información de bases de datos que documentan la relación entre los virus y sus hospedadores. Los conjuntos de datos anteriores carecían de la variedad necesaria, incluyendo muchos virus que son fáciles de predecir pero no representan amenazas para los humanos.
Al crear nuevos conjuntos de datos, los investigadores pueden incluir una gama más amplia de virus, asegurando que tengan suficientes ejemplos de virus que infectan humanos. Esto implica recopilar información de 1,476 especies de vertebrados y 535 especies de artrópodos, resultando en un aumento sustancial en los datos disponibles, alrededor de 29 veces más que los conjuntos de datos anteriores. Se aseguraron de que cada familia viral incluyera un número significativo de cepas que infectan humanos, haciendo que estos conjuntos de datos sean una herramienta valiosa para desarrollar Modelos Predictivos.
Entrenando y Evaluando Modelos Predictivos
Para entrenar nuevos modelos, los investigadores dividieron sus datos en dos conjuntos: virus pasados, conocidos antes de 2018, y virus futuros, descubiertos después de esa fecha. Este enfoque les permitió entrenar modelos en virus previamente identificados y evaluar qué tan bien podían predecir amenazas futuras.
Usando modelos avanzados que fueron previamente entrenados con grandes cantidades de Datos Genéticos, los investigadores ajustaron sus modelos para hacer predicciones precisas sobre la infectividad viral. Compararon sus modelos con modelos más antiguos para ver qué tan bien funcionaban. Los resultados mostraron una mejor capacidad predictiva en muchas familias virales, particularmente para aquellos virus que tienen una estructura de RNA segmentado.
Evaluando la Detección de Virus que Infectan Humanos
Para evaluar qué tan bien sus modelos podían encontrar virus que infectan humanos en escenarios reales, los investigadores los probaron con secuencias genéticas cortas obtenidas de secuenciación de alto rendimiento. Descubrieron que sus modelos funcionaban de manera confiable, sin importar la longitud de los datos de entrada. Sin embargo, algunos modelos existentes tuvieron problemas con secuencias más cortas. Esto enfatiza la necesidad de modelos que puedan analizar eficientemente datos genéticos en varios formatos.
Los resultados de estas evaluaciones mostraron la relación entre los recursos computacionales necesarios para el entrenamiento y la aplicabilidad de los modelos a diferentes tipos de datos. Si bien algunos modelos eran eficientes, no necesariamente funcionaban bien con datos de alto rendimiento, subrayando la necesidad de modelos que puedan manejar una gama diversa de entradas.
Generalizando Predicciones para Nuevos Virus
Una preocupación crítica para la salud pública es la capacidad de predecir la infectividad de virus recién descubiertos. Los investigadores evaluaron sus modelos en conjuntos de datos pasados y futuros para probar sus capacidades de generalización. Establecieron puntos de referencia para ver cómo diferentes modelos podían predecir la infectividad humana basándose en datos de virus pasados.
Los modelos mostraron resultados prometedores al predecir la infectividad de virus que surgieron después de su entrenamiento inicial. Sin embargo, algunos virus, especialmente ciertos linajes de coronavirus, seguían siendo difíciles de predecir con precisión. Esto enfatiza la importancia de enfocarse en familias virales específicas que tienen un historial de derrames zoonóticos.
Desafíos en la Predicción de Linajes Virales Específicos
A través de un examen detallado de las relaciones virales, los investigadores identificaron familias particulares que resultaron desafiantes para los modelos de predicción. Por ejemplo, algunas familias, como Flaviviridae, que incluye muchos patógenos severos, mostraron un mal desempeño al predecir la infectividad debido a su naturaleza en evolución.
Curiosamente, los modelos encontraron particularmente difícil evaluar el riesgo planteado por coronavirus relacionados como SARS-CoV2, indicando una brecha significativa en la preparación contra virus zoonóticos. Esto destaca que, aunque la recopilación de datos ha mejorado, entender el comportamiento de linajes virales específicos durante su evolución sigue siendo un desafío.
Conclusión
El estudio de los virus zoonóticos y su potencial para infectar a humanos es crucial para la salud pública. Con nuevos modelos aprovechando técnicas avanzadas y un enfoque más completo para la recopilación de datos, los investigadores están logrando avances significativos. Sin embargo, aún quedan desafíos, particularmente en predecir con precisión la infectividad de ciertos virus y entender las complejidades de linajes específicos.
Al fortalecer los marcos para predecir la infectividad viral y seguir refinando los modelos, podemos estar mejor preparados para las amenazas zoonóticas potenciales que se avecinan. Los esfuerzos continuos ayudarán a garantizar que podamos responder efectivamente a las enfermedades emergentes y proteger la salud pública.
Título: Hidden Challenges in Evaluating Spillover Risk of Zoonotic Viruses using Machine Learning Models
Resumen: Machine learning models have been deployed to assess the zoonotic spillover risk of viruses by identifying their human infectivity potential. However, the scarcity of comprehensive datasets poses a major challenge, limiting the predictable range of viruses. Our study addressed this limitation through two key strategies: constructing expansive datasets across 26 viral families and developing new models leveraging large language models pre-trained on extensive nucleotide sequences. Our approaches substantially boosted our model performance. This enhancement was particularly notable in segmented RNA viruses, which are involved with severe zoonoses but have been overlooked due to limited data availability. Furthermore, models trained on data up to 2018 displayed strong generalization capability for viruses emerging post-2018. Nonetheless, we also found remaining challenges in alerting the zoonotic potential of specific viral lineages, including SARS-CoV-2. Our study elaborates on the models and datasets for predicting viral infectivity and highlights the unresolved issues to fully exploit machine learning in preparing for future zoonotic threats.
Autores: Junna Kawasaki, T. Suzuki, M. Hamada
Última actualización: 2024-04-29 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.04.25.591033
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.04.25.591033.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.