SQUARNA: Un Nuevo Método para la Predicción de Estructura de ARN
Te presentamos SQUARNA, un método prometedor para predecir estructuras secundarias de ARN.
― 8 minilectura
Tabla de contenidos
- Importancia de la Estructura Secundaria del ARN
- Predicción de la Estructura Secundaria del ARN
- Desafíos en la Predicción de la Estructura del ARN
- Introducción a SQUARNA
- SQUARNA para Alineaciones de Múltiples Secuencias
- Abordando la Similitud de Secuencias y la Calidad de Predicción
- Datos de Sondeo Químico y su Impacto
- Conclusión e Impacto de SQUARNA
- Fuente original
- Enlaces de referencia
El ARN, o ácido ribonucleico, es una molécula clave que juega un papel crucial en la biología de todos los seres vivos. Está involucrado en varios procesos, incluyendo cómo se expresan los genes y cómo se producen las proteínas. Entender la estructura del ARN es esencial, ya que su función está estrechamente relacionada con su forma. Hay varios tipos de ARN, cada uno con roles y estructuras únicas.
Se han identificado muchas moléculas de ARN, desde riboswitches que ayudan a controlar la actividad genética hasta componentes en el ARN viral que les ayudan a protegerse de ser degradados. La forma en que las moléculas de ARN se pliegan o estructuran influye en cómo funcionan. La disposición específica de los bloques de construcción del ARN, conocidos como ribonucleótidos, contribuye a esta forma final. Estos bloques se emparejan de maneras específicas, lo que lleva a la formación de estructuras secundarias.
Importancia de la Estructura Secundaria del ARN
Cuando se forma el ARN, generalmente primero toma una forma de estructura secundaria. Esta estructura implica emparejamiento de bases entre ribonucleótidos, particularmente a través de Pares de bases de Watson-Crick como guanina-citosina (G-C) y adenina-uracilo (A-U), junto con pares G-U. Una vez que se establece esta estructura secundaria, pueden desarrollarse otras interacciones.
Conocer la estructura secundaria del ARN es vital porque ayuda a predecir la forma tridimensional general y cómo funcionará el ARN. Aunque ha habido avances en técnicas para estudiar la estructura del ARN, como sondeos químicos y microscopía electrónica criogénica, muchas estructuras funcionales de ARN aún no se comprenden del todo, lo que representa un desafío persistente en la predicción de estructuras secundarias de ARN.
Predicción de la Estructura Secundaria del ARN
Predecir la estructura secundaria del ARN implica determinar qué pares de nucleótidos forman pares de bases. Esto se puede hacer para una sola secuencia de ARN o para múltiples secuencias alineadas. El método más común para predecir la estructura de una única secuencia de ARN implica la minimización de energía libre. Este enfoque calcula la energía libre de estructuras potenciales e identifica la que tiene la energía más baja.
Además de los cálculos de energía libre, hay métodos probabilísticos diseñados para predecir estructuras con la máxima precisión esperada. Para secuencias de ARN que se han alineado, los métodos tradicionales buscan pares de nucleótidos que han mantenido sus relaciones a lo largo de la evolución. Varios enfoques combinan estos métodos de covariación con algoritmos para encontrar la estructura de energía libre más baja o la estructura con la máxima precisión esperada.
Recientemente, han surgido técnicas de aprendizaje profundo para mejorar la predicción de la estructura del ARN, mostrando promesas al ofrecer un mejor rendimiento que los métodos más antiguos. A pesar de la variedad de métodos disponibles, aún no existe una solución definitiva para la predicción de la estructura secundaria del ARN, especialmente para secuencias individuales o secuencias estrechamente relacionadas.
Desafíos en la Predicción de la Estructura del ARN
El campo de la predicción de la estructura del ARN enfrenta numerosos desafíos. Muchos métodos existentes no tienen en cuenta estructuras complejas como los pseudonudos, lo que lleva a simplificaciones en la estructura real del ARN. Además, la mayoría de los métodos predicen una única estructura para cada molécula de ARN, lo que puede no capturar la variedad de formas que puede adoptar un ARN.
Numerosas herramientas tienen dificultades para incorporar datos experimentales de Sondeo Químico en sus predicciones. Además, hay muy pocas herramientas que puedan predecir con precisión estructuras formadas por múltiples secuencias de ARN. Por último, los modelos de aprendizaje profundo a menudo enfrentan problemas como el sobreajuste, lo que hace que sus predicciones sean menos confiables en secuencias de ARN desconocidas.
Introducción a SQUARNA
Para abordar estos desafíos, presentamos SQUARNA, un nuevo método para predecir la estructura secundaria del ARN que utiliza un modelo de formación de tallos. Las pruebas iniciales muestran que SQUARNA funciona bien con secuencias individuales y supera significativamente a otros métodos cuando se aplica a alineaciones de múltiples secuencias.
Cómo Funciona SQUARNA para Secuencias Individuales
SQUARNA trata la tarea de predicción de ARN de secuencia única como un problema de asignación, donde predice las mejores coincidencias entre pares de nucleótidos. La entrada es la secuencia de ARN, y SQUARNA identifica los pares de bases óptimos que pueden formarse.
El algoritmo considera inicialmente pares de bases que están al menos cuatro nucleótidos separados, ya que el ARN no forma horquillas más cortas que eso. Calcula puntajes para los pares de bases potenciales y utiliza un enfoque codicioso para construir estructuras basadas en estos puntajes, seleccionando iterativamente las mejores coincidencias hasta que no se puedan encontrar mejores coincidencias.
Este método permite que SQUARNA genere varias estructuras clasificadas por su probabilidad de ser correctas. El algoritmo utiliza un sistema de puntuación ajustado que refleja mejor el comportamiento de plegado natural del ARN, incorporando factores que consideran las características de los tallos y bucles.
Evaluación del Rendimiento de SQUARNA
Para evaluar el rendimiento de SQUARNA, lo comparamos con varias herramientas líderes de predicción de ARN. En un conjunto de datos de prueba, las principales predicciones de SQUARNA fueron comparables a las mejores herramientas existentes, logrando alta precisión en la predicción de estructuras secundarias de ARN.
El enfoque utilizado por SQUARNA es significativamente más simple que otros modelos, lo que le permite alcanzar niveles de rendimiento similares sin las complejidades y problemas comunes que se encuentran en los métodos de aprendizaje profundo.
SQUARNA para Alineaciones de Múltiples Secuencias
SQUARNA también funciona con múltiples secuencias de ARN alineadas. El método para esto implica un proceso de dos pasos. En el primer paso, SQUARNA calcula puntajes basados en los pares de bases individuales de cada secuencia en la Alineación. Identifica los pares más compatibles que pueden formarse entre las secuencias.
El segundo paso implica usar los resultados del primer paso para hacer predicciones adicionales basadas en el consenso de las secuencias individuales. Esto ayuda a SQUARNA a encontrar pares de bases que aparecen consistentemente en la mayoría de las secuencias, incluso si no cumplen con el umbral de puntuación individualmente.
Entrenamiento y Evaluación para Predicciones Basadas en Alineaciones
Para el entrenamiento, se creó un conjunto de datos especializado utilizando alineaciones de varias familias de ARN no codificantes. El rendimiento se midió a través de diferentes profundidades de alineación para entender cómo influye el número de secuencias en la calidad de la predicción.
Los resultados mostraron que SQUARNA superó consistentemente a otras herramientas, especialmente en casos donde la profundidad de alineación estaba entre 100 y 1000 secuencias. Curiosamente, otras herramientas líderes mostraron poco o ningún mejoramiento con una mayor profundidad de alineación, mientras que el rendimiento de SQUARNA aumentó significativamente con más secuencias.
Abordando la Similitud de Secuencias y la Calidad de Predicción
Investigaciones adicionales destacaron que la calidad de predicción de SQUARNA podría variar según cuán similares fueran las secuencias en la alineación. En casos donde las secuencias eran demasiado similares, SQUARNA a veces tuvo dificultades. Sin embargo, este problema parecía disminuir a medida que aumentaba el número de secuencias en la alineación.
En casos específicos, SQUARNA identificó con éxito estructuras desafiantes a pesar de sus limitaciones. Por ejemplo, en alineaciones con un alto grado de conservación de secuencias, a veces identificaba incorrectamente estructuras. Sin embargo, en subalineaciones diversas, SQUARNA sobresalió en predecir las estructuras correctas.
Datos de Sondeo Químico y su Impacto
SQUARNA también puede utilizar de manera efectiva datos de sondeo químico para mejorar las predicciones. Se probaron diferentes configuraciones de entrada, incluyendo solo la secuencia de ARN, ARN con datos de sondeo químico y alineaciones de secuencias con dichos datos.
Cuando se incluyeron datos de sondeo químico, SQUARNA vio mejoras significativas en la calidad de la predicción. Esto demostró que incorporar datos experimentales puede mejorar la precisión de las predicciones de la estructura secundaria del ARN.
Conclusión e Impacto de SQUARNA
En resumen, SQUARNA representa un enfoque prometedor para predecir estructuras secundarias del ARN. Al emplear un algoritmo codicioso simplificado, logra un rendimiento competitivo mientras aborda algunos de los desafíos comunes vistos en métodos existentes. Su capacidad para manejar tanto secuencias individuales como alineaciones de secuencias, junto con la incorporación de datos de sondeo químico, hace de SQUARNA una herramienta versátil en la biología computacional del ARN.
La introducción de SQUARNA no solo avanza en el campo de la predicción de estructuras del ARN, sino que también abre nuevas avenidas para la investigación y la aplicación en la comprensión de las funciones e interacciones del ARN. Con su sólido rendimiento y flexibilidad, SQUARNA está listo para tener un impacto significativo en la investigación relacionada con el ARN y más allá.
Título: SQUARNA - an RNA secondary structure prediction method based on a greedy stem formation model
Resumen: Non-coding RNAs play a diverse range of roles in various cellular processes, with their spatial structure being pivotal to their function. The RNAs secondary structure is a key determinant of its overall fold. Given the scarcity of experimentally determined RNA 3D structures, understanding the secondary structure is vital for discerning the molecules function. Currently, there is no universally effective solution for de novo RNA secondary structure prediction. Existing methods are becoming increasingly complex without marked improvements in accuracy, and they often overlook critical elements such as pseudoknots. In this work, we introduce SQUARNA, a novel approach to de novo RNA secondary structure prediction. This method utilizes a simple, greedy stem formation model, addressing many of the limitations inherent in previous tools. Our benchmarks demonstrate that SQUARNA matches the performance of leading methods for single sequence inputs and significantly surpasses existing tools when applied to sequence alignment inputs.
Autores: Eugene F. Baulin, D. R. Bohdan, G. I. Nikolaev, J. M. Bujnicki
Última actualización: 2024-03-23 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2023.08.28.555103
Fuente PDF: https://www.biorxiv.org/content/10.1101/2023.08.28.555103.full.pdf
Licencia: https://creativecommons.org/licenses/by-nc/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://seaborn.pydata.org/generated/seaborn.violinplot.html
- https://github.com/febos/SQUARNA/blob/main/SQRNdbnseq.py
- https://webshare.oasis.unc.edu/weeksgroup/data-files/ShapeKnots_DATA.zip
- https://www.pnas.org/doi/suppl/10.1073/pnas.1219988110/suppl_file/sd01.pdf
- https://en.wikipedia.org/wiki/Stockholm_format
- https://en.wikipedia.org/wiki/FASTA_format
- https://meme-suite.org/meme/doc/clustalw-format.html
- https://rfam.org/search?q=entry_type:%22Family%22%20AND%20has_3d_structure:%22Yes%22
- https://en.wikipedia.org/wiki/Hamming_distance
- https://blast.ncbi.nlm.nih.gov/Blast.cgi?PROGRAM=blastn&PAGE_TYPE=BlastSearch&LINK_LOC=blasthome
- https://docs.scipy.org/doc/scipy/reference/generated/scipy.stats.ttest_rel.html
- https://github.com/satoken/ipknot
- https://github.com/mxfold/mxfold2
- https://github.com/jaswindersingh2/SPOT-RNA
- https://github.com/satoken/centroid-rna-package
- https://eddylab.org/R-scape/
- https://e-rna.org/shapesorter/
- https://github.com/febos/SQUARNA