Avances en la predicción de la estructura del ARN con RNA3DB
RNA3DB busca mejorar la predicción de la estructura del ARN usando un nuevo conjunto de datos organizado.
― 7 minilectura
Tabla de contenidos
En los últimos años, ha habido mucho interés en usar el Aprendizaje Profundo para entender la estructura de las proteínas y el ARN, que son cruciales para muchas funciones biológicas. En 2018, un programa llamado AlphaFold cambió las reglas del juego al hacer avances impresionantes en la predicción de estructuras de proteínas. Para 2020, AlphaFold2 mejoró este éxito, y muchos creían que descifrar la estructura de las proteínas estaba mayormente completo. Esto despertó el interés en aplicar métodos similares al ARN, que, al igual que las proteínas, tiene una secuencia que se pliega en una forma específica importante para su función.
Estructura del ARN y desafíos
A primera vista, el ARN parece comportarse de manera similar a las proteínas porque ambos consisten en secuencias que se pliegan en formas complejas. Sin embargo, muchos expertos en investigación de ARN no consideran que los métodos actuales de aprendizaje profundo sean la mejor opción para predecir las estructuras de ARN. En 2022, los científicos comenzaron a resaltar problemas con la capacidad de generalización del aprendizaje profundo a nuevas secuencias de ARN, lo que había sido un problema conocido en otros modelos durante años.
A medida que aumentaba el interés por el ARN, en gran parte debido a nuevas terapias basadas en ARN, una competencia llamada CASP15 incluyó desafíos específicos para el ARN. Los resultados mostraron que los métodos de aprendizaje profundo no funcionaron bien en comparación con los métodos tradicionales. Desde entonces, varios esfuerzos han intentado aplicar el aprendizaje profundo al ARN, pero a menudo pasan por alto problemas de generalización.
Una gran preocupación es la disponibilidad de datos. Hay significativamente más estructuras de proteínas disponibles que estructuras de ARN en el Protein Data Bank (PDB), que es el recurso principal para estos tipos de datos. Una comparación muestra que el PDB tiene casi 70 veces más estructuras de proteínas que estructuras de ARN. Esta falta de datos probablemente explique por qué el aprendizaje profundo tiene dificultades con el ARN en comparación con las proteínas.
La importancia de RNA3DB
Para abordar los desafíos de la predicción de la estructura del ARN, los investigadores han creado un nuevo conjunto de datos llamado RNA3DB. Este conjunto de datos se centra en las estructuras de ARN en el PDB y tiene como objetivo mejorar cómo se entrenan y prueban los modelos de aprendizaje profundo. RNA3DB organiza las estructuras de ARN en grupos que son distintos tanto en secuencia como en forma, lo que ayuda a reducir la redundancia y mejora la calidad de los datos de entrenamiento.
Creación de RNA3DB
Crear RNA3DB implica varios pasos: analizar datos, filtrar secuencias no adecuadas, agrupar estructuras de ARN similares y, finalmente, dividir los datos en conjuntos de entrenamiento y prueba.
Análisis
El primer paso es analizar todas las entradas en el PDB para identificar las estructuras de ARN. Los investigadores descargan todas las entradas del PDB y buscan datos específicos que indiquen si una cadena es ARN. Si alguna parte de una cadena está marcada como "ARN", se incluye. Este proceso también tiene en cuenta los residuos de ARN modificados, que son comunes. Para asegurar una identificación precisa, los investigadores convierten estas modificaciones en símbolos estándar.
Filtrado
Después de analizar, el siguiente paso es filtrar las secuencias de ARN que no son adecuadas para entrenar modelos de aprendizaje profundo. Se eliminan cadenas más cortas de 32 residuos, ya que a menudo no proporcionan suficiente información significativa. Otros filtros se centran en la resolución estructural, la proporción de nucleótidos específicos y la presencia de residuos desconocidos. Esto asegura que solo queden secuencias informativas para fines de entrenamiento.
Agrupación
Una vez completado el filtrado, RNA3DB agrupa estructuras de ARN similares. Primero, se agrupan las secuencias que son casi idénticas para evitar redundancia. Luego, se lleva a cabo una búsqueda de similitudes estructurales. Cada estructura de ARN se compara con familias de ARN conocidas, y esta información se usa para crear una red de conexiones de ARN. El objetivo es asegurar que cada grupo sea distinto tanto en secuencia como en estructura.
División de los datos
El último paso en la creación de RNA3DB es dividir el conjunto de datos en conjuntos de entrenamiento y prueba. Al organizar los grupos de manera que no haya superposición, los investigadores pueden asignar de manera segura partes del conjunto de datos para entrenar modelos de aprendizaje profundo y otras para probar su rendimiento.
Hallazgos clave
RNA3DB identifica un total de más de 21,000 secuencias de ARN del PDB. El filtrado reduce este número significativamente, con muchas secuencias eliminadas debido a longitud insuficiente o resolución estructural. El resultado es un conjunto de datos más pequeño y manejable que conserva información útil.
Después del filtrado, RNA3DB agrupa el ARN en alrededor de 1,645 clústeres basados en la similitud de secuencia. El clúster más grande incluye un tipo específico de estructura de ribosoma, mientras que el tamaño del clúster mediano es pequeño. El conjunto de datos final proporciona una visión clara de las estructuras de ARN, lo que puede ayudar a los investigadores a entrenar y evaluar mejor los modelos de aprendizaje profundo.
Implicaciones para la investigación de ARN
La creación de RNA3DB es vital para la investigación de predicción de la estructura del ARN. La falta de datos estructurales suficientes de ARN ha obstaculizado la efectividad del aprendizaje profundo, como se señaló en competencias pasadas. El nuevo conjunto de datos aborda este problema al ofrecer un enfoque estructurado para organizar los datos de ARN.
Además de abordar las limitaciones de datos, RNA3DB identifica los desafíos únicos de la predicción de estructuras de ARN. La estructura compleja del ARN implica más variabilidad que las proteínas, lo que hace que sea más difícil predecir con precisión. La geometría del ARN es intrincada, y su estructura secundaria depende de relaciones a lo largo de toda la secuencia en lugar de solo segmentos locales.
Conclusión
El conjunto de datos RNA3DB representa un paso significativo hacia adelante en la comprensión computacional de las estructuras de ARN. Al organizar los datos de manera significativa, ayuda a los investigadores a entrenar modelos que pueden predecir estructuras de ARN de manera más efectiva. Esta herramienta sin duda será útil para la comunidad de modelado de ARN, especialmente a medida que aumenta el interés en tratamientos basados en ARN.
El trabajo realizado para crear RNA3DB subraya la importancia de datos confiables en la investigación científica y enfatiza la necesidad de continuar los esfuerzos para mejorar nuestra comprensión de la estructura del ARN. Al proporcionar información completa sobre el ARN en un formato bien organizado, RNA3DB busca mejorar las capacidades de los modelos de aprendizaje profundo y avanzar en el campo de la biología estructural.
Título: RNA3DB: a structurally-dissimilar dataset split for training and benchmarking deep learning models for RNA structure prediction
Resumen: With advances in protein structure prediction thanks to deep learning models like AlphaFold, RNA structure prediction has recently received increased attention from deep learning researchers. RNAs introduce substantial challenges due to the sparser availability and lower structural diversity of the experimentally resolved RNA structures in comparison to protein structures. These challenges are often poorly addressed by the existing literature, many of which report inflated performance due to using training and testing sets with significant structural overlap. Further, the most recent Critical Assessment of Structure Prediction (CASP15) has shown that deep learning models for RNA structure are currently outperformed by traditional methods. In this paper we present RNA3DB, a dataset of structured RNAs, derived from the Protein Data Bank (PDB), that is designed for training and benchmarking deep learning models. The RNA3DB method arranges the RNA 3D chains into distinct groups (Components) that are non-redundant both with regard to sequence as well as structure, providing a robust way of dividing training, validation, and testing sets. Any split of these structurally-dissimilar Components are guaranteed to produce test and validations sets that are distinct by sequence and structure from those in the training set. We provide the RNA3DB dataset, a particular train/test split of the RNA3DB Components (in an approximate 70/30 ratio) that will be updated periodically. We also provide the RNA3DB methodology along with the source-code, with the goal of creating a reproducible and customizable tool for producing structurally-dissimilar dataset splits for structural RNAs. Graphical Abstract O_FIG O_LINKSMALLFIG WIDTH=200 HEIGHT=140 SRC="FIGDIR/small/578025v3_ufig1.gif" ALT="Figure 1"> View larger version (39K): [email protected]@7685fdorg.highwire.dtl.DTLVardef@156ca35org.highwire.dtl.DTLVardef@f58d72_HPS_FORMAT_FIGEXP M_FIG C_FIG HighlightsO_LIWhile there is a recent surge in applying deep learning to RNA structure prediction, domain experts have raised concerns about generalization and current trends in benchmarking. C_LIO_LIMany of the concerns primarily relate to how novel RNA families-i.e. families unseen in the training set-are benchmarked, and whether the models are effective at handling such cases. Performance on bench-marks reflective of real-world applications, such as CASP15 and RNA-Puzzles, is poor for RNA deep learning models. C_LIO_LIWe present a dataset-RNA3DB-that is designed for training and bench-marking deep learning models for RNA structure prediction. RNA3DB provides coverage of all RNA chains found in the Protein Data Bank (PDB). C_LIO_LIRNA3DB is clustered into groups that are both sequentially and structurally non-redundant, providing a robust way of creating training, validation, and testing sets for deep learning models. Along with the dataset, we also provide a transparent methodology as well as the source-code, making our tool both reproducible and customizable. C_LI
Autores: Elena Rivas, M. Szikszai, M. Magnus, S. Sanghi, S. Kadyan, N. Bouatta
Última actualización: 2024-03-11 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.01.30.578025
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.01.30.578025.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.