Avances en la predicción de regiones intrínsecamente desordenadas de proteínas
Nuevos métodos mejoran la predicción de regiones de proteínas que no tienen una estructura estable.
― 8 minilectura
Tabla de contenidos
- Métodos para Estudiar IDRs
- Evaluaciones Comunitarias de Herramientas de Predicción de IDR
- Avances en la Predicción de IDR
- Análisis de IDRs del Banco de Datos de Proteínas
- Construcción del Conjunto de Entrenamiento
- Características de Entrada para la Predicción
- Arquitectura de la Red Neuronal
- Entrenando el Modelo de Red Neuronal
- Mejorando las Predicciones con Técnicas de Conjunto y Suavizado
- Métricas de Evaluación
- Resultados y Discusión
- Comparación con Otros Métodos
- Direcciones Futuras
- Conclusión
- Fuente original
- Enlaces de referencia
Las proteínas son moléculas esenciales en los organismos vivos, cumpliendo una amplia gama de funciones. Estas funciones a menudo dependen de la forma de la proteína, que suele ser una estructura tridimensional fija. Sin embargo, algunas partes de las proteínas, conocidas como regiones intrínsecamente desordenadas (IDRs), no tienen una forma estable. En lugar de eso, pueden cambiar su forma y funcionar sin plegarse completamente en una estructura específica. Estudios recientes han demostrado que estas IDRs son bastante comunes, representando más del 30% de las proteínas en organismos con células complejas (eucariotas). Las IDRs juegan roles importantes en muchos procesos biológicos.
Métodos para Estudiar IDRs
Para aprender sobre las IDRs, los científicos usan varias técnicas de laboratorio, como la cristalografía de rayos X, la resonancia magnética nuclear (NMR) y la dicromía circular. Sin embargo, estudiar estas regiones puede ser complicado debido a su naturaleza flexible. Dado que solo un número limitado de IDRs ha sido estudiado en detalle, los investigadores han desarrollado muchos métodos basados en computadoras para predecir dónde están las IDRs en las secuencias de proteínas. Estas herramientas de Predicción han resultado útiles tanto para entender proteínas específicas como para analizar grandes conjuntos de proteínas.
Evaluaciones Comunitarias de Herramientas de Predicción de IDR
El desempeño de diferentes herramientas de predicción de IDR ha sido evaluado a través de competiciones comunitarias. Una de estas competiciones es la Evaluación Crítica de la Predicción de Estructura de Proteínas (CASP), y una más reciente llamada la Evaluación Crítica del Desorden Intrínseco de Proteínas (CAID). Con el tiempo, el número de herramientas de predicción de IDR ha aumentado significativamente, lo que indica un creciente interés en esta área. Los participantes envían su software de predicción para comparar sus métodos con objetivos de proteínas comunes, que tienen anotaciones de IDR conocidas.
En CAID, no solo se evalúa la capacidad de predecir IDRs, sino también la predicción de sitios de unión dentro de estas regiones. Los participantes usan un método que asigna puntuaciones a cada aminoácido en una proteína, mostrando la probabilidad de que forme parte de una región intrínsecamente desordenada o de un sitio de unión. Las ediciones recientes de CAID han mostrado un aumento sustancial en el número de métodos de predicción evaluados, demostrando el creciente enfoque en este desafío.
Avances en la Predicción de IDR
Se ha desarrollado un nuevo servidor web llamado CAID Prediction Portal para ejecutar todos los métodos de las competiciones CAID. Esta plataforma ofrece resultados estandarizados y permite a los usuarios comparar diferentes métodos de forma conveniente. Las evaluaciones más recientes han mostrado que el rendimiento entre varios métodos de predicción de IDR puede variar según diferentes benchmarks, lo que resalta la necesidad de mejoras continuas en el software de predicción.
Recientemente, se creó un nuevo método de aprendizaje profundo llamado PredIDR para predecir con precisión las IDRs en proteínas, específicamente apuntando a aquellas regiones que faltan en los datos de cristalografía de rayos X. Este método refleja características de las IDRs conocidas y busca proporcionar una predicción más confiable.
Banco de Datos de Proteínas
Análisis de IDRs delPara analizar las IDRs, los investigadores extrajeron secuencias de proteínas de alta resolución del Banco de Datos de Proteínas (PDB). Al seleccionar solo aquellas proteínas con una identidad de secuencia de menos del 25% y más de 51 residuos, se centraron en un conjunto diverso de proteínas. Un residuo desordenado se define como aquel que carece de coordenadas tridimensionales en experimentos de rayos X. El análisis incluyó solo segmentos de al menos cuatro residuos desordenados consecutivos.
Usando las secuencias de proteínas seleccionadas, se creó un conjunto de validación. Este conjunto incluyó 597 cadenas con un total de más de 151,000 residuos, de los cuales alrededor del 8% se identificaron como desordenados. Se crearon conjuntos de datos adicionales para una validación más profunda, que contenían diversas longitudes de IDRs para imitar condiciones del mundo real.
Conjunto de Entrenamiento
Construcción delDado que la tarea de predicción es un problema de clasificación binaria, los investigadores tuvieron que preparar un conjunto de entrenamiento desequilibrado. El conjunto de entrenamiento se formó combinando secuencias de IDR y secuencias estructurales ordenadas, asegurando una distribución equilibrada de residuos desordenados y ordenados. Luego crearon ejemplos negativos artificiales para garantizar que el número de muestras positivas y negativas fuera igual.
Características de Entrada para la Predicción
Para predecir si un residuo es desordenado u ordenado, los investigadores representaron cada residuo de proteína usando tres características principales: perfil evolutivo, estructura secundaria y accesibilidad al disolvente. Estas características proporcionaron información valiosa y se obtuvieron a través de herramientas de predicción establecidas.
Red Neuronal
Arquitectura de laLa tarea de predicción se realizó utilizando una red neuronal convolucional en 2D (CNN). Esta arquitectura consiste en múltiples capas, incluyendo capas de entrada, capas de convolución y capas totalmente conectadas. El modelo procesa los datos de entrada en pequeños segmentos, lo que le permite captar patrones y mejorar efectivamente las predicciones.
Entrenando el Modelo de Red Neuronal
El modelo se entrenó utilizando mini-lotes de datos, y el proceso de entrenamiento tenía como objetivo reducir los errores de predicción ajustando los parámetros del modelo. Se utilizó un algoritmo especializado conocido como Adam para actualizar estos parámetros, con un enfoque en minimizar los errores en las predicciones.
Mejorando las Predicciones con Técnicas de Conjunto y Suavizado
Para mejorar la precisión de la predicción, se utilizó un método de conjunto. Este enfoque involucró entrenar múltiples modelos y combinar sus predicciones para lograr un mejor resultado general. Además, se aplicó una técnica de suavizado promediando las predicciones sobre una ventana deslizante centrada en un residuo específico, refinando así la salida.
Métricas de Evaluación
Para evaluar el rendimiento de los modelos de predicción, se utilizaron dos medidas basadas en probabilidad conocidas como AUC_ROC y AUC_PR. Estas métricas ayudan a entender qué tan bien el modelo asigna puntuaciones de confianza a cada residuo en términos de su estado de desorden.
Resultados y Discusión
PredIDR mostró predicciones efectivas para regiones intrínsecamente desordenadas en proteínas, especialmente para residuos que faltan en los datos de rayos X. El rendimiento del método mejoró con la combinación de varias características y mediante el uso de técnicas de conjunto y suavizado. Los mejores resultados se lograron al usar un tamaño de ventana específico para suavizar, que variaba según el conjunto de datos.
PredIDR fue probado contra métodos de predicción existentes en competiciones, donde superó a muchos otros enfoques. Esto indica su potencial como herramienta confiable para identificar IDRs en proteínas.
Comparación con Otros Métodos
PredIDR fue evaluado contra otros métodos de predicción de IDR en competiciones. Mostró una mejora significativa en comparación con varias otras herramientas, destacando su efectividad en detectar regiones intrínsecamente desordenadas. El método tuvo un rendimiento particularmente bueno en conjuntos de datos con un mayor porcentaje de residuos desordenados.
Direcciones Futuras
De cara al futuro, el objetivo es mejorar aún más los métodos de predicción incluyendo datos de anotaciones no X-ray junto con los datos existentes. Tales mejoras pueden llevar a predicciones aún más precisas de IDRs y sus funciones.
Conclusión
El desarrollo de PredIDR marca un avance importante en la predicción de regiones intrínsecamente desordenadas en proteínas. Al combinar varias características y emplear técnicas avanzadas de aprendizaje automático, este método proporciona una herramienta poderosa para los investigadores que estudian la estructura y función de las proteínas. A medida que el campo continúa creciendo, tales métodos predictivos jugarán un papel crucial en mejorar nuestra comprensión de la naturaleza dinámica de las proteínas y sus interacciones en sistemas biológicos.
Título: PredIDR: Accurate prediction of protein intrinsic disorder regions using deep convolutional neural network
Resumen: The involvement of protein intrinsic disorder in essential biological processes, it is well known in structural biology. However, experimental methods for detecting intrinsic structural disorder and directly measuring highly dynamic behavior of protein structure are limited. To address this issue, several computational methods to predict intrinsic disorder from protein sequences were developed and their performance is evaluated by the Critical Assessment of protein Intrinsic Disorder (CAID). In this paper, we describe a new computational method, PredIDR, which provides accurate prediction of intrinsically disordered regions in proteins, mimicking experimental X-ray missing residues. Indeed, missing residues in Protein Data Bank (PDB) were used as positive examples to train a deep convolutional neural network which produces two types of output for short and long regions. PredIDR took part in the second round of CAID and was as accurate as the top state-of-the-art IDR prediction methods. PredIDR can be freely used through the CAID Prediction Portal available at https://caid.idpcentral.org/portal or downloaded as a Singularity container from https://biocomputingup.it/shared/caid-predictors/.
Autores: Damiano Piovesan, K.-S. Han, S.-J. Yun, C.-S. Kim, C.-P. Ri, A. Del Conte
Última actualización: 2024-07-24 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.07.24.604908
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.07.24.604908.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.