Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología# Bioinformática

Avances en la predicción de regiones intrínsecamente desordenadas de proteínas

Nuevos métodos mejoran la predicción de regiones de proteínas que no tienen una estructura estable.

― 8 minilectura


Nuevo método paraNuevo método parapredecir IDRsdesordenadas.predicción de regiones de proteínasPredIDR mejora la precisión en la
Tabla de contenidos

Las proteínas son moléculas esenciales en los organismos vivos, cumpliendo una amplia gama de funciones. Estas funciones a menudo dependen de la forma de la proteína, que suele ser una estructura tridimensional fija. Sin embargo, algunas partes de las proteínas, conocidas como regiones intrínsecamente desordenadas (IDRs), no tienen una forma estable. En lugar de eso, pueden cambiar su forma y funcionar sin plegarse completamente en una estructura específica. Estudios recientes han demostrado que estas IDRs son bastante comunes, representando más del 30% de las proteínas en organismos con células complejas (eucariotas). Las IDRs juegan roles importantes en muchos procesos biológicos.

Métodos para Estudiar IDRs

Para aprender sobre las IDRs, los científicos usan varias técnicas de laboratorio, como la cristalografía de rayos X, la resonancia magnética nuclear (NMR) y la dicromía circular. Sin embargo, estudiar estas regiones puede ser complicado debido a su naturaleza flexible. Dado que solo un número limitado de IDRs ha sido estudiado en detalle, los investigadores han desarrollado muchos métodos basados en computadoras para predecir dónde están las IDRs en las secuencias de proteínas. Estas herramientas de Predicción han resultado útiles tanto para entender proteínas específicas como para analizar grandes conjuntos de proteínas.

Evaluaciones Comunitarias de Herramientas de Predicción de IDR

El desempeño de diferentes herramientas de predicción de IDR ha sido evaluado a través de competiciones comunitarias. Una de estas competiciones es la Evaluación Crítica de la Predicción de Estructura de Proteínas (CASP), y una más reciente llamada la Evaluación Crítica del Desorden Intrínseco de Proteínas (CAID). Con el tiempo, el número de herramientas de predicción de IDR ha aumentado significativamente, lo que indica un creciente interés en esta área. Los participantes envían su software de predicción para comparar sus métodos con objetivos de proteínas comunes, que tienen anotaciones de IDR conocidas.

En CAID, no solo se evalúa la capacidad de predecir IDRs, sino también la predicción de sitios de unión dentro de estas regiones. Los participantes usan un método que asigna puntuaciones a cada aminoácido en una proteína, mostrando la probabilidad de que forme parte de una región intrínsecamente desordenada o de un sitio de unión. Las ediciones recientes de CAID han mostrado un aumento sustancial en el número de métodos de predicción evaluados, demostrando el creciente enfoque en este desafío.

Avances en la Predicción de IDR

Se ha desarrollado un nuevo servidor web llamado CAID Prediction Portal para ejecutar todos los métodos de las competiciones CAID. Esta plataforma ofrece resultados estandarizados y permite a los usuarios comparar diferentes métodos de forma conveniente. Las evaluaciones más recientes han mostrado que el rendimiento entre varios métodos de predicción de IDR puede variar según diferentes benchmarks, lo que resalta la necesidad de mejoras continuas en el software de predicción.

Recientemente, se creó un nuevo método de aprendizaje profundo llamado PredIDR para predecir con precisión las IDRs en proteínas, específicamente apuntando a aquellas regiones que faltan en los datos de cristalografía de rayos X. Este método refleja características de las IDRs conocidas y busca proporcionar una predicción más confiable.

Análisis de IDRs del Banco de Datos de Proteínas

Para analizar las IDRs, los investigadores extrajeron secuencias de proteínas de alta resolución del Banco de Datos de Proteínas (PDB). Al seleccionar solo aquellas proteínas con una identidad de secuencia de menos del 25% y más de 51 residuos, se centraron en un conjunto diverso de proteínas. Un residuo desordenado se define como aquel que carece de coordenadas tridimensionales en experimentos de rayos X. El análisis incluyó solo segmentos de al menos cuatro residuos desordenados consecutivos.

Usando las secuencias de proteínas seleccionadas, se creó un conjunto de validación. Este conjunto incluyó 597 cadenas con un total de más de 151,000 residuos, de los cuales alrededor del 8% se identificaron como desordenados. Se crearon conjuntos de datos adicionales para una validación más profunda, que contenían diversas longitudes de IDRs para imitar condiciones del mundo real.

Construcción del Conjunto de Entrenamiento

Dado que la tarea de predicción es un problema de clasificación binaria, los investigadores tuvieron que preparar un conjunto de entrenamiento desequilibrado. El conjunto de entrenamiento se formó combinando secuencias de IDR y secuencias estructurales ordenadas, asegurando una distribución equilibrada de residuos desordenados y ordenados. Luego crearon ejemplos negativos artificiales para garantizar que el número de muestras positivas y negativas fuera igual.

Características de Entrada para la Predicción

Para predecir si un residuo es desordenado u ordenado, los investigadores representaron cada residuo de proteína usando tres características principales: perfil evolutivo, estructura secundaria y accesibilidad al disolvente. Estas características proporcionaron información valiosa y se obtuvieron a través de herramientas de predicción establecidas.

Arquitectura de la Red Neuronal

La tarea de predicción se realizó utilizando una red neuronal convolucional en 2D (CNN). Esta arquitectura consiste en múltiples capas, incluyendo capas de entrada, capas de convolución y capas totalmente conectadas. El modelo procesa los datos de entrada en pequeños segmentos, lo que le permite captar patrones y mejorar efectivamente las predicciones.

Entrenando el Modelo de Red Neuronal

El modelo se entrenó utilizando mini-lotes de datos, y el proceso de entrenamiento tenía como objetivo reducir los errores de predicción ajustando los parámetros del modelo. Se utilizó un algoritmo especializado conocido como Adam para actualizar estos parámetros, con un enfoque en minimizar los errores en las predicciones.

Mejorando las Predicciones con Técnicas de Conjunto y Suavizado

Para mejorar la precisión de la predicción, se utilizó un método de conjunto. Este enfoque involucró entrenar múltiples modelos y combinar sus predicciones para lograr un mejor resultado general. Además, se aplicó una técnica de suavizado promediando las predicciones sobre una ventana deslizante centrada en un residuo específico, refinando así la salida.

Métricas de Evaluación

Para evaluar el rendimiento de los modelos de predicción, se utilizaron dos medidas basadas en probabilidad conocidas como AUC_ROC y AUC_PR. Estas métricas ayudan a entender qué tan bien el modelo asigna puntuaciones de confianza a cada residuo en términos de su estado de desorden.

Resultados y Discusión

PredIDR mostró predicciones efectivas para regiones intrínsecamente desordenadas en proteínas, especialmente para residuos que faltan en los datos de rayos X. El rendimiento del método mejoró con la combinación de varias características y mediante el uso de técnicas de conjunto y suavizado. Los mejores resultados se lograron al usar un tamaño de ventana específico para suavizar, que variaba según el conjunto de datos.

PredIDR fue probado contra métodos de predicción existentes en competiciones, donde superó a muchos otros enfoques. Esto indica su potencial como herramienta confiable para identificar IDRs en proteínas.

Comparación con Otros Métodos

PredIDR fue evaluado contra otros métodos de predicción de IDR en competiciones. Mostró una mejora significativa en comparación con varias otras herramientas, destacando su efectividad en detectar regiones intrínsecamente desordenadas. El método tuvo un rendimiento particularmente bueno en conjuntos de datos con un mayor porcentaje de residuos desordenados.

Direcciones Futuras

De cara al futuro, el objetivo es mejorar aún más los métodos de predicción incluyendo datos de anotaciones no X-ray junto con los datos existentes. Tales mejoras pueden llevar a predicciones aún más precisas de IDRs y sus funciones.

Conclusión

El desarrollo de PredIDR marca un avance importante en la predicción de regiones intrínsecamente desordenadas en proteínas. Al combinar varias características y emplear técnicas avanzadas de aprendizaje automático, este método proporciona una herramienta poderosa para los investigadores que estudian la estructura y función de las proteínas. A medida que el campo continúa creciendo, tales métodos predictivos jugarán un papel crucial en mejorar nuestra comprensión de la naturaleza dinámica de las proteínas y sus interacciones en sistemas biológicos.

Fuente original

Título: PredIDR: Accurate prediction of protein intrinsic disorder regions using deep convolutional neural network

Resumen: The involvement of protein intrinsic disorder in essential biological processes, it is well known in structural biology. However, experimental methods for detecting intrinsic structural disorder and directly measuring highly dynamic behavior of protein structure are limited. To address this issue, several computational methods to predict intrinsic disorder from protein sequences were developed and their performance is evaluated by the Critical Assessment of protein Intrinsic Disorder (CAID). In this paper, we describe a new computational method, PredIDR, which provides accurate prediction of intrinsically disordered regions in proteins, mimicking experimental X-ray missing residues. Indeed, missing residues in Protein Data Bank (PDB) were used as positive examples to train a deep convolutional neural network which produces two types of output for short and long regions. PredIDR took part in the second round of CAID and was as accurate as the top state-of-the-art IDR prediction methods. PredIDR can be freely used through the CAID Prediction Portal available at https://caid.idpcentral.org/portal or downloaded as a Singularity container from https://biocomputingup.it/shared/caid-predictors/.

Autores: Damiano Piovesan, K.-S. Han, S.-J. Yun, C.-S. Kim, C.-P. Ri, A. Del Conte

Última actualización: 2024-07-24 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.07.24.604908

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.07.24.604908.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares