Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología# Bioinformática

Nueva herramienta de aprendizaje automático mejora los estudios de interacción de proteínas

PPIscreenML mejora la precisión en la identificación de interacciones de proteínas usando técnicas avanzadas de aprendizaje automático.

― 8 minilectura


Avanzando en el AnálisisAvanzando en el Análisisde Interacción deProteínasproteicas.identificación de interaccionesNueva herramienta PPIscreenML mejora la
Tabla de contenidos

Las células necesitan mantener un equilibrio, conocido como homeostasis celular, para funcionar bien. Este equilibrio se ve influenciado por muchas proteínas que interactúan entre sí. Entender cómo estas proteínas interactúan es esencial ya que juega un papel importante en muchos procesos biológicos.

Los investigadores estiman que hay entre 74,000 y 200,000 Interacciones de proteínas en humanos. Para encontrar y estudiar estas interacciones de manera precisa, los científicos necesitan métodos efectivos. Tradicionalmente, se usaban dos técnicas populares para explorar las interacciones de proteínas. Una se conoce como el ensayo de dos híbridos en levadura, mientras que la otra son los ensayos de purificación por afinidad. Recientemente, técnicas nuevas como BioID y TurboID se han vuelto populares. Sin embargo, estos métodos pueden tener sus propios problemas, sobre todo porque los resultados pueden variar mucho dependiendo de cómo se hagan los experimentos y de la condición de las células que se estudian.

Debido a estos desafíos, los científicos a menudo terminan con muchos resultados inexactos, lo que significa que podrían identificar erróneamente interacciones que no existen o perder las que sí existen. Por ejemplo, los estudios han mostrado que para recuperar una buena porción de interacciones reales de proteínas, los investigadores podrían necesitar usar alrededor de diez enfoques experimentales diferentes.

El papel de la computación en el estudio de interacciones de proteínas

Para ayudar con estos desafíos, los métodos basados en computadora pueden complementar las técnicas tradicionales. Los primeros métodos computacionales hacían suposiciones sobre interacciones de proteínas basándose en patrones similares en la expresión génica o la presencia de genes similares en diferentes organismos. Más recientemente, se han utilizado técnicas computacionales avanzadas con aprendizaje profundo para analizar secuencias de proteínas y predecir interacciones.

Aunque estas predicciones computacionales muestran potencial, el principal problema es que a menudo carecen de claridad. Puede ser difícil determinar cuán bien podrían funcionar estos modelos para proteínas que no formaron parte de los datos de entrenamiento. Además, estos modelos generalmente no proporcionan detalles sobre cómo interactúan las proteínas estructuralmente. Esta información estructural es crítica para comprender los roles biológicos y desarrollar tratamientos potenciales.

Con la creación de AlphaFold2, muchos investigadores ahora tienen acceso a información estructural para proteínas individuales, a veces igualando la precisión de estructuras determinadas en laboratorio. Las predicciones confiables de AlphaFold2 han abierto la puerta a nuevas aplicaciones en la ciencia. Mientras que el AlphaFold2 original funcionaba bien para proteínas individuales, una versión posterior mejoró su capacidad para predecir cómo múltiples proteínas forman estructuras complejas.

Limitaciones de AlphaFold2 en la predicción de interacciones de proteínas

Aunque AlphaFold2 ofrece estructuras precisas para pares de proteínas, no proporciona una indicación clara de si un par específico de proteínas realmente interactúa. En su lugar, genera un conjunto de estructuras predichas. AlphaFold2 también ofrece puntajes que reflejan cuán confiable es la predicción sobre cada estructura utilizando diversas medidas. Aunque uno podría usar estos puntajes para evaluar la calidad de las estructuras predichas, este enfoque no se centra específicamente en distinguir entre pares que interactúan realmente y aquellos que no lo hacen.

Un paquete reciente llamado AlphaPulldown ha calculado diferentes medidas para evaluar interacciones. Aunque estas medidas son sensatas, no se diseñaron específicamente para este propósito.

Introduciendo PPIscreenML

Para abordar estos desafíos, se desarrolló PPIscreenML como un clasificador de Aprendizaje automático destinado a distinguir entre pares de proteínas que interactúan y no interactúan. Este clasificador utiliza los puntajes de confianza de AlphaFold2 en combinación con términos de energía derivados del sistema de puntuación Rosetta.

A diferencia de otros métodos, PPIscreenML fue entrenado específicamente para diferenciar entre proteínas que realmente interactúan y aquellas generadas como señuelos. Durante las evaluaciones, PPIscreenML demostró un mejor rendimiento al identificar pares que interactúan en comparación con métodos existentes en las pruebas. Además, las capacidades de la herramienta se demostraron utilizando la superfamilia del factor de necrosis tumoral, un grupo de proteínas con características estructurales compartidas.

Desarrollo de un conjunto de datos para PPIscreenML

Para que PPIscreenML funcione de manera efectiva, era necesario un conjunto de datos bien definido de ejemplos de interacciones y no interacciones. Los investigadores comenzaron recolectando un conjunto de complejos de proteínas conocidos por interactuar, excluyendo cualquier homodímero o complejo de anticuerpos. También filtraron cualquier complejo con identidades de secuencia por encima de un umbral específico para garantizar diversidad.

Una vez que tenían su lista de complejos activos, generaron complejos señuelo identificando proteínas similares y combinándolas en nuevas estructuras que se asemejaban a las interacciones conocidas pero que no involucraban verdaderos socios de unión. Al construir estos señuelos, los investigadores aseguraron que su modelo enfrentara una tarea de clasificación desafiante durante el entrenamiento.

El objetivo era que el modelo PPIscreenML pudiera diferenciar entre proteínas que realmente interaccionan y aquellas que no, lo que requería que se entrenara en modelos de alta calidad construidos usando AlphaFold2.

Extracción de características para aprendizaje automático

Después de preparar el conjunto de datos, los investigadores extrajeron varias características estructurales de cada modelo de proteínas. Estas características representaban tanto los niveles de confianza de las predicciones de AlphaFold2 como las propiedades energéticas del sistema Rosetta. La combinación de características proporcionó una visión integral de los pares interactuantes.

Usando estas características extraídas, los investigadores hicieron una división entre datos de entrenamiento, validación y prueba. Se aseguraron de que no hubiera filtración de información entre estos conjuntos para que el clasificador pudiera evaluar su rendimiento de manera precisa sin sesgo por datos superpuestos.

Construcción y optimización del modelo PPIscreenML

Los investigadores probaron varios marcos de aprendizaje automático estándar para desarrollar PPIscreenML. Usaron técnicas de validación cruzada para evaluar el rendimiento de cada modelo verificando qué tan bien categoriza las interacciones de proteínas. Tras comparar varios modelos, determinaron que el marco XGBoost mostró los mejores resultados en términos de precisión al distinguir pares que interactúan.

Para evitar sobreentrenar el modelo con características excesivas, aplicaron un método para reducir el conjunto de características de entrada a solo aquellas que proporcionaron la información más útil mientras mantenían el rendimiento. Este modelo optimizado mantuvo una alta precisión, lo que lo hace práctico para aplicaciones del mundo real.

Pruebas del rendimiento de PPIscreenML

PPIscreenML fue probado en un conjunto de datos completamente separado que no había sido visto durante la fase de entrenamiento. Esta prueba utilizó modelos que también tenían predicciones potencialmente pobres para simular aplicaciones reales. Evaluó el rendimiento del modelo en un contexto realista, asegurando que los hallazgos pudieran aplicarse con confianza a futuras investigaciones.

PPIscreenML se comparó con métodos existentes, mostrando que superó sus resultados. Su capacidad para asignar puntajes distintos a pares interactuantes y no interactuantes demostró una excelente separación entre estas dos categorías, dando a los investigadores una comprensión más clara de las capacidades predictivas.

Uso de PPIscreenML para evaluar familias de proteínas

En una evaluación rigurosa, PPIscreenML se aplicó para identificar interacciones dentro de la superfamilia del factor de necrosis tumoral, que consiste en muchas proteínas que se sabe que interactúan entre sí. Los investigadores modelaron todas las combinaciones posibles y utilizaron PPIscreenML para clasificarlas según la probabilidad de interacción.

Los resultados mostraron que PPIscreenML reconoció exitosamente las verdaderas proteínas que interactuaban dentro de esta superfamilia. Este punto de referencia indicó que PPIscreenML podría generalizar su rendimiento a través de diferentes conjuntos de datos, aumentando la confianza en su uso para diversas preguntas biológicas.

Conclusión

Con el desarrollo y la optimización de PPIscreenML, los investigadores ahora tienen una herramienta poderosa para identificar interacciones de proteínas. Al combinar diversas técnicas predictivas con enfoques de aprendizaje automático, PPIscreenML aborda muchas de las limitaciones encontradas en métodos anteriores. A medida que los estudios de interacciones de proteínas continúan evolucionando, esta herramienta podría desempeñar un papel clave en expandir nuestra comprensión de los procesos celulares y, potencialmente, guiar nuevas estrategias terapéuticas.

La mejora continua de modelos predictivos como AlphaFold2 significa que es probable que el rendimiento mejore aún más, allanando el camino para obtener conocimientos más profundos sobre el mundo de las interacciones de proteínas y sus implicaciones para la biología y la medicina. A medida que los científicos exploran sistemas complejos dentro de las células, herramientas como PPIscreenML ayudarán a aclarar las intrincadas relaciones que impulsan la vida.

Fuente original

Título: PPIscreenML: Structure-based screening for protein-protein interactions using AlphaFold

Resumen: Protein-protein interactions underlie nearly all cellular processes. With the advent of protein structure prediction methods such as AlphaFold2 (AF2), models of specific protein pairs can be built extremely accurately in most cases. However, determining the relevance of a given protein pair remains an open question. It is presently unclear how to use best structure-based tools to infer whether a pair of candidate proteins indeed interact with one another: ideally, one might even use such information to screen amongst candidate pairings to build up protein interaction networks. Whereas methods for evaluating quality of modeled protein complexes have been co-opted for determining which pairings interact (e.g., pDockQ and iPTM), there have been no rigorously benchmarked methods for this task. Here we introduce PPIscreenML, a classification model trained to distinguish AF2 models of interacting protein pairs from AF2 models of compelling decoy pairings. We find that PPIscreenML out-performs methods such as pDockQ and iPTM for this task, and further that PPIscreenML exhibits impressive performance when identifying which ligand/receptor pairings engage one another across the structurally conserved tumor necrosis factor superfamily (TNFSF). Analysis of benchmark results using complexes not seen in PPIscreenML development strongly suggest that the model generalizes beyond training data, making it broadly applicable for identifying new protein complexes based on structural models built with AF2.

Autores: John Karanicolas, V. Mischley, J. Maier, J. Chen

Última actualización: 2024-04-30 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.03.16.585347

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.03.16.585347.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares