Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Biología# Bioinformática

Avances en la anotación de estructuras de proteínas

Los investigadores desarrollan herramientas automáticas para mejorar el análisis de la literatura sobre proteínas.

― 8 minilectura


Anotación Automatizada deAnotación Automatizada deLiteratura de Proteínasliteratura.de proteínas y la revisión deNuevas herramientas mejoran el análisis
Tabla de contenidos

La forma de una proteína es crucial para cómo funciona en una célula viva. Para entender realmente los detalles de la biología, los científicos deben identificar y estudiar estas formas de proteínas, enfocándose en partes específicas de la proteína que desempeñan roles importantes en su función. Desde los años 70, los científicos han dependido del Protein Data Bank (PDB) como la fuente principal para las formas de proteínas que se han determinado a través de experimentos. Cada semana, el Protein Data Bank en Europa (PDBe) maneja un gran número de nuevas estructuras de proteínas, estandarizando los datos proporcionados para cada una.

Sin embargo, hay un desafío importante. Los científicos a menudo envían estructuras de proteínas antes de publicar sus artículos de investigación completos. Esto significa que los equipos responsables de organizar los datos aún no tienen acceso a información importante en esos artículos que podría ayudar a entender mejor las estructuras de proteínas.

Para llenar este vacío, los investigadores quieren aprovechar la valiosa información contenida en las publicaciones científicas. UniProt ha estado trabajando durante más de dos décadas para reunir manualmente información de la literatura y conectarla con secuencias de proteínas. Sin embargo, con el creciente número de publicaciones y las nuevas secuencias de proteínas identificadas, se ha vuelto inviable extraer manualmente los datos funcionales detallados necesarios a nivel de partes individuales de proteínas.

Para abordar este problema, se desarrolló un nuevo proceso que utiliza un sistema basado en transformadores para nombrar partes clave dentro de los artículos científicos, marcándolas como un primer paso hacia un enfoque completamente automatizado. El sistema logró una alta precisión en la identificación de información relevante.

Las anotaciones creadas por este sistema pueden resaltar información importante en los artículos y servir como base para investigaciones futuras. Pueden organizarse para mostrar cómo diferentes piezas de una proteína se relacionan entre sí a través de varios estudios. Esto podría llevar a nuevos conocimientos sobre cómo interactúan las proteínas dentro de las células y cómo sus formas se relacionan con sus funciones. Además, estas anotaciones pueden ayudar a validar modelos de proteínas predichos generados por programas informáticos avanzados, asegurando que se alineen con hechos biológicos conocidos.

El Equipo de Anotación

Un gerente de proyecto lideró el proyecto de anotación, aportando más de 15 años de experiencia en el estudio de estructuras de proteínas y desarrollo de software. Junto al gerente de proyecto, seis biocuradores del PDBe, todos con sólidas bases académicas en campos relacionados, participaron en el proceso de anotación. Trabajaron de manera remota desde diferentes ubicaciones y zonas horarias para llevar a cabo sus tareas.

Proceso de Selección de Literatura

Inicialmente, el equipo reunió todos los identificadores de publicaciones relevantes conectados a estructuras de proteínas. Utilizaron una base de datos para extraer información y recopilaron miles de identificadores. Luego, una herramienta de IA ayudó a filtrar estas publicaciones según sus títulos y resúmenes. Se crearon varios lotes de identificadores, lo que permitió al equipo entrenar modelos que más tarde evaluarían nuevas publicaciones por su relevancia.

Este proceso se repitió meses después, incorporando identificadores adicionales y refinando el proceso de selección. Finalmente, se eligió un subconjunto más pequeño de artículos de acceso abierto para un análisis más profundo, para asegurarse de que se pudieran anotar los textos completos.

La Herramienta y Estructura de Anotación

Seleccionar una herramienta de anotación implicó analizar varias opciones contra una lista de criterios, como facilidad de uso y compatibilidad con bases de datos existentes. El equipo se decidió por TeamTat, una herramienta diseñada para trabajar con literatura biomédica. TeamTat facilitó la gestión del proyecto y permitió la colaboración entre múltiples usuarios.

El proyecto utilizó varias fuentes de vocabulario estandarizado para asegurar consistencia en la anotación. Los miembros del equipo crearon un conjunto detallado de pautas que evolucionaría a través de discusiones y experiencias durante las rondas de anotación. Se centraron en capturar información detallada sobre proteínas individuales, incluyendo sus aspectos estructurales, interacciones y evidencia experimental.

Anotación Manual de Publicaciones Iniciales

La fase inicial del proyecto implicó anotar manualmente un grupo seleccionado de publicaciones. A los biocuradores se les asignaron artículos para anotar, y se organizaron sesiones colaborativas regulares para optimizar el proceso. Reconociendo el potencial de sesgo, el equipo trabajó para mantener la objetividad y la precisión.

Después de completar la fase inicial de anotación, se combinaron los resultados y se calcularon estadísticas para evaluar la calidad de las anotaciones. A pesar de algunos desafíos, los biocuradores identificaron con éxito muchos términos relevantes para las estructuras de proteínas.

Evaluación de Anotaciones

Para asegurar la calidad de las anotaciones, el equipo evaluó el trabajo usando un conjunto de criterios que definían qué tan bien cada anotación coincidía con las etiquetas previstas. La evaluación reveló que, aunque hubo instancias de desacuerdo entre los anotadores, el nivel general de acuerdo fue alto, indicando una sólida experiencia en el equipo.

Además, se desarrolló un proceso para crear datos de entrenamiento para un nuevo sistema, permitiendo al equipo evaluar el rendimiento del modelo en comparación con las anotaciones curadas manualmente. El proceso de evaluación ayudó a refinar las anotaciones, llevando a un ciclo continuo de mejora en la calidad de la anotación.

Entrenando el Sistema de Reconocimiento de Entidades Nombradas

Usando las publicaciones anotadas, el equipo creó un modelo de entrenamiento capaz de reconocer términos clave dentro de la literatura. El proyecto empleó métodos avanzados de aprendizaje profundo, centrándose en modelos de transformadores conocidos por su efectividad en tareas de procesamiento de lenguaje natural.

El modelo inicial mostró promesas pero también demostró signos de sobreajuste, lo que significa que no estaba generalizando bien a nuevos datos. Para abordar esto, el equipo amplió su conjunto de datos y ajustó los parámetros del modelo, lo que llevó a una versión del modelo de mejor rendimiento. Este nuevo modelo permitió una anotación semi-automática de publicaciones adicionales.

A partir de este punto, el equipo utilizó un bucle de retroalimentación. Las predicciones del modelo serían revisadas, se aplicarían correcciones y luego esas anotaciones actualizadas se usarían para seguir entrenando al modelo. Este enfoque de entrenamiento iterativo buscaba mejorar la precisión y capacidades del modelo con cada nuevo lote de publicaciones.

Rondas Consecutivas de Anotación y Entrenamiento

A medida que el equipo trabajaba en lotes adicionales de publicaciones, continuaron refinando el modelo e incorporando retroalimentación de los biocuradores. Se abordaron desafíos en la identificación de tipos de entidades específicas mediante discusiones en equipo y encuestas para alcanzar un consenso sobre términos ambiguos.

El equipo también estableció criterios sobre cuándo dejar de agregar nuevas publicaciones para el entrenamiento del modelo, enfocándose en alcanzar un punto donde la mejora del modelo se estabilizara. La naturaleza evolutiva de las pautas de anotación reflejó la creciente complejidad de la literatura y ayudó a asegurar que el modelo se estuviera entrenando con datos de alta calidad.

Evaluación del Rendimiento de los Modelos

El equipo monitoreó continuamente el rendimiento de las diferentes versiones del modelo, revisando la precisión, el recall y la efectividad general en varios tipos de entidades. Encontraron que a medida que crecía el conjunto de datos, la capacidad del modelo para generalizar mejoraba, lo que llevó a predicciones de mayor calidad.

Los resultados indicaron que el último modelo estaba cosechando un rendimiento consistentemente mejor que las versiones anteriores, mostrando su capacidad para identificar y categorizar con precisión términos relevantes. El rendimiento de cada modelo fue evaluado rigurosamente usando protocolos de evaluación establecidos.

Selección Final del Mejor Modelo

Para identificar el modelo más efectivo para uso continuo, el equipo comparó el rendimiento de los modelos finales en un conjunto de prueba separado. La evaluación mostró que un modelo superó consistentemente a los demás, validando su selección para futuras aplicaciones.

Conclusión

Los desafíos de anotar manualmente la literatura relacionada con proteínas son significativos, pero el enfoque tomado en este proyecto demuestra cómo un pequeño equipo de expertos puede crear efectivamente un corpus de alta calidad para entrenar sistemas automatizados. El proceso iterativo de refinar el modelo, junto con evaluaciones y retroalimentación continuas, resultó en una herramienta poderosa para identificar información vital en la literatura biomédica.

Este trabajo no solo contribuye a una comprensión más profunda de las estructuras de proteínas, sino que también establece un precedente sobre cómo se puede llevar a cabo la investigación futura en esta área. La naturaleza de acceso abierto de los datos y modelos asegura que la comunidad científica pueda beneficiarse de los hallazgos y utilizar los resultados en campos relacionados, avanzando en última instancia nuestro conocimiento colectivo de los sistemas biológicos.

Fuente original

Título: Human-in-the-loop approach to identify functionally important residues of proteins from literature

Resumen: We present a novel system that leverages curators in the loop to develop a dataset and model for detecting residue-level functional annotations and other protein structure features from standard publication text. Our approach involves the integration of data from multiple resources, including PDBe, EuropePMC, PubMedCentral, and PubMed, combined with annotation guidelines from UniProt, while employing LitSuggest and Huggingface models as tools in the annotation process. A team of seven annotators manually curated ten articles for named entities, which we utilized to train a starting PubmedBert model from Huggingface. Using a human-in-the-loop annotation system, we developed the best model with commendable performance metrics of 0.90 for precision, 0.92 for recall, and 0.91 for F1-measure. Our proposed system showcases a successful synergy of machine learning techniques and human expertise in curating a dataset for residue-level functional annotations and protein structure features. The results demonstrate the potential for broader applications in protein research, bridging the gap between advanced machine learning models and the indispensable insights of domain experts.

Autores: Melanie Vollmar, S. Tirunagari, D. Harrus, D. Armstrong, R. Gaborova, D. Gupta, M. Q. L. Afonso, G. L. Evans, S. Velankar

Última actualización: 2024-03-13 00:00:00

Idioma: English

Fuente URL: https://www.biorxiv.org/content/10.1101/2024.03.09.583700

Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.03.09.583700.full.pdf

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares