Nuevo conjunto de datos para reconocer complejos de proteínas
Los investigadores presentan CoNECo, un conjunto de datos para identificar nombres de complejos de proteínas.
― 7 minilectura
Tabla de contenidos
En el mundo de la biología, hay una necesidad creciente de entender estructuras complejas formadas por proteínas. Estas estructuras juegan un papel crucial en cómo funcionan las células. Para identificar y clasificar estos Complejos de proteínas, los investigadores están desarrollando nuevos métodos y herramientas. Uno de los principales desafíos ha sido la falta de recursos específicos que puedan reconocer y normalizar con precisión los nombres de estos complejos de proteínas.
La Necesidad de un Nuevo Corpus
A pesar de los avances en técnicas que analizan texto y extraen información, no ha habido un recurso bien diseñado centrado en complejos de proteínas. La mayoría de los recursos existentes se ocupan de proteínas humanas o están diseñados para tareas diferentes. Esto crea una brecha que los investigadores necesitan llenar, especialmente porque los complejos de proteínas son importantes para muchos procesos biológicos.
Presentamos CoNECo
Para abordar esta brecha, los investigadores propusieron un nuevo conjunto de datos llamado CoNECo, que significa Corpus de Entidad Nombrada Compleja. Este conjunto de datos está diseñado específicamente para reconocer y normalizar los nombres de los complejos de proteínas. Los investigadores anotaron más de 1,600 documentos, identificando más de 2,000 nombres únicos de complejos de proteínas, que luego se vinculan a un sistema de clasificación ampliamente utilizado conocido como Gene Ontology.
Proceso de Selección de Documentos
La creación del corpus CoNECo comenzó con la selección de documentos adecuados para analizar. Los investigadores empezaron por centrarse en documentos anotados existentes que ya contenían algo de información sobre complejos de proteínas. Esto se hizo en tres pasos principales:
Uso del Corpus ComplexTome: Este corpus se diseñó para entrenar un sistema para analizar cómo interactúan físicamente las proteínas. Los documentos de este corpus ya tenían anotaciones para complejos de proteínas, haciéndolos adecuados para CoNECo.
Adición de Abstracts Extra de Reactome: Para incluir más documentos relacionados con la señalización celular, se seleccionaron abstracts adicionales de la base de datos Reactome. Esto amplió la representación de temas relacionados con la señalización en el corpus.
Selección del Corpus de Extracción de Eventos: Por último, los investigadores eligieron abstracts que estaban vinculados a modificaciones post-traduccionales y contenían múltiples entidades, asegurándose de que se centraran en documentos relevantes sobre señalización.
Anotación de Entidades Nombradas
Una vez seleccionados los documentos, los investigadores se centraron en la anotación de complejos de proteínas. En total, definieron un tipo de entidad conocida como "complejo que contiene proteínas". Para esta tarea, utilizaron Gene Ontology como referencia, que proporciona un amplio conjunto de términos relacionados con complejos de proteínas.
Las anotaciones se hicieron con cuidado para asegurar la precisión. El equipo siguió directrices específicas para marcar los tramos exactos de texto que se referían a complejos de proteínas. Buscaban consistencia en cómo se identificaban y normalizaban las entidades. Incluso cuando se mencionaba un complejo de proteínas que no tenía una coincidencia directa en Gene Ontology, todavía se anotaba para su reconocimiento.
Asegurando Calidad y Consistencia
Para confirmar la calidad de las anotaciones, los investigadores evaluaron una porción del corpus. Contrataron a dos curadores para anotar independientemente algunos documentos y midieron su acuerdo para asegurar altos estándares de calidad. También realizaron verificaciones de consistencia entre los nombres en el texto y los de la base de datos de Gene Ontology.
Enfoques de NER y NEN
Los investigadores aplicaron dos métodos principales para reconocer y normalizar entidades nombradas en CoNECo: enfoques basados en diccionarios y enfoques de Aprendizaje Profundo.
Enfoque Basado en Diccionarios
El método basado en diccionarios utilizó un sistema establecido llamado etiqueta JensenLab, que se basa en una lista predeterminada de términos para identificar y normalizar entidades. Crearon un diccionario que contenía términos relacionados con complejos de proteínas de Gene Ontology, junto con nombres adicionales de una base de datos conocida como Complex Portal. La efectividad de este método depende de la calidad del diccionario utilizado.
Enfoque de Aprendizaje Profundo
Por otro lado, los investigadores también emplearon un método de aprendizaje profundo utilizando un modelo de lenguaje preentrenado llamado RoBERTa. Este modelo está diseñado para entender el contexto en el que aparecen las palabras, lo que lo hace potencialmente más efectivo para identificar entidades complejas en base al entrenamiento del conjunto de datos CoNECo.
Resultados y Evaluación
Después de configurar el corpus CoNECo y anotar los documentos, los investigadores evaluaron el rendimiento de ambos métodos. Los resultados mostraron que el etiquetador de aprendizaje profundo funcionó mejor que el enfoque basado en diccionarios. El enfoque de aprendizaje profundo logró tasas de precisión y recuperación más altas, aunque ambos métodos enfrentaron desafíos debido a la escasa naturaleza de las menciones de complejos de proteínas en el corpus.
Análisis de Errores
El análisis de errores reveló algunos desafíos comunes que enfrentaron ambos métodos. Un problema significativo fue la ambigüedad en la nomenclatura, ya que algunos términos pueden referirse a un complejo de proteínas o a un gen. Esta confusión a menudo lleva a anotaciones perdidas o identificaciones incorrectas.
El método basado en diccionarios enfrentó obstáculos adicionales, principalmente porque depende en gran medida de la completitud del diccionario. Si faltaba un nombre de complejo en el diccionario, no podía ser reconocido, lo que reducía la recuperación. Por el contrario, el método de aprendizaje profundo tuvo problemas para identificar nombres más largos o específicos que no estaban incluidos en los datos de entrenamiento.
Etiquetado a Gran Escala de Publicaciones
Los investigadores ampliaron su trabajo aplicando los métodos de etiquetado a una gran cantidad de artículos científicos. Procesaron más de 36 millones de abstracts de la base de datos PubMed y 6 millones de artículos de los recursos de acceso abierto de PubMed Central. El método basado en diccionarios identificó millones de coincidencias de complejos, mientras que el enfoque de aprendizaje profundo encontró una cantidad significativa de nombres únicos que no estaban cubiertos por el diccionario.
Estos esfuerzos de etiquetado a gran escala subrayaron los desafíos que surgen cuando las diferentes convenciones de nomenclatura o sinónimos no están representados adecuadamente en las fuentes de referencia. Los investigadores destacaron la necesidad de seguir mejorando las bases de datos utilizadas para el entrenamiento y la evaluación.
Conclusión
La introducción del corpus CoNECo representa un paso importante hacia la necesidad de recursos especializados que puedan reconocer y normalizar complejos de proteínas. Este trabajo abre la puerta para una mejor identificación de estas entidades biológicas críticas, asistiendo en última instancia a los investigadores en la comprensión de funciones celulares complejas. Con esfuerzos continuos para refinar tanto los procesos de anotación como los métodos de reconocimiento, hay un gran potencial para mejorar la investigación en esta área vital de la biología.
Título: CoNECo: A Corpus for Named Entity recognition and normalization of protein Complexes
Resumen: MotivationDespite significant progress in biomedical information extraction, there is a lack of resources for Named Entity Recognition (NER) and Normalization (NEN) of protein-containing complexes. Current resources inadequately address the recognition of protein-containing complex names across different organisms, underscoring the crucial need for a dedicated corpus. ResultsWe introduce the Complex Named Entity Corpus (CoNECo), an annotated corpus for NER and NEN of complexes. CoNECo comprises 1,621 documents with 2,052 entities, 1,976 of which are normalized to Gene Ontology. We divided the corpus into training, development, and test sets and trained both a transformer-based and dictionary-based tagger on them. Evaluation on the test set demonstrated robust performance, with F1-scores of 73.7% and 61.2%, respectively. Subsequently, we applied the best taggers for comprehensive tagging of the entire openly accessible biomedical literature. AvailabilityAll resources, including the annotated corpus, training data, and code, are available to the community through Zenodo https://zenodo.org/records/11263147 and GitHub https://zenodo.org/records/10693653.
Autores: Katerina Nastou, M. Koutrouli, S. Pyysalo, L. J. Jensen
Última actualización: 2024-05-29 00:00:00
Idioma: English
Fuente URL: https://www.biorxiv.org/content/10.1101/2024.05.18.594800
Fuente PDF: https://www.biorxiv.org/content/10.1101/2024.05.18.594800.full.pdf
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a biorxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://katnastou.github.io/annodoc-CoNECo/
- https://ftp.ebi.ac.uk/pub/databases/intact/complex/current/go/complex_portal.v2.gpad
- https://chat.openai.com/g/g-1uV7nfJTA-coneco-gpt-full
- https://chat.openai.com/g/g-Ns0dcCn8c-coneco-gpt-small
- https://chat.openai.com
- https://chat.openai.com/g/g-C6Nx12aEL-coneco-gpt-minimal
- https://katnastou.github.io/annodoc-CoNECo