Nuovo dataset per riconoscere complessi proteici
I ricercatori presentano CoNECo, un dataset per identificare i nomi dei complessi proteici.
― 6 leggere min
Indice
Nel mondo della biologia, c'è un bisogno crescente di capire le strutture complesse fatte di proteine. Queste strutture giocano un ruolo cruciale nel funzionamento delle cellule. Per identificare e categorizzare questi Complessi proteici, i ricercatori stanno sviluppando nuovi metodi e strumenti. Una delle sfide principali è stata la mancanza di risorse specifiche in grado di riconoscere e normalizzare i nomi di questi complessi proteici.
Il bisogno di un nuovo corpus
Nonostante i progressi nelle tecniche di analisi testuale e di estrazione delle informazioni, non esiste una risorsa ben progettata focalizzata sui complessi proteici. La maggior parte delle risorse attuali si occupa di proteine umane o è progettata per compiti diversi. Questo crea un vuoto che i ricercatori devono colmare, soprattutto dato che i complessi proteici sono importanti per molti processi biologici.
Presentazione di CoNECo
Per affrontare questa mancanza, i ricercatori hanno proposto un nuovo dataset chiamato CoNECo, che sta per Complex Named Entity Corpus. Questo dataset è specificamente progettato per riconoscere e normalizzare i nomi dei complessi proteici. I ricercatori hanno annotato oltre 1.600 documenti, identificando più di 2.000 nomi unici di complessi proteici, che sono poi mappati a un sistema di classificazione ampiamente usato noto come Gene Ontology.
Processo di selezione dei documenti
La creazione del corpus CoNECo è iniziata con la selezione dei documenti appropriati da analizzare. I ricercatori hanno iniziato concentrandosi su documenti annotati esistenti che già contenevano alcune informazioni sui complessi proteici. Questo è stato fatto in tre passaggi principali:
Utilizzo del corpus ComplexTome: Questo corpus era progettato per addestrare un sistema per analizzare come le proteine interagiscono fisicamente. I documenti di questo corpus avevano già annotazioni per i complessi proteici, rendendoli adatti per CoNECo.
Aggiunta di abstract extra da Reactome: Per includere più documenti relativi al segnale cellulare, sono stati selezionati abstract aggiuntivi dal database Reactome. Questo ha ampliato la rappresentanza degli argomenti legati al segnale nel corpus.
Selezione dal corpus di estrazione eventi: Infine, i ricercatori hanno scelto abstract collegati a modificazioni post-traduzionali e contenenti più entità, assicurandosi di concentrarsi su documenti di segnalazione pertinenti.
Annotazione delle entità nominate
Una volta selezionati i documenti, i ricercatori hanno focalizzato l'annotazione dei complessi proteici. In totale, hanno definito un tipo di entità conosciuto come "complesso contenente proteine". Per questo compito, hanno usato Gene Ontology come riferimento, che fornisce un ampio insieme di termini relativi ai complessi proteici.
Le annotazioni sono state fatte con attenzione per garantire precisione. Il team ha seguito linee guida specifiche per contrassegnare gli esatti span di testo che si riferivano ai complessi proteici. Hanno mirato a una coerenza nel modo in cui le entità venivano identificate e normalizzate. Anche quando un complesso proteico veniva menzionato ma non aveva una corrispondenza diretta in Gene Ontology, veniva comunque annotato per il riconoscimento.
Garantire qualità e coerenza
Per confermare la qualità delle annotazioni, i ricercatori hanno valutato una porzione del corpus. Hanno coinvolto due curatori per annotare indipendentemente alcuni documenti e hanno misurato la loro concordanza per garantire standard di alta qualità. Hanno anche effettuato controlli per la coerenza tra i nomi nel testo e quelli nel database di Gene Ontology.
Approcci NER e NEN
I ricercatori hanno applicato due metodi principali per riconoscere e normalizzare le entità nominate in CoNECo: approcci basati su dizionario e su apprendimento profondo.
Approccio basato su dizionario
Il metodo basato su dizionario ha utilizzato un sistema consolidato chiamato JensenLab tagger, che si basa su un elenco predefinito di termini per identificare e normalizzare le entità. Hanno creato un dizionario che conteneva termini relativi ai complessi proteici da Gene Ontology, insieme a nomi aggiuntivi da un database noto come Complex Portal. L'efficacia di questo metodo dipende dalla qualità del dizionario utilizzato.
Approccio di apprendimento profondo
D'altra parte, i ricercatori hanno anche impiegato un metodo di apprendimento profondo usando un modello linguistico pre-addestrato chiamato RoBERTa. Questo modello è progettato per capire il contesto in cui appaiono le parole, rendendolo potenzialmente più efficace nell'identificare entità complesse sulla base dell'addestramento dal dataset CoNECo.
Risultati e valutazione
Dopo aver configurato il corpus CoNECo e annotato i documenti, i ricercatori hanno valutato le prestazioni di entrambi i metodi. I risultati hanno mostrato che il tagger di apprendimento profondo ha performato meglio rispetto all'approccio basato su dizionario. L'approccio di apprendimento profondo ha raggiunto tassi di precisione e richiamo più elevati, anche se entrambi i metodi hanno affrontato sfide a causa della natura scarsa delle menzioni di complessi proteici nel corpus.
Analisi degli errori
L'analisi degli errori ha rivelato alcune sfide comuni affrontate da entrambi i metodi. Un problema significativo era l'ambiguità nei nomi, poiché alcuni termini possono riferirsi sia a un complesso proteico sia a un gene. Questa confusione porta spesso a annotazioni perse o identificazioni errate.
Il metodo basato su dizionario ha affrontato ostacoli aggiuntivi, principalmente perché si affida fortemente alla completezza del dizionario. Se un nome di complesso mancava dal dizionario, non poteva essere riconosciuto, riducendo il richiamo. Al contrario, il metodo di apprendimento profondo ha avuto difficoltà a identificare nomi più lunghi o specifici che non erano inclusi nei dati di addestramento.
Tagging su larga scala delle pubblicazioni
I ricercatori hanno esteso il loro lavoro applicando i metodi di tagging a un numero vasto di articoli scientifici. Hanno elaborato oltre 36 milioni di abstract dal database PubMed e 6 milioni di articoli dalle risorse ad accesso libero di PubMed Central. Il metodo basato su dizionario ha identificato milioni di corrispondenze di complessi, mentre l'approccio di apprendimento profondo ha trovato un numero significativo di nomi unici che non erano coperti dal dizionario.
Queste iniziative di tagging su larga scala hanno evidenziato le sfide che sorgono quando le diverse convenzioni di denominazione o sinonimi non sono rappresentati adeguatamente nelle fonti di riferimento. I ricercatori hanno sottolineato la necessità di continui miglioramenti nei database utilizzati per l'addestramento e la valutazione.
Conclusione
L'introduzione del corpus CoNECo rappresenta un passo importante verso la necessità di risorse specializzate in grado di riconoscere e normalizzare i complessi proteici. Questo lavoro apre la strada a una migliore identificazione di queste entità biologiche critiche, assistendo infine i ricercatori nella comprensione delle complesse funzioni cellulari. Con sforzi continui per affinare sia i processi di annotazione sia i metodi di riconoscimento, c'è un grande potenziale per migliorare la ricerca in quest'area vitale della biologia.
Titolo: CoNECo: A Corpus for Named Entity recognition and normalization of protein Complexes
Estratto: MotivationDespite significant progress in biomedical information extraction, there is a lack of resources for Named Entity Recognition (NER) and Normalization (NEN) of protein-containing complexes. Current resources inadequately address the recognition of protein-containing complex names across different organisms, underscoring the crucial need for a dedicated corpus. ResultsWe introduce the Complex Named Entity Corpus (CoNECo), an annotated corpus for NER and NEN of complexes. CoNECo comprises 1,621 documents with 2,052 entities, 1,976 of which are normalized to Gene Ontology. We divided the corpus into training, development, and test sets and trained both a transformer-based and dictionary-based tagger on them. Evaluation on the test set demonstrated robust performance, with F1-scores of 73.7% and 61.2%, respectively. Subsequently, we applied the best taggers for comprehensive tagging of the entire openly accessible biomedical literature. AvailabilityAll resources, including the annotated corpus, training data, and code, are available to the community through Zenodo https://zenodo.org/records/11263147 and GitHub https://zenodo.org/records/10693653.
Autori: Katerina Nastou, M. Koutrouli, S. Pyysalo, L. J. Jensen
Ultimo aggiornamento: 2024-05-29 00:00:00
Lingua: English
URL di origine: https://www.biorxiv.org/content/10.1101/2024.05.18.594800
Fonte PDF: https://www.biorxiv.org/content/10.1101/2024.05.18.594800.full.pdf
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia biorxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://katnastou.github.io/annodoc-CoNECo/
- https://ftp.ebi.ac.uk/pub/databases/intact/complex/current/go/complex_portal.v2.gpad
- https://chat.openai.com/g/g-1uV7nfJTA-coneco-gpt-full
- https://chat.openai.com/g/g-Ns0dcCn8c-coneco-gpt-small
- https://chat.openai.com
- https://chat.openai.com/g/g-C6Nx12aEL-coneco-gpt-minimal
- https://katnastou.github.io/annodoc-CoNECo