Neuer Datensatz zum Erkennen von Protein-Komplexen
Forscher stellen CoNECo vor, ein Datensatz zur Identifizierung von Namen für Protein-Komplexe.
― 5 min Lesedauer
Inhaltsverzeichnis
In der Welt der Biologie gibt's einen wachsenden Bedarf, komplexe Strukturen aus Proteinen zu verstehen. Diese Strukturen spielen eine entscheidende Rolle dafür, wie Zellen funktionieren. Um diese Protein-Komplexe zu erkennen und zu kategorisieren, entwickeln Forscher neue Methoden und Tools. Eine der grössten Herausforderungen war, dass es an spezifischen Ressourcen mangelt, die die Namen dieser Protein-Komplexe genau erkennen und normalisieren können.
Der Bedarf an einem neuen Korpus
Trotz der Fortschritte in Techniken zur Textanalyse und Informationsgewinnung gab es bisher keine gut gestaltete Ressource, die sich auf Protein-Komplexe konzentriert. Die meisten vorhandenen Ressourcen befassen sich entweder mit menschlichen Proteinen oder sind für andere Aufgaben gedacht. Das schafft eine Lücke, die Forscher füllen müssen, vor allem, weil Protein-Komplexe für viele biologische Prozesse wichtig sind.
CoNECo einführen
Um diese Lücke zu schliessen, haben die Forscher einen neuen Datensatz namens CoNECo vorgeschlagen, was für Complex Named Entity Corpus steht. Dieser Datensatz ist speziell dafür gedacht, die Namen von Protein-Komplexen zu erkennen und zu normalisieren. Die Forscher haben über 1.600 Dokumente annotiert und mehr als 2.000 einzigartige Namen von Protein-Komplexen identifiziert, die dann einem weit verbreiteten Klassifikationssystem namens Gene Ontology zugeordnet werden.
Dokumentenauswahlprozess
Die Erstellung des CoNECo-Korpus begann mit der Auswahl geeigneter Dokumente zur Analyse. Die Forscher konzentrierten sich zuerst auf bereits annotierte Dokumente, die Informationen über Protein-Komplexe enthielten. Das lief in drei Hauptschritten ab:
Nutzung des ComplexTome-Korpus: Dieser Korpus wurde entwickelt, um ein System zu trainieren, das analysiert, wie Proteine physisch interagieren. Dokumente aus diesem Korpus hatten bereits Annotationen für Protein-Komplexe, was sie für CoNECo geeignet machte.
Hinzufügen zusätzlicher Reactome-Abstrakte: Um mehr Dokumente zu zellularer Signalübertragung einzubeziehen, wurden zusätzliche Abstracts aus der Reactome-Datenbank ausgewählt. Das erweiterte die Darstellung von signalbezogenen Themen im Korpus.
Auswahl aus dem Event Extraction-Korpus: Schliesslich wählten die Forscher Abstracts aus, die mit post-translationalen Modifikationen verknüpft waren und mehrere Entitäten enthielten, um sicherzustellen, dass sie sich auf relevante Dokumente zur Signalübertragung konzentrierten.
Annotation der benannten Entitäten
Nachdem die Dokumente ausgewählt waren, konzentrierten sich die Forscher auf die Annotation von Protein-Komplexen. Insgesamt definierten sie eine Art von Entität, die als „proteinhaltiger Komplex“ bekannt ist. Für diese Aufgabe verwendeten sie Gene Ontology als Referenz, die eine breite Reihe von Begriffen zu Protein-Komplexen bereitstellt.
Die Annotationen wurden sorgfältig durchgeführt, um Genauigkeit zu gewährleisten. Das Team folgte spezifischen Richtlinien, um die genauen Textstellen zu markieren, die sich auf Protein-Komplexe bezogen. Sie strebten Konsistenz in der Identifizierung und Normalisierung der Entitäten an. Selbst wenn ein Protein-Komplex erwähnt wurde, aber keinen direkten Treffer in der Gene Ontology hatte, wurde er trotzdem zur Erkennung annotiert.
Qualität und Konsistenz sicherstellen
Um die Qualität der Annotationen zu bestätigen, bewerteten die Forscher einen Teil des Korpus. Sie engagierten zwei Kuratoren, die unabhängig einige Dokumente annotierten und massen deren Übereinstimmung, um hohe Qualitätsstandards sicherzustellen. Ausserdem führten sie Überprüfungen zur Konsistenz zwischen den Namen im Text und denen in der Gene Ontology-Datenbank durch.
NER- und NEN-Ansätze
Die Forscher wandten zwei Hauptmethoden zur Erkennung und Normalisierung benannter Entitäten in CoNECo an: dictionary-basierte und tiefenlernende Ansätze.
Dictionary-basierter Ansatz
Der dictionary-basierte Ansatz verwendete ein etabliertes System namens JensenLab-Tagger, das auf einer vordefinierten Liste von Begriffen basiert, um Entitäten zu identifizieren und zu normalisieren. Sie erstellten ein Wörterbuch, das Begriffe zu Protein-Komplexen aus der Gene Ontology enthielt, sowie zusätzliche Namen aus einer Datenbank namens Complex Portal. Die Wirksamkeit dieser Methode hängt von der Qualität des verwendeten Wörterbuchs ab.
Deep Learning-Ansatz
Andererseits verwendeten die Forscher auch einen Deep Learning-Ansatz mit einem vortrainierten Sprachmodell namens RoBERTa. Dieses Modell ist darauf ausgelegt, den Kontext zu verstehen, in dem Wörter erscheinen, wodurch es potenziell effektiver darin ist, komplexe Entitäten basierend auf dem Training aus dem CoNECo-Datensatz zu identifizieren.
Ergebnisse und Bewertung
Nachdem das CoNECo-Korpus eingerichtet und die Dokumente annotiert waren, bewerteten die Forscher die Leistung beider Methoden. Die Ergebnisse zeigten, dass der Deep Learning-Tagger besser abschnitt als der dictionary-basierte Ansatz. Der Deep Learning-Ansatz erzielte höhere Präzisions- und Erinnerungsraten, obwohl beide Methoden aufgrund der spärlichen Erwähnungen von Protein-Komplexen im Korpus Herausforderungen hatten.
Fehleranalyse
Die Fehleranalyse offenbarte einige gemeinsame Herausforderungen, denen beide Methoden gegenüberstanden. Ein bedeutendes Problem war die Mehrdeutigkeit bei der Benennung, da einige Begriffe sowohl auf einen Protein-Komplex als auch auf ein Gen verweisen können. Diese Verwirrung führte oft zu verpassten Annotationen oder falschen Identifikationen.
Die dictionary-basierte Methode hatte zusätzliche Hindernisse, weil sie stark von der Vollständigkeit des Wörterbuchs abhängt. Wenn ein Komplexname im Wörterbuch fehlte, konnte er nicht erkannt werden, was die Rückrufrate verringerte. Im Gegensatz dazu hatte die Deep Learning-Methode Schwierigkeiten, längere oder spezifischere Namen zu identifizieren, die nicht im Trainingsdatensatz enthalten waren.
Grossangelegte Tagging von Publikationen
Die Forscher erweiterten ihre Arbeit, indem sie die Tagging-Methoden auf eine riesige Anzahl von wissenschaftlichen Artikeln anwendeten. Sie verarbeiteten über 36 Millionen Abstracts aus der PubMed-Datenbank und 6 Millionen Artikel aus den Open-Access-Ressourcen von PubMed Central. Die dictionary-basierte Methode identifizierte Millionen von Übereinstimmungen für Komplexe, während der Deep Learning-Ansatz eine signifikante Anzahl von einzigartigen Namen fand, die im Wörterbuch nicht abgedeckt waren.
Diese grossangelegten Tagging-Bemühungen verdeutlichten die Herausforderungen, die auftreten, wenn unterschiedliche Benennungsrichtlinien oder Synonyme in Referenzquellen nicht angemessen vertreten sind. Die Forscher hoben die Notwendigkeit von fortlaufenden Verbesserungen in den Datenbanken hervor, die für das Training und die Bewertung verwendet werden.
Fazit
Die Einführung des CoNECo-Korpus stellt einen wichtigen Schritt dar, um den Bedarf an spezialisierten Ressourcen zu decken, die Protein-Komplexe erkennen und normalisieren können. Diese Arbeit öffnet die Tür für eine bessere Identifizierung dieser kritischen biologischen Entitäten, was letztlich dazu beiträgt, dass Forscher komplexe zelluläre Funktionen verstehen können. Mit fortlaufenden Bemühungen zur Verfeinerung sowohl der Annotation Prozesse als auch der Methoden zur Erkennung gibt es grosses Potenzial, die Forschung in diesem wichtigen Bereich der Biologie zu verbessern.
Titel: CoNECo: A Corpus for Named Entity recognition and normalization of protein Complexes
Zusammenfassung: MotivationDespite significant progress in biomedical information extraction, there is a lack of resources for Named Entity Recognition (NER) and Normalization (NEN) of protein-containing complexes. Current resources inadequately address the recognition of protein-containing complex names across different organisms, underscoring the crucial need for a dedicated corpus. ResultsWe introduce the Complex Named Entity Corpus (CoNECo), an annotated corpus for NER and NEN of complexes. CoNECo comprises 1,621 documents with 2,052 entities, 1,976 of which are normalized to Gene Ontology. We divided the corpus into training, development, and test sets and trained both a transformer-based and dictionary-based tagger on them. Evaluation on the test set demonstrated robust performance, with F1-scores of 73.7% and 61.2%, respectively. Subsequently, we applied the best taggers for comprehensive tagging of the entire openly accessible biomedical literature. AvailabilityAll resources, including the annotated corpus, training data, and code, are available to the community through Zenodo https://zenodo.org/records/11263147 and GitHub https://zenodo.org/records/10693653.
Autoren: Katerina Nastou, M. Koutrouli, S. Pyysalo, L. J. Jensen
Letzte Aktualisierung: 2024-05-29 00:00:00
Sprache: English
Quell-URL: https://www.biorxiv.org/content/10.1101/2024.05.18.594800
Quell-PDF: https://www.biorxiv.org/content/10.1101/2024.05.18.594800.full.pdf
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an biorxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://katnastou.github.io/annodoc-CoNECo/
- https://ftp.ebi.ac.uk/pub/databases/intact/complex/current/go/complex_portal.v2.gpad
- https://chat.openai.com/g/g-1uV7nfJTA-coneco-gpt-full
- https://chat.openai.com/g/g-Ns0dcCn8c-coneco-gpt-small
- https://chat.openai.com
- https://chat.openai.com/g/g-C6Nx12aEL-coneco-gpt-minimal
- https://katnastou.github.io/annodoc-CoNECo