Kollaborative Fortschritte in der biomedizinischen NLP-Verarbeitung
Industrie und Wissenschaft arbeiten zusammen für bessere biomedizinische Datenverarbeitung.
― 6 min Lesedauer
Inhaltsverzeichnis
Biomedizinische Natural Language Processing (NLP) ist wichtig, kann aber für viele Forscher ganz schön knifflig sein. Das liegt oft an der riesigen Menge an vielfältigem Text, der verarbeitet werden muss. Um das zu bewältigen, werden ständig neue Tools und Lösungen entwickelt und verbessert. In diesem Artikel wird beschrieben, wie Industrie und Wissenschaft zusammengearbeitet haben, um eine effiziente Methode zur Verarbeitung biomedizinischer Daten zu schaffen und wichtige Entitäten und Beziehungen in wissenschaftlicher Literatur zu identifizieren.
Die Herausforderung
Ein Wettbewerb namens LitCoin NLP Challenge drehte sich darum, Informationen aus wissenschaftlichen Artikeln zu extrahieren. Der Wettbewerb fand 2022 statt und umfasste etwa 200 Teams. Die Teilnehmer sollten wissenschaftliche Konzepte aus Forschungsarbeiten herausarbeiten. Sie mussten Entitäten wie Krankheiten, Chemikalien und Organismen im Text identifizieren. Ausserdem sollten sie Beziehungen zwischen diesen Entitäten finden und diese als neu oder bereits bestehend klassifizieren.
Der Teamansatz
Unser Team kombinierte die Stärken aus der akademischen und der Industrie-Seite. Wir verwendeten Tools, die von einer Datenengineering-Firma entwickelt wurden, um die Daten effizient zu verarbeiten. Nebenbei nutzten wir akademische Systeme, die dafür konzipiert sind, benannte Entitäten zu erkennen und Beziehungen zu extrahieren. Dieser Ansatz erlaubte uns, eine umfassende Pipeline zu schaffen, um die riesigen Datenmengen des Wettbewerbs zu verarbeiten.
Datenverarbeitung
Biomedizinische Daten kommen in vielen Formen, was die Arbeit damit komplex und herausfordernd machen kann. Egal, ob aus einfachem Text oder strukturierten Wissensgraphen, die Daten müssen gut organisiert sein, bevor sie nützlich werden können. Angesichts der grossen Datenmengen im biomedizinischen Bereich war es für uns wichtig, flexible Lösungen zu entwickeln, die verschiedene Formate effizient verarbeiten können.
Der Industriepartner stellte eine Reihe von Befehlen zur Verfügung, um flexible Programme zu erstellen. Diese Programme funktionieren gut mit jeder Art von Textdaten und sind auf Geschwindigkeit und Effizienz ausgelegt. Viele dieser Befehle sind besser als traditionelle Betriebssystem-Tools und ermöglichen es uns, robuste Datenverarbeitungspipelines schnell aufzubauen.
NER)
Named-Entity Recognition (Der erste Schritt in unserem Prozess war die Erkennung benannter Entitäten. Wir wollten spezifische Arten von Entitäten im Text identifizieren, wie Krankheiten, Chemikalien und Organismen. Wenn in einem Satz zum Beispiel "metachromatische Leukodystrophie" erwähnt wurde, war es unser Ziel, das als Krankheit zu erkennen.
Dazu nutzten wir eine Vielzahl von Datensätzen, die bereits markierte Informationen über verschiedene Entitäten enthielten. Wir formatierten diese Datensätze, um den Anforderungen unserer Modelle gerecht zu werden. Nach der Vorbereitung der Daten bauten wir sechs verschiedene Modelle auf, die auf einem Tool namens PubMedBERT basierten. Jedes Modell konzentrierte sich darauf, eine Art von Entität zu erkennen. Dann trainierten wir diese Modelle mit den vorbereiteten Datensätzen.
Wie NER funktionierte
Der Prozess begann damit, dass wir die Rohdaten in ein bestimmtes Format umwandelten und verschiedene Datenquellen in eine Datei zusammenführten. Wir nutzten die Befehle des Industriepartners, um die Daten schnell vorzubereiten und zu organisieren. Diese effiziente Einrichtung ermöglichte es uns, Modelle zu erstellen, die genau verschiedene Entitäten in neuem Text erkennen konnten.
Wir trainierten die Modelle und konzentrierten uns darauf, mehrere Parameter wie Lernraten und Batch-Grössen zu optimieren. Danach testeten wir die Modelle an einem separaten Datensatz, um sicherzustellen, dass sie die Entitäten korrekt erkannten. Die Modelle verarbeiteten Sätze, um Erwähnungen von Krankheiten, Chemikalien oder anderen relevanten Begriffen zu finden.
RE)
Relation Extraction (Nachdem wir die Entitäten identifiziert hatten, war der nächste Schritt, Beziehungen zwischen ihnen zu finden. Das beinhaltete zu bestimmen, wie verschiedene Entitäten miteinander verbunden sind, zum Beispiel, ob ein Medikament eine bestimmte Krankheit beeinflusst. Jede Beziehung wurde in spezifische Typen klassifiziert, wie "Positive Korrelation" oder "Negative Korrelation", und als "Neu" oder "Nicht Neu" gekennzeichnet.
Der Prozess der Beziehungsextraktion umfasste mehrere Schritte. Zuerst bereiteten wir die Daten vor, um sicherzustellen, dass sie relevanten Kontext beinhalteten. Dann bauten wir Modelle, um Beziehungen basierend auf den in vorherigen Schritten erkannten Entitäten zu identifizieren. Durch die Nutzung etablierter Ontologien konnten wir unser Verständnis dafür bereichern, wie Entitäten miteinander in Beziehung stehen.
Wie RE funktionierte
Für den zweiten Teil der Herausforderung verknüpften wir nach der Datenvorbereitung die Daten mit bestehenden Ontologien, die zusätzlichen Kontext für die beteiligten Entitäten bieten. Zum Beispiel verbanden wir Krankheiten und chemische Entitäten mit medizinischen Klassifikationen.
Wir verwendeten ein spezifisches System, das fortgeschrittene Techniken nutzte, um Beziehungen zu verstehen. Es verarbeitete das gesamte Abstract und suchte nach potenziellen Beziehungen zwischen den Entitäten. Der Ansatz erlaubte es uns, das vorhandene Wissen aus externen Quellen zu nutzen, um die Genauigkeit unserer Ergebnisse zu verbessern.
Ergebnisse und Bewertung
In beiden Teilen der Herausforderung hielten wir uns an strenge Bewertungsrichtlinien. Der erste Teil des Wettbewerbs konzentrierte sich auf die Erkennung von Entitäten, während sich der zweite Teil mit der Identifizierung von Beziehungen befasste. Unser Team erzielte signifikante Ergebnisse und gewann einen Preis für unseren kombinierten Ansatz im Wettbewerb.
Unsere Pipeline zur Entitätserkennung arbeitete gut und erzielte hohe Werte im Vergleich zu anderen Teams. Auch die Beziehungsextraktion erbrachte positive Ergebnisse, obwohl es immer Verbesserungspotenzial gibt. Wir erkannten, dass unsere Modelle effektiv arbeiteten, aber Fortschritte in der Technologie deren Leistung weiter verbessern könnten.
Zukünftige Verbesserungen
Für die Zukunft wollen wir unsere Modelle zur Entitätserkennung verfeinern, indem wir die Trainingsdatensätze erweitern und verbessern. Es besteht Bedarf, verschiedene Techniken zu erkunden, um die Klassifizierung von Entitäten und Beziehungen zu optimieren. Die Integration zusätzlicher externer Datenquellen könnte zu besserer Genauigkeit und Effizienz führen.
Wir haben auch vor, weiterhin mit den Industrie-Tools zu arbeiten, die sich im Wettbewerb als nützlich erwiesen haben. Zu erkunden, wie diese weiter in unsere NLP-Aufgaben integriert werden können, wird eine Priorität sein. Diese Zusammenarbeit könnte zu innovativen Lösungen für die Verarbeitung biomedizinischer Daten in zukünftigen Projekten führen.
Fazit
Die präsentierte Arbeit spiegelt eine starke Zusammenarbeit zwischen Industrie und Wissenschaft wider. Indem wir effiziente Datenverarbeitungstools und Modelle zur Erkennung von Entitäten und zur Beziehungsextraktion nutzen, haben wir erfolgreich eine bedeutende Herausforderung im biomedizinischen Bereich bewältigt. Die Ergebnisse des Wettbewerbs zeigten das Potenzial, unterschiedliche Fachbereiche zu kombinieren, um die Forschung im Bereich der Natural Language Processing voranzutreiben.
Die Erfahrungen aus diesem Projekt werden unsere zukünftigen Bemühungen leiten, insbesondere bei der Erweiterung von Datensätzen und der Verfeinerung unserer Ansätze zur Leistungssteigerung. Diese Zusammenarbeit stellt einen Fortschritt in unserer Fähigkeit dar, biomedizinische Literatur in grösserem Massstab zu analysieren und zu nutzen.
Titel: LASIGE and UNICAGE solution to the NASA LitCoin NLP Competition
Zusammenfassung: Biomedical Natural Language Processing (NLP) tends to become cumbersome for most researchers, frequently due to the amount and heterogeneity of text to be processed. To address this challenge, the industry is continuously developing highly efficient tools and creating more flexible engineering solutions. This work presents the integration between industry data engineering solutions for efficient data processing and academic systems developed for Named Entity Recognition (LasigeUnicage\_NER) and Relation Extraction (BiOnt). Our design reflects an integration of those components with external knowledge in the form of additional training data from other datasets and biomedical ontologies. We used this pipeline in the 2022 LitCoin NLP Challenge, where our team LasigeUnicage was awarded the 7th Prize out of approximately 200 participating teams, reflecting a successful collaboration between the academia (LASIGE) and the industry (Unicage). The software supporting this work is available at \url{https://github.com/lasigeBioTM/Litcoin-Lasige_Unicage}.
Autoren: Pedro Ruas, Diana F. Sousa, André Neves, Carlos Cruz, Francisco M. Couto
Letzte Aktualisierung: 2023-08-10 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2308.05609
Quell-PDF: https://arxiv.org/pdf/2308.05609
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://github.com/lasigeBioTM/Litcoin-Lasige_Unicage
- https://unicage.eu/
- https://doi.org/10.48550/arxiv.2212.13647
- https://ncats.nih.gov/funding/challenges/litcoin
- https://pypi.org/project/bconv/
- https://github.com/spyysalo/standoff2conll
- https://turkunlp.org/Cell-line-recognition/
- https://www.ncbi.nlm.nih.gov/mesh/
- https://www.ebi.ac.uk/ols/ontologies/ncbitaxon
- https://dest.rd.ciencias.ulisboa.pt/