Fortschrittliche Patentrecherche in chemischen Reaktionen
Eine neue Wissensdatenbank für chemische Patentsuchen soll die Reaktionsextraktion verbessern.
― 7 min Lesedauer
Inhaltsverzeichnis
Die Suche durch Patente ist echt wichtig, vor allem wenn's darum geht, Infos über chemische Erfindungen zu finden. Eine vorgeschlagene Lösung ist eine Wissensdatenbank namens ChemPatKB. Diese Ressource wird Experten helfen, nach früheren Erfindungen zu suchen und neue Wege zu entdecken, wie man chemische Verbindungen herstellt und nutzt. Ein zentraler Teil dieses Projekts ist es, wichtige Textstellen, die Chemische Reaktionen beschreiben, aus langen Patenten herauszufiltern. Das hilft auch bei verwandten Aufgaben wie der Klärung von Verweisen auf Reaktionen und der Identifizierung der Rollen verschiedener chemischer Entitäten.
Vielleicht ist dir aufgefallen, dass jedes Jahr immer mehr Patente veröffentlicht werden. Oft enthalten diese Patente neue Methoden zur Herstellung chemischer Verbindungen, bevor sie in wissenschaftlichen Artikeln veröffentlicht werden. Deshalb sind effektive Werkzeuge zur Suche und Empfehlung von Patenten notwendig. Allerdings gibt es nicht viele Systeme, die Patentempfehlungen ermöglichen. Momentan suchen die meisten Leute nach Patenten über Plattformen wie Google Patents oder das United States Patent and Trademark Office (USPTO). Die Empfehlungen auf diesen Plattformen basieren auf Zitierungen und Themen.
Um die Suche und Empfehlung von Patenten zu verbessern, wollen wir wichtige Informationen aus Patenten zusammen mit öffentlich verfügbaren Wissen aus anderen Quellen nutzen. Hier kommt die Idee für ChemPatKB ins Spiel. Sie wird helfen, durch vergangene Erfindungen zu suchen und einen Ort bieten, an dem Experten Fragen in natürlicher Sprache stellen können.
Die Hauptbestandteile von ChemPatKB umfassen Informationen über Patente, Autoren, Firmen, die die Patente besitzen, chemische Reaktionen, chemische Verbindungen sowie deren Rollen und Eigenschaften. In diesem Projekt konzentrieren wir uns auf die wichtigen Reaktionen, die in Patenten erwähnt werden. Das Verständnis dieser Reaktionen ist entscheidend, da sie wichtige Informationen in langen Patenten hervorheben können. Das Hauptziel der Extraktion von Reaktionen ist es, Textstellen zu identifizieren, die chemische Reaktionen beschreiben.
Während viel Forschung im Bereich Text Mining für chemische Reaktionen sich auf die Erkennung benannter Entitäten (NER) von Chemikalien konzentriert hat, wurde der automatische Fund chemischer Reaktionen aus Patenten weniger beachtet. Eine chemische Reaktion ist ein Prozess, bei dem eine Gruppe chemischer Verbindungen in eine andere umgewandelt wird. Beschreibungen von Reaktionen können die verwendeten Chemikalien, Lösungsmittel, Reagenzien, Reaktionsbedingungen und die entstandenen Produkte beinhalten.
Sobald eine Reaktion identifiziert wird, kann sie als Input für komplexere Aufgaben dienen. Zum Beispiel könnte ein System, das sich auf die Extraktion von Ereignissen konzentriert, jeden Schritt einer Reaktion als einzelnes Ereignis behandeln. Solche Systeme benötigen eine Beschreibung der Reaktion in einem Format, das die Reihenfolge der einzelnen Schritte aufrechterhält. Unser ultimatives Ziel ist es, eine umfassende Datenbank von Reaktionssequenzen zu schaffen, die mehr Themen abdeckt als die derzeit verfügbaren.
Um auf früheren Modellen aufzubauen, führen wir ein neues Einbettungsmodul mit BERT ein, einem beliebten Sprachmodell. Wir experimentieren auch mit Vorhersagen auf Satz- und Absatzebene und ersetzen chemische Namen durch spezielle Tokens, um das Lernen zu verbessern. Unsere Modelle werden mit einem manuell annotierten Datensatz trainiert, und wir testen, wie gut sie sich auf verschiedene Arten von chemischen Patenten generalisieren lassen.
Es wurde nicht viel zu diesem Thema geforscht, aber es ist schon eine Weile in der Untersuchung. Patente gelten als wertvolle Quelle für Informationen über Chemikalien, und viele Forschungen im Bereich der Verarbeitung natürlicher Sprache haben sich darauf konzentriert. Einige frühere Studien haben versucht, chemische Namen und Verfahren für Reaktionen aus der Literatur zu extrahieren. Ein integriertes System wurde entwickelt, um Texte über Reaktionen in chemischen Patenten zu identifizieren und relevante chemische Informationen zu extrahieren, aber dieser Ansatz ist stark auf Regeln und bestehende Bibliotheken der Verarbeitung natürlicher Sprache angewiesen.
Neuere Bemühungen haben sich speziell auf die Extraktion von Reaktionen konzentriert und verschiedene Modelle vorgeschlagen, um gute Ergebnisse zu erzielen. Diese Modelle wurden jedoch auf einem begrenzten Datensatz trainiert, hauptsächlich im Bereich der organischen Chemie. Sie berichteten nicht darüber, wie gut ihre Modelle in verschiedenen Bereichen chemischer Patente abschnitten.
Eine weitere Herausforderung in diesem Bereich ist das Fehlen eines standardisierten Datensatzes, der eine Vielzahl von Reaktionen aus chemischen Patenten umfasst. Der von früheren Forschern verwendete Datensatz stammt aus einer anderen Quelle und bietet möglicherweise kein vollständiges Bild. Kürzlich wurde ein neuer annotierter Datensatz veröffentlicht, der Informationen über Reaktionen aus einer Auswahl von Patenten enthält.
In diesem Projekt versuchen wir, Modelle zur Reaktionsextraktion zu verbessern und auf eine grossangelegte Ressource hinzuarbeiten, die Forscher nutzen können. Wir verwenden den neu veröffentlichten Datensatz zum Trainieren und Testen unserer Modelle, der hauptsächlich aus organischen Chemie-Patenten des Europäischen Patentamts und des United States Patent and Trademark Office besteht. Dieser Datensatz enthält annotierte Patente, die angeben, wo die Reaktionen erwähnt werden.
Jedes Patentdokument besteht aus einer Reihe von Absätzen. Mehrere Absätze können eine einzige Reaktion beschreiben, und es ist wichtig, den Anfang und das Ende des reaktionsbezogenen Textes genau zu identifizieren. Wir definieren unsere Aufgabe als das Erkennen von Abschnitten von Absätzen, die chemische Reaktionen beschreiben, anstatt einfach jeden Absatz als reaktionsbezogen oder nicht zu klassifizieren. Wir spezifizieren die Aufgabe mit einem Tagging-System, bei dem jeder Absatz basierend auf seinem Inhalt etikettiert wird.
Wir basieren unsere Studie auf früheren Modellen, führen jedoch Modifikationen ein, um die Leistung zu verbessern. Die Modelle verwenden einen spezialisierten Tokenizer, um chemische Texte zu zerlegen. Einbettungen für jedes Wort in einem Absatz werden erstellt, und ein einzelner Vektor für den gesamten Absatz wird unter Verwendung einer neuronalen Netzwerkarchitektur erzeugt. Das System gibt Tags für jeden Absatz aus.
In unseren Experimenten verwenden wir zwei Haupttypen von Decodern: trigrammbasierte und BiLSTM-CRF-basierte Modelle. Der erste Typ betrachtet nur den aktuellen Absatz, wenn er Tags vorhersagt, während der zweite Typ die umliegenden Absätze berücksichtigt. Wir stellen fest, dass Modelle, die BiLSTM-CRF verwenden, im Allgemeinen besser abschneiden, da sie besser in der Lage sind, langreichweitige Abhängigkeiten im Text zu erfassen.
Ausserdem ersetzen wir chemische Namen durch ein spezielles Token, damit sich die Modelle auf die Struktur des Textes anstatt auf spezifische Namen konzentrieren können. Das hilft, die Leistung während des Tests zu verbessern. Wir verwenden auch ein Tagging-Tool, um chemische Namen in den Patentschriften zu identifizieren und sie durch das neue Token zu ersetzen.
Zur Bewertung der Modelle verwenden wir strenge Kriterien, wobei eine Ausgabe nur als korrekt angesehen wird, wenn sie genau mit den Start- und Endabsätzen der Referenzspanne übereinstimmt. Wir wenden auch einen nachsichtigen Ansatz an, bei dem Übereinstimmungen gezählt werden, wenn sie innerhalb eines Absatzes der Referenzspanne liegen. Wir berichten über verschiedene Leistungskennzahlen, um zu bewerten, wie gut jedes Modell im Testdatensatz abschneidet.
Wir beginnen damit, verschiedene Ansätze für Patente zu bewerten, die direkt mit unserem Trainingssatz zusammenhängen. Die Ergebnisse der satzbasierten Modelle sind nicht vielversprechend, da sie Schwierigkeiten mit den langen Absätzen haben, die mehrere Reaktionen enthalten können. Wir sehen, dass die Modelle besser abschneiden, wenn sie BiLSTM-CRF verwenden, insbesondere beim Einsatz von feinabgestimmten BERT-Einbettungen.
Wir vergleichen auch die Leistungen der Basis-BERT-Modelle mit denen, die chemisch spezifische Einbettungen verwenden. Während chemisch spezifische Modelle bessere Ergebnisse liefern, stellen wir fest, dass Feinabstimmung die Ergebnisse erheblich verbessern kann.
Schliesslich analysieren wir die Leistungen der Modelle an einer Reihe von Patenten aus verschiedenen Bereichen. Die Modelle zeigen grosses Potenzial, weisen aber auch Schwächen auf, insbesondere beim Abruf von Reaktionen über unterschiedliche Patente hinweg. Die ChemBERT-Modelle performen insgesamt besser, da sie anscheinend die strukturellen Komponenten der Reaktionsbeschreibungen erfassen, selbst wenn Entitäten durch Tokens ersetzt werden.
Abschliessend hat unser Projekt verschiedene Methoden zur Extraktion von Reaktionsbereichen aus chemischen Patenten untersucht und die Generalisierung dieser Modelle über unterschiedliche Patentdokumente bewertet. Wir haben Bereiche für Verbesserungen identifiziert, wie das Bearbeiten längerer Reaktionsbeschreibungen und das genaue Markieren der Grenzen zwischen Reaktionen. In Zukunft wird sich unsere Forschung auf zwei Hauptbereiche konzentrieren: die Erforschung des Multi-Task-Lernens zur besseren Extraktion von Reaktionen und die Erstellung einer umfassenden Datenbank von Reaktionen aus Patenten. Ausserdem gibt es einen Bedarf an einem standardisierten Datensatz mit vielfältigen Patentannotationen, was helfen würde, Fortschritte in diesem Bereich zu fördern und faire Vergleiche zwischen verschiedenen Ansätzen zu ermöglichen. Durch die Fortsetzung dieser Bemühungen wollen wir wertvolle Ressourcen für die Forschungscommunity bereitstellen, die sich für chemische Reaktionen interessiert.
Titel: Chemical Reaction Extraction from Long Patent Documents
Zusammenfassung: The task of searching through patent documents is crucial for chemical patent recommendation and retrieval. This can be enhanced by creating a patent knowledge base (ChemPatKB) to aid in prior art searches and to provide a platform for domain experts to explore new innovations in chemical compound synthesis and use-cases. An essential foundational component of this KB is the extraction of important reaction snippets from long patents documents which facilitates multiple downstream tasks such as reaction co-reference resolution and chemical entity role identification. In this work, we explore the problem of extracting reactions spans from chemical patents in order to create a reactions resource database. We formulate this task as a paragraph-level sequence tagging problem, where the system is required to return a sequence of paragraphs that contain a description of a reaction. We propose several approaches and modifications of the baseline models and study how different methods generalize across different domains of chemical patents.
Autoren: Aishwarya Jadhav, Ritam Dutt
Letzte Aktualisierung: 2024-07-23 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.15124
Quell-PDF: https://arxiv.org/pdf/2407.15124
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.