Vorstellung von ClaimCompare: Ein Tool für Patent-Einzigartigkeit
ClaimCompare hilft dabei, verwandte Patente zu finden, die die Einzigartigkeit einer Erfindung beeinflussen.
― 6 min Lesedauer
Inhaltsverzeichnis
Wenn jemand ein Patent anmeldet, ist es wichtig zu checken, ob es schon existierende Patente gibt, die die neue Erfindung nicht einzigartig machen könnten. Dieser Prozess wird sowohl von den Erfindern als auch von den Patenteprüfern durchgeführt. Sie wollen sicherstellen, dass die neue Idee wirklich originell ist. Allerdings kann diese Suche ziemlich zeitaufwendig und kompliziert sein, weil sie viel technische Sprache und juristische Begriffe umfasst. Um das einfacher zu machen, gibt es automatisierte Methoden, die Technologie nutzen, um diese verwandten Patente zu finden. Leider wurde in diesem Bereich nicht viel Forschung betrieben.
Die ClaimCompare-Pipeline
Wir präsentieren ein neues Tool namens ClaimCompare. Damit können Datensätze erstellt werden, die genutzt werden können, um Systeme zu trainieren, die Patente identifizieren, die die Einzigartigkeit einer neuen Erfindung beeinflussen könnten. Das ist das erste Tool seiner Art, das mehrere Datensätze für diesen Zweck generieren kann. Wir konzentrieren uns auf einen speziellen Bereich, das elektrochemische Feld, und nutzen über 27.000 Patente, um zu zeigen, wie dieses Tool funktioniert. Für jedes dieser Patente identifizieren wir verwandte Patente, die möglicherweise nicht mehr einzigartig sind, und kennzeichnen sie entsprechend.
Die Bedeutung von Patentsuchen
Patentsuchen beinhalten verschiedene Aufgaben wie die Sicherstellung der Freiheit zum Operieren, Überprüfung auf Patentierbarkeit und Bewertung der Gültigkeit von Patenten. Unter diesen sind Patentrecherchen entscheidend, weil sie bestimmen, ob eine Erfindung neu und nicht offensichtlich ist. In den USA gelten vorherige Patente als „Neuheits vernichtend“, wenn sie alle Teile von mindestens einem Anspruch der neuen Erfindung abdecken.
Traditionell werden diese Suchen manuell durchgeführt, was bedeutet, dass komplexe Suchanfragen formuliert und zahlreiche Dokumente durchgesehen werden müssen. Da die Anzahl der Patente weiter wächst, wird die manuelle Suchmethode immer unpraktischer. Deshalb gibt es ein wachsendes Interesse an modernen Technologien wie Informationsretrieval und maschinellem Lernen, um den Suchprozess zu verbessern.
Beiträge von ClaimCompare
Bei der Entwicklung von ClaimCompare nutzen wir öffentliche Daten vom US Patent and Trademark Office, um unsere Datensätze zu erstellen. Der Hauptfokus unseres Tools liegt darauf, Patente zu identifizieren, die die Neuheit zerstören, anstatt alle verwandten Literatur zu berücksichtigen.
- Wir haben ClaimCompare erstellt, das es Nutzern ermöglicht, massgeschneiderte Datensätze im Zusammenhang mit der Patent-Einzigartigkeit zu generieren.
- Wir haben einen Beispiel-Datensatz von 27.000 Patenten erstellt, bei denen etwa 1.045 Basispatente mit jeweils 25 verwandten Patenten verknüpft sind. Von diesen wurden viele als potenziell neuheitsvernichtend gekennzeichnet.
- Wir haben die Wirksamkeit unseres Datensatzes getestet, indem wir Maschinenlernmodelle feinjustiert haben, um zu sehen, wie gut sie neuheitsvernichtende Patente identifizieren konnten. Die Ergebnisse zeigten signifikante Verbesserungen im Vergleich zu bestehenden Modellen.
Unser Ziel ist, dass ClaimCompare in der Generierung anderer Datensätze verwendet wird, die sowohl allgemeine Kategorien als auch spezifische Bereiche fokussieren. Das wird helfen, verschiedene Modelle zu trainieren, um die Bewertung der Patent-Einzigartigkeit zu verbessern.
Der ClaimCompare-Prozess
ClaimCompare beginnt mit Seed-Abfragen, die verwendet werden, um relevante Patente aus den öffentlichen Daten des USPTO zu sammeln. Wenn wir zum Beispiel eine Phrase wie „Redox-Flow-Batterie“ verwenden, können wir Dokumente zu dieser Technologie abrufen. Das Tool sammelt wichtige Details wie Antrags- und Publikationsnummern, Zusammenfassungen und Ansprüche der Patente.
Als nächstes finden wir Patente, die als neuheitsvernichtend zitiert werden, indem wir Büroaktionen des USPTO überprüfen. Wenn eine bestimmte Büroaktion eine 102-Abweisung erwähnt, können wir das relevante Patent aus diesem Text extrahieren. Diese Methode macht die Pipeline effizient und erreicht eine hohe Erfolgsquote.
Für die negativen Proben sammeln wir Schlüsselwörter aus den Zusammenfassungen der Basispatente und suchen nach verwandten Patenten, um den Datensatz auszugleichen. Allerdings halten wir den Datensatz absichtlich unausgeglichen, da es normalerweise mehr relevante Patente gibt als solche, die die Einzigartigkeit zerstören.
Datensatzstruktur
Der Datensatz, den wir erstellt haben, umfasst 1.045 Patente, von denen 357 mindestens ein verwandtes Patent haben, das seine Neuheit möglicherweise zerstören könnte. Während einige Basispatente mehrere neuheitsvernichtende verwandte Patente haben, haben wir sichergestellt, dass unsere Datensatzstruktur das reale Ungleichgewicht von relevanten und neuheitsvernichtenden Patenten widerspiegelt.
Diese Struktur dient zwei Zwecken: Sie spiegelt den tatsächlichen Stand von Patentsuchen wider und ermöglicht es uns zu erkunden, wie dieses Ungleichgewicht die Modellleistung bei der Identifizierung neuheitsvernichtender Patente beeinflusst.
Experimentelle Einrichtung
Um die Effektivität unseres Datensatzes zu bewerten, bereiteten wir ihn für das Training von Maschinenlernmodellen vor. Die Daten wurden in ein Format umgewandelt, in dem jedes Basispatent mit seinen verwandten Patenten gepaart ist. Wir verwendeten eine bestimmte Strategie, um den Datensatz in Trainings-, Validierungs- und Testsets zu splitten. Das hilft sicherzustellen, dass die Modelle nicht von denselben Patenten lernen, gegen die sie getestet werden.
In unserer Trainingsphase verwendeten wir ein spezifisches Modell, das für die Sequenzklassifizierung konzipiert wurde. Wir wählten ein kompaktes Modell namens DistilRoBERTa, das gut für solche Aufgaben geeignet ist. Über mehrere Trainingsrunden haben wir das Modell feinjustiert, um seine Genauigkeit zu verbessern.
Modellbewertung
Nach dem Training haben wir getestet, wie gut das Modell mit neuen Daten funktionierte. Anstatt nur einzelne Paare von Patenten zu überprüfen, schauten wir uns Gruppen von Patenten an, um zu sehen, ob eines von ihnen als neuheitsvernichtend betrachtet wurde. Das ermöglichte uns eine bessere Messung der Modellleistung.
Wir berechneten Metriken wie die durchschnittliche Präzision und die Fläche unter der Kurve, um zu bewerten, wie gut die Modelle funktionierten. Die Ergebnisse zeigten, dass unsere feinjustierten Modelle signifikant besser abschnitten als Basismodelle, die nicht speziell auf unserem Datensatz trainiert wurden.
Einschränkungen und zukünftige Richtungen
Obwohl wir mit den Ergebnissen zufrieden waren, gibt es einige Einschränkungen. Der Abstand zwischen den Basis- und den feinjustierten Modellen zeigt, dass es Raum für Verbesserungen gibt. In zukünftigen Arbeiten planen wir, unsere Modelle mit solchen zu vergleichen, die auf breiteren juristischen Daten trainiert wurden.
Wir haben auch festgestellt, dass unsere Modelle möglicherweise nicht genug gefordert werden von den negativen Proben, da sie zu einfach zu unterscheiden waren. Wir müssen untersuchen, wie wir komplexere Beispiele finden können, die die Modelle besser testen würden.
Zusätzlich ermutigen wir Forscher, ClaimCompare zu nutzen, um weitere Datensätze in verschiedenen technischen Bereichen zu erstellen. Die Verwendung von Klassifizierungscodes anstelle von Schlüsselwörtern könnte helfen, eine breitere Vielfalt an Patenten zu sammeln.
Fazit
ClaimCompare ist ein neues Tool, das entwickelt wurde, um Datensätze zur Bewertung der Patent-Einzigartigkeit zu generieren. Durch die Nutzung öffentlich verfügbarer Ressourcen zielt es darauf ab, den Prozess der Identifizierung potenziell schädlicher vorheriger Patente zu straffen. Die bisherigen Ergebnisse deuten darauf hin, dass dieses Tool das Potenzial hat, die Forschung im Bereich Patentretrieval erheblich zu verbessern.
Indem wir es einfacher machen, die Neuheit von Patenten zu bewerten, hoffen wir, die Zeit und Kosten, die mit Patentsuchen verbunden sind, zu verringern. Das wird sowohl Erfindern, Anwälten als auch Prüfern helfen, das Patentsystem effektiver zu navigieren. Mit dem weiteren technologischen Fortschritt könnten Tools wie ClaimCompare den Zugang zu wertvollen Patentinformationen demokratisieren und den Patentprozess für alle Beteiligten reibungsloser gestalten.
Titel: ClaimCompare: A Data Pipeline for Evaluation of Novelty Destroying Patent Pairs
Zusammenfassung: A fundamental step in the patent application process is the determination of whether there exist prior patents that are novelty destroying. This step is routinely performed by both applicants and examiners, in order to assess the novelty of proposed inventions among the millions of applications filed annually. However, conducting this search is time and labor-intensive, as searchers must navigate complex legal and technical jargon while covering a large amount of legal claims. Automated approaches using information retrieval and machine learning approaches to detect novelty destroying patents present a promising avenue to streamline this process, yet research focusing on this space remains limited. In this paper, we introduce a novel data pipeline, ClaimCompare, designed to generate labeled patent claim datasets suitable for training IR and ML models to address this challenge of novelty destruction assessment. To the best of our knowledge, ClaimCompare is the first pipeline that can generate multiple novelty destroying patent datasets. To illustrate the practical relevance of this pipeline, we utilize it to construct a sample dataset comprising of over 27K patents in the electrochemical domain: 1,045 base patents from USPTO, each associated with 25 related patents labeled according to their novelty destruction towards the base patent. Subsequently, we conduct preliminary experiments showcasing the efficacy of this dataset in fine-tuning transformer models to identify novelty destroying patents, demonstrating 29.2% and 32.7% absolute improvement in MRR and P@1, respectively.
Autoren: Arav Parikh, Shiri Dori-Hacohen
Letzte Aktualisierung: 2024-07-16 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.12193
Quell-PDF: https://arxiv.org/pdf/2407.12193
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://github.com/RIET-lab/claim-compare
- https://developer.uspto.gov/api-catalog/bulk-search-and-download
- https://developer.uspto.gov/api-catalog/uspto-office-action-citations-api-beta
- https://patents.google.com
- https://huggingface.co/distilbert/distilroberta-base
- https://huggingface.co/anferico/bert-for-patents