Digitalisierung und Wissensentdeckung in Patentämtern
Die Rolle von Mikrodiensten bei der Wissensentdeckung für Patentanmeldungen erkunden.
― 6 min Lesedauer
Inhaltsverzeichnis
- Die Bedeutung von Microservices
- Zentrale Herausforderungen der Wissensentdeckung
- Fallstudie: Das Patentamt
- Forschungsfragen
- Verwandte Arbeiten
- Konzeptuelles Modell für Wissensentdeckung
- Microservices für die Dokumentenverarbeitung
- Microservices für Abfragen
- Ontologie-Lernen und -Management
- Kommunikation zwischen Microservices
- Datenmodelle für das System
- Vernetzung und Sicherheit
- Testen und Evaluierung des Systems
- Fazit und zukünftige Arbeiten
- Originalquelle
Der erste Schritt für Organisationen, die in die digitale Welt eintreten, ist die Digitalisierung. Das bedeutet, Papierdokumente und andere analoge Aufzeichnungen in digitale Formate umzuwandeln. Auch wenn das ein wichtiger Schritt ist, heisst mehr digitale Dateien nicht immer, dass die darin enthaltenen Informationen leicht zugänglich oder nutzbar sind. Oft haben Unternehmen eine Menge Daten, aber nicht viel nützliches Wissen. Wissensentdeckung (KD) zielt darauf ab, digitalisierte Daten zu nehmen und wertvolle Einblicke daraus zu gewinnen. Dieses Paper bespricht die Herausforderungen der KD und wie die Nutzung von Microservices-Architektur helfen kann, diese Probleme anzugehen.
Die Bedeutung von Microservices
Die Microservices-Architektur zerlegt Anwendungen in kleinere, unabhängige Teile, die separat entwickelt und verwaltet werden können. Dieser Ansatz ermöglicht es Organisationen, flexibler und reaktionsschneller auf Änderungen zu sein. Jeder Microservice kann sich auf eine spezifische Funktion konzentrieren, wie z.B. Schlüsselwörter aus Dokumenten zu extrahieren, zu überprüfen, wie ähnlich zwei Dokumente sind, oder den Nutzern zu ermöglichen, Informationen in natürlicher Sprache zu suchen. So sorgt man dafür, dass, wenn ein Teil ein Problem hat, das ganze System nicht zusammenbricht.
Zentrale Herausforderungen der Wissensentdeckung
Organisationen stehen heute vor riesigen Datenmengen aus verschiedenen Quellen. Zum Beispiel hat das Europäische Patentamt in den letzten Jahren einen signifikanten Anstieg der Patentanmeldungen gemeldet. Dieser Anstieg stellt Herausforderungen für die Systeme dar, die diese Informationen verwalten. Je mehr Anmeldungen eingehen, desto mehr müssen die Patentexaminatoren durch viele Dokumente sortieren, um relevante Informationen zu finden. Die Zeit, die benötigt wird, um Patente zu prüfen, hat zugenommen, was von den Examinatoren einiges an Wissen verlangt.
Fallstudie: Das Patentamt
Um die Herausforderungen zu veranschaulichen, betrachten wir ein hypothetisches Szenario in einem Patentamt. Eine Prüferin namens Julia ist verantwortlich für die Bewertung neuer Patentanmeldungen. Wenn sie eine neue Anmeldung erhält, wird diese automatisch klassifiziert und ihr werden Schlüsselwörter zugewiesen. Dieser Prozess hilft ihr, den Kerninhalt der Anmeldung zu verstehen. Dennoch muss Julia weiterhin durch viele andere Patentanmeldungen suchen, um ähnliche Dokumente zu finden.
Momentan kann Julia entweder eine Liste vergleichbarer Anmeldungen basierend auf Schlüsselwörtern erhalten oder eine Anfrage in einfacher Sprache eingeben. Dieser Suchprozess unterstützt ihre Klassifizierungsarbeit, kann aber trotzdem zeitaufwändig sein. Sie stützt sich auch auf die Ontologie, die eine strukturierte Art und Weise ist, die Beziehungen zwischen verschiedenen Konzepten zu verstehen, um ihre Vergleiche zu unterstützen.
Forschungsfragen
Um die Bedürfnisse und Herausforderungen in diesem Bereich besser zu verstehen, wurden mehrere zentrale Fragen aufgeworfen:
- Mit welchen Schwierigkeiten haben Wissensarbeiter in den aktuellen Arbeitsabläufen für Patentanmeldungen und -prüfungen zu kämpfen?
- Welche Funktionen sollten Wissenssysteme haben, um praktische Bedürfnisse bei der Handhabung von Patentanmeldungen zu erfüllen?
- Wie können wir ein KD-System aufbauen, das die Anforderungen zukünftiger Patentklassifikation und -prüfung erfüllt?
Verwandte Arbeiten
Im Bereich der Informationssystemforschung wird KD intensiv studiert. Automatisierte Methoden zur Verarbeitung unstrukturierter Daten – wie Patentanmeldungen – sind besonders wichtig. Dazu gehört das Klassifizieren von Dokumenten, das Abrufen relevanter Informationen und das Testen der Ergebnisse. Während es verschiedene architektonische Ansätze gibt, konzentrieren sich nur wenige speziell auf dokumentenbasierte KD. Die meisten Beispiele für Microservices-Architekturen beziehen sich auf breite Anwendungen, ohne die Herausforderungen der KD spezifisch anzugehen.
Konzeptuelles Modell für Wissensentdeckung
Das vorgeschlagene System zielt darauf ab, KD-Herausforderungen durch die Nutzung einer Microservices-Architektur zu adressieren. Die Schlüsselkomponenten umfassen:
Dokumentenverarbeitung: Dieser Teil umfasst Dienste, die Schlüsselwörter aus Dokumenten bestimmen und die Ähnlichkeiten zwischen ihnen berechnen.
Abfragen: Diese Funktion ermöglicht es Nutzern, standardisierte Suchen nach Schlüsselwörtern durchzuführen und natürliche Sprachabfragen zu nutzen, um spezifische Informationen zu finden.
Ontologie-Lernen: Ein Dienst, der strukturierte Beziehungen zwischen verschiedenen in Dokumenten gefundenen Konzepten erstellt.
Ontologie-Management: Dies ermöglicht es Nutzern, die vom System erstellten Ontologien zu bearbeiten und zu visualisieren.
Microservices für die Dokumentenverarbeitung
In der Dokumentenverarbeitung besteht der erste Schritt darin, verschiedene Dateiformate in maschinenlesbaren Text umzuwandeln. Danach extrahiert das System Schlüsselwörter aus dem Text. Ein Dienst zur Ähnlichkeitsberechnung prüft die neuen Dokumente gegen vorhandene, um verwandte Inhalte zu finden. Das Design sorgt für hohe Leistung, da Ähnlichkeiten ermittelt werden, wenn neue Dokumente integriert werden, anstatt während der Benutzeranfragen.
Microservices für Abfragen
Der Abfrage-Microservice bietet mehrere Möglichkeiten, Informationen abzurufen. Nutzer können standardisierte Suchen durchführen oder natürliche Sprache für komplexere Anfragen verwenden. Dieses Design trennt die Funktionen in verschiedene Dienste, was reibungslosere Abläufe ermöglicht, selbst wenn ein Teil Probleme hat.
Ontologie-Lernen und -Management
Der Ontologie-Lern-Service konzentriert sich darauf, Synonyme zu erkennen, Konzepte zu generieren und Beziehungen zwischen diesen Konzepten zu extrahieren. Der Regel-Generierungsdienst erstellt Regeln basierend auf den gesammelten Informationen. Das Ontologie-Management ermöglicht es Nutzern, diese Strukturen zu bearbeiten und zu visualisieren, um sicherzustellen, dass das Wissen organisiert und zugänglich bleibt.
Kommunikation zwischen Microservices
Für eine effektive Funktion ist die Kommunikation zwischen diesen Microservices entscheidend. Dies geschieht auf drei Ebenen:
- Externe Kommunikation: Beinhaltet Kunden, die mit den öffentlichen Schnittstellen der Dienste über Standard-Webdienste interagieren.
- Domänenübergreifende Kommunikation: Findet zwischen verschiedenen Subdomänen statt, die es ihnen ermöglicht, Informationen nach Bedarf auszutauschen.
- Interne Kommunikation: Findet innerhalb der einzelnen Microservices statt, um sicherzustellen, dass sie Daten korrekt verarbeiten und verwalten können.
Datenmodelle für das System
Das System nutzt sowohl interne als auch externe Datenmodelle. Das interne Datenmodell verwaltet die Datenverarbeitung innerhalb der Microservices. Es sorgt für eine konsistente Identifikation der Dokumente und der aus ihnen abgeleiteten Informationen. Das externe Datenmodell wird für die Kommunikation mit Kunden verwendet und definiert, wie Daten strukturiert sind, wenn sie mit externen Nutzern geteilt werden.
Vernetzung und Sicherheit
Um einen reibungslosen Betrieb aufrechtzuerhalten, verfolgt ein Entdeckungsdienst die verfügbaren Microservices und verwaltet deren Integration. Ein Gateway-Service schützt nicht-öffentliche Schnittstellen vor unbefugtem Zugriff. Weitere Dienste kümmern sich um die Benutzerautorisierung und Datenpersistenz.
Testen und Evaluierung des Systems
Um zu bewerten, wie gut das System seine Ziele erreicht, können verschiedene Tests durchgeführt werden. Zum Beispiel sollten Dokumente in verschiedenen Formaten nahtlos über die bereitgestellte API hochgeladen werden können. Sobald Dokumente hochgeladen sind, sollte das System automatisch Text und Schlüsselwörter extrahieren. Die Visualisierungskomponente muss ebenfalls korrekt funktionieren und mit vorhandenen Ontologie-Management-Tools verknüpft sein.
Fazit und zukünftige Arbeiten
Die Implementierung der dokumentenbasierten Wissensentdeckung mit einer Microservices-Architektur bietet klare Vorteile. Sie hilft Organisationen wie Patentämtern, grosse Datenmengen effektiver zu verwalten. Durch das Extrahieren von Schlüsselwörtern und das Überprüfen von Dokumentenähnlichkeiten können Wissensarbeiter effizienter werden. Zukünftige Forschungen könnten sich darauf konzentrieren, den Prozess des Ontologie-Lernens zu verfeinern und zu erkunden, wie kleinere Aufgaben der natürlichen Sprachverarbeitung in Microservices unterteilt werden könnten.
Dieser Ansatz wird sich weiterentwickeln, um die fortlaufenden Bedürfnisse wissensbasierter Organisationen zu erfüllen und sicherzustellen, dass sie mit der ständig wachsenden Datenmenge, die sie bearbeiten, Schritt halten können.
Titel: A Document-based Knowledge Discovery with Microservices Architecture
Zusammenfassung: The first step towards digitalization within organizations lies in digitization - the conversion of analog data into digitally stored data. This basic step is the prerequisite for all following activities like the digitalization of processes or the servitization of products or offerings. However, digitization itself often leads to 'data-rich' but 'knowledge-poor' material. Knowledge discovery and knowledge extraction as approaches try to increase the usefulness of digitized data. In this paper, we point out the key challenges in the context of knowledge discovery and present an approach to addressing these using a microservices architecture. Our solution led to a conceptual design focusing on keyword extraction, similarity calculation of documents, database queries in natural language, and programming language independent provision of the extracted information. In addition, the conceptual design provides referential design guidelines for integrating processes and applications for semi-automatic learning, editing, and visualization of ontologies. The concept also uses a microservices architecture to address non-functional requirements, such as scalability and resilience. The evaluation of the specified requirements is performed using a demonstrator that implements the concept. Furthermore, this modern approach is used in the German patent office in an extended version.
Autoren: Habtom Kahsay Gidey, Mario Kesseler, Patrick Stangl, Peter Hillmann, Andreas Karcher
Letzte Aktualisierung: 2024-06-13 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2407.00053
Quell-PDF: https://arxiv.org/pdf/2407.00053
Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.