Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Informatica distribuita, parallela e in cluster# Calcolo e linguaggio# Biblioteche digitali# Recupero delle informazioni

Digitalizzazione e Scoperta della Conoscenza negli Uffici Brevetti

Esplorare il ruolo dei microservizi nella scoperta della conoscenza per le domande di brevetto.

― 6 leggere min


Gestire la Conoscenza neiGestire la Conoscenza neiBrevetticon architettura a microservizi.Migliorare il trattamento dei brevetti
Indice

Il primo passo per le organizzazioni che si muovono nel mondo digitale è la digitalizzazione. Questo significa trasformare documenti cartacei e altri registri analogici in formati digitali. Anche se questo è un passo importante, avere più file digitali non significa sempre che le informazioni contenute siano facili da accedere o utilizzare. Spesso, le aziende si ritrovano con un sacco di dati ma poca conoscenza utile. La Scoperta della conoscenza (KD) mira a prendere dati digitalizzati e trovare intuizioni preziose. Questo documento discute le sfide della KD e come l'uso dell'architettura a Microservizi può aiutare a affrontare questi problemi.

L'importanza dei Microservizi

L'architettura a microservizi scompone le applicazioni in parti più piccole e indipendenti che possono essere sviluppate e gestite separatamente. Questo approccio permette alle organizzazioni di essere più flessibili e reattive ai cambiamenti. Ogni microservizio può concentrarsi su una funzione specifica, come estrarre parole chiave dai documenti, controllare quanto siano simili due documenti o permettere agli utenti di cercare informazioni usando il linguaggio naturale. In questo modo, se una parte ha un problema, non compromette l'intero sistema.

Sfide Chiave nella Scoperta della Conoscenza

Le organizzazioni di oggi si trovano a dover gestire enormi quantità di dati provenienti da diverse fonti. Per esempio, l'Ufficio Brevetti Europeo ha riportato un aumento significativo nel numero di domande di brevetto negli ultimi anni. Questo aumento presenta sfide per i sistemi che gestiscono queste informazioni. Man mano che arrivano più domande, gli esaminatori dei brevetti devono esaminare vari documenti per trovare informazioni pertinenti. Il tempo necessario per esaminare i brevetti è aumentato, richiedendo agli esaminatori di avere una notevole quantità di conoscenza.

Caso Studio: L'Ufficio Brevetti

Per illustrare le sfide, consideriamo uno scenario ipotetico in un ufficio brevetti. Un'esaminatrice di nome Julia è responsabile della valutazione delle nuove domande di brevetto. Quando riceve una nuova domanda, questa viene automaticamente classificata e le parole chiave vengono assegnate. Questo processo l'aiuta a comprendere il contenuto principale della domanda. Tuttavia, Julia deve comunque cercare tra molte altre domande di brevetto per trovare documenti simili.

Attualmente, Julia può ottenere un elenco di domande comparabili basato su parole chiave o digitare una richiesta in linguaggio semplice. Questo processo di ricerca aiuta nel suo lavoro di classificazione, ma può ancora richiedere tempo. Si affida anche all'ontologia, che è un modo strutturato di comprendere le relazioni tra concetti diversi, per aiutarla nelle sue comparazioni.

Domande di Ricerca

Per comprendere meglio le necessità e le sfide in questo campo, sono state sollevate diverse domande chiave:

  1. Quali difficoltà affrontano i lavoratori della conoscenza nei flussi di lavoro attuali per le domande e le esaminazioni dei brevetti?
  2. Quali caratteristiche dovrebbero avere i sistemi di conoscenza per soddisfare le esigenze pratiche nella gestione delle domande di brevetto?
  3. Come possiamo costruire un sistema di KD che soddisfi i requisiti della classificazione e dell'esaminazione dei brevetti futuri?

Lavori Correlati

Nell'ambito della ricerca sui sistemi informativi, la KD è un argomento ampiamente studiato. Modi automatizzati per elaborare dati non strutturati-come le domande di brevetto-sono particolarmente importanti. Questo include la classificazione dei documenti, il recupero di informazioni rilevanti e il collaudo dei risultati. Anche se esistono vari approcci architetturali, non molti si concentrano specificamente sulla KD basata su documenti. La maggior parte degli esempi di architettura a microservizi si riferisce ad applicazioni ampie senza identificare le sfide della KD.

Modello Concettuale per la Scoperta della Conoscenza

Il sistema proposto mira ad affrontare le sfide della KD utilizzando un'architettura a microservizi. I componenti chiave includono:

  1. Elaborazione dei Documenti: Questa parte include servizi che determinano le parole chiave dai documenti e calcolano le somiglianze tra di essi.

  2. Querying: Questa funzionalità consente agli utenti di eseguire ricerche standard per parole chiave e di utilizzare query in linguaggio naturale per trovare informazioni specifiche.

  3. Apprendimento dell'Ontologia: Un servizio che crea relazioni strutturate tra diversi concetti trovati nei documenti.

  4. Gestione dell'Ontologia: Questo permette agli utenti di modificare e visualizzare le ontologie create dal sistema.

Microservizi per l'Elaborazione dei Documenti

Nell'Elaborazione dei Documenti, il primo passo consiste nel convertire vari formati di file in testo leggibile dalla macchina. Successivamente, il sistema estrae le parole chiave dal testo. Un servizio di calcolo delle somiglianze controlla i nuovi documenti rispetto a quelli esistenti per trovare contenuti correlati. Il design consente elevate prestazioni, poiché calcola le somiglianze quando i nuovi documenti vengono integrati piuttosto che durante le richieste degli utenti.

Microservizi per le Query

Il microservizio di Querying offre diversi modi per recuperare informazioni. Gli utenti possono eseguire ricerche standard o utilizzare il linguaggio naturale per domande più complesse. Questo design separa le funzionalità in diversi servizi, permettendo operazioni più fluide anche se una parte incontra problemi.

Apprendimento e Gestione dell'Ontologia

Il servizio di Apprendimento dell'Ontologia si concentra sul riconoscimento dei sinonimi, sulla generazione di concetti e sull'estrazione delle relazioni tra quei concetti. Il servizio di Generazione di Regole crea regole basate sulle informazioni raccolte. La Gestione dell'Ontologia consente agli utenti di modificare e visualizzare queste strutture, assicurandosi che la conoscenza rimanga organizzata e accessibile.

Comunicazione tra Microservizi

Per un funzionamento efficace, la comunicazione tra questi microservizi è fondamentale. Questo avviene su tre livelli:

  1. Comunicazione Esterna: Coinvolge i clienti che interagiscono con le interfacce pubbliche dei servizi tramite servizi web standard.
  2. Comunicazione Cross-Domain: Avviene tra diversi sottodomini, consentendo loro di scambiarsi informazioni secondo necessità.
  3. Comunicazione Interna: Si svolge all'interno dei singoli microservizi per garantire che possano elaborare e gestire i dati correttamente.

Modelli di Dati per il Sistema

Il sistema utilizza modelli di dati sia interni che esterni. Il modello di dati interno gestisce l'elaborazione dei dati all'interno dei microservizi. Assicura un'identificazione coerente dei documenti e delle informazioni derivate da essi. Il modello di dati esterno viene utilizzato per la comunicazione con i clienti, definendo come i dati siano strutturati quando condivisi con utenti esterni.

Networking e Sicurezza

Per mantenere un funzionamento fluido, un servizio di discovery monitora i microservizi disponibili e gestisce la loro integrazione. Un servizio gateway protegge le interfacce non pubbliche da accessi non autorizzati. Servizi aggiuntivi si occupano dell'autenticazione degli utenti e della persistenza dei dati.

Testing e Valutazione del Sistema

Per valutare quanto bene il sistema raggiunga i suoi obiettivi, possono essere condotti vari test. Ad esempio, caricare documenti in diversi formati dovrebbe funzionare senza problemi tramite l'API fornita. Una volta caricati i documenti, il sistema dovrebbe automaticamente estrarre testo e parole chiave. Anche il componente di visualizzazione deve funzionare correttamente, collegandosi agli strumenti di gestione dell'ontologia esistenti.

Conclusione e Lavoro Futuro

Implementare la scoperta della conoscenza basata su documenti con un'architettura a microservizi offre chiari vantaggi. Aiuta organizzazioni come gli uffici brevetti a gestire volumi elevati di dati in modo più efficace. Estraendo parole chiave e controllando le somiglianze tra documenti, i lavoratori della conoscenza possono diventare più efficienti. Ricerche future potrebbero concentrarsi sul perfezionamento del processo di apprendimento dell'ontologia ed esplorare come compiti più piccoli di elaborazione del linguaggio naturale possano essere suddivisi in microservizi.

Questo approccio continuerà a evolversi, mirando a soddisfare le esigenze continuative delle organizzazioni basate sulla conoscenza e garantendo che possano tenere il passo con la crescente quantità di dati che gestiscono.

Fonte originale

Titolo: A Document-based Knowledge Discovery with Microservices Architecture

Estratto: The first step towards digitalization within organizations lies in digitization - the conversion of analog data into digitally stored data. This basic step is the prerequisite for all following activities like the digitalization of processes or the servitization of products or offerings. However, digitization itself often leads to 'data-rich' but 'knowledge-poor' material. Knowledge discovery and knowledge extraction as approaches try to increase the usefulness of digitized data. In this paper, we point out the key challenges in the context of knowledge discovery and present an approach to addressing these using a microservices architecture. Our solution led to a conceptual design focusing on keyword extraction, similarity calculation of documents, database queries in natural language, and programming language independent provision of the extracted information. In addition, the conceptual design provides referential design guidelines for integrating processes and applications for semi-automatic learning, editing, and visualization of ontologies. The concept also uses a microservices architecture to address non-functional requirements, such as scalability and resilience. The evaluation of the specified requirements is performed using a demonstrator that implements the concept. Furthermore, this modern approach is used in the German patent office in an extended version.

Autori: Habtom Kahsay Gidey, Mario Kesseler, Patrick Stangl, Peter Hillmann, Andreas Karcher

Ultimo aggiornamento: 2024-06-13 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.00053

Fonte PDF: https://arxiv.org/pdf/2407.00053

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili