Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação distribuída, paralela e em cluster# Computação e linguagem# Bibliotecas digitais# Recuperação de informação

Digitalização e Descoberta de Conhecimento em Escritórios de Patentes

Explorando o papel dos microserviços na descoberta de conhecimento para pedidos de patente.

― 7 min ler


Gerenciando ConhecimentoGerenciando Conhecimentoem Patentescom arquitetura de microsserviços.Aprimorando o processamento de patentes
Índice

O primeiro passo para as organizações que estão entrando no mundo digital é a digitalização. Isso significa transformar documentos em papel e outros registros analógicos em formatos digitais. Embora esse seja um passo importante, ter mais arquivos digitais não quer dizer que a informação neles seja fácil de acessar ou usar. Muitas vezes, as empresas acabam com um monte de dados, mas pouca informação útil. A Descoberta de Conhecimento (KD) tem como objetivo pegar os dados digitalizados e encontrar insights valiosos a partir deles. Este texto discute os desafios da KD e como usar a arquitetura de Microserviços pode ajudar a enfrentar esses problemas.

A Importância dos Microserviços

A arquitetura de microserviços divide aplicações em partes menores e independentes que podem ser desenvolvidas e gerenciadas separadamente. Essa abordagem permite que as organizações sejam mais flexíveis e rápidas em se adaptar a mudanças. Cada microserviço pode focar em uma função específica, como extrair palavras-chave de documentos, verificar como dois documentos são semelhantes ou permitir que os usuários busquem informações usando linguagem natural. Assim, se uma parte apresentar problemas, não derruba todo o sistema.

Desafios Chave na Descoberta de Conhecimento

As organizações de hoje lidam com quantidades enormes de dados de diferentes fontes. Por exemplo, o Escritório Europeu de Patentes relatou um aumento significativo no número de pedidos de patentes nos últimos anos. Esse aumento traz desafios para os sistemas que gerenciam essas informações. Com mais pedidos chegando, os examinadores de patentes precisam vasculhar vários documentos para encontrar informações relevantes. O tempo gasto para examinar patentes aumentou, exigindo que os examinadores tenham um conhecimento substancial.

Estudo de Caso: O Escritório de Patentes

Para ilustrar os desafios, pense em um cenário hipotético em um escritório de patentes. Uma examinadora chamada Julia é responsável por avaliar novos pedidos de patente. Quando ela recebe um novo pedido, ele é classificado automaticamente, e palavras-chave são atribuídas a ele. Esse processo ajuda ela a entender o conteúdo principal do pedido. No entanto, Julia ainda precisa procurar por muitos outros pedidos de patentes para encontrar documentos semelhantes.

Atualmente, Julia pode obter uma lista de pedidos comparáveis com base em palavras-chave ou digitar um pedido em linguagem simples. Esse processo de busca ajuda em seu trabalho de classificação, mas pode ainda ser demorado. Ela também depende da ontologia, que é uma maneira estruturada de entender as relações entre diferentes conceitos, para ajudar em suas comparações.

Perguntas de Pesquisa

Para entender melhor as necessidades e desafios nesse campo, foram levantadas algumas perguntas chave:

  1. Quais dificuldades os trabalhadores do conhecimento enfrentam nos fluxos de trabalho atuais para pedidos e exames de patentes?
  2. Quais recursos os sistemas de conhecimento devem ter para atender às necessidades práticas no manuseio de pedidos de patentes?
  3. Como podemos construir um sistema de KD que atenda às exigências futuras de classificação e exame de patentes?

Trabalhos Relacionados

Na área de pesquisa em sistemas de informação, a KD é um tema amplamente estudado. Maneiras automatizadas de processar dados não estruturados - como pedidos de patentes - são especialmente importantes. Isso inclui classificar documentos, recuperar informações relevantes e testar os achados. Embora existam várias abordagens arquitetônicas, não muitas se concentram especificamente na KD baseada em documentos. A maioria dos exemplos de arquitetura de microserviços se relaciona a aplicações amplas sem focar nos desafios da KD.

Modelo Conceitual para Descoberta de Conhecimento

O sistema proposto visa abordar os desafios da KD utilizando a arquitetura de microserviços. Os componentes principais incluem:

  1. Processamento de Documentos: Essa parte inclui serviços que determinam palavras-chave a partir de documentos e computam as semelhanças entre eles.

  2. Consulta: Esse recurso permite que os usuários realizem buscas padrão por palavras-chave e utilizem consultas em linguagem natural para encontrar informações específicas.

  3. Aprendizado de Ontologia: Um serviço que cria relações estruturadas entre diferentes conceitos encontrados em documentos.

  4. Gerenciamento de Ontologia: Isso permite que os usuários editem e visualizem as ontologias criadas pelo sistema.

Microserviços para Processamento de Documentos

No Processamento de Documentos, o primeiro passo envolve converter vários formatos de arquivos em texto legível por máquina. Depois disso, o sistema extrai palavras-chave do texto. Um serviço de computação de similaridade verifica os novos documentos em relação aos existentes para encontrar conteúdos relacionados. O design permite alto desempenho, pois calcula similaridades quando novos documentos são integrados, em vez de durante os pedidos dos usuários.

Microserviços para Consulta

O microserviço de Consulta oferece várias maneiras de recuperar informações. Os usuários podem realizar buscas padrão ou usar linguagem natural para consultas mais complexas. Esse design separa as funcionalidades em diferentes serviços, permitindo operações mais suaves mesmo que uma parte encontre problemas.

Aprendizado e Gerenciamento de Ontologia

O serviço de Aprendizado de Ontologia se concentra em reconhecer sinônimos, gerar conceitos e extrair relações entre esses conceitos. O serviço de Geração de Regras cria regras com base nas informações coletadas. O Gerenciamento de Ontologia permite que os usuários editem e visualizem essas estruturas, garantindo que o conhecimento permaneça organizado e acessível.

Comunicação Entre Microserviços

Para um funcionamento eficaz, a comunicação entre esses microserviços é vital. Isso ocorre em três níveis:

  1. Comunicação Externa: Envolve clientes interagindo com as interfaces públicas dos serviços via serviços web padrão.
  2. Comunicação entre Domínios: Ocorre entre diferentes subdomínios, permitindo que troquem informações conforme necessário.
  3. Comunicação Interna: Acontece dentro de microserviços individuais para garantir que possam processar e gerenciar dados corretamente.

Modelos de Dados para o Sistema

O sistema utiliza tanto modelos de dados internos quanto externos. O modelo de dados interno gerencia o processamento de dados dentro dos microserviços. Ele garante a identificação consistente de documentos e das informações derivadas deles. O modelo de dados externo é usado para comunicação com os clientes, definindo como os dados são estruturados quando compartilhados com usuários externos.

Rede e Segurança

Para manter um funcionamento suave, um serviço de descoberta rastreia os microserviços disponíveis e gerencia sua integração. Um serviço de gateway protege interfaces não públicas contra acessos não autorizados. Serviços adicionais gerenciam a autenticação de usuários e a persistência de dados.

Testes e Avaliação do Sistema

Para avaliar como o sistema atende seus objetivos, vários testes podem ser realizados. Por exemplo, o upload de documentos em diferentes formatos deve funcionar sem problemas via API fornecida. Uma vez que os documentos são carregados, o sistema deve automaticamente extrair texto e palavras-chave. O componente de visualização também deve funcionar corretamente, vinculando-se às ferramentas de gerenciamento de ontologia existentes.

Conclusão e Trabalhos Futuros

Implementar a descoberta de conhecimento baseada em documentos com uma arquitetura de microserviços traz benefícios claros. Isso ajuda organizações como escritórios de patentes a gerenciar grandes volumes de dados de maneira mais eficaz. Ao extrair palavras-chave e verificar semelhanças entre documentos, os trabalhadores do conhecimento podem se tornar mais eficientes. Pesquisas futuras podem se concentrar em aprimorar o processo de aprendizado de ontologia e explorar como pequenas tarefas de processamento de linguagem natural poderiam ser divididas em microserviços.

Essa abordagem continuará a evoluir, visando atender às necessidades contínuas das organizações baseadas em conhecimento e garantindo que elas possam acompanhar a quantidade cada vez maior de dados que gerenciam.

Fonte original

Título: A Document-based Knowledge Discovery with Microservices Architecture

Resumo: The first step towards digitalization within organizations lies in digitization - the conversion of analog data into digitally stored data. This basic step is the prerequisite for all following activities like the digitalization of processes or the servitization of products or offerings. However, digitization itself often leads to 'data-rich' but 'knowledge-poor' material. Knowledge discovery and knowledge extraction as approaches try to increase the usefulness of digitized data. In this paper, we point out the key challenges in the context of knowledge discovery and present an approach to addressing these using a microservices architecture. Our solution led to a conceptual design focusing on keyword extraction, similarity calculation of documents, database queries in natural language, and programming language independent provision of the extracted information. In addition, the conceptual design provides referential design guidelines for integrating processes and applications for semi-automatic learning, editing, and visualization of ontologies. The concept also uses a microservices architecture to address non-functional requirements, such as scalability and resilience. The evaluation of the specified requirements is performed using a demonstrator that implements the concept. Furthermore, this modern approach is used in the German patent office in an extended version.

Autores: Habtom Kahsay Gidey, Mario Kesseler, Patrick Stangl, Peter Hillmann, Andreas Karcher

Última atualização: 2024-06-13 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.00053

Fonte PDF: https://arxiv.org/pdf/2407.00053

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes