Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Computación distribuida, paralela y en clústeres# Computación y lenguaje# Bibliotecas digitales# Recuperación de información

Digitalización y Descubrimiento de Conocimiento en Oficinas de Patentes

Explorando el papel de los microservicios en el descubrimiento de conocimiento para aplicaciones de patentes.

― 7 minilectura


Gestionando elGestionando elConocimiento en Patentescon arquitectura de microservicios.Mejorando el procesamiento de patentes
Tabla de contenidos

El primer paso para las organizaciones que entran en el mundo digital es la digitalización. Esto significa convertir documentos en papel y otros registros analógicos en formatos digitales. Aunque este es un paso importante, simplemente tener más archivos digitales no siempre significa que la información contenida en ellos sea fácil de acceder o usar. A menudo, las empresas terminan con muchos datos pero no con mucho conocimiento útil. El Descubrimiento de Conocimiento (KD) busca tomar datos digitalizados y encontrar información valiosa de ellos. Este documento habla sobre los desafíos del KD y cómo usar una arquitectura de Microservicios puede ayudar a enfrentar estos problemas.

La Importancia de los Microservicios

La arquitectura de microservicios descompone las aplicaciones en partes más pequeñas e independientes que se pueden desarrollar y gestionar por separado. Este enfoque permite a las organizaciones ser más flexibles y responder más rápido a los cambios. Cada microservicio puede enfocarse en una función específica, como extraer palabras clave de documentos, comprobar cuán similares son dos documentos, o permitir que los usuarios busquen información usando lenguaje natural. Así, si una parte tiene un problema, no afecta al sistema completo.

Desafíos Clave en el Descubrimiento de Conocimiento

Las organizaciones hoy en día manejan enormes cantidades de datos de diferentes fuentes. Por ejemplo, la Oficina Europea de Patentes ha informado de un aumento significativo en el número de solicitudes de patentes en los últimos años. Este incremento presenta desafíos para los sistemas que gestionan esta información. A medida que llegan más solicitudes, los examinadores de patentes necesitan clasificar varios documentos para encontrar la información relevante. El tiempo que se tarda en examinar patentes ha aumentado, requiriendo que los examinadores tengan un buen nivel de conocimiento.

Estudio de Caso: La Oficina de Patentes

Para ilustrar los desafíos, consideremos un escenario hipotético en una oficina de patentes. Una examinadora llamada Julia es responsable de evaluar nuevas solicitudes de patentes. Cuando recibe una nueva solicitud, se clasifica automáticamente y se le asignan palabras clave. Este proceso la ayuda a entender el contenido principal de la solicitud. Sin embargo, Julia todavía tiene que buscar entre muchas otras solicitudes de patentes para encontrar documentos similares.

Actualmente, Julia puede obtener una lista de solicitudes comparables basadas en palabras clave o escribir una solicitud en lenguaje simple. Este proceso de búsqueda ayuda en su trabajo de clasificación, pero aún puede consumir tiempo. También se basa en la ontología, que es una manera estructurada de entender las relaciones entre diferentes conceptos, para ayudarla en sus comparaciones.

Preguntas de Investigación

Para entender mejor las necesidades y desafíos en este campo, se plantearon varias preguntas clave:

  1. ¿Qué dificultades enfrentan los trabajadores del conocimiento en los flujos de trabajo actuales para solicitudes y exámenes de patentes?
  2. ¿Qué características deben tener los sistemas de conocimiento para satisfacer las necesidades prácticas en el manejo de solicitudes de patentes?
  3. ¿Cómo podemos construir un sistema de KD que cumpla con los requisitos de clasificación y examen de patentes del futuro?

Trabajo Relacionado

En el área de investigación de sistemas de información, el KD es un tema ampliamente estudiado. Las formas automatizadas de procesar datos no estructurados-como las solicitudes de patentes-son especialmente importantes. Esto incluye la clasificación de documentos, la recuperación de información relevante y la prueba de los hallazgos. Aunque existen diversos enfoques arquitectónicos, no muchos se centran específicamente en el KD basado en documentos. La mayoría de los ejemplos de arquitectura de microservicios se relacionan con aplicaciones amplias sin señalar los desafíos del KD.

Modelo Conceptual para el Descubrimiento de Conocimiento

El sistema propuesto busca abordar los desafíos del KD utilizando una arquitectura de microservicios. Los componentes clave incluyen:

  1. Procesamiento de Documentos: Esta parte incluye servicios que determinan palabras clave de los documentos y calculan las similitudes entre ellos.

  2. Consulta: Esta función permite a los usuarios realizar búsquedas estándar de palabras clave y utilizar consultas en lenguaje natural para encontrar información específica.

  3. Aprendizaje de Ontología: Un servicio que crea relaciones estructuradas entre diferentes conceptos encontrados en documentos.

  4. Gestión de Ontología: Esto permite a los usuarios editar y visualizar las ontologías creadas por el sistema.

Microservicios para el Procesamiento de Documentos

En el Procesamiento de Documentos, el primer paso implica convertir varios formatos de archivo en texto legible por máquina. Después, el sistema extrae palabras clave del texto. Un servicio de cálculo de similitud verifica los nuevos documentos contra los existentes para encontrar contenido relacionado. El diseño permite un alto rendimiento, ya que calcula similitudes cuando se integran nuevos documentos en lugar de durante las solicitudes de los usuarios.

Microservicios para Consultas

El microservicio de Consulta ofrece varias formas de recuperar información. Los usuarios pueden realizar búsquedas estándar o emplear lenguaje natural para consultas más complejas. Este diseño separa las funcionalidades en diferentes servicios, permitiendo operaciones más fluidas incluso si una parte encuentra problemas.

Aprendizaje y Gestión de Ontología

El servicio de Aprendizaje de Ontología se centra en reconocer sinónimos, generar conceptos y extraer relaciones entre esos conceptos. El servicio Generador de Reglas crea reglas basadas en la información recopilada. La Gestión de Ontología permite a los usuarios editar y visualizar estas estructuras, asegurando que el conocimiento permanezca organizado y accesible.

Comunicación Entre Microservicios

Para un funcionamiento efectivo, la comunicación entre estos microservicios es vital. Esto se hace en tres niveles:

  1. Comunicación Externa: Involucra a los clientes interactuando con las interfaces públicas de los servicios a través de servicios web estándar.
  2. Comunicación Cruce-Dominio: Ocurre entre diferentes subdominios, permitiendo que intercambien información según sea necesario.
  3. Comunicación Interna: Se lleva a cabo dentro de los microservicios individuales para asegurar que puedan procesar y gestionar datos correctamente.

Modelos de Datos para el Sistema

El sistema utiliza modelos de datos internos y externos. El modelo de datos interno gestiona el procesamiento de datos dentro de los microservicios. Asegura la identificación consistente de documentos y la información derivada de ellos. El modelo de datos externo se utiliza para la comunicación con los clientes, definiendo cómo se estructura la información cuando se comparte con usuarios externos.

Redes y Seguridad

Para mantener un funcionamiento suave, un servicio de descubrimiento rastrea los microservicios disponibles y gestiona su integración. Un servicio de puerta de enlace protege las interfaces no públicas de accesos no autorizados. Servicios adicionales manejan la autenticación de usuarios y la persistencia de datos.

Pruebas y Evaluación del Sistema

Para evaluar qué tan bien cumple el sistema con sus objetivos, se pueden realizar varias pruebas. Por ejemplo, subir documentos en diferentes formatos debería funcionar sin problemas a través de la API proporcionada. Una vez que los documentos están subidos, el sistema debería extraer automáticamente texto y palabras clave. El componente de visualización también debe funcionar correctamente, vinculándose a herramientas existentes de gestión de ontología.

Conclusión y Trabajo Futuro

Implementar descubrimiento de conocimiento basado en documentos con una arquitectura de microservicios trae claros beneficios. Ayuda a organizaciones como las oficinas de patentes a gestionar grandes volúmenes de datos de manera más efectiva. Al extraer palabras clave y verificar similitudes entre documentos, los trabajadores del conocimiento pueden volverse más eficientes. La investigación futura podría centrarse en refinar el proceso de aprendizaje de ontología y explorar cómo tareas más pequeñas de procesamiento de lenguaje natural podrían descomponerse en microservicios.

Este enfoque seguirá evolucionando, buscando satisfacer las necesidades continuas de las organizaciones basadas en conocimiento y asegurando que puedan mantenerse al día con la creciente cantidad de datos que manejan.

Fuente original

Título: A Document-based Knowledge Discovery with Microservices Architecture

Resumen: The first step towards digitalization within organizations lies in digitization - the conversion of analog data into digitally stored data. This basic step is the prerequisite for all following activities like the digitalization of processes or the servitization of products or offerings. However, digitization itself often leads to 'data-rich' but 'knowledge-poor' material. Knowledge discovery and knowledge extraction as approaches try to increase the usefulness of digitized data. In this paper, we point out the key challenges in the context of knowledge discovery and present an approach to addressing these using a microservices architecture. Our solution led to a conceptual design focusing on keyword extraction, similarity calculation of documents, database queries in natural language, and programming language independent provision of the extracted information. In addition, the conceptual design provides referential design guidelines for integrating processes and applications for semi-automatic learning, editing, and visualization of ontologies. The concept also uses a microservices architecture to address non-functional requirements, such as scalability and resilience. The evaluation of the specified requirements is performed using a demonstrator that implements the concept. Furthermore, this modern approach is used in the German patent office in an extended version.

Autores: Habtom Kahsay Gidey, Mario Kesseler, Patrick Stangl, Peter Hillmann, Andreas Karcher

Última actualización: 2024-06-13 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2407.00053

Fuente PDF: https://arxiv.org/pdf/2407.00053

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares