Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Recuperación de información# Inteligencia artificial# Redes sociales y de información

Un Nuevo Enfoque para Medir la Similaridad de Patentes

Combinar el lenguaje y la tecnología ofrece una mejor manera de evaluar similitudes en patentes.

― 6 minilectura


Midiendo la similitud deMidiendo la similitud depatentes de maneraefectivaanálisis de texto y tecnología.Un método híbrido que combina el
Tabla de contenidos

Medir la Similitud entre Patentes es clave para saber qué tan nueva es una invención. Muchos métodos tradicionales dependen de expertos para clasificar las patentes, lo que puede tomar un buen tiempo. Algunas investigaciones han intentado automatizar este proceso, pero la mayoría solo se centra en las palabras de las patentes. Este artículo presenta un nuevo enfoque que combina tanto el lenguaje como la tecnología detrás de las patentes para medir qué tan similares son.

Desafíos en la Medición de Similitud de Patentes

Las patentes contienen lenguaje técnico, lo que hace difícil para quienes no están entrenados en el tema entender rápidamente de qué trata una patente. Un documento de patente tiene varias partes: un título, un resumen, una descripción detallada y reivindicaciones, además de detalles administrativos como números de patente y nombres de inventores. Debido a la complejidad y la jerga técnica, averiguar si una nueva idea es única puede ser lento y costoso.

Existen varios métodos para medir cuán similares son las patentes, incluyendo el análisis de sus propósitos, áreas de aplicación e incluso sus detalles técnicos. Algunos estudios anteriores se han centrado en medir el texto de las patentes, mientras que otros han examinado su información de respaldo, como cuántas veces son citadas por otras patentes.

Métodos Previos

Algunas investigaciones anteriores se centraron en cómo calcular la similitud utilizando palabras clave extraídas de los textos de las patentes. Otros estudios conectaron patentes basándose en citas compartidas. Además, algunos modelos han utilizado las estructuras del lenguaje usado en patentes. Recientemente, los métodos de aprendizaje automático, especialmente usando procesamiento de lenguaje natural (NLP), han ganado popularidad para automatizar esta medición de similitud.

Nuestro Enfoque

Este artículo propone un nuevo método híbrido que mira dos aspectos principales de las patentes: similitudes semánticas y tecnológicas. El aspecto semántico analiza los significados de los textos, mientras que el aspecto tecnológico evalúa las clasificaciones técnicas que tienen las patentes.

Distancia Semántica

Para medir la distancia semántica entre patentes, usamos un modelo que procesa resúmenes y títulos de patentes. Este modelo genera vectores, que son representaciones numéricas de los textos de las patentes. Luego, miramos estos vectores para ver cuán similares son en términos de su significado.

Distancia Tecnológica

Para medir la distancia tecnológica, nos centramos en los códigos de Clasificación Internacional de Patentes (IPC), que categorizan las patentes según su tecnología. Examinamos cuántos códigos IPC se superponen entre dos patentes para evaluar su similitud tecnológica. Esto nos da una vista clara de sus relaciones tecnológicas.

Combinando Similitudes

Para tener una medida de similitud más precisa, combinamos las distancias semántica y tecnológica. Asignamos pesos a cada aspecto para poder crear una puntuación única de similitud. Esta puntuación híbrida nos permite ver tanto cuán similares son los textos como cuán similares son las tecnologías.

Experimento y Evaluación

Para probar nuestro método, usamos patentes otorgadas en Estados Unidos entre 2016 y 2020. Elegimos 420 pares de patentes para nuestra evaluación y tuvimos a expertos que evaluaran sus similitudes basándose en criterios de puntuación definidos. Luego, comparamos los resultados de nuestro método híbrido con otros modelos que solo consideraban el aspecto semántico.

Resultados

Los resultados mostraron que nuestro método híbrido funcionó mejor que los modelos que se centraban solo en la similitud semántica. Esto indica que considerar tanto el lenguaje como la tecnología proporciona una visión más completa de cuán similares son diferentes patentes.

Aplicaciones del Método

Hay varias aplicaciones en el mundo real para nuestro nuevo enfoque de medir la similitud de patentes.

Orientación en Innovación

Este método puede ser una herramienta valiosa para nuevos inventores. Al comenzar un nuevo proyecto, los inventores pueden usar nuestro modelo para evaluar rápidamente la novedad de sus ideas. Al identificar problemas similares que ya han sido resueltos, pueden evitar reinventar la rueda.

Sistemas de Recomendación de Patentes

El nuevo método puede contribuir a crear sistemas de recomendación para patentes. Tales sistemas podrían sugerir patentes relevantes basadas en el proyecto específico o área de interés de un inventor. Esto puede ayudar a entender el panorama de las tecnologías existentes.

Abordando Trolls de Patentes

Los trolls de patentes a menudo explotan patentes similares para reclamar infracción. Nuestro método puede ayudar a analizar las similitudes entre patentes, facilitando la defensa contra reclamos injustos. Al entender las relaciones precisas entre patentes, se pueden formular mejor las estrategias legales.

Análisis de Tendencias

Con la capacidad de medir similitudes de patentes de manera efectiva, también podemos rastrear tendencias en tecnología. Al analizar grupos de patentes similares, los investigadores pueden dibujar mapas del progreso tecnológico e identificar campos emergentes.

Mejoras Futuras

Aunque nuestro método muestra promesas, aún hay formas de mejorarlo.

Modelos NLP Mejorados

Para el aspecto de similitud semántica, usamos una versión común del modelo BERT. Sin embargo, podríamos explorar versiones más avanzadas de BERT que manejen documentos más largos de manera más efectiva. Esto podría mejorar la precisión en la medición de distancias semánticas.

Incorporando Datos Adicionales

También tenemos la oportunidad de mejorar el cálculo de distancia tecnológica al incluir más códigos de clasificación o datos bibliográficos relacionados con las patentes. Esto podría proporcionar una imagen más completa de cómo se relacionan las patentes entre sí.

Conclusión

En un panorama tecnológico que cambia rápidamente, medir la similitud de patentes de manera rápida y precisa es esencial. Nuestro método híbrido ofrece una nueva herramienta para evaluar la novedad de las invenciones al mirar tanto el significado como el trasfondo técnico de las patentes. El buen rendimiento del modelo sugiere que considerar ambos aspectos es clave para un análisis confiable. Con más mejoras, este método podría ofrecer aún mayores beneficios para inventores, investigadores y expertos legales por igual.

Fuente original

Título: A Novel Patent Similarity Measurement Methodology: Semantic Distance and Technological Distance

Resumen: Patent similarity analysis plays a crucial role in evaluating the risk of patent infringement. Nonetheless, this analysis is predominantly conducted manually by legal experts, often resulting in a time-consuming process. Recent advances in natural language processing technology offer a promising avenue for automating this process. However, methods for measuring similarity between patents still rely on experts manually classifying patents. Due to the recent development of artificial intelligence technology, a lot of research is being conducted focusing on the semantic similarity of patents using natural language processing technology. However, it is difficult to accurately analyze patent data, which are legal documents representing complex technologies, using existing natural language processing technologies. To address these limitations, we propose a hybrid methodology that takes into account bibliographic similarity, measures the similarity between patents by considering the semantic similarity of patents, the technical similarity between patents, and the bibliographic information of patents. Using natural language processing techniques, we measure semantic similarity based on patent text and calculate technical similarity through the degree of coexistence of International patent classification (IPC) codes. The similarity of bibliographic information of a patent is calculated using the special characteristics of the patent: citation information, inventor information, and assignee information. We propose a model that assigns reasonable weights to each similarity method considered. With the help of experts, we performed manual similarity evaluations on 420 pairs and evaluated the performance of our model based on this data. We have empirically shown that our method outperforms recent natural language processing techniques.

Autores: Yongmin Yoo, Cheonkam Jeong, Sanguk Gim, Junwon Lee, Zachary Schimke, Deaho Seo

Última actualización: 2023-11-30 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2303.16767

Fuente PDF: https://arxiv.org/pdf/2303.16767

Licencia: https://creativecommons.org/licenses/by/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Más de autores

Artículos similares