Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Recupero delle informazioni# Intelligenza artificiale# Reti sociali e informative

Un Nuovo Approccio per Misurare la Somiglianza dei Brevetti

Combinare parole e tecnologia offre un modo migliore per valutare le somiglianze nei brevetti.

― 5 leggere min


Misurare l'assomiglianzaMisurare l'assomiglianzadei brevetti in modoefficacedel testo e tecnologia.Un metodo ibrido che combina analisi
Indice

Misurare la Somiglianza tra i Brevetti è fondamentale per capire quanto sia nuova un'invenzione. Molti metodi tradizionali si basano su esperti per classificare i brevetti, il che può richiedere molto tempo. Alcuni studi hanno cercato di automatizzare questo processo, ma la maggior parte di questi metodi si concentra solo sulle parole dei brevetti. Questo documento introduce un nuovo approccio che combina sia il testo che la tecnologia dietro ai brevetti per misurare quanto siano simili.

Sfide nel Misurare la Somiglianza dei Brevetti

I brevetti contengono un linguaggio tecnico, il che rende difficile per chi non è esperto capire rapidamente di cosa tratta un brevetto. Un documento di brevetto ha diverse parti: un titolo, un abstract, una descrizione dettagliata e le rivendicazioni, insieme a dettagli amministrativi come i numeri di brevetto e i nomi degli inventori. A causa della complessità e del gergo tecnico, capire se un'idea nuova sia unica può essere lento e costoso.

Esistono vari metodi per misurare quanto siano simili i brevetti, inclusa l'analisi dei loro scopi, aree di applicazione e persino dettagli tecnici. Alcuni studi passati si sono concentrati sulla misurazione del testo dei brevetti, mentre altri hanno esaminato le informazioni di supporto, come la frequenza con cui sono citati da altri brevetti.

Metodi Precedenti

Alcune ricerche precedenti si sono concentrate su come calcolare la somiglianza utilizzando parole chiave estratte dai testi dei brevetti. Altri studi hanno collegato i brevetti in base alle citazioni condivise. Inoltre, alcuni modelli hanno utilizzato le strutture del linguaggio usato nei brevetti. Recentemente, i metodi di machine learning, in particolare quelli che usano il natural language processing (NLP), hanno guadagnato popolarità per automatizzare questa misurazione di somiglianza.

Il Nostro Approccio

Questo documento propone un nuovo metodo ibrido che considera due aspetti principali dei brevetti: somiglianze semantiche e tecnologiche. L'aspetto semantico analizza i significati dei testi, mentre l'aspetto tecnologico valuta le classificazioni tecniche che i brevetti hanno.

Distanza Semantica

Per misurare la distanza semantica tra i brevetti, utilizziamo un modello che elabora gli abstract e i titoli dei brevetti. Questo modello genera vettori, che sono rappresentazioni numeriche dei testi dei brevetti. Poi guardiamo a questi vettori per capire quanto siano simili in termini di significato.

Distanza Tecnologica

Per misurare la distanza tecnologica, ci concentriamo sui codici della Classificazione Internazionale dei Brevetti (IPC), che categorizzano i brevetti in base alla loro tecnologia. Esaminiamo quanti codici IPC sovrappongono due brevetti per valutare la loro somiglianza tecnologica. Questo ci offre una chiara visione delle loro relazioni tecnologiche.

Combinare le Somiglianze

Per ottenere una misura più accurata della somiglianza, combiniamo le distanze semantiche e tecnologiche. Assegniamo pesi a ciascun aspetto per creare un punteggio unico di somiglianza. Questo punteggio ibrido ci consente di vedere sia quanto siano simili i testi sia quanto siano simili le tecnologie.

Esperimenti e Valutazione

Per testare il nostro metodo, abbiamo utilizzato brevetti concessi negli Stati Uniti tra il 2016 e il 2020. Abbiamo scelto 420 coppie di brevetti per la nostra valutazione e abbiamo fatto valutare le loro somiglianze da esperti in base a criteri di punteggio definiti. Abbiamo poi confrontato i risultati del nostro metodo ibrido con altri modelli che consideravano solo l'aspetto semantico.

Risultati

I risultati hanno mostrato che il nostro metodo ibrido ha performato meglio rispetto ai modelli che si concentravano solo sulla somiglianza semantica. Questo indica che considerare sia il testo che la tecnologia offre una visione più completa di quanto siano simili i diversi brevetti.

Applicazioni del Metodo

Ci sono diverse applicazioni nel mondo reale per il nostro nuovo approccio alla misurazione della somiglianza dei brevetti.

Guida all'Innovazione

Questo metodo può servire come strumento prezioso per i nuovi inventori. Quando iniziano un nuovo progetto, gli inventori possono usare il nostro modello per valutare rapidamente la novità delle loro idee. Identificando problemi simili già risolti, gli inventori possono evitare di reinventare la ruota.

Sistemi di Raccomandazione per Brevetti

Il nuovo metodo può contribuire a costruire sistemi di raccomandazione per i brevetti. Questi sistemi potrebbero suggerire brevetti pertinenti basati sul progetto specifico di un inventore o sulla sua area di interesse. Questo può aiutare a capire il panorama delle tecnologie esistenti.

Affrontare i Patent Troll

I patent troll spesso sfruttano brevetti simili per rivendicare violazioni. Il nostro metodo può aiutare ad analizzare le somiglianze tra i brevetti, rendendo più facile difendersi da rivendicazioni ingiuste. Comprendendo le relazioni precise tra i brevetti, le strategie legali possono essere formulate meglio.

Analisi delle Tendenze

Con la capacità di misurare efficacemente le somiglianze tra i brevetti, possiamo anche tracciare tendenze nella tecnologia. Analizzando gruppi di brevetti simili, i ricercatori possono tracciare mappe del progresso tecnologico e identificare campi emergenti.

Miglioramenti Futuri

Sebbene il nostro metodo mostri potenziale, ci sono ancora modi per migliorarlo.

Modelli NLP Migliorati

Per l'aspetto della somiglianza semantica, abbiamo utilizzato una versione comune del modello BERT. Tuttavia, potremmo esplorare versioni più avanzate di BERT che gestiscono documenti più lunghi in modo più efficace. Questo potrebbe migliorare l'accuratezza nella misurazione delle distanze semantiche.

Includere Dati Aggiuntivi

Abbiamo anche l'opportunità di migliorare il calcolo della distanza tecnologica includendo più codici di classificazione o dati bibliografici relativi ai brevetti. Questo potrebbe fornire un quadro più completo di come i brevetti si relazionano tra loro.

Conclusione

In un panorama tecnologico in rapida evoluzione, misurare la somiglianza tra i brevetti in modo veloce e accurato è essenziale. Il nostro metodo ibrido offre un nuovo strumento per valutare la novità delle invenzioni esaminando sia il significato che il background tecnico dei brevetti. Le prestazioni solide del modello suggeriscono che considerare entrambi gli aspetti è critico per un'analisi affidabile. Con ulteriori miglioramenti, questo metodo potrebbe fornire ancora maggiori benefici per inventori, ricercatori ed esperti legali.

Fonte originale

Titolo: A Novel Patent Similarity Measurement Methodology: Semantic Distance and Technological Distance

Estratto: Patent similarity analysis plays a crucial role in evaluating the risk of patent infringement. Nonetheless, this analysis is predominantly conducted manually by legal experts, often resulting in a time-consuming process. Recent advances in natural language processing technology offer a promising avenue for automating this process. However, methods for measuring similarity between patents still rely on experts manually classifying patents. Due to the recent development of artificial intelligence technology, a lot of research is being conducted focusing on the semantic similarity of patents using natural language processing technology. However, it is difficult to accurately analyze patent data, which are legal documents representing complex technologies, using existing natural language processing technologies. To address these limitations, we propose a hybrid methodology that takes into account bibliographic similarity, measures the similarity between patents by considering the semantic similarity of patents, the technical similarity between patents, and the bibliographic information of patents. Using natural language processing techniques, we measure semantic similarity based on patent text and calculate technical similarity through the degree of coexistence of International patent classification (IPC) codes. The similarity of bibliographic information of a patent is calculated using the special characteristics of the patent: citation information, inventor information, and assignee information. We propose a model that assigns reasonable weights to each similarity method considered. With the help of experts, we performed manual similarity evaluations on 420 pairs and evaluated the performance of our model based on this data. We have empirically shown that our method outperforms recent natural language processing techniques.

Autori: Yongmin Yoo, Cheonkam Jeong, Sanguk Gim, Junwon Lee, Zachary Schimke, Deaho Seo

Ultimo aggiornamento: 2023-11-30 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2303.16767

Fonte PDF: https://arxiv.org/pdf/2303.16767

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili