Presentiamo ClaimCompare: uno strumento per l'unicità dei brevetti
ClaimCompare aiuta a identificare brevetti correlati che influenzano l'unicità dell'invenzione.
― 6 leggere min
Indice
Quando qualcuno fa domanda per un brevetto, è fondamentale controllare se ci sono brevetti esistenti che potrebbero rendere la nuova invenzione non unica. Questo processo viene svolto sia dagli inventori che dagli esaminatori di brevetti. Vogliono vedere se la nuova idea è davvero originale. Tuttavia, questa ricerca può essere molto lunga e complicata perché coinvolge un sacco di linguaggio tecnico e termini legali. Per rendere tutto più semplice, ci sono metodi automatizzati che usano la tecnologia per trovare questi brevetti correlati. Purtroppo, non è stata fatta molta ricerca in questo campo.
Il Pipeline ClaimCompare
Presentiamo un nuovo strumento chiamato ClaimCompare. Aiuta a creare dataset che possono essere usati per addestrare sistemi per identificare brevetti che potrebbero influenzare l'unicità di una nuova invenzione. Questo è il primo strumento del suo genere in grado di generare più dataset per questo scopo. Ci siamo concentrati su un'area specifica, il campo elettrochimico, e abbiamo usato oltre 27.000 brevetti per mostrare come funziona questo strumento. Per ognuno di questi brevetti, identifichiamo brevetti correlati che potrebbero non essere più unici e li etichettiamo di conseguenza.
L'importanza delle ricerche sui brevetti
Le ricerche sui brevetti includono varie attività come garantire libertà operativa, controllare la brevettabilità e valutare la validità dei brevetti. Tra queste, le ricerche sulla brevettabilità sono fondamentali perché determinano se un'invenzione è nuova e non ovvia. Negli Stati Uniti, i brevetti precedenti sono considerati "distruttori di novità" se coprono tutte le parti di almeno un reclamo nella nuova invenzione.
Tradizionalmente, queste ricerche vengono fatte manualmente, il che comporta la formulazione di query di ricerca complesse e l'analisi di numerosi documenti. Man mano che il numero di brevetti continua a crescere, il metodo di ricerca manuale sta diventando meno pratico. Ecco perché c'è un crescente interesse a usare tecnologie moderne come il recupero informazioni e il machine learning per migliorare il processo di ricerca.
Contributi di ClaimCompare
Nello sviluppo di ClaimCompare, utilizziamo dati pubblici dall'Ufficio Brevetti e Marchi degli Stati Uniti per costruire i nostri dataset. L'obiettivo principale del nostro strumento è identificare brevetti che distruggono la novità piuttosto che tutta la letteratura correlata.
- Abbiamo creato ClaimCompare, permettendo agli utenti di generare dataset personalizzati relativi all'unicità dei brevetti.
- Abbiamo costruito un campione di dataset di 27.000 brevetti, dove circa 1.045 brevetti base sono collegati a 25 brevetti correlati ciascuno. Di questi, un numero significativo è stato etichettato come potenzialmente distruttore della novità dell'invenzione.
- Abbiamo testato l'efficacia del nostro dataset affinando modelli di machine learning per vedere quanto bene potessero identificare brevetti distruttori di novità. I risultati hanno mostrato un miglioramento significativo rispetto ai modelli esistenti.
Il nostro obiettivo è che ClaimCompare venga utilizzato per generare altri dataset, concentrandosi su categorie generali e specifiche. Questo aiuterà ad addestrare diversi modelli per migliorare come valutiamo l'unicità dei brevetti.
Il Processo ClaimCompare
ClaimCompare inizia con query iniziali che vengono usate per raccogliere brevetti rilevanti dai dati pubblici dell'USPTO. Ad esempio, se usiamo una frase come "batteria a flusso redox", possiamo recuperare documenti legati a questa tecnologia. Lo strumento raccoglie dettagli essenziali come numeri di domanda e pubblicazione, abstract e reclami dei brevetti.
Successivamente, troviamo brevetti citati come distruttori di novità controllando le azioni d'ufficio dell'USPTO. Se un'azione d'ufficio particolare menziona un rifiuto 102, possiamo estrarre il brevetto pertinente da quel testo. Questo metodo rende il pipeline efficiente, raggiungendo un alto tasso di successo.
Per i campioni negativi, raccogliamo parole chiave dagli abstract dei brevetti base e cerchiamo brevetti correlati per bilanciare il dataset. Tuttavia, manteniamo intenzionalmente il dataset sbilanciato poiché ci sono solitamente più brevetti rilevanti di quelli che distruggono l'unicità.
Struttura del Dataset
Il dataset che abbiamo creato include 1.045 brevetti, di cui 357 hanno almeno un brevetto correlato che potrebbe distruggere la sua novità. Anche se alcuni brevetti base hanno più brevetti correlati che distruggono la novità, abbiamo assicurato che la nostra struttura del dataset rifletta il reale sbilanciamento di brevetti rilevanti e che distruggono la novità.
Questa struttura serve a due scopi: rispecchia lo stato attuale delle ricerche sui brevetti e ci consente di esplorare come questo sbilanciamento influisce sulle prestazioni del modello nell'identificare brevetti che distruggono la novità.
Impostazione Sperimentale
Per valutare l'efficacia del nostro dataset, lo abbiamo preparato per l'addestramento dei modelli di machine learning. I dati sono stati convertiti in un formato in cui ogni brevetto base è accoppiato con i suoi brevetti correlati. Abbiamo adottato una strategia specifica per suddividere il dataset in set di addestramento, validazione e test. Questo aiuta a garantire che i modelli non apprendano dagli stessi brevetti contro cui vengono testati.
Nella fase di addestramento, abbiamo utilizzato un modello specifico progettato per la classificazione delle sequenze. Abbiamo scelto un modello compatto chiamato DistilRoBERTa che funziona bene per compiti come questo. In diversi cicli di addestramento, abbiamo affinato il modello per migliorarne l'accuratezza.
Valutazione del Modello
Dopo l'addestramento, abbiamo testato quanto bene il modello si fosse comportato su nuovi dati. Invece di controllare solo coppie individuali di brevetti, abbiamo esaminato gruppi di brevetti per vedere se qualcuno di essi fosse considerato distruttore di novità. Questo ci ha permesso di misurare meglio le prestazioni del modello.
Abbiamo calcolato metriche come la precisione media e l'area sotto la curva per valutare quanto bene funzionassero i modelli. I risultati hanno dimostrato che i nostri modelli affinati si sono comportati significativamente meglio rispetto ai modelli di base che non erano stati specificamente addestrati sul nostro dataset.
Limitazioni e Direzioni Future
Anche se eravamo soddisfatti dei risultati, ci sono alcune limitazioni. Il divario tra i modelli di base e quelli affinati mostra che c'è margine di miglioramento. Nei lavori futuri, pianifichiamo di confrontare i nostri modelli con quelli addestrati su dati legali più ampi.
Abbiamo anche osservato che i nostri modelli potrebbero non essere abbastanza messi alla prova dai campioni negativi poiché erano troppo facili da differenziare. Dobbiamo indagare come trovare esempi più complessi che mettano meglio alla prova i modelli.
Inoltre, incoraggiamo i ricercatori a usare ClaimCompare per creare più dataset in diversi campi tecnici. Utilizzare codici di classificazione invece di parole chiave potrebbe aiutare a raccogliere una varietà più ampia di brevetti.
Conclusione
ClaimCompare è un nuovo strumento progettato per generare dataset per valutare l'unicità dei brevetti. Sfruttando risorse pubblicamente disponibili, mira a semplificare il processo di identificazione di brevetti precedenti potenzialmente dannosi. I risultati finora indicano che questo strumento ha il potenziale di migliorare significativamente la ricerca nel recupero di brevetti.
Rendendo più facile valutare la novità dei brevetti, speriamo di ridurre il tempo e i costi associati alle ricerche sui brevetti. Questo aiuterà inventori, avvocati ed esaminatori a navigare più efficacemente nel sistema dei brevetti. Con il continuo avanzamento della tecnologia, strumenti come ClaimCompare potrebbero democratizzare l'accesso a informazioni preziose sui brevetti e rendere il processo di brevettazione più fluido per tutti gli interessati.
Titolo: ClaimCompare: A Data Pipeline for Evaluation of Novelty Destroying Patent Pairs
Estratto: A fundamental step in the patent application process is the determination of whether there exist prior patents that are novelty destroying. This step is routinely performed by both applicants and examiners, in order to assess the novelty of proposed inventions among the millions of applications filed annually. However, conducting this search is time and labor-intensive, as searchers must navigate complex legal and technical jargon while covering a large amount of legal claims. Automated approaches using information retrieval and machine learning approaches to detect novelty destroying patents present a promising avenue to streamline this process, yet research focusing on this space remains limited. In this paper, we introduce a novel data pipeline, ClaimCompare, designed to generate labeled patent claim datasets suitable for training IR and ML models to address this challenge of novelty destruction assessment. To the best of our knowledge, ClaimCompare is the first pipeline that can generate multiple novelty destroying patent datasets. To illustrate the practical relevance of this pipeline, we utilize it to construct a sample dataset comprising of over 27K patents in the electrochemical domain: 1,045 base patents from USPTO, each associated with 25 related patents labeled according to their novelty destruction towards the base patent. Subsequently, we conduct preliminary experiments showcasing the efficacy of this dataset in fine-tuning transformer models to identify novelty destroying patents, demonstrating 29.2% and 32.7% absolute improvement in MRR and P@1, respectively.
Autori: Arav Parikh, Shiri Dori-Hacohen
Ultimo aggiornamento: 2024-07-16 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.12193
Fonte PDF: https://arxiv.org/pdf/2407.12193
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://github.com/RIET-lab/claim-compare
- https://developer.uspto.gov/api-catalog/bulk-search-and-download
- https://developer.uspto.gov/api-catalog/uspto-office-action-citations-api-beta
- https://patents.google.com
- https://huggingface.co/distilbert/distilroberta-base
- https://huggingface.co/anferico/bert-for-patents