Automatizando o Mapeamento de Patentes: Uma Nova Abordagem
Explorando métodos eficientes para análise de patentes usando automação.
― 8 min ler
Índice
- A Necessidade de Mapeamento Automatizado de Patentes
- Desafios no Mapeamento de Patentes
- Abordagens para Mapeamento Automatizado de Patentes
- Abordagens de Seed e Anti-Seed
- O Papel do Aprendizado Ativo
- Redes de Citação e Recursos
- Coleta de Dados para Treinamento
- Design da Arquitetura Neural
- Avaliação do Desempenho do Modelo
- Resultados e Descobertas
- Limitações e Trabalhos Futuros
- Conclusão
- Fonte original
O mapeamento de patentes é uma forma de encontrar e agrupar todas as patentes relacionadas a uma tecnologia ou área específica. Esse processo é importante para entender o valor e o contexto da propriedade intelectual. Empresas e organizações criam paisagens de patentes para avaliar a concorrência, guiar investimentos e monitorar tendências de inovação. No entanto, fazer essas paisagens costuma ser demorado e caro, em parte porque encontrar especialistas para avaliar patentes é desafiador e caro.
Com o aumento do número de patentes registradas nos últimos anos, são necessários Sistemas Automatizados para ajudar a tornar o mapeamento de patentes mais rápido e barato. O objetivo é criar sistemas eficazes que possam trabalhar com apenas um pequeno número de exemplos de patentes rotuladas, já que conseguir especialistas para rotular muitas patentes é, na maioria das vezes, impraticável.
A Necessidade de Mapeamento Automatizado de Patentes
Nas últimas décadas, o aumento nos pedidos de patentes tornou crucial o desenvolvimento de sistemas automatizados para o mapeamento de patentes. Os métodos tradicionais exigem muito tempo e dinheiro, principalmente porque não é fácil encontrar especialistas que entendam a tecnologia específica bem o suficiente para avaliar patentes corretamente. Por exemplo, se uma empresa quiser saber sobre patentes relacionadas a uma tecnologia específica, ela pode contar com apenas alguns especialistas que podem ser escassos e caros para contratar.
Além disso, o número de patentes registradas está aumentando. Nos Estados Unidos, o escritório de patentes viu o número de patentes emitidas por ano dobrar desde 2002. À medida que mais patentes são criadas, a necessidade de métodos mais rápidos e baratos para analisar e agrupar essas patentes se torna ainda mais urgente.
Desafios no Mapeamento de Patentes
Criar paisagens de patentes eficazes enfrenta vários desafios:
Exigência de Especialização: Avaliar patentes normalmente requer conhecimento especializado, que é difícil de encontrar. Uma empresa que trabalha em uma área de nicho pode ter acesso a apenas um punhado de especialistas que podem fornecer insights sobre patentes relevantes.
Volume de Dados: O volume de patentes está aumentando rapidamente. Isso torna as avaliações manuais sobrecarregadas e aumenta a necessidade de soluções automatizadas.
Qualidade dos Dados: Sistemas automatizados precisam de dados de alta qualidade para funcionar eficazmente. O desafio é encontrar ou criar esses dados sem depender demais de opiniões de especialistas.
Equilíbrio de Dados: Muitos sistemas anteriores treinados em grandes conjuntos de dados rotulados podem não ser eficazes em áreas especializadas devido à falta de exemplos positivos. Isso resulta em desequilíbrios nos dados que podem impactar o desempenho.
Abordagens para Mapeamento Automatizado de Patentes
Pesquisadores desenvolveram vários sistemas para automatizar o processo de mapeamento de patentes. A maioria dessas abordagens envolve aprendizado profundo e redes neurais. No entanto, elas costumam falhar em dois pontos chave: têm dificuldades com exemplos difíceis nas bordas das delimitações e precisam de um grande número de exemplos rotulados para treinar de forma eficaz.
Abordagens de Seed e Anti-Seed
Um método popular para gerar dados de treinamento é a abordagem de seed e anti-seed. Isso envolve começar com um pequeno número de patentes conhecidas como relevantes (as seeds) e, em seguida, encontrar outras que sejam semelhantes. Os anti-seeds são patentes que são consideradas irrelevantes. Essas estratégias ajudam a construir um conjunto de exemplos rotulados, mas muitas vezes negligenciam os exemplos mais difíceis perto das bordas.
Aprendizado Ativo
O Papel doO aprendizado ativo é uma maneira de melhorar a qualidade dos dados de treinamento selecionando apenas os exemplos mais informativos para rotulagem. Nesse contexto, ele se concentra em reunir patentes difíceis de categorizar que estão próximas da fronteira de decisão do que constitui patentes relevantes e irrelevantes.
Redes de Citação e Recursos
Outra forma de aprimorar sistemas de mapeamento automatizados é por meio do uso de redes de citação. Patentes costumam citar umas às outras, e entender essas relações de citação pode fornecer um contexto valioso para categorizar patentes. Além disso, incorporar diversos recursos, como contagens de citação e códigos de classificação, pode melhorar ainda mais o desempenho do modelo.
Coleta de Dados para Treinamento
Para criar dados de treinamento robustos para modelos de mapeamento de patentes, uma abordagem sistemática é necessária. O processo geralmente envolve:
Selecionar um Domínio Tecnológico: Escolher uma área tecnológica específica, como inteligência artificial (IA), e reunir patentes relevantes para esse campo.
Reunir Exemplos Seed: Coletar um conjunto de patentes seed que foram rotuladas por especialistas. Isso pode vir de escritórios de patentes ou bancos de dados.
Criar Anti-Seeds: Gerar um grande número de exemplos negativos filtrando patentes que não compartilham conexões com as patentes seed.
Aprendizado Ativo para Casos Difíceis: Usar aprendizado ativo para encontrar e rotular exemplos difíceis que se situam perto da fronteira de decisão. Isso requer revisões de annotadores humanos para essas patentes.
Anotação e Acordo: Certificar-se de que diferentes anotadores concordem sobre os rótulos medindo o acordo entre os anotadores.
Design da Arquitetura Neural
A arquitetura da rede neural usada para mapear patentes desempenha um papel significativo em sua eficácia. Os componentes-chave incluem:
Fluxos de Entrada: Usar múltiplos fluxos de entrada, incluindo texto abstrato, reivindicações e dados de citação, cada fluxo pode contribuir com diferentes dimensões de informação para o modelo.
Técnicas de Embedding: Diferentes técnicas são empregadas para converter palavras e frases em representações numéricas. Usar embeddings como word2Vec ou BERT para patentes pode ajudar a capturar melhor o significado e o contexto do texto.
Estruturas de Camada: A rede neural é tipicamente estruturada com várias camadas que processam os dados de entrada, seguidas de camadas densas para classificação final.
Combinação de Recursos: É essencial combinar entradas de texto com dados de citação e metadados para obter uma visão holística da paisagem da patente.
Avaliação do Desempenho do Modelo
Para entender o quão bem um modelo se desempenha, várias métricas são usadas:
Pontuações e Referências: Os modelos são avaliados com pontuações que quantificam sua precisão. Essas pontuações ajudam a comparar diferentes modelos e abordagens.
Conjuntos de Dados de Teste: Um conjunto separado de dados que o modelo não viu é usado para testar quão bem ele generaliza para novos dados.
Curvas de Aprendizado: Variando a quantidade de dados de treinamento, o desempenho pode ser observado, indicando quanta informação é necessária para o modelo funcionar bem.
Resultados e Descobertas
A pesquisa em mapeamento automatizado de patentes revela várias percepções importantes:
Desempenho em Exemplos Difíceis: Modelos anteriores que não consideravam exemplos difíceis tiveram desempenho abaixo do esperado. É crucial considerar esses exemplos para uma compreensão mais realista do desempenho.
Impacto de Dados de Alta Qualidade: Usar dados de treinamento de alta qualidade melhora significativamente o desempenho dos modelos, especialmente em casos desafiadores.
Citações Diretas vs. Indiretas: Embora os dados de citação possam melhorar o desempenho, citações diretas geralmente resultam em melhores resultados do que redes de citação mais complexas.
Modelos Simples vs. Modelos Complexos: Em cenários com conjuntos de dados maiores, modelos mais simples, como máquinas de vetor de suporte (SVMs), podem ter um desempenho tão bom quanto redes neurais mais complexas, sugerindo que complexidade não necessariamente se traduz em melhor desempenho.
Regime de Baixos Dados: Modelos neurais automatizados mostram uma melhora acentuada no desempenho quando trabalham com um número limitado de exemplos rotulados, demonstrando seu potencial para eficiência.
Limitações e Trabalhos Futuros
Embora o estudo faça avanços significativos no mapeamento de patentes, existem algumas limitações:
Foco em um Único Domínio: A pesquisa se concentra principalmente em patentes de IA, o que pode não se traduzir em outras áreas tecnológicas.
Necessidade de Arquiteturas Mais Diversas: Existem oportunidades para explorar outros designs de rede neural, que poderiam gerar melhores resultados.
Exploração de Dados de Citação: O impacto dos dados de citação não foi tão forte quanto o esperado, sugerindo que novas maneiras de alavancar esses dados poderiam ser benéficas.
Melhoria em Pequenos Dados: O desempenho em cenários com dados muito limitados ainda tem espaço para melhorias, e mais pesquisas são necessárias para estabelecer requisitos mínimos de dados para um mapeamento eficaz em várias áreas tecnológicas.
Conclusão
Resumindo, automatizar o mapeamento de patentes oferece uma maneira viável de entender e analisar o grande número de patentes sendo registradas hoje. Utilizar redes neurais avançadas, aprendizado ativo e métodos eficazes de coleta de dados pode melhorar significativamente a eficiência e a precisão desses sistemas. A pesquisa indica que, embora desafios permaneçam, especialmente em domínios de nicho e com dados limitados, há caminhos promissores para melhorar o processo de análise de paisagens com mais exploração e desenvolvimento.
Título: Automated Neural Patent Landscaping in the Small Data Regime
Resumo: Patent landscaping is the process of identifying all patents related to a particular technological area, and is important for assessing various aspects of the intellectual property context. Traditionally, constructing patent landscapes is intensely laborious and expensive, and the rapid expansion of patenting activity in recent decades has driven an increasing need for efficient and effective automated patent landscaping approaches. In particular, it is critical that we be able to construct patent landscapes using a minimal number of labeled examples, as labeling patents for a narrow technology area requires highly specialized (and hence expensive) technical knowledge. We present an automated neural patent landscaping system that demonstrates significantly improved performance on difficult examples (0.69 $F_1$ on 'hard' examples, versus 0.6 for previously reported systems), and also significant improvements with much less training data (overall 0.75 $F_1$ on as few as 24 examples). Furthermore, in evaluating such automated landscaping systems, acquiring good data is challenge; we demonstrate a higher-quality training data generation procedure by merging Abood and Feltenberger's (2018) "seed/anti-seed" approach with active learning to collect difficult labeled examples near the decision boundary. Using this procedure we created a new dataset of labeled AI patents for training and testing. As in prior work we compare our approach with a number of baseline systems, and we release our code and data for others to build upon.
Autores: Tisa Islam Erana, Mark A. Finlayson
Última atualização: 2024-07-10 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.08001
Fonte PDF: https://arxiv.org/pdf/2407.08001
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.