Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle# Recherche d'informations

Automatisation de l'analyse de brevets : Une nouvelle approche

Explorer des méthodes efficaces pour l'analyse de brevets en utilisant l'automatisation.

― 9 min lire


Automatisation du PaysageAutomatisation du Paysagedes Brevets Expliquéed'efficacité.l'analyse des brevets pour plusDe nouvelles méthodes simplifient
Table des matières

Le paysage des brevets, c'est une façon de regrouper tous les brevets liés à une technologie ou un domaine spécifique. Ce processus est important pour comprendre la valeur et le contexte de la propriété intellectuelle. Les entreprises et les organisations créent des paysages de brevets pour évaluer la concurrence, guider les investissements et suivre les tendances en matière d'innovation. Cependant, faire ces paysages est souvent lent et coûteux, en partie parce que trouver des experts pour évaluer les brevets est difficile et cher.

Avec le nombre croissant de brevets déposés ces dernières années, des Systèmes automatisés sont nécessaires pour rendre la création de paysages de brevets plus rapide et moins coûteuse. L'objectif est de créer des systèmes efficaces qui peuvent fonctionner avec un petit nombre d'exemples de brevets étiquetés, car obtenir des experts pour étiqueter de nombreux brevets est généralement peu pratique.

Le besoin de paysages de brevets automatisés

Ces dernières décennies, l'augmentation des demandes de brevets a rendu crucial le développement de systèmes automatisés pour le paysage de brevets. Les méthodes traditionnelles nécessitent beaucoup de temps et d'argent, principalement parce qu'il n'est pas facile de trouver des spécialistes qui comprennent bien la technologie spécifique pour évaluer correctement les brevets. Par exemple, si une entreprise veut savoir quels brevets sont liés à une technologie particulière, elle peut compter sur seulement quelques experts, ce qui peut devenir rare et coûteux à embaucher.

De plus, le nombre de brevets déposés est en hausse. Aux États-Unis, le bureau des brevets a vu le nombre de brevets délivrés par an doubler depuis 2002. Alors que de plus en plus de brevets sont créés, le besoin de méthodes plus rapides et moins chères pour analyser et regrouper ces brevets devient encore plus urgent.

Défis dans le paysage des brevets

Créer des paysages de brevets efficaces fait face à plusieurs défis :

  1. Besoin d'expertise : Évaluer les brevets nécessite généralement des connaissances spécialisées, ce qui est difficile à trouver. Une entreprise travaillant dans un domaine de niche pourrait avoir accès à seulement quelques experts capables de fournir des informations sur les brevets pertinents.

  2. Volume de données : Le volume de brevets augmente rapidement. Cela rend les évaluations manuelles écrasantes et pousse le besoin de solutions automatisées.

  3. Qualité des données : Les systèmes automatisés ont besoin de données de haute qualité pour fonctionner efficacement. Le défi est de trouver ou de créer ces données sans trop se reposer sur les avis d'experts.

  4. Équilibrage des données : De nombreux systèmes précédents entraînés sur de grands ensembles de données étiquetées peuvent ne pas être efficaces dans des domaines spécialisés à cause d'un manque d'exemples positifs. Cela entraîne des déséquilibres dans les données qui peuvent affecter la performance.

Approches pour le paysage de brevets automatisé

Les chercheurs ont développé divers systèmes pour automatiser le processus de paysage de brevets. La plupart de ces approches impliquent l'apprentissage profond et les réseaux de neurones. Cependant, elles échouent souvent dans deux domaines clés : elles peinent avec des exemples difficiles aux limites du paysage et elles nécessitent un grand nombre d'exemples étiquetés pour être efficaces.

Approches Seed et Anti-Seed

Une méthode populaire pour générer des données d'entraînement est l'approche seed et anti-seed. Cela implique de commencer avec un petit nombre de brevets connus pour être pertinents (les seeds) et ensuite de trouver d'autres qui sont similaires. Les anti-seeds sont des brevets jugés non pertinents. Ces stratégies aident à construire un ensemble d'exemples étiquetés mais négligent souvent les exemples plus difficiles près des frontières.

Le rôle de l'Apprentissage Actif

L'apprentissage actif est une façon d'améliorer la qualité des données d'entraînement en sélectionnant uniquement les exemples les plus informatifs pour l'étiquetage. Dans ce contexte, il se concentre sur la collecte de brevets difficiles à catégoriser qui se rapprochent de la frontière de décision entre les brevets pertinents et non pertinents.

Réseaux de citation et caractéristiques

Une autre manière d’améliorer les systèmes de paysage automatisés est d’utiliser des réseaux de citation. Les brevets citent souvent les uns les autres, et comprendre ces relations de citation peut fournir un contexte précieux pour catégoriser les brevets. De plus, incorporer diverses caractéristiques, comme le nombre de citations et les codes de classification, peut améliorer encore la performance du modèle.

Collecte de données pour l'entraînement

Pour créer des données d'entraînement solides pour les modèles de paysage de brevets, une approche systématique est nécessaire. Le processus implique généralement :

  1. Sélectionner un domaine technologique : Choisir un domaine technologique spécifique, comme l'intelligence artificielle (IA), et rassembler les brevets pertinents à ce domaine.

  2. Rassembler des exemples seed : Collecter un ensemble de brevets seed qui ont été étiquetés par des experts. Cela peut provenir des bureaux des brevets ou des bases de données.

  3. Créer des anti-seeds : Générer un grand nombre d'exemples négatifs en filtrant les brevets qui ne partagent pas de connexions avec les brevets seed.

  4. Apprentissage actif pour les cas difficiles : Utiliser l'apprentissage actif pour trouver et étiqueter des exemples difficiles qui se situent près de la frontière de décision. Cela nécessite des annotateurs humains pour examiner ces brevets.

  5. Annotation et accord : S'assurer que différents annotateurs s'accordent sur les étiquettes en mesurant l'accord inter-annotateur.

Conception de l'architecture neuronale

L'architecture du réseau de neurones utilisé pour le paysage des brevets joue un rôle important dans son efficacité. Les composants clés incluent :

  1. Flux d'entrée : Utiliser plusieurs flux d'entrée, y compris le texte abstrait, les revendications et les données de citation, chaque flux pouvant contribuer à différentes dimensions d'information pour le modèle.

  2. Techniques d'embedding : Différentes techniques sont utilisées pour convertir les mots et les phrases en représentations numériques. Utiliser des embeddings comme word2Vec ou BERT pour les brevets peut aider à mieux capturer le sens et le contexte du texte.

  3. Structures de couches : Le réseau de neurones est généralement structuré avec plusieurs couches qui traitent les données d'entrée, suivies de couches denses pour la classification finale.

  4. Combinaison de caractéristiques : Il est essentiel de combiner les entrées textuelles avec les données de citation et les métadonnées pour obtenir une vue d'ensemble du paysage des brevets.

Évaluation de la performance du modèle

Pour comprendre à quel point un modèle performe, diverses métriques sont utilisées :

  1. Scores et benchmarks : Les modèles sont évalués avec des scores qui quantifient leur précision. Ces scores aident à comparer différents modèles et approches.

  2. Jeux de données de validation : Un ensemble de données séparé que le modèle n'a pas vu est utilisé pour tester à quel point il se généralise sur de nouvelles données.

  3. Courbes d'apprentissage : En variant la quantité de données d'entraînement, on peut observer la performance, indiquant combien de données sont nécessaires pour que le modèle fonctionne bien.

Résultats et conclusions

La recherche autour des paysages de brevets automatisés révèle plusieurs insights importants :

  1. Performance sur des exemples difficiles : Les modèles précédents qui n'ont pas pris en compte les exemples difficiles n'ont pas atteint la précision souhaitée. Il est crucial de considérer ces exemples pour une compréhension réaliste de la performance.

  2. Impact des données de qualité : Utiliser des données d'entraînement de haute qualité améliore considérablement la performance des modèles, surtout dans des cas difficiles.

  3. Citations directes vs indirectes : Bien que les données de citation puissent améliorer la performance, les citations directes donnent souvent de meilleurs résultats que des réseaux de citation plus complexes.

  4. Modèles simples vs modèles complexes : Dans des scénarios avec de grands ensembles de données, des modèles plus simples comme les machines à vecteurs de support (SVM) peuvent bien fonctionner, tout comme les réseaux de neurones plus complexes, ce qui suggère que la complexité n’implique pas toujours une meilleure performance.

  5. Régime de faible données : Les modèles neuronaux automatisés montrent une amélioration marquée de la performance lorsqu'ils travaillent avec un nombre limité d'exemples étiquetés, montrant leur potentiel pour l’efficacité.

Limites et travaux futurs

Bien que l'étude réalise des avancées significatives dans le paysage des brevets, il y a certaines limites :

  1. Concentration sur un seul domaine : La recherche se concentre principalement sur les brevets dans l'IA, ce qui peut ne pas s'appliquer à d'autres domaines technologiques.

  2. Besoin d'architectures plus diversifiées : Il y a des opportunités d'explorer d'autres conceptions de réseaux de neurones, ce qui pourrait donner de meilleurs résultats.

  3. Exploration des données de citation : L'impact des données de citation n'était pas aussi fort que prévu, suggérant que de nouvelles méthodes pour tirer profit de ces données pourraient être bénéfiques.

  4. Amélioration des petits ensembles de données : La performance dans des scénarios avec très peu de données a encore besoin d'améliorations, et des recherches supplémentaires sont nécessaires pour établir des besoins minimums en données pour un paysage efficace dans divers domaines technologiques.

Conclusion

En résumé, automatiser le paysage des brevets offre un moyen réalisable de comprendre et d'analyser le grand nombre de brevets déposés aujourd'hui. Utiliser des réseaux neuronaux avancés, l'apprentissage actif et des méthodes efficaces de collecte de données peut considérablement améliorer l'efficacité et la précision de ces systèmes. La recherche indique que bien que des défis subsistent, notamment dans des domaines de niche et avec des données limitées, il y a des voies prometteuses pour améliorer le processus d'analyse de paysage avec davantage d'exploration et de développement.

Source originale

Titre: Automated Neural Patent Landscaping in the Small Data Regime

Résumé: Patent landscaping is the process of identifying all patents related to a particular technological area, and is important for assessing various aspects of the intellectual property context. Traditionally, constructing patent landscapes is intensely laborious and expensive, and the rapid expansion of patenting activity in recent decades has driven an increasing need for efficient and effective automated patent landscaping approaches. In particular, it is critical that we be able to construct patent landscapes using a minimal number of labeled examples, as labeling patents for a narrow technology area requires highly specialized (and hence expensive) technical knowledge. We present an automated neural patent landscaping system that demonstrates significantly improved performance on difficult examples (0.69 $F_1$ on 'hard' examples, versus 0.6 for previously reported systems), and also significant improvements with much less training data (overall 0.75 $F_1$ on as few as 24 examples). Furthermore, in evaluating such automated landscaping systems, acquiring good data is challenge; we demonstrate a higher-quality training data generation procedure by merging Abood and Feltenberger's (2018) "seed/anti-seed" approach with active learning to collect difficult labeled examples near the decision boundary. Using this procedure we created a new dataset of labeled AI patents for training and testing. As in prior work we compare our approach with a number of baseline systems, and we release our code and data for others to build upon.

Auteurs: Tisa Islam Erana, Mark A. Finlayson

Dernière mise à jour: 2024-07-10 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.08001

Source PDF: https://arxiv.org/pdf/2407.08001

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires