特許の類似性を測る新しいアプローチ
言葉と技術を組み合わせることで、特許の類似性をより良く評価する方法が提供される。
― 1 分で読む
特許の類似性を測ることは、新しい発明がどれほど新しいかを判断するのに重要なんだ。多くの従来の方法は専門家に特許を分類させることに依存していて、時間がかかることが多いんだよ。自動化しようとする研究もあったけど、ほとんどの方法は特許の言葉だけを見てるんだ。この論文では、特許の言葉と技術の両方を組み合わせて、どれだけ似ているかを測る新しいアプローチを紹介するよ。
特許類似性測定の課題
特許には専門的な言葉が使われてるから、専門外の人には内容をすぐに理解するのが難しいんだ。特許文書にはタイトル、要約、詳細な説明、請求項、特許番号や発明者の名前みたいな行政的詳細が含まれてる。複雑さと専門用語のせいで、新しいアイデアがユニークかどうかを判断するのには時間もお金もかかっちゃうんだ。
特許の類似性を測るためのいろんな方法があって、目的、適用分野、技術的な詳細を分析するものもあるんだ。過去の研究では特許のテキストを測ったり、他の特許による引用頻度を調べたりしてきたよ。
前の方法
以前の研究では、特許のテキストから抽出したキーワードを使って類似性を計算する方法に集中してた。別の研究では、共有された引用に基づいて特許をつなげるアプローチもあったんだ。また、特許の言語構造を利用するモデルもあったよ。最近では、機械学習、特に自然言語処理(NLP)を使った方法が類似性測定の自動化で人気を集めてるんだ。
私たちのアプローチ
この論文では、特許の2つの主要な側面、意味的類似性と技術的類似性を見ていく新しいハイブリッドな方法を提案するよ。意味的側面はテキストの意味を見て、技術的側面は特許の技術分類を評価するんだ。
意味的距離
特許の意味的距離を測るために、特許の要約とタイトルを処理するモデルを使ってるよ。このモデルは特許テキストの数値表現を生成するベクトルを作るんだ。それから、これらのベクトルを見て、どれだけ意味が似ているかを探るんだ。
技術的距離
技術的距離を測るためには、特許を技術に基づいて分類する国際特許分類(IPC)コードに注目するよ。2つの特許間でどれだけのIPCコードが重なっているかを調べることで、技術的な類似性を評価するんだ。これで、技術的な関係がすごくわかりやすくなるんだ。
類似性の統合
より正確な類似性の測定を得るために、意味的距離と技術的距離を組み合わせるよ。各側面に重みを付けて、単一の類似性スコアを作成するんだ。このハイブリッドスコアによって、テキストがどれだけ似ているか、技術がどれだけ似ているかの両方を見ることができるんだ。
実験と評価
私たちの方法をテストするために、2016年から2020年までにアメリカで付与された特許を使用したよ。評価のために420組の特許ペアを選び、専門家に定義されたスコア基準に基づいて類似性を評価してもらったよ。ハイブリッドな方法の結果を、意味的側面だけを考慮した他のモデルと比較したんだ。
結果
結果は、私たちのハイブリッド方法が意味的類似性だけに焦点を当てたモデルよりも優れていることを示したよ。これは、言葉と技術の両方を見ることで、異なる特許の類似性がより全体的にわかることを示してるんだ。
方法の応用
私たちの新しい特許類似性測定アプローチには、いくつかの実世界での応用があるよ。
発明の指針
この方法は新しい発明家にとって貴重なツールになるよ。新しいプロジェクトを始めるとき、発明家はこのモデルを使ってアイデアの新規性をすぐに判断できるんだ。すでに解決された類似の問題を特定することで、発明家は無駄に時間をかけることを避けられるんだ。
特許推薦システム
この新しい方法は特許の推薦システムを構築するのに貢献できるよ。そういうシステムは、発明家の特定のプロジェクトや興味のある分野に基づいて関連する特許を提案できるんだ。これによって、既存の技術の状況を理解するのが助けられるんだ。
特許トロールへの対処
特許トロールはしばしば類似の特許を利用して侵害を主張するんだ。私たちの方法は特許間の類似性を分析するのに役立つから、不当な主張に対して防御しやすくなるよ。特許間の正確な関係を理解することで、法的戦略がより良く立てられるんだ。
トレンド分析
特許の類似性を効果的に測れることで、技術のトレンドを追跡することもできるんだ。類似の特許のグループを分析することで、研究者は技術の進歩の地図を作成して、新たな分野を特定できるんだ。
今後の改善
私たちの方法は可能性があるけど、さらに良くする方法がまだあるよ。
改良されたNLPモデル
意味的類似性の側面では、一般的なバージョンのBERTモデルを使ったけど、もっと長い文書に対処できる高度なバージョンのBERTを探求することができるんだ。これによって、意味的距離を測る精度が向上するかもしれないよ。
追加データの導入
技術的距離の計算を強化するために、特許に関連するさらなる分類コードや文献データを含める機会もあるんだ。これで特許同士の関係がより明確にわかるようになるんだ。
結論
急速に変化する技術の世界では、特許の類似性を迅速かつ正確に測ることが重要なんだ。私たちのハイブリッドな方法は、特許の意味と技術的背景の両方を見て、新しい発明の新規性を評価するための新しいツールを提供するよ。このモデルの強力なパフォーマンスは、両方の側面を考慮することが信頼できる分析にとって重要だということを示唆してるんだ。今後さらに改善すれば、この方法は発明者、研究者、法的専門家にとってもっと大きな利益をもたらすことができると思うよ。
タイトル: A Novel Patent Similarity Measurement Methodology: Semantic Distance and Technological Distance
概要: Patent similarity analysis plays a crucial role in evaluating the risk of patent infringement. Nonetheless, this analysis is predominantly conducted manually by legal experts, often resulting in a time-consuming process. Recent advances in natural language processing technology offer a promising avenue for automating this process. However, methods for measuring similarity between patents still rely on experts manually classifying patents. Due to the recent development of artificial intelligence technology, a lot of research is being conducted focusing on the semantic similarity of patents using natural language processing technology. However, it is difficult to accurately analyze patent data, which are legal documents representing complex technologies, using existing natural language processing technologies. To address these limitations, we propose a hybrid methodology that takes into account bibliographic similarity, measures the similarity between patents by considering the semantic similarity of patents, the technical similarity between patents, and the bibliographic information of patents. Using natural language processing techniques, we measure semantic similarity based on patent text and calculate technical similarity through the degree of coexistence of International patent classification (IPC) codes. The similarity of bibliographic information of a patent is calculated using the special characteristics of the patent: citation information, inventor information, and assignee information. We propose a model that assigns reasonable weights to each similarity method considered. With the help of experts, we performed manual similarity evaluations on 420 pairs and evaluated the performance of our model based on this data. We have empirically shown that our method outperforms recent natural language processing techniques.
著者: Yongmin Yoo, Cheonkam Jeong, Sanguk Gim, Junwon Lee, Zachary Schimke, Deaho Seo
最終更新: 2023-11-30 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2303.16767
ソースPDF: https://arxiv.org/pdf/2303.16767
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。