テロライザー:特許名の明確化ツール
テロライザーは、いろんな会社名を統一して特許データをシンプルにしてるよ。
― 1 分で読む
目次
テロライズは、特許所有者として記載されている企業の異なる名前を組み合わせるために設計された新しいツールだよ。これは企業が特許を出願する時に、フルネーム、短縮バージョン、略語、さらには子会社の名前など、いくつかの異なる名前を使うことが多いから重要なんだ。これがあると、研究者が企業がどれだけの特許を持っているかを正確に数えて分析するのが難しくなるんだ。
これまでのこの問題を解決するための多くの方法は遅く、複雑なルールや辞書に依存していることが多くて、更新するのが大変なんだ。テロライズは、自然言語処理やネットワーク分析などの現代技術を使ってこれを改善しようとしている。これにより、大量の企業名を自動的に処理して、同じ名前の異なるバージョンを一致させることができるんだ。
会社名の曖昧さ解消の課題
同じ会社のさまざまな名前を特定するのは多くの問題を引き起こすことがあるんだ。研究者が特許データを見ると、その会社の特許活動の全体像が見えないことがあるよ。例えば、大手多国籍企業がいくつかの異なる名前で特許を出願しているかもしれない。それが原因で、その会社が実際に持っている特許の数を過小評価することになるんだ。
名前が異なるのは、多くの理由があって、スペルのミスや企業の法的構造の変化、異なる言語の使用などがあるよ。例えば、「ノキア」という会社は、特許記録に「NOKIA」や「NOKIA CORPORATION」、「NOKIA US HOLDINGS INC.」として現れることがある。この名前のバラエティは混乱を生んで、同じ実体に関連する特許を見つけるのが難しくなっちゃう。
テロライズとは?
テロライズは、特許記録の企業名をクリーンにして調和させるための先進的な技術を使ったツールだよ。いくつかのステップで動作するんだ:
パース - このステップでは、名前をクリーンにして、スペルミスを修正し、企業をよりよく特定するためにインターネットから追加情報を収集するよ。
マッチング - このフェーズでは、テロライズが各名前を他の名前と比較して、類似のものを見つけてどれだけ一致しているかを計算するよ。
フィルタリング - 最後に、このツールはネットワーク理論からのメソッドを使って、類似の名前をグループ化して、企業の誤認識の可能性を減らすよ。
これらのステップを経て、テロライズは特許出願に関連する企業名のクリーンで正確なリストを作成することを目指しているんだ。
特許データの重要性
特許データはイノベーションや技術の進歩を理解するために重要なんだ。政策立案者や企業は、この情報を使って進歩を追跡し、情報に基づいた決定を下すことがあるよ。しかし、譲渡人の名前が混乱していると障害が生じるんだ。特許の正確なカウントは、企業がイノベーションの面でどれだけうまくやっているかを評価するのに重要なんだ。
特許の所有者を正確に特定することは、競争分析や投資決定、技術ネットワークの理解など、さまざまな分野でも重要な意味を持っているよ。誤認識があると、誤った結論や戦略につながることがあるんだ。
名前の曖昧さ解消の課題
特許データの企業名を曖昧さ解消するのは、いくつかの理由で難しいよ:
スペルのバリエーション: 企業は似たような名前を持っているかもしれないけど、スペルが違うことがあるよ。例えば、「ベイン・アンド・カンパニー」は「ベイン・コ」としても現れることがあるんだ。
ミス: スペルの単純なエラーが混乱を引き起こすことがあるよ。
法的名前: 異なる法的形態が問題を複雑にすることがあって、「IBM INC.」や「IBM LLC」みたいなものがあるんだ。
地理的表示: 名前には「BASF China」や「BASF Germany」みたいに場所が含まれることがあるよ。
名前の変更: 企業は頻繁に名前を変えたり再構築したりするから、時間とともに多くのバリエーションが生じるんだ。
子会社: 親会社は多くの子会社を持っていて、それぞれ異なる名前を使っていることがあって、さらに複雑化するんだ。
これらの課題のために、多くの研究者は企業に関連する特許の総数を正確に特定したり、 prolificな発明家を見つけたりするのが難しいんだ。
伝統的な曖昧さ解消の方法
現在の曖昧さ解消の方法の多くは、手動またはハードコーディングされたアプローチに依存しているよ:
辞書: いくつかのツールは、企業名のバリエーションを含む事前定義されたリストを使っているけど、時が経つにつれて古くなったり不完全になったりすることがあるんだ。
文字列マッチング: 多くの方法がテキストの文字列を直接比較しようとするけど、これは計算が大変で、異なる名前のニュアンスを捕らえるのに失敗することが多いよ。
これらの伝統的アプローチは、大規模なデータセットで苦労する傾向があるから、特許関連データを効果的に管理・分析するのが難しくなるんだ。
テロライズの仕組み
ステップ1: パース
テロライズの最初のステップはパースだよ。このプロセスでは、名前をクリーンにして、より統一性を持たせるんだ。例えば、このツールはウェブ検索の情報を使ってスペルエラーをチェックするよ。ウェブクローラーが各名前の詳細を集めて、可能な限りミスを修正するんだ。
この段階でユニークな名前の数がかなり減るんだ。というのも、多くの異なるバリエーションがクリーンアップされてマージされるから。その目標は、できるだけ正確な名前に近づけることなんだ。
ステップ2: マッチング
名前がクリーンになったら、テロライズはデータセット内のすべての名前を互いに比較するんだ。共通の単語を持っているかどうかや、インターネットの同じドメインから来ているかどうかなど、いくつかの基準を基に一致を探すよ。
テロライズは、2つの名前がどれだけ関連しているかを評価するためのスコアリングシステムを使って、どの名前が同じ会社を指している可能性が高いかを特定するんだ。
ステップ3: フィルタリング
最後のステップはフィルタリングだよ。テロライズは、各名前をノードとし、スコアに基づいて類似の名前を接続するネットワークを作成するんだ。このネットワークは、同じ実体を指す可能性が高い名前のコミュニティを検出することを可能にするよ。
ネットワーク理論の原則を適用することで、テロライズはマッチを洗練させ、エラーをフィルタリングして、同じ実体を表す企業名のよりまとまりのあるリストを作成できるんだ。
テロライズを使った結果
325,000件以上の譲渡人名のデータセットに適用したところ、テロライズはユニークな名前の数を42%以上減少させることに成功したんだ。この減少は大きな改善で、特許所有の分析や理解を深めるのに役立つよ。
結果は、テロライズがさまざまなタイプのデータセットで一貫して機能することを示していて、名前マッチングプロセスの一般化において、その効果を示している。多くの場合、既存のアルゴリズムよりも高いスコアを出して、精度や再現率などの主要な指標で優れていたんだ。
テロライズの発見の影響
企業名の成功した調和は重要な利益をもたらすよ:
データ品質の向上: クリーンなデータセットは、研究者が特許データをより正確に分析できるようにするんだ。
イノベーションの理解の向上: より信頼できるデータがあれば、政策立案者や企業はイノベーションのトレンドや技術の進歩をよりよく評価できるようになるよ。
主要プレーヤーの特定: 正確な特許データは、さまざまな分野のリーディング企業や個人を特定するのに役立つんだ。
テロライズの限界
テロライズには期待される限界もあるよ:
オンライン情報への依存: このツールは名前を修正するためにウェブ検索に依存しているから、小規模な企業や目立たない企業にはうまく機能しないことがあるよ。
歴史的変化の追跡不能: テロライズは、所有権の変化を時間の経過とともに再構築することができないから、誤解を生じる可能性があるんだ。
ベンチマークデータセットの変動性: テストに使われるデータセットは、特許記録のすべての複雑さを表すものではないかもしれなくて、潜在的なバイアスを生むことがあるんだ。
テロライズの今後の方向性
今後のテロライズの改善は、その機能をさらに高めることができるかもしれないよ。例えば、ロゴ認識や法的識別子を統合すれば、名前や所有権が変わっても、より正確に実体を追跡できるようになるだろう。
さらに、テロライズの出力を使って新しいモデルをトレーニングすれば、時が経つにつれて進化し続けるシステムができるかもしれない。それがよりスマートなアルゴリズムを生み出して、名前の曖昧さ解消をより文脈的に、手動チェックへの依存を減らして扱えるようにすることができるよ。
結論
テロライズは、企業名を調和させる自動化されたソリューションを提供することで、特許研究の分野での重要な問題に取り組んでいるんだ。これは、大規模なデータセットを効率的に処理できる現代技術を活用して、最終的に研究者や政策立案者に利益をもたらす、より正確なデータにつながっているんだ。
特許データの分析方法を改善することで、テロライズはさまざまな業界におけるイノベーションや技術の進歩のより明確な絵を描くのに役立っているよ。
タイトル: Presenting Terrorizer: an algorithm for consolidating company names in patent assignees
概要: The problem of disambiguation of company names poses a significant challenge in extracting useful information from patents. This issue biases research outcomes as it mostly underestimates the number of patents attributed to companies, particularly multinational corporations which file patents under a plethora of names, including alternate spellings of the same entity and, eventually, companies' subsidiaries. To date, addressing these challenges has relied on labor-intensive dictionary based or string matching approaches, leaving the problem of patents' assignee harmonization on large datasets mostly unresolved. To bridge this gap, this paper describes the Terrorizer algorithm, a text-based algorithm that leverages natural language processing (NLP), network theory, and rule-based techniques to harmonize the variants of company names recorded as patent assignees. In particular, the algorithm follows the tripartite structure of its antecedents, namely parsing, matching and filtering stage, adding an original "knowledge augmentation" phase which is used to enrich the information available on each assignee name. We use Terrorizer on a set of 325'917 companies' names who are assignees of patents granted by the USPTO from 2005 to 2022. The performance of Terrorizer is evaluated on four gold standard datasets. This validation step shows us two main things: the first is that the performance of Terrorizer is similar over different kind of datasets, proving that our algorithm generalizes well. Second, when comparing its performance with the one of the algorithm currently used in PatentsView for the same task (Monath et al., 2021), it achieves a higher F1 score. Finally, we use the Tree-structured Parzen Estimator (TPE) optimization algorithm for the hyperparameters' tuning. Our final result is a reduction in the initial set of names of over 42%.
著者: Grazia Sveva Ascione, Valerio Sterzi
最終更新: 2024-03-07 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2403.12083
ソースPDF: https://arxiv.org/pdf/2403.12083
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://patents.darden.virginia.edu/documents/DataConstructionDetails_v01.pdf
- https://permid.org/
- https://www.uspto.gov/ip-policy/economic-research/research-datasets/patent-assignment-dataset
- https://patentsview.org/download/data-download-tables
- https://pypi.org/project/cleanco/
- https://www.sbert.net/docs/package_reference/SentenceTransformer.html
- https://networkx.org/documentation/stable/reference/algorithms/generated/networkx.algorithms.community.louvain.louvain_communities.html
- https://github.com/mmorini/gSSL
- https://data.patentsview.org.s3.amazonaws.com/documents/PatentsView_Disambiguation.pdf
- https://huggingface.co/distilroberta-base