ClaimCompareを紹介するよ:特許のユニークさを測るツールだ。
ClaimCompareは、発明のユニークさに影響を与える関連特許を特定するのを助ける。
― 1 分で読む
目次
特許を出願する時は、新しい発明がユニークかどうかを確認するために既存の特許をチェックするのが大事だよ。これは発明者と特許審査官の両方がやることで、新しいアイデアが本当にオリジナルかどうかを見極めたいからなんだ。でも、これを探すのはすごく時間がかかって複雑で、専門用語や法律用語がいっぱい使われるんだよね。だから、こういう関連特許を見つけるために技術を使った自動化された方法があるんだけど、残念ながらこの分野での研究はあまり進んでないんだ。
ClaimCompareパイプライン
ClaimCompareっていう新しいツールを紹介するよ。これは、新しい発明のユニークさに影響を与えるかもしれない特許を特定するシステムをトレーニングするために使えるデータセットを作るのを手助けしてくれるんだ。こういう目的のために複数のデータセットを生成できるツールは初めてなんだ。俺たちは電気化学の特定の分野に焦点を当てて、27,000以上の特許を使ってこのツールの使い方を示したよ。この特許のそれぞれについて、もうユニークでないかもしれない関連特許を特定して、ラベルを付けてるんだ。
特許検索の重要性
特許検索には、操業の自由を確保したり、特許可能性をチェックしたり、特許の妥当性を評価したりするたくさんのタスクが含まれるよ。その中でも、特許可能性の検索は特に重要で、新しい発明が新しくて当たり前じゃないかどうかを判断するからね。アメリカでは、以前の特許が新しい発明の少なくとも一つの請求項の全ての部分をカバーしている場合、「新規性を破壊する」とみなされるんだ。
この検索は従来、手動で行われていて、複雑な検索クエリを作ったり、たくさんの文書を確認したりしてたんだ。でも、特許の数が増え続ける中で、手動の検索方法はあまり現実的じゃなくなってきてるから、情報検索や機械学習のような最新の技術を使って検索プロセスを改善しようとする関心が高まってるんだ。
ClaimCompareの貢献
ClaimCompareを開発するにあたって、アメリカ特許商標庁からの公開データを使ってデータセットを作成したよ。俺たちのツールの主な焦点は、関連文献ではなく、新規性を破壊する特許を特定することなんだ。
- ClaimCompareを作ったことで、ユーザーは特許のユニークさに関連するカスタマイズされたデータセットを生成できるようになったよ。
- 27,000の特許からなるサンプルデータセットを作成して、約1,045のベース特許がそれぞれ25の関連特許にリンクされてるんだ。その中でかなりの数が発明の新規性を破壊する可能性があるとラベル付けされてるよ。
- データセットの効果をテストするために、機械学習モデルを微調整して、新規性を破壊する特許をどれだけうまく特定できるかを見た結果、既存のモデルと比べて大幅に改善されたんだ。
俺たちの目標は、ClaimCompareを使って一般カテゴリと特定の分野の他のデータセットを生成できるようにすることだよ。これにより、特許のユニークさを評価する方法を改善するためにさまざまなモデルをトレーニングできるはず。
ClaimCompareのプロセス
ClaimCompareは、USPTOの公開データから関連特許を集めるために使うシードクエリから始まるよ。例えば、「レドックスフローバッテリー」っていうフレーズを使うと、この技術に関連する文書を取得できるんだ。このツールは、特許の出願番号や公開番号、要約、請求項などの重要な詳細を収集するんだ。
次に、USPTOのオフィスアクションを確認して、新規性を破壊するとされている特許を見つけるよ。もし特定のオフィスアクションが102拒絶を言及していたら、そのテキストから関連特許を抽出することができるんだ。この方法でパイプラインを効率的にして、高い成功率を達成してるよ。
ネガティブサンプルについては、ベース特許の要約からキーワードを集めて、データセットをバランスさせるために関連特許を探すんだけど、通常、新規性を破壊する特許よりも関連特許の方が多いから、データセットは意図的に不均衡にしてるんだ。
データセットの構造
俺たちが作ったデータセットには1,045の特許が含まれてて、そのうち357特許には新規性を破壊する可能性のある関連特許が少なくとも一つあるんだ。いくつかのベース特許には複数の新規性を破壊する関連特許があるけど、俺たちはデータセットの構造が実際の関連特許と新規性を破壊する特許の不均衡を反映するようにしてるんだ。
この構造には二つの目的があって、特許検索の実際の状態を反映しつつ、この不均衡が新規性を破壊する特許を特定するモデルのパフォーマンスにどう影響するかを探ることができるんだ。
実験の設定
データセットの効果を評価するために、機械学習モデルのトレーニング用に準備したよ。データは各ベース特許がその関連特許とペアになる形式に変換されたんだ。データセットをトレーニング、バリデーション、テストセットに分けるための特定の戦略を用いたよ。これにより、モデルがテストされた特許から学ばないようにしてるんだ。
トレーニングフェーズでは、シーケンス分類用に設計された特定のモデルを使ったよ。DistilRoBERTaっていうコンパクトなモデルを選んだんだけど、こういうタスクにうまく機能するんだ。いくつかのトレーニングラウンドを経て、モデルの精度を改善するために微調整したよ。
モデルの評価
トレーニングの後、どれだけモデルが新しいデータでうまく機能するかをテストしたんだ。個々の特許ペアをチェックするのではなく、特許のグループを見て、どれかが新規性を破壊するとされるかを見たんだ。これにより、モデルのパフォーマンスをよりよく測ることができたよ。
平均精度や曲線下の面積などの指標を計算して、モデルの性能を評価したんだ。その結果、微調整したモデルが俺たちのデータセットで特に訓練されていないベースラインモデルよりも大幅に良い結果を出したことが示されたよ。
制限と今後の方向性
結果には満足してたけど、いくつかの制限もあったんだ。ベースラインと微調整したモデルの間のギャップは、まだ改善の余地があることを示してる。今後の研究では、もっと広範な法律データでトレーニングされたモデルと俺たちのモデルを比較する予定だよ。
ネガティブサンプルが簡単すぎたせいで、モデルが十分に挑戦されてないかもしれないとも思ったんだ。もっと複雑な例を見つけて、モデルをより良くテストする方法を探る必要があるね。
それに、研究者にはClaimCompareを使って、さまざまな技術分野で他のデータセットを作成してもらいたいと思ってるんだ。キーワードの代わりに分類コードを使うと、より多様な特許を集めるのに役立つかもしれないよ。
結論
ClaimCompareは特許のユニークさを評価するためのデータセットを生成するために設計された新しいツールなんだ。公開されているリソースを活用することで、潜在的に有害な以前の特許を特定するプロセスを効率化することを目指してるよ。今のところの結果は、このツールが特許情報の取得における研究を大幅に改善する可能性があることを示してるんだ。
特許の新規性を評価するのが簡単になれば、特許検索にかかる時間やコストを減らせると期待してるんだ。これにより、発明者や弁護士、審査官が特許システムをより効果的に利用できるようになるはずなんだ。技術が進歩する中で、ClaimCompareのようなツールが貴重な特許情報へのアクセスを民主化し、特許プロセスを関係者全員にとってスムーズにする可能性があると思ってるよ。
タイトル: ClaimCompare: A Data Pipeline for Evaluation of Novelty Destroying Patent Pairs
概要: A fundamental step in the patent application process is the determination of whether there exist prior patents that are novelty destroying. This step is routinely performed by both applicants and examiners, in order to assess the novelty of proposed inventions among the millions of applications filed annually. However, conducting this search is time and labor-intensive, as searchers must navigate complex legal and technical jargon while covering a large amount of legal claims. Automated approaches using information retrieval and machine learning approaches to detect novelty destroying patents present a promising avenue to streamline this process, yet research focusing on this space remains limited. In this paper, we introduce a novel data pipeline, ClaimCompare, designed to generate labeled patent claim datasets suitable for training IR and ML models to address this challenge of novelty destruction assessment. To the best of our knowledge, ClaimCompare is the first pipeline that can generate multiple novelty destroying patent datasets. To illustrate the practical relevance of this pipeline, we utilize it to construct a sample dataset comprising of over 27K patents in the electrochemical domain: 1,045 base patents from USPTO, each associated with 25 related patents labeled according to their novelty destruction towards the base patent. Subsequently, we conduct preliminary experiments showcasing the efficacy of this dataset in fine-tuning transformer models to identify novelty destroying patents, demonstrating 29.2% and 32.7% absolute improvement in MRR and P@1, respectively.
著者: Arav Parikh, Shiri Dori-Hacohen
最終更新: 2024-07-16 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2407.12193
ソースPDF: https://arxiv.org/pdf/2407.12193
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://github.com/RIET-lab/claim-compare
- https://developer.uspto.gov/api-catalog/bulk-search-and-download
- https://developer.uspto.gov/api-catalog/uspto-office-action-citations-api-beta
- https://patents.google.com
- https://huggingface.co/distilbert/distilroberta-base
- https://huggingface.co/anferico/bert-for-patents