グリーンプラスチックの特許を分類する
機械学習技術を使って、グリーンプラスチックの特許分類システムを開発中。
― 1 分で読む
目次
グリーンプラスチックは、プラスチック業界で環境に優しい選択肢を作ることに焦点を当てた技術の成長分野だ。これには、廃棄物を減らしたり、リサイクルプロセスを改善する材料が含まれるかもしれない。この分野が広がるにつれて、グリーンプラスチックに関連する特許を分類する方法の必要性がますます重要になってくる。
通常、特許は確立されたシステムを使って分類される。しかし、現在グリーンプラスチック専用の分類はない。これが意味するのは、多くの関連特許が簡単に分類できず、研究者や企業が関連情報を見つけるのが難しいってこと。この記事では、機械学習技術を使ってこの新しい分野の特許を分類する方法を考察する。
特許分類の課題
特許の分類は通常、特許審査官によって手動で行われる。このプロセスは、特に新しい技術の複雑さを考えると、かなりの時間と労力がかかる。機械学習モデルの台頭に伴い、この分類作業の一部を自動化できることに期待が寄せられている。
もう一つの課題は、分類システムが固定されていないこと。技術が進歩するにつれて、新しいカテゴリを作る必要があり、古いものは時代遅れになることもある。こうなると、分類モデルは適宜更新する必要があり、これがまた長くて労力のかかるプロセスになる。
新しい分類スキームの必要性
グリーンプラスチックは比較的新しい分野なので、専用の分類スキームを開発する必要がある。このスキームは、特許審査官や研究者が必要な情報をすぐに見つけられるように助けるべきだ。目標は、特許に自動的にラベルを付ける方法を作成し、関連特許を簡単に特定できるようにすること。
これを達成するために、グリーンプラスチックに関連する技術に基づいた分類スキームが提案されている。このスキームでは、リサイクル方法や代替プラスチックなど、特許を異なるクラスに分類する。これを使うことで、特許に自動的にラベルを付けられ、機械学習モデルのトレーニング用データセットが作成できる。
特許ラベル付けのための弱い監督
特許に手動でラベルを付けるのは大変な作業だ、特に現存する特許の数を考えると。これを簡素化するために、弱い監督という方法を適用できる。このアプローチでは、各クラスに関連するキーワードを定義する。これらのキーワードが特許に現れると、自動的に対応するクラスでラベル付けされる。
この方法は、ラベル付きトレーニングデータセットを作るプロセスを速くして簡単にする。しかし、良いキーワードセットが必要だ。キーワードがよく選ばれれば、モデルはデータから効果的に学びやすい。
トレーニングデータセットの構築
ラベル付きトレーニングデータセットの構築は、分類モデルの成功にとって重要だ。このデータセットを作成するために、既存の特許公報が使われる。これらの公報には、タイトル、要約、説明などのさまざまな情報が含まれている。
関連特許が選ばれたら、あらかじめ定義されたキーワードに基づいてラベルが付けられる。先に言ったように、各特許には新しい分類階層における位置を反映した複数のラベルが付けられる。この階層的ラベル付けは、モデルが異なるクラス間の関係を理解するのに役立つ。
分類モデルの開発
ラベル付きデータセットが作成されると、それを使って分類モデルのトレーニングができる。提案されているモデルは、標準的なニューラルネットワークと階層ニューラルネットワークの2種類だ。どちらのモデルも、特許から特徴を抽出するためにBERTモデルを基盤に利用する。
標準モデルはフルコネクテッド層を通じて入力データを処理し、階層モデルは分類スキームを反映した接続を組み込む。これにより、階層モデルは分類の構造をよりよく考慮することができる。
主要評価指標
分類モデルの性能を評価する際には、いくつかの指標を使ってモデルの実績を測る。これらの指標には、精度、再現率、F1スコアが含まれる。精度はモデルが行ったポジティブな予測の正確さを測り、再現率は実際のポジティブインスタンスがどれだけ識別されたかを示す。
F1スコアは、精度と再現率を1つの指標にまとめて、モデルのパフォーマンスをバランスよく見えるようにする。提案されたスキーム内で特許がどれほどうまく分類されているかを理解するために、これらの指標を使うことが重要だ。
パフォーマンス結果
2つの分類モデルのパフォーマンスを検証し、特許を分類する際の効果についての洞察が得られる。全体的に、階層モデルは標準モデルよりも一般的に優れていて、特に分類階層の深いクラスではデータが不足しがちなときに効果的だ。
結果はまた、クラスがより特定的になるにつれて、両モデルの精度が低下することを示している。これは通常、これら特定カテゴリの利用可能な特許の数が限られているためだ。そのため、両モデルはこれらのケースで正しい予測をするのが難しくなる。
モデル予測の可視化の重要性
モデルがどのように予測に至るかを理解するのは重要だ。モデルの決定に影響を与えるキーワードを可視化することで、分類の結果に対する信頼が得やすくなる。この透明性により、特許審査官はモデルによる分類が合理的か、さらなる検討が必要かを評価できる。
このような視覚的説明をワークフローに統合することで、機械生成の分類と人間の監視のギャップを埋める手助けができる。
評価基準の満たし方
提案されたソリューションは、その有効性と有用性を確保するためのいくつかの評価基準を満たしている。提案されたシステムは、データ処理からモデルのトレーニング、評価までのすべてのステップをカバーしている。さらに、作成されたコードは他の分類シナリオにも簡単に適応できる。
この柔軟性により、新しい分類スキームや更新された分類に適用でき、大規模な再作業を必要としない。専門家からのフィードバックに基づいて簡単に調整できるユーザーフレンドリーなソリューションを作ることが強調されている。
今後の方向性
現在の作業はしっかりした基盤を築いているが、いくつかの今後の発展の領域が挙げられている。分類スキームとキーワードリストを洗練させるためにドメイン専門家と協力することで、ラベル付けプロセスを大幅に改善できる。
また、手動でのラベル付けを持つテストデータセットを構築することで、モデルのパフォーマンスをより包括的に評価でき、実際のアプリケーションでの信頼性を確認できる。多言語モデルを探索することで、異なる言語の特許にも対応可能で、これらの分類システムの範囲を広げることができる。
さらに、タイトルや要約だけでなく、完全な説明などの追加特許情報を取り入れることで、分類精度を向上させるかもしれない。新しい自然言語処理の手法や技術は、関与する複雑さに対処するための革新的な方法を提供できる。
結論
グリーンプラスチック関連の特許の分類システムの開発は独特の挑戦をもたらすが、特許分類の効率を向上させる機会でもある。機械学習を活用し、堅牢な分類スキームを作成することで、グリーン技術の分野で重要な情報へのアクセスを改善できる。
この分野での作業は、将来の研究のための強固なベンチマークを設定するだけでなく、特許分類の自動化という重要な課題にも貢献する。この方法を引き続き洗練させ、新たな課題に適応することで、グリーンプラスチックの成長分野が効果的な特許分類システムによって十分にサポートされることを確実にできる。
タイトル: Solution for the EPO CodeFest on Green Plastics: Hierarchical multi-label classification of patents relating to green plastics using deep learning
概要: This work aims at hierarchical multi-label patents classification for patents disclosing technologies related to green plastics. This is an emerging field for which there is currently no classification scheme, and hence, no labeled data is available, making this task particularly challenging. We first propose a classification scheme for this technology and a way to learn a machine learning model to classify patents into the proposed classification scheme. To achieve this, we come up with a strategy to automatically assign labels to patents in order to create a labeled training dataset that can be used to learn a classification model in a supervised learning setting. Using said training dataset, we come up with two classification models, a SciBERT Neural Network (SBNN) model and a SciBERT Hierarchical Neural Network (SBHNN) model. Both models use a BERT model as a feature extractor and on top of it, a neural network as a classifier. We carry out extensive experiments and report commonly evaluation metrics for this challenging classification problem. The experiment results verify the validity of our approach and show that our model sets a very strong benchmark for this problem. We also interpret our models by visualizing the word importance given by the trained model, which indicates the model is capable to extract high-level semantic information of input documents. Finally, we highlight how our solution fulfills the evaluation criteria for the EPO CodeFest and we also outline possible directions for future work. Our code has been made available at https://github.com/epo/CF22-Green-Hands
著者: Tingting Qiao, Gonzalo Moro Perez
最終更新: 2023-02-22 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2302.13784
ソースPDF: https://arxiv.org/pdf/2302.13784
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。