Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle

Présentation de PatentGPT : des LLM spécialisés pour la propriété intellectuelle

Les modèles PatentGPT sont conçus pour répondre à des défis uniques dans la propriété intellectuelle.

― 5 min lire


PatentGPT : IA pour laPatentGPT : IA pour lapropriété intellectuelletâches IP complexes.Modèles spécialisés conçus pour des
Table des matières

Ces dernières années, les grands modèles de langage (LLMs) ont pris de l'ampleur parce qu'ils gèrent bien pas mal de tâches linguistiques. Ces modèles peuvent être utilisés dans plein de domaines, mais les utiliser dans le secteur de la Propriété Intellectuelle (PI) c'est pas si simple. La raison, c'est que la PI demande des connaissances spécifiques, une protection de la vie privée, et la capacité de traiter des textes très longs. Dans ce rapport, on parle d'une méthode pour entraîner des LLMs axés sur la PI, appelée PatentGPT, qui répond aux besoins uniques du domaine de la PI.

Le Besoin de Modèles Spécialisés

Les LLMs à usage général comme GPT-4 montrent des capacités impressionnantes dans les tâches de traitement du langage naturel comme lire, écrire et comprendre des textes. Cependant, ils ont souvent du mal avec des tâches qui demandent des connaissances spécifiques, surtout dans des domaines comme le droit de la PI et les documents de brevets. Étant donné les complexités de la rédaction de brevets et les nuances juridiques impliquées, il devient crucial de créer des modèles spécialement conçus pour ces tâches.

Défis dans le Domaine de la PI

Appliquer les LLMs au domaine de la PI pose plusieurs défis. D'abord, les modèles nécessitent une connaissance approfondie des concepts juridiques et de la terminologie. Ensuite, les préoccupations liées à la vie privée doivent être gérées avec soin, car les documents de brevet peuvent contenir des informations sensibles. Enfin, les spécifications de brevet et d'autres documents connexes peuvent être extrêmement longs, rendant difficile pour les modèles standards de les traiter efficacement.

PatentGPT : Une Solution pour le Domaine de la PI

Pour relever ces défis, on a développé la série de modèles PatentGPT. Ces modèles ont été spécifiquement formés pour gérer des tâches liées à la PI. Le processus d'entraînement consiste à utiliser des modèles pré-entraînés open-source comme base, puis à les peaufiner avec des données spécialisées du domaine de la PI. Nos modèles ont été évalués à l'aide d'un benchmark appelé MOZIP, où ils ont surpassé GPT-4, montrant leur capacité à gérer efficacement les requêtes et les tâches liées à la PI.

Processus d’Entraînement

Collecte de données

Créer un dataset de qualité pour l'entraînement est crucial. On a rassemblé des données de diverses sources, y compris des sites juridiques, des documents techniques, des brevets, des articles de recherche et des ressources internes. Ce dataset vise à donner une vue d'ensemble complète des connaissances nécessaires en PI.

Prétraitement des Données

Avant d'utiliser les données pour l'entraînement, on a appliqué plusieurs techniques de nettoyage pour assurer leur qualité. Ça incluait de filtrer les données de mauvaise qualité, de supprimer les doublons, et de réécrire des documents pour plus de clarté. On a aussi synthétisé de nouvelles données pour améliorer encore le dataset.

Pré-entraînement et Affinage

On a suivi un processus de pré-entraînement en deux étapes. Dans la première étape, on a utilisé des connaissances générales en PI pour entraîner le modèle, tandis que la deuxième étape s'est concentrée sur des tâches spécifiques, comme la rédaction et la comparaison de brevets. En affinant les modèles grâce à cette approche structurée, on visait à les rendre plus efficaces pour comprendre et générer du texte lié à la PI.

Évaluation de Performance

Tests de Benchmark

Pour évaluer la performance de nos modèles, on a créé un nouveau benchmark appelé PatentBench. Ce benchmark teste diverses tâches liées à la PI, comme la rédaction de brevets, la classification et la synthèse. On a aussi comparé nos modèles avec des benchmarks établis comme MOZIP, MMLU et C-Eval.

Résultats

Nos modèles ont constamment surpassé les modèles à usage général dans diverses tâches spécifiques au domaine de la PI. Par exemple, lors d'un examen récent pour les agents de brevets, nos modèles ont bien réussi, montrant leur capacité à comprendre les lois et concepts des brevets. En plus, dans des tâches de traduction et de correction de brevets, nos modèles ont montré de bonnes performances comparées à d'autres LLMs de pointe.

Directions Futures

Amélioration du Support de Long Contexte

Notre travail futur se concentrera sur l'amélioration de la capacité de nos modèles à gérer des textes très longs. C'est important pour les tâches de PI qui impliquent souvent des documents longs, afin que nos modèles restent efficaces et performants.

Expansion du Dataset

On prévoit aussi d'élargir notre dataset en intégrant plus de contenu en anglais et des données d'entraînement spécifiques pour renforcer les capacités des modèles dans le domaine de la PI.

Conclusion

Le développement de PatentGPT marque une étape significative vers la création de LLMs spécialisés pour le secteur de la PI. En comprenant les défis uniques de ce domaine et en entraînant les modèles en conséquence, on vise à soutenir diverses tâches auxquelles les professionnels de la PI font face au quotidien. Nos résultats indiquent un avantage clair pour les modèles spécifiques au domaine par rapport aux modèles à usage général, éclairant le chemin à suivre pour des applications avancées dans le monde de la Propriété Intellectuelle.

Source originale

Titre: PatentGPT: A Large Language Model for Intellectual Property

Résumé: In recent years, large language models(LLMs) have attracted significant attention due to their exceptional performance across a multitude of natural language process tasks, and have been widely applied in various fields. However, the application of large language models in the Intellectual Property (IP) domain is challenging due to the strong need for specialized knowledge, privacy protection, processing of extremely long text in this field. In this technical report, we present for the first time a low-cost, standardized procedure for training IP-oriented LLMs, meeting the unique requirements of the IP domain. Using this standard process, we have trained the PatentGPT series models based on open-source pretrained models. By evaluating them on the open-source IP-oriented benchmark MOZIP, our domain-specific LLMs outperforms GPT-4, indicating the effectiveness of the proposed training procedure and the expertise of the PatentGPT models in the IP domain. Remarkably, our model surpassed GPT-4 on the 2019 China Patent Agent Qualification Examination, scoring 65 and matching human expert levels. Additionally, the PatentGPT model, which utilizes the SMoE architecture, achieves performance comparable to that of GPT-4 in the IP domain and demonstrates a better cost-performance ratio on long-text tasks, potentially serving as an alternative to GPT-4 within the IP domain.

Auteurs: Zilong Bai, Ruiji Zhang, Linqing Chen, Qijun Cai, Yuan Zhong, Cong Wang, Yan Fang, Jie Fang, Jing Sun, Weikuan Wang, Lizhi Zhou, Haoran Hua, Tian Qiu, Chaochao Wang, Cheng Sun, Jianping Lu, Yixin Wang, Yubin Xia, Meng Hu, Haowen Liu, Peng Xu, Licong Xu, Fu Bian, Xiaolong Gu, Lisha Zhang, Weilei Wang, Changyang Tu

Dernière mise à jour: 2024-06-04 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.18255

Source PDF: https://arxiv.org/pdf/2404.18255

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires