TongGu : Un Modèle pour l'Inscription Classique Chinoise
TongGu facilite la compréhension du chinois classique avec des techniques spécialisées.
― 6 min lire
Table des matières
Le chinois classique est une partie importante de l'histoire culturelle de la Chine. Ça donne des aperçus précieux sur les idées, croyances et vies quotidiennes des gens d'autrefois. Mais, le langage peut être difficile à comprendre pour les lecteurs modernes, surtout à cause de son vocabulaire et structure différents. Ça crée un défi pour ceux qui veulent étudier ce patrimoine.
Récemment, les modèles de langage (LLMs) ont attiré l'attention pour leur capacité à gérer divers tâches linguistiques. Cependant, ils ont souvent du mal à comprendre le chinois classique, surtout pour des tâches complexes qui nécessitent beaucoup de données ou une connaissance approfondie du sujet. Pour résoudre ce problème, un nouveau modèle appelé TongGu a été développé spécifiquement pour comprendre le chinois classique.
TongGu : Un Modèle Spécialisé
TongGu vise à rendre plus facile la compréhension des textes en chinois classique. Il le fait grâce à trois approches principales :
Création d'un Dataset Unique : Un dataset spécialisé appelé ACCN-INS a été développé à partir de textes en chinois classique. Ce dataset se concentre sur des tâches liées à la compréhension du langage et peut aider à débloquer le potentiel des modèles de langue pour cela.
Ajustement Conscient de la Redondance : Cette approche aide le modèle à garder ses connaissances précieuses tout en apprenant de nouvelles tâches. En identifiant quelles parties du modèle sont les plus importantes pour différentes tâches, TongGu peut s'adapter sans oublier ce qu'il sait déjà.
Génération augmentée par récupération : Cette technique améliore la précision des réponses générées par le modèle. En utilisant un système qui récupère des informations pertinentes, TongGu peut donner des réponses plus fiables, surtout pour des tâches lourdes en connaissances.
Le Besoin d'une Nouvelle Approche
Comprendre le chinois classique ne se limite pas à connaître les mots ; ça implique aussi de saisir le contexte dans lequel ils étaient utilisés. Les méthodes traditionnelles nécessitent souvent beaucoup d'input manuel et de connaissances, ce qui rend difficile pour les utilisateurs lambda d'accéder à ces infos. Pour beaucoup, les complexités de la langue peuvent sembler accablantes.
Les LLMs existants, bien que puissants, manquent souvent de l'entraînement nécessaire et de datasets spécifiques pour bien performer dans ce domaine de niche. Ils peuvent produire des infos utiles mais ne donnent pas toujours des réponses précises ou contextualisées. Ça peut mener à de la confusion, surtout lorsqu'on se frotte à des textes en chinois classique.
Création du Dataset ACCN-INS
Pour améliorer la manière dont les LLMs gèrent le chinois classique, un nouveau dataset appelé ACCN-INS a été créé. Ce dataset inclut des données d'instruction dérivées de divers textes en chinois classique, permettant au modèle d'apprendre le contexte et les nuances.
Le dataset se compose de deux types de données :
Données Étiquetées : Ça inclut des infos bien organisées sur les textes, comme l'auteur et la période. C'est structuré de manière à faciliter la génération de matériels d'instruction.
Données Non Étiquetées : Ce type consiste en des textes bruts sans étiquettes spécifiques. En traitant ces textes comme des matériaux de référence, le modèle peut extraire des paires questions-réponses pertinentes.
En rassemblant à la fois des données étiquetées et non étiquetées, les créateurs ont pu compiler un dataset complet qui aide à l'instruction du modèle.
Entraînement de TongGu
TongGu a subi un processus d'entraînement en deux étapes pour maximiser ses performances sur les tâches en chinois classique :
Pré-Entraînement Progressif : Le modèle a d'abord été entraîné sur une variété de textes, y compris des chinois classiques et modernes, pour établir une base solide. Ça a aidé le modèle à apprendre les structures et styles de base des deux langues.
Affinage de l'Instruction : Dans la deuxième étape, le modèle a été affiné sur des tâches spécifiques en utilisant le dataset ACCN-INS. Ça a impliqué de se concentrer sur différents types de tâches, comme la traduction ou la ponctuation, pour améliorer sa compréhension et sa capacité à effectuer diverses fonctions.
Pour éviter de perdre les connaissances acquises durant l'entraînement, la méthode d'Ajustement Conscient de la Redondance a été utilisée. Ça a permis à TongGu de garder des infos importantes tout en s'adaptant à de nouveaux types de tâches.
Hallucinations
Gestion desUn problème majeur avec les modèles de langage est leur tendance à produire des infos inexactes, souvent appelées "hallucinations". Ça peut être particulièrement problématique dans des tâches intensives en connaissances où des infos précises sont cruciales.
Pour contrer cela, la méthode de Génération Augmentée par Récupération (RAG) a été introduite. Ce système permet à TongGu de tirer des infos pertinentes de sources externes quand il fait face à des questions difficiles. En élargissant son accès aux connaissances, le modèle peut générer des réponses plus précises et significatives.
Tester les Capacités de TongGu
L'efficacité de TongGu a été évaluée en utilisant un benchmark conçu pour des tâches en chinois classique. Ça a impliqué une gamme de tâches qui ont évalué sa performance en compréhension, génération et récupération de connaissances.
Lors des tests, TongGu a surpassé d'autres modèles existants dans la plupart des tâches, surtout celles nécessitant des connaissances approfondies ou de grandes quantités de données. Ça met en avant son efficacité en tant qu'outil spécialisé pour la compréhension du chinois classique.
Conclusion
TongGu représente une avancée significative dans la compréhension du chinois classique grâce à l'utilisation de technologies avancées. En se concentrant sur les défis uniques posés par cette langue ancienne et en les abordant avec des méthodes innovantes comme des datasets spécialisés et des techniques d'entraînement efficaces, TongGu offre une approche plus accessible pour ceux qui veulent explorer ce riche patrimoine culturel.
La création du dataset ACCN-INS et des techniques comme l'Ajustement Conscient de la Redondance et la Génération Augmentée par Récupération améliorent non seulement les performances des modèles de langage mais contribuent aussi à une meilleure compréhension du chinois classique. À mesure que de plus en plus de gens cherchent à se connecter à ce patrimoine, des outils comme TongGu joueront un rôle crucial pour combler le fossé entre la sagesse ancienne et la compréhension moderne.
Les efforts futurs se concentreront probablement sur le raffinement de ce modèle et l'expansion de ses capacités, garantissant que encore plus d'individus puissent apprécier et apprendre des profondes idées contenues dans les textes en chinois classique. Ce travail continu encouragera l'exploration et la croissance dans ce domaine fascinant, promouvant une connexion plus profonde à l'histoire culturelle.
Titre: TongGu: Mastering Classical Chinese Understanding with Knowledge-Grounded Large Language Models
Résumé: Classical Chinese is a gateway to the rich heritage and wisdom of ancient China, yet its complexities pose formidable comprehension barriers for most modern people without specialized knowledge. While Large Language Models (LLMs) have shown remarkable capabilities in Natural Language Processing (NLP), they struggle with Classical Chinese Understanding (CCU), especially in data-demanding and knowledge-intensive tasks. In response to this dilemma, we propose \textbf{TongGu} (mean understanding ancient and modern), the first CCU-specific LLM, underpinned by three core contributions. First, we construct a two-stage instruction-tuning dataset ACCN-INS derived from rich classical Chinese corpora, aiming to unlock the full CCU potential of LLMs. Second, we propose Redundancy-Aware Tuning (RAT) to prevent catastrophic forgetting, enabling TongGu to acquire new capabilities while preserving its foundational knowledge. Third, we present a CCU Retrieval-Augmented Generation (CCU-RAG) technique to reduce hallucinations based on knowledge-grounding. Extensive experiments across 24 diverse CCU tasks validate TongGu's superior ability, underscoring the effectiveness of RAT and CCU-RAG. The model and dataset are available at \url{https://github.com/SCUT-DLVCLab/TongGu-LLM}.
Auteurs: Jiahuan Cao, Dezhi Peng, Peirong Zhang, Yongxin Shi, Yang Liu, Kai Ding, Lianwen Jin
Dernière mise à jour: 2024-09-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.03937
Source PDF: https://arxiv.org/pdf/2407.03937
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.