Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle

Construire un corpus web japonais de haute qualité

Un corpus japonais solide créé à partir de données de Common Crawl améliore la performance des LLM.

― 9 min lire


Création de corpus webCréation de corpus webjaponaisjaponaises de haute qualité.Améliorer les LLM avec des données
Table des matières

Ces dernières années, l'utilisation de modèles de langage de grande taille (LLMs) a beaucoup augmenté pour diverses tâches en traitement du langage naturel (NLP). Ces modèles ont été entraînés sur différentes sources de données pour améliorer leur capacité à comprendre et à générer du texte. Cependant, beaucoup de corpus existants utilisés pour entraîner les LLMs en Japonais n'ont pas été de bonne Qualité.

Cet article parle de la création d'un grand corpus web japonais à partir des archives de Common Crawl, qui est une collection de pages web explorées sur plusieurs années. L'objectif est de fournir de meilleures données d'entraînement pour les LLMs japonais, améliorant ainsi leur performance.

Importance des Données de Qualité

L'efficacité des LLMs dépend beaucoup de la qualité des données sur lesquelles ils sont entraînés. Beaucoup de datasets existants pour les modèles de langue japonaise proviennent de corpus multilingues plus larges, qui ne privilégient souvent pas la qualité du texte japonais. Ce manque de concentration peut mener à des modèles qui ont du mal avec les nuances de la langue.

Pour régler ce problème, il est essentiel de construire un corpus japonais dédié qui offre non seulement une grande quantité de texte mais qui met également l'accent sur la qualité. Des données d'entraînement de haute qualité permettent aux modèles de mieux saisir les complexités de la langue, améliorant leur performance sur diverses tâches.

L'Archive Common Crawl

Pour créer un corpus japonais de haute qualité, ce projet a extrait du texte des archives de Common Crawl, un vaste dépôt de pages web rassemblées au fil du temps. L'archive contient des snapshots de l'internet, capturant un large éventail de contenu. Le projet a utilisé 21 snapshots de l'archive, couvrant environ 63,4 milliards de pages récoltées entre 2020 et 2023.

Taille du Corpus

Le nouveau corpus web japonais comprend environ 312,1 milliards de caractères, ce qui représente environ 173 millions de pages. C'est le plus grand corpus de ce type pour entraîner des LLMs japonais, surpassant les datasets précédemment utilisés comme CC-100, mC4, et OSCAR, qui comprennent moins de texte japonais.

Vérification de la Qualité

Pour s'assurer de l'efficacité du nouveau corpus créé, les chercheurs ont procédé à un pré-entraînement continu sur des LLMs connus, comme Llama 2 et Mistral. Les résultats ont montré des améliorations constantes de performance sur des ensembles de données de référence japonais, confirmant que le nouveau corpus améliore effectivement les capacités du modèle à comprendre et à générer du texte japonais.

Motivation pour le Développement

La volonté de développer de meilleurs LLMs japonais vient de plusieurs facteurs. Il y a un besoin d'avancer la recherche en NLP, tout en prenant en compte des préoccupations de sécurité concernant la dépendance à des entreprises étrangères. Avec de nombreuses entreprises et universités japonaises s'engageant activement dans le développement de LLMs ouverts, il est urgent d'avoir de meilleures données d'entraînement spécifiquement axées sur les besoins de la langue japonaise.

Limitations des Datasets Existants

De nombreux datasets japonais existants souffrent de problèmes de qualité. Par exemple, ils incorporent souvent du bruit provenant des processus de conversion HTML en texte, entraînant des données corrompues ou non raffinées. Comme beaucoup de ces datasets ont été créés dans des contextes multilingues, ils ne s'attaquent pas nécessairement aux subtilités du japonais.

Approche pour Construire le Corpus

Ce projet s'est concentré sur la construction d'un corpus web japonais à grande échelle et de haute qualité avec plusieurs étapes clés :

  1. Extraction de Texte Japonais : La première phase consiste à extraire du texte à partir des fichiers WARC de Common Crawl. Le processus commence par l'accès aux snapshots stockés dans Amazon S3, en utilisant des outils pour extraire le contenu HTML pour une analyse plus approfondie.

  2. Sélection de Texte de Haute Qualité : Après l'extraction du texte, un processus de filtrage est appliqué pour garantir que seul le contenu japonais de haute qualité est inclus. Cette sélection est cruciale pour éliminer le bruit inutile.

  3. Nettoyage du Texte : Enfin, le texte extrait subit un nettoyage pour s'assurer qu'il est présenté dans un format cohérent et utilisable. Cette étape inclut la normalisation de la ponctuation et la suppression de tout texte de pied de page qui n'a pas été filtré lors des étapes précédentes.

Détection de Langue

Un défi majeur rencontré lors du processus d'extraction est de détecter avec précision la langue japonaise parmi les vastes quantités de données. Pour y remédier, le projet a utilisé une méthode de détection rapide de la langue qui identifie efficacement le contenu japonais sans avoir à analyser chaque page en détail. Cette approche rationalisée réduit considérablement le temps de traitement tout en maintenant un haut niveau de précision.

Filtrage pour la Qualité

Le processus de filtrage de la qualité comporte plusieurs étapes :

  • Suppression des Doublons : Le contenu répétitif ou non informatif est supprimé pour s'assurer que le corpus ne contient que du texte utile.
  • Établissement de Normes de Qualité : Différentes règles ont été établies pour déterminer ce qui constitue un texte japonais de haute qualité. Ces règles prennent en compte des facteurs comme le nombre de caractères, l'utilisation de la langue et la structure des phrases.

En utilisant ces techniques de filtrage, le corpus final conserve une quantité significative de contenu précieux tout en éliminant les données irrélevantes ou de faible qualité.

Processus de Dé-duplication

Après le filtrage pour la qualité, la phase suivante implique la dé-duplication, qui supprime les entrées redondantes au sein du corpus. En utilisant une méthode appelée MinHash, le projet identifie les documents dupliqués et conserve uniquement les versions les plus récentes. Cette approche améliore l'efficacité d'entraînement en veillant à ce que les modèles ne mémorisent pas d'informations répétitives.

Filtrage par Nom d'Hôte

Pour affiner encore le corpus, un système de filtrage basé sur les noms d'hôte a été établi. Certains sites web connus pour produire du contenu de mauvaise qualité ou du matériel nuisible ont été bloqués de l'inclusion dans le dataset final. Cette étape a considérablement élevé le standard global du corpus.

Processus de Nettoyage

Le processus de nettoyage vise à s'assurer que le texte est prêt à être utilisé pour l'entraînement des LLMs. Cela comprend des modifications mineures comme la normalisation de la ponctuation et la suppression de tout texte de pied de page qui n'a pas été filtré lors des étapes précédentes. Ce nettoyage minutieux aide à maintenir la qualité et la cohérence globales des données.

Entraînement et Évaluation des Modèles

Pour évaluer l'efficacité du nouveau corpus créé, plusieurs LLMs réputés ont été sélectionnés pour un pré-entraînement continu. Ces modèles, déjà bien formés en anglais, ont été ajustés en utilisant le corpus web japonais ainsi que d'autres sources comme la Wikipedia japonaise.

Le processus d'entraînement a impliqué la préparation d'un mélange du nouveau corpus japonais et d'autres datasets pour équilibrer la connaissance du japonais et de l'anglais. En conséquence, ces modèles ont acquis de meilleures compétences en compréhension et en génération de texte en japonais, comme l'a montré des améliorations de performance sur diverses tâches de référence.

Évaluation de Référence

Lors de la phase d'évaluation, les modèles ont été testés sur un ensemble de datasets de référence japonais. Ces évaluations ont couvert différents types de tâches, comme le question-réponse à choix multiples, la compréhension de lecture et l'inférence en langage naturel. Les gains de performance observés durant ces évaluations ont mis en lumière l'efficacité du nouveau corpus japonais dans le soutien des tâches nécessitant une compréhension plus profonde de la langue.

Directions Futures

Bien que ce projet ait réussi à établir un grand corpus web japonais, il reste encore de nombreux axes de croissance. Les travaux futurs visent à améliorer les mesures de sécurité pour les LLMs en réduisant la génération de contenu nuisible. Il est important de continuer à développer des méthodes de filtrage plus robustes pour garantir que les données d'entraînement restent bénéfiques et exemptes de biais.

De plus, bien que l'accent actuel reste sur le pré-entraînement continu, explorer des méthodes pour entraîner des LLMs japonais à partir de zéro est aussi une priorité. L'objectif est d'évaluer l'efficacité du corpus non seulement dans les tâches soutenues, mais aussi dans la capture d'une compréhension plus large de la langue.

Conclusion

En résumé, ce projet a réussi à construire un corpus web japonais substantiel en extrayant et en raffinant du texte à partir des archives de Common Crawl. Le dataset résultant est le plus grand disponible pour entraîner des LLMs japonais, et son efficacité a été validée par des expériences de pré-entraînement qui montrent des améliorations de performance constantes.

L'accent mis sur la qualité, les méthodes d'extraction approfondies et les processus de filtrage rigoureux ont donné lieu à une ressource utilisable qui peut significativement améliorer l'entraînement et la performance des modèles de langue japonaise. Alors que les travaux futurs continuent de peaufiner et de développer ce corpus, il y a un grand potentiel pour faire avancer les capacités de traitement du langage naturel dans le contexte japonais.

Source originale

Titre: Building a Large Japanese Web Corpus for Large Language Models

Résumé: Open Japanese large language models (LLMs) have been trained on the Japanese portions of corpora such as CC-100, mC4, and OSCAR. However, these corpora were not created for the quality of Japanese texts. This study builds a large Japanese web corpus by extracting and refining text from the Common Crawl archive (21 snapshots of approximately 63.4 billion pages crawled between 2020 and 2023). This corpus consists of approximately 312.1 billion characters (approximately 173 million pages), which is the largest of all available training corpora for Japanese LLMs, surpassing CC-100 (approximately 25.8 billion characters), mC4 (approximately 239.7 billion characters) and OSCAR 23.10 (approximately 74 billion characters). To confirm the quality of the corpus, we performed continual pre-training on Llama 2 7B, 13B, 70B, Mistral 7B v0.1, and Mixtral 8x7B Instruct as base LLMs and gained consistent (6.6-8.1 points) improvements on Japanese benchmark datasets. We also demonstrate that the improvement on Llama 2 13B brought from the presented corpus was the largest among those from other existing corpora.

Auteurs: Naoaki Okazaki, Kakeru Hattori, Hirai Shota, Hiroki Iida, Masanari Ohi, Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Rio Yokota, Sakae Mizuki

Dernière mise à jour: 2024-04-26 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2404.17733

Source PDF: https://arxiv.org/pdf/2404.17733

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Liens de référence

Plus d'auteurs

Articles similaires