Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 人工知能

高品質な日本語ウェブコーパスを作る

Common Crawlデータから作られたしっかりした日本語コーパスがLLMのパフォーマンスを向上させるよ。

― 1 分で読む


日本語ウェブコーパスの作成日本語ウェブコーパスの作成高品質な日本語データでLLMを強化する。
目次

近年、自然言語処理(NLP)でのさまざまなタスクに対する大規模言語モデル(LLMS)の利用が大きく増えてきたよね。これらのモデルは、テキストを理解して生成する能力を高めるために、いろんなデータソースで訓練されてきたんだ。でも、日本語のLLMsの訓練に使われる既存のコーパスは、あんまり質が高くないことが多いんだ。

この記事では、何年にもわたってクローリングされたウェブページのコレクションであるCommon Crawlアーカイブから、大規模な日本語ウェブコーパスの作成について話すよ。目的は、日本語LLMsのためにより良い訓練データを提供して、そのパフォーマンスを向上させることなんだ。

質の良いデータの重要性

LLMsの効果は、彼らが訓練されるデータの質に大きく依存するよ。日本語モデルのための既存のデータセットは、多言語コーパスから引き出されていることが多くて、日本語テキストの質を優先してないことが多いんだ。この焦点の欠如が、言語のニュアンスに苦しむモデルを生む原因になってる。

この問題を解決するには、大量のテキストを提供するだけでなく、質にも重点を置いた専用の日本語コーパスを構築することが必要なんだ。質の高い訓練データは、モデルが言語の複雑さをよりよく理解できるようにし、さまざまなタスクでのパフォーマンスを向上させる。

Common Crawlアーカイブ

高品質な日本語コーパスを作成するために、このプロジェクトは時間をかけて集められたウェブページの膨大なリポジトリであるCommon Crawlからテキストを抽出したよ。このアーカイブには、インターネットのスナップショットが含まれていて、さまざまなコンテンツをキャッチしてる。プロジェクトは、2020年から2023年の間に収集された約634億ページをカバーする21のスナップショットを利用したんだ。

コーパスのサイズ

新しい日本語ウェブコーパスは、約3121億文字から成り立っていて、約1億7300万ページに相当するよ。これが、日本語LLMsの訓練のための最大のコーパスになったんだ。CC-100、mC4、OSCARのような以前使用されていたデータセットを超えて、小さい日本語テキストしか含まれてなかったからね。

質の検証

新しく作られたコーパスの効果を確認するために、研究者たちはLlama 2やMistralなどの有名なLLMsで継続的な事前訓練を行った。その結果、日本語のベンチマークデータセットでのパフォーマンスが一貫して向上したことが示されて、新しいコーパスがモデルの日本語テキスト理解と生成の能力を確実に向上させていることが確認された。

開発の動機

より良い日本語LLMsを開発する動機にはいくつかの要因があるよ。NLPの研究を進める必要がある一方で、外国企業に依存することへのセキュリティの懸念もあるんだ。多くの日本の企業や大学がオープンなLLMsの開発に積極的に関わっているから、日本語のニーズに特化したより良い訓練データが必要とされてる。

既存データセットの限界

多くの既存の日本語データセットには質の問題がある。たとえば、HTMLをテキストに変換するプロセスからノイズが含まれていて、壊れたデータや未精製のデータになってしまうことが多いんだ。これらのデータセットは多言語の文脈で作成されたため、日本語の複雑さに必ずしも対応していないんだよ。

コーパス構築のアプローチ

このプロジェクトでは、いくつかの主要なステップで大規模で高品質な日本語ウェブコーパスを構築することに焦点を当てたよ:

  1. 日本語テキストの抽出: 最初の段階では、Common CrawlのWARCファイルからテキストを抽出することから始まる。プロセスは、Amazon S3に保存されたスナップショットにアクセスして、HTMLコンテンツを引き出すツールを使ってさらに分析することから始まるよ。

  2. 高品質テキストの選択: テキストを抽出した後、質の高い日本語コンテンツのみを含むようにフィルタリングプロセスが適用される。この選択は、不要なノイズを排除するために重要なんだ。

  3. テキストのクリーニング: 最後に、抽出したテキストは、整った使いやすい形式にするためにクリーニングされる。このステップでは、句読点を正規化して、前の段階でフィルタリングされなかった残りの無関係な部分を取り除くことが含まれるよ。

言語検出

抽出プロセス中に直面する大きな課題の一つは、大量のデータの中で日本語を正確に検出することだ。このために、プロジェクトは迅速な言語検出方法を採用して、日本語コンテンツを詳細に分析することなく効率的に特定することができる。この効率的なアプローチは、処理時間を大幅に短縮しながら、高い精度を維持するんだ。

質のフィルタリング

質のフィルタリングプロセスは複数のステップから成るよ:

  • 重複の削除:繰り返しのあるコンテンツや役に立たないものを削除して、コーパスに有用なテキストだけが残るようにする。
  • 品質基準の設定:高品質の日本語テキストを定義するためにさまざまなルールが設けられた。これらのルールは、文字数、言語使用、文構造などの要素に対処しているんだ。

これらのフィルタリング技術を使うことで、最終的なコーパスは貴重なコンテンツを多く保ちながら、無関係または低品質のデータを捨てることができる。

デデュプリケーションプロセス

質のフィルタリングの後、次の段階はデデュプリケーションで、コーパス内の冗長なエントリーを削除するんだ。MinHashという方法を使って、重複するドキュメントを特定し、最新のバージョンだけを保持する。このアプローチは、モデルが繰り返しの情報を記憶しないようにすることで訓練効率を向上させる。

ホスト名フィルタリング

さらにコーパスを洗練させるために、ホスト名に基づいたフィルタリングシステムが設立された。質の低いコンテンツや有害な素材を生成することで知られる特定のウェブサイトは、最終データセットに含まれないようにブロックされた。この段階は、コーパスの全体的な基準を大幅に向上させることに繋がったんだ。

クリーニングプロセス

クリーニングプロセスは、テキストがLLMsの訓練に使えるようにすることを目指してる。これには、句読点の正規化や、以前のステージでフィルタリングされなかったフッターテキストの削除などの軽微な編集が含まれる。この注意深いクリーニングは、データの全体的な質と一貫性を維持するのに役立つんだ。

モデルの訓練と評価

新しく作られたコーパスの効果を評価するために、いくつかの著名なLLMsが選ばれて継続的な事前訓練を受けたよ。これらのモデルはすでに英語に精通しているから、日本語ウェブコーパスと他のソース(日本語のWikipediaなど)を組み合わせて微調整された。

訓練プロセスでは、新しい日本語コーパスと他のデータセットのミックスを準備して、日本語と英語の知識のバランスを取るようにした。結果として、これらのモデルは日本語の理解と生成におけるスキルが向上したことが、さまざまなベンチマークタスクでのパフォーマンス向上で証明されたんだ。

ベンチマーク評価

評価段階では、モデルが日本語のベンチマークデータセットに対してテストされたよ。これらの評価は、選択肢式の質問応答、読解力、自然言語推論など、さまざまなタスクをカバーしている。この評価中に観察されたパフォーマンスの向上は、新しい日本語コーパスが言語の理解を深める必要があるタスクを支援する効果を強調しているんだ。

今後の方向性

このプロジェクトで大規模な日本語ウェブコーパスが成功裏に確立されたけど、成長のための道はまだたくさんある。将来的には、有害なコンテンツ生成を減らすことでLLMsの安全策を改善することを目指しているんだ。訓練データが有益で偏りのないものに保たれるように、より強力なフィルタリング方法の開発を続けることが重要なんだ。

さらに、現在は継続的な事前訓練に焦点を当てているけど、日本語LLMsをゼロから訓練する方法を探ることも優先事項だ。このコーパスの効果を、サポートされたタスクだけでなく、言語のより広範な理解を捉えることにおいても評価することが目標なんだ。

結論

要するに、このプロジェクトはCommon Crawlアーカイブからテキストを抽出して洗練させることで、かなりの日本語ウェブコーパスを作成することに成功したんだ。結果として得られたデータセットは、日本語LLMsの訓練に利用できる最大のものであり、その効果はモデルの性能向上を示す事前訓練実験によって確認された。

質への重点、徹底的な抽出方法、厳格なフィルタリングプロセスのおかげで、日本語モデルの訓練とパフォーマンスを大きく向上させることができるリソースが得られたんだ。将来的な作業がこのコーパスをさらに洗練し発展させ続けることで、日本の自然言語処理能力の向上に大きな可能性があるんだよ。

オリジナルソース

タイトル: Building a Large Japanese Web Corpus for Large Language Models

概要: Open Japanese large language models (LLMs) have been trained on the Japanese portions of corpora such as CC-100, mC4, and OSCAR. However, these corpora were not created for the quality of Japanese texts. This study builds a large Japanese web corpus by extracting and refining text from the Common Crawl archive (21 snapshots of approximately 63.4 billion pages crawled between 2020 and 2023). This corpus consists of approximately 312.1 billion characters (approximately 173 million pages), which is the largest of all available training corpora for Japanese LLMs, surpassing CC-100 (approximately 25.8 billion characters), mC4 (approximately 239.7 billion characters) and OSCAR 23.10 (approximately 74 billion characters). To confirm the quality of the corpus, we performed continual pre-training on Llama 2 7B, 13B, 70B, Mistral 7B v0.1, and Mixtral 8x7B Instruct as base LLMs and gained consistent (6.6-8.1 points) improvements on Japanese benchmark datasets. We also demonstrate that the improvement on Llama 2 13B brought from the presented corpus was the largest among those from other existing corpora.

著者: Naoaki Okazaki, Kakeru Hattori, Hirai Shota, Hiroki Iida, Masanari Ohi, Kazuki Fujii, Taishi Nakamura, Mengsay Loem, Rio Yokota, Sakae Mizuki

最終更新: 2024-04-26 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2404.17733

ソースPDF: https://arxiv.org/pdf/2404.17733

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

参照リンク

著者たちからもっと読む

類似の記事