Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語# 人工知能

CulturaX: マルチリンガルデータセットの新しい時代

CulturaXは、より良い言語テクノロジーのために63兆トークンの多言語データセットを提供してるよ。

― 1 分で読む


CulturaX:CulturaX:言語モデルの革命を提供してるよ。レーニング用に大規模な多言語データセットCulturaXは、高度な言語モデルのト
目次

大規模言語モデル(LLM)は、言語技術の使い方や理解の仕方を変えたよね。これらのモデルは膨大なテキストデータから学ぶことができて、人間のようなテキスト生成やさまざまなタスクをこなせるんだ。ただ、これらのモデルの開発は、使用されたトレーニングデータセットの質とサイズに大きく依存してるんだ。残念ながら、多くの強力なモデルは、そのトレーニングに使われたデータセットを完全には共有していないんだ。このオープンさの欠如が、バイアスや不正確さといった問題を研究する上での障害になってる。

この課題を解決するために、CulturaXっていう、LLMのトレーニング用に作られた巨大で多言語のデータセットを紹介するよ。このデータセットには、167の異なる言語で6.3兆トークンが含まれてるんだ。最適なトレーニングデータを提供するために、丁寧にクリーンアップして整理されたよ。CulturaXを一般に公開することで、多言語言語技術の研究と開発をサポートすることを目指してるんだ。

質の高いデータセットの重要性

LLMのパフォーマンスは、トレーニングに使われるデータによって大きく変わるよ。質の高いデータセットは、モデルの学習を助けて、虚偽情報生成やバイアスの問題を減らすのに役立つ。従来、多くのLLMは英語のテキストでトレーニングされてたから、英語以外の言語に対する効果が限られちゃうんだ。7,000以上の言語がある世界では、英語に偏ってると他の言語の進展を阻害しちゃう。

利用可能なデータセット、例えばウィキペディアやさまざまなウェブテキストのコレクションは、適切な整理がされてなかったり、ノイズが含まれてたりすることが多い。特に多言語データセットにはその傾向が強くて、言語の多様性を正しく表現できてないことが多いんだ。さまざまな言語のLLMトレーニングにアクセス可能で使いやすい高品質なデータセットの需要は大きいよ。

CulturaXの作成

CulturaXを作るために、mC4とOSCARっていう2つの重要なデータセットを組み合わせたんだ。これらのデータセットは多言語能力で評価されてるけど、かなりのクリーンアップと整理が必要なんだ。目的は、これらのソースを統合して、高品質のデータセットを作ることだよ。

プロセスには、データのクリーンアップ、整理、重複の削除に焦点を当てたさまざまなステージがあったんだ。各ステップは、不要なコンテンツを取り除いたり、エラーを修正したり、質の高いテキストだけを含むようになってるんだ。この丁寧なプロセスによって、研究者や開発者にとってしっかりしたリソースを提供できるんだ。

データクリーンアッププロセス

データをクリーンアップするのはCulturaXを作る上で重要なステップだったよ。質の悪いコンテンツを取り除いて、トレーニングに混乱を招かないようにしたんだ。クリーンアッププロセスにはいくつかのステップがあったよ。

言語の特定

多言語データセットを作るためには、テキストドキュメントの言語を正しく特定することが重要なんだ。高度なツールを使って、各ドキュメントが正確にその言語でラベル付けされてるか確認したよ。信頼度が高くない言語の特定を満たさないドキュメントは取り除いたんだ。

URLベースのフィルタリング

データセットを有害なコンテンツから守るために、有害なソースからの素材を取り除くフィルタリングプロセスを実施したよ。更新された有害URLのリストを使って、暴力やヘイトスピーチ、アダルトコンテンツを促進するサイトのページを含まないようにしたんだ。このステップで、安全で信頼できるリソースを作るのを助けてるよ。

メトリックベースのクリーンアップ

各ドキュメントの質を測るために、さまざまなメトリックを設定したよ。これには単語数、特殊文字の比率、全体的な読みやすさスコアが含まれてるんだ。これらのメトリックを分析することで、質の基準を満たしてないドキュメントをフィルタリングできたよ。

ドキュメントの改良

データセット全体をクリーンアップした後、個々のドキュメントをさらに改良して質を向上させたんだ。不要な部分、例えば関連のないHTMLタグやスクリプトを取り除くことが含まれてたよ。残ったコンテンツがクリーンでまとまりのあるものになるようにしたんだ。

データの重複排除

徹底的にクリーンアップしても、データセットにはまだ重複した情報が含まれる可能性があるよ。重複は再投稿されたコンテンツや似た記事から発生することがあるんだ。これらの重複を取り除くことは、モデルが情報を記憶しないようにするために重要なんだ。

MinHashによる重複排除

MinHashという技術を使って、似たドキュメントを特定して取り除いたよ。この技術により、テキストの内容に基づいて効率的に重複を見つけられるんだ。これで高品質なデータセットを維持できたよ。

URLベースの重複排除

MinHashに加えて、同じURLを共有するドキュメントも取り除いて、同じ記事の複数バージョンを含まないようにしたんだ。このステップでトレーニングプロセス中の混乱を防げたよ。

最終的なデータセットの概要

すべてのクリーンアップと重複排除のステップを経て、CulturaXは167の言語で6.3兆トークンを含む素晴らしいものになったんだ。これは多言語トレーニングデータセットの分野での大きな成果を意味してるよ。私たちのデータクリーンアップパイプラインは、ドキュメントの数を大幅に減らす効果を示したし、元のドキュメントのほぼ半分が質の問題でフィルタリングされたんだ。

多言語データセットの必要性

世界がますますつながる中で、多言語技術の必要性が高まってるよ。多くのデバイスやアプリケーションは、英語以外の言語をサポートすることで利益を得られるんだ。でも、この目標を達成するには、異なる文化や言語を正しく表現するデータセットが必要なんだ。

LLMトレーニングデータセットで英語に偏っていると、これらのモデルが他の多くの言語でうまく機能できないギャップが生まれちゃう。CulturaXのような大規模データセットを提供することで、言語技術の土台を均等にする手助けができるし、研究者や開発者が多様な言語ニーズに応える革新的なソリューションを作ることができるんだ。

結論

CulturaXは、多言語モデルの発展を促進するための画期的なリソースだよ。167の言語で6.3兆トークンからなる高品質なデータセットを提供することで、自然言語処理の分野における研究やイノベーションの進展を促すことを願ってるんだ。CulturaXの一般公開は、LLMトレーニングの透明性に向けた重要なステップを示しているし、言語技術へのアクセスを民主化するためのコミットメントを表してるよ。こういった取り組みで、言語の間のギャップを埋めて、より包括的なデジタル環境を作っていきたいんだ。

オリジナルソース

タイトル: CulturaX: A Cleaned, Enormous, and Multilingual Dataset for Large Language Models in 167 Languages

概要: The driving factors behind the development of large language models (LLMs) with impressive learning capabilities are their colossal model sizes and extensive training datasets. Along with the progress in natural language processing, LLMs have been frequently made accessible to the public to foster deeper investigation and applications. However, when it comes to training datasets for these LLMs, especially the recent state-of-the-art models, they are often not fully disclosed. Creating training data for high-performing LLMs involves extensive cleaning and deduplication to ensure the necessary level of quality. The lack of transparency for training data has thus hampered research on attributing and addressing hallucination and bias issues in LLMs, hindering replication efforts and further advancements in the community. These challenges become even more pronounced in multilingual learning scenarios, where the available multilingual text datasets are often inadequately collected and cleaned. Consequently, there is a lack of open-source and readily usable dataset to effectively train LLMs in multiple languages. To overcome this issue, we present CulturaX, a substantial multilingual dataset with 6.3 trillion tokens in 167 languages, tailored for LLM development. Our dataset undergoes meticulous cleaning and deduplication through a rigorous pipeline of multiple stages to accomplish the best quality for model training, including language identification, URL-based filtering, metric-based cleaning, document refinement, and data deduplication. CulturaX is fully released to the public in HuggingFace to facilitate research and advancements in multilingual LLMs: https://huggingface.co/datasets/uonlp/CulturaX.

著者: Thuat Nguyen, Chien Van Nguyen, Viet Dac Lai, Hieu Man, Nghia Trung Ngo, Franck Dernoncourt, Ryan A. Rossi, Thien Huu Nguyen

最終更新: 2023-09-17 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2309.09400

ソースPDF: https://arxiv.org/pdf/2309.09400

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事

人工知能ジェスチャー生成を通じてロボットのコミュニケーションを改善する

新しいモデルで、ロボットがジェスチャーを使ってもっと自然にコミュニケーションできるようになるよ。

― 1 分で読む