包括的な英語データセットをリリースするよ
新しいデータセットは、言語モデルの研究を強化し、透明性を促進することを目指している。
― 1 分で読む
言語モデルは、自然言語処理に関するさまざまなタスクに欠かせないツールになってるよね。でも、最高のパフォーマンスを発揮する言語モデルがどのように作られたかの詳細って、あまり共有されてないのが現状なんだ。特に、あまり話題にされないのがその事前学習データ。ほとんどの商用言語モデルはこの情報を明らかにしないし、オープンソースのモデルでもトレーニングデータセットやその再現方法についてはっきりしたことはほとんど分からない。これが透明性の欠如を生んで、研究者たちがトレーニングデータがモデルの能力や限界にどう影響するかを理解するのが難しくなってるんだ。
オープンな言語モデルの事前学習研究をサポートするために、3兆トークンの英語テキストからなる大規模なデータセットをリリースするよ。このデータセットは、ウェブコンテンツ、学術論文、コード、パブリックドメインの本、ソーシャルメディア、百科事典のエントリーなど、さまざまなソースから構成されてるんだ。さらに、他の研究者が実験を進めたり、私たちの取り組みを再現したりするためのデータキュレーション用のツールも提供するよ。
このドキュメントでは、データセットについて、設計原則、構築プロセス、内容を詳しく説明するよ。また、さまざまなステージのデータセットを使用して言語モデルをトレーニングした結果や分析も含めて、データキュレーションにおける重要な実践についても紹介する。具体的には、コンテンツの質を確認するためのフィルターの使用、重複エントリーの管理、異なるソースからのデータのミックスなどがあるんだ。このデータセットは、OLMoという最先端のオープン言語モデルとフレームワークをトレーニングするのに使われていて、言語モデリングの知識を進めることに焦点を当ててるよ。
コーパスの概要
このデータセットは、さまざまなソースからサンプリングされた3兆トークンで構成されていて、約200テラバイトの生テキストがあるんだ。言語モデルのトレーニングに適するように慎重にクリーンアップされてる。今や言語モデルは、多くの自然言語処理タスクの中心にいて、回答を提供したり、要約を作ったり、少数ショット学習を促進したりしてるよ。
最も強力な言語モデルは、開発プロセスのほとんどを非公開にしている数社の組織によって開発されてる。事前学習データの構成についてもあいまいな表現が多くて、モデルが公開される場合でもその詳細が分かりにくい。それが原因で、事前学習データの構成がモデルのパフォーマンスや限界にどんな影響を与えるかを評価するのが難しくなってる。こうした不明瞭さは、科学的な進歩を妨げたり、一般の人々がこれらのモデルとどう関わるかに影響を与えたりするんだ。だから、私たちはデータセットとその作成に関する文書を公開して、広範な研究コミュニティが私たちの発見を分析し、発展させられるように、オープンさと透明性を目指してるんだ。
私たちの主な目標は、もっと多くの研究者や組織が言語モデルの研究や開発に参加できるようにすることだ。データの透明性は、言語モデルに基づくアプリケーションのユーザーがより良い意思決定を行うために役立つんだ。たとえば、特定の文書や用語の事前学習データ内の頻度が関連するタスクでのパフォーマンス向上に結びついているという研究結果もある。だから、事前学習データへのアクセスを提供することで、データのミックスがモデルの振る舞いにどう影響するかを調査する実証研究が可能になるんだ。
データセットの構成
データセットは、幅広い英語の使用を捉えるために、さまざまなタイプのコンテンツがミックスされてる。データセットのソースには以下が含まれるよ:
- ウェブデータ:Common Crawlからたくさんのテキストを集めたよ。これはインターネット全体の情報をアーカイブしてる公開データセット。
- 科学論文:Academic研究のために、Semantic Scholarデータベースから論文を抽出したんだ。
- コード:GitHubからプログラミングコードを集めたよ。許可のあるリポジトリに焦点を当ててる。
- パブリックドメインの本:Project Gutenbergから多くのパブリックドメインのテキストを取り入れたんだ。
- ソーシャルメディアの投稿:Redditのようなプラットフォームから会話データを集めたよ。
- 百科事典のコンテンツ:WikipediaやWikibooksから信頼できる参照資料を追加したんだ。
結果として、できたデータセットは大きいだけじゃなくて、さまざまな知識の領域や書き方のスタイルを反映してるよ。
データ処理とクリーンアップ
言語モデルのトレーニングに使うために、データセットの準備として総合的なクリーンアッププロセスを実施したんだ。これにはいくつかの重要なステップが含まれるよ:
- 言語フィルタリング:自動言語識別ツールを使って、英語以外のテキストを削除したんだ。
- 品質フィルタリング:低品質なテキストを排除するために、いくつかの基準を適用したよ。特定の可読性基準を満たさない文書や、重複コンテンツが多すぎるものは除外した。
- コンテンツフィルタリング:有害または危険と見なされるコンテンツを体系的に削除したんだ。これには個人情報(PII)をフィルタリングして、個人のプライバシーを守ることも含まれてる。
- 重複排除:重複エントリーを最小限にするための手段を講じたよ。重複データを減らすことでモデルのトレーニングの効率が上がるんだ。
これらのフィルタリングとクリーンアップ方法は、高品質で関連性のあるデータセットを作成する上で重要だよ。
データキュレーションツールキット
データセットと一緒に、効率的なデータキュレーションを支援するためのツールキットもリリースするよ。このツールキットは、他の研究者が私たちの取り組みを再現したり、自分たちのデータパイプラインを開発するのに役立つことを目指してるんだ。標準的な消費者ハードウェアや大規模な分散システムでも動作できるから、たくさんのユーザーにアクセスしやすいよ。
ツールキットには言語の識別、品質や有害コンテンツフィルターの適用、重複排除の取り扱いの機能が含まれてる。研究者たちはこのツールキットを使って、データ処理のアプローチを特定のニーズに合わせて調整したり、言語モデルのトレーニングで新しい道を探ったりできるよ。
実験と結果
この取り組みの一環として、さまざまなデータキュレーションの実践の効果を評価するための実験を行ったよ。いくつかの側面に焦点を当てたんだ:
- コンテンツ品質の影響:低品質なコンテンツをフィルタリングするための措置がモデルのパフォーマンスにどう影響したかを評価したんだ。高品質なデータセットでトレーニングされたモデルは、下流のタスクでの精度が良かったよ。
- 重複排除の効率:重複を持つモデルと持たないモデルでトレーニングした結果を分析したところ、重複が除去されることでトレーニング時間と効率が大きく改善されたよ。
- データミキシング戦略:異なるデータソースの組み合わせが言語モデルの全体的なパフォーマンスにどう影響したかを調べたんだ。ウェブ、学術的、ソーシャルメディアコンテンツの思慮深いミックスが最高の結果を生むことが分かったよ。
これらの実験を通じて、データキュレーションが言語モデルのトレーニングにどう影響するかについて貴重な洞察を得ることができたんだ。今後の研究のためのガイドラインを提供できると思う。
結論
この3兆トークンのデータセットのリリースは、言語モデル研究の透明性に向けた重要な一歩だよ。データとそのキュレーション方法へのアクセスを提供することで、研究者たちが互いの成果を基にしていけるような協力的な環境を育むことを目指してるんだ。これにより、言語モデルの質が向上するだけでなく、責任ある開発プラクティスも促進されるよ。
オープンさと協力に焦点を当てることで、自然言語処理の分野を前進させることにコミットしてるんだ。研究者、開発者、組織がこのデータセットとツールキットを自分たちのプロジェクトや研究に活用して、言語技術の進化に寄与することを期待してるよ。
丁寧なキュレーション、広範な分析、オープンな協力を通じて、私たちは今後さまざまなアプリケーションに役立つ、より効果的で信頼できる言語モデルの開発をサポートしたいと思ってるんだ。
タイトル: Dolma: an Open Corpus of Three Trillion Tokens for Language Model Pretraining Research
概要: Information about pretraining corpora used to train the current best-performing language models is seldom discussed: commercial models rarely detail their data, and even open models are often released without accompanying training data or recipes to reproduce them. As a result, it is challenging to conduct and advance scientific research on language modeling, such as understanding how training data impacts model capabilities and limitations. To facilitate scientific research on language model pretraining, we curate and release Dolma, a three-trillion-token English corpus, built from a diverse mixture of web content, scientific papers, code, public-domain books, social media, and encyclopedic materials. We extensively document Dolma, including its design principles, details about its construction, and a summary of its contents. We present analyses and experimental results on intermediate states of Dolma to share what we have learned about important data curation practices. Finally, we open-source our data curation toolkit to enable reproduction of our work as well as support further research in large-scale data curation.
著者: Luca Soldaini, Rodney Kinney, Akshita Bhagia, Dustin Schwenk, David Atkinson, Russell Authur, Ben Bogin, Khyathi Chandu, Jennifer Dumas, Yanai Elazar, Valentin Hofmann, Ananya Harsh Jha, Sachin Kumar, Li Lucy, Xinxi Lyu, Nathan Lambert, Ian Magnusson, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Abhilasha Ravichander, Kyle Richardson, Zejiang Shen, Emma Strubell, Nishant Subramani, Oyvind Tafjord, Pete Walsh, Luke Zettlemoyer, Noah A. Smith, Hannaneh Hajishirzi, Iz Beltagy, Dirk Groeneveld, Jesse Dodge, Kyle Lo
最終更新: 2024-06-06 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2402.00159
ソースPDF: https://arxiv.org/pdf/2402.00159
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://twitter.com/vitaliychiley/status/1675594766799769600
- https://www.reddit.com/r/LocationReddits/wiki/index/
- https://huggingface.co/datasets/allenai/dolma
- https://huggingface.co/datasets/allenai/c4
- https://commoncrawl.org/the-data/get-started/
- https://commoncrawl.org/terms-of-use/
- https://www.reddit.com/r/pushshift/comments/d6luj5/comment/f0ugpqp
- https://www.semanticscholar.org/product/api
- https://huggingface.co/datasets/bigcode/the-stack-dedup
- https://www.gutenberg.org/
- https://dumps.wikimedia.org
- https://files.pushshift.io/reddit/submissions/
- https://files.pushshift.io/reddit/comments/
- https://huggingface.co/datasets/allenai/peS2o
- https://commoncrawl.github.io/cc-crawl-statistics/
- https://commoncrawl.org/get-started
- https://huggingface.co/allenai/gpt-neox-olmo-dolma-v1_5
- https://github.com/allenai/dolma
- https://pypi.org/project/dolma/
- https://github.com/allenai/dolma/issues
- https://huggingface.co/datasets/allenai/dolma/discussions
- https://forms.gle/q4BNUUxUxKwKkfdT6
- https://www.amd.com/en/products/server-accelerators/instinct-mi250x
- https://github.com/allenai/OLMo
- https://commoncrawl.org
- https://fasttext.cc/docs/en/language-identification.html
- https://github.com/bigscience-workshop/bigscience/blob/39ed8110482e9eb87d0e094ede05e4d02c40e298/train/tr8-104B-wide/chronicles.md
- https://huggingface.co/allenai/dolma-jigsaw-fasttext-bigrams-nsfw
- https://huggingface.co/allenai/dolma-jigsaw-fasttext-bigrams-hatespeech
- https://cloud.google.com/dataflow
- https://github.com/allenai/dolma/blob/main/sources/reddit/atomic_content_v5/subreddit_blocklist.txt
- https://github.com/attardi/wikiextractor/tree/8f1b434a80608e1e313d38d263ed7c79c9ee75a9
- https://perspectiveapi.com/
- https://knowyourdata.withgoogle.com/
- https://cloud.google.com/natural-language/docs/classifying-text
- https://cloud.google.com/bigquery/public-data/
- https://docs.google.com/forms/d/e/1FAIpQLSfL6KzFR7xNJj6MPyV1uikIpj-VmrftC9mjty2nXzSClU2rnw/viewform