透明なオープン言語モデルの紹介
自然言語処理の研究と革新のための新しいオープン言語モデル。
― 1 分で読む
目次
言語モデルは研究と商業利用の両方で人気が高まってるね。これらのモデルは多くのアプリケーションで不可欠なツールになってるけど、最も先進的なものはほとんど秘密にされてる。どうやって訓練されたか、使用されたデータや構造に関する重要な情報は、必ずしも公開されてないから、研究者にとってはこれらのモデルを効果的に研究するのが難しいんだ。これを解決するために、研究者が強力で完全にオープンな言語モデルにアクセスできるべきだと考えてるよ。
新しいオープン言語モデル
みんなが使える新しいオープン言語モデルを紹介することにワクワクしてる!限られた情報しか提供しない他のモデルとは違って、私たちはすべてを共有するよ:モデルの重みだけでなく、訓練に使用したデータや、訓練と評価のためのコードもね。私たちの目標は研究コミュニティを支援し、この分野でのイノベーションをもっと促進すること。
現在の言語モデルの状態
言語モデルは、年々自然言語処理(NLP)における技術の使い方に大きな影響を与えてきたよ。最近、これらのモデルは広範な訓練と人間の関与によって商業的にも価値が出てきた。でも、人気が出るにつれて、多くの大きなモデルは有料の壁や独占的なシステムの背後に隠れて、研究者はその内部で何が起きているのか分からなくなってる。
これらのモデルを完全に理解して、その強みと弱みを探るためには、オープンアクセスが重要だね。だから、言語モデルを構築し探求するための完全なフレームワークを発表するよ。このフレームワークには、訓練データ、訓練と評価のためのコード、いくつかの中間モデルチェックポイントも含まれてる。
以前のモデルとその限界
最近リリースされた言語モデルは、オープンさに関してさまざまだったよ。例えば、モデルの重みしか提供しないものもあれば、適応や使用するための詳細な説明を共有しているものもある。最もオープンなモデルは、訓練コードとデータを提供して、研究者がこれらのシステムの複雑さに深く関わることを可能にしている。私たちの新しいモデルでは、このオープンさをさらに進めて、モデルのすべての側面に完全にアクセスできるようにするつもり。
フレームワークの概要
私たちがリリースするフレームワークには、言語モデルを構築・研究するために必要なすべてのツールとリソースが含まれてる。具体的には:
- 完全なモデルの重み
- 訓練コードとログ
- 評価用のツール
- 設計や訓練の選択についての詳細な洞察
この最初のリリースには、異なるアーキテクチャやオプティマイザーに基づいた70億(7B)のスケールの言語モデルがいくつか含まれていて、1億(1B)のスケールのモデルもあるよ。
訓練データと分析
プレトレーニングデータへのアクセスは限られていることが多く、研究者が結果を再現したり、言語モデルの全能力を理解するのが難しい。オープンリサーチを促進するために、私たちは多様な訓練データセットを開発して共有したんだ。このデータセットは、50億のドキュメントから収集した3兆トークンで構成されていて、さまざまな公共の場所から得られてる。
私たちはこのデータを厳密にフィルタリングしてキュレーションするプロセスを経て、高品質で多様なデータを確保したよ。データセットは、私たちの作業を再現または基にしたい人が使いやすいように設計されてる。
評価技術
私たちのモデルの性能を評価するために、いくつかの評価技術を使ったんだ。追加の訓練なしにどれだけモデルがうまく機能するかを測るために、タスクのセットでゼロショット評価を行ったよ。評価スイートには、モデルの能力を理解するために不可欠なコアタスクが含まれてる。
さらに、新しいベンチマークを使った内在的評価も実施して、モデルの性能が他のモデルと公平に比較できるようにした。これにより、さまざまな言語タスクにおけるモデルの熟練度を効果的に分析できるんだ。
訓練方法論
モデルの性能と効率を向上させるために、分散訓練アプローチを利用したよ。複数のGPUにモデルを分割することで、より大きなモデルや訓練バッチを扱えるようになったし、メモリ使用量を減少させ、よりスムーズな訓練プロセスを実現したんだ。
訓練中は、パフォーマンスを最適化するためにハイパーパラメータを慎重に選んで調整した。定期的に評価を行って、モデルの性能を評価し、訓練の決定を導いたよ。
電力消費と環境への影響
言語モデルの訓練はかなりのエネルギーを消費し、二酸化炭素の排出に寄与することがある。私たちは、モデルの訓練に関わる電力使用量を推定する手段を講じたよ。エネルギー消費を監視し、データセンターのエネルギー効率に基づいて二酸化炭素の排出量を計算することで、環境への影響についてのより明確な像を提供することを目指した。
私たちの調査結果によると、私たちが開発したモデルを共有することで、他の人がゼロからモデルを訓練する必要を減らし、最終的にはこの分野での環境への影響を減らせるんだ。
リリースされた成果物
コラボレーションを促進し、重複した努力を減らすために、私たちは訓練と評価パイプラインからさまざまな成果物をリリースしたよ。これには:
- 訓練とモデルのコード
- 異なるバージョンのモデルの訓練された重み
- 訓練中に記録された完全なメトリクスセット
これらのリソースを提供することで、科学コミュニティが既存モデルを構築・革新する能力が向上すると信じてるんだ。
今後の計画
このリリースは、計画されている一連のアップデートと改善の始まりを意味するよ。今後、大規模モデルやさまざまな適応、その他のリソースを導入するつもり。私たちの目標は、研究コミュニティを継続的に支援して、言語モデリングの進展を推進すること。
今後は、訓練データがモデルの能力やパフォーマンスにどのように影響するのかなど、あまり理解されていない側面を調査することにも焦点を当てるよ。私たちは、今後の作業でも透明性を保ち、オープンであることにコミットしてる。
結論
まとめると、私たちは新しいオープン言語モデルと、それに付随する包括的なフレームワークを紹介できることにワクワクしてる!私たちの研究のすべての側面を共有することで、科学コミュニティを力づけ、新しいイノベーションを鼓舞し、言語モデリングのフィールドでのオープンな文化を促進したい。これまでのフレームワークを使って、他の人たちが言語モデルをさらに探求し改善するのを楽しみにしてるよ。
謝辞
このプロジェクトの開発は、多くの個人や組織の貢献に依存してる。データセットの構築からモデルの訓練や評価まで、プロセスに関わったすべての人に感謝の意を表したい。彼らのサポートと協力が、このオープン言語モデルを実現するための重要な要素だったんだ。
私たちは、一緒に働くことで、言語モデルを理解し改善するために大きな進展を遂げられると信じていて、自然言語処理のさまざまなアプリケーションにとって利益になると考えてるよ。
タイトル: OLMo: Accelerating the Science of Language Models
概要: Language models (LMs) have become ubiquitous in both NLP research and in commercial product offerings. As their commercial importance has surged, the most powerful models have become closed off, gated behind proprietary interfaces, with important details of their training data, architectures, and development undisclosed. Given the importance of these details in scientifically studying these models, including their biases and potential risks, we believe it is essential for the research community to have access to powerful, truly open LMs. To this end, we have built OLMo, a competitive, truly Open Language Model, to enable the scientific study of language models. Unlike most prior efforts that have only released model weights and inference code, we release OLMo alongside open training data and training and evaluation code. We hope this release will empower the open research community and inspire a new wave of innovation.
著者: Dirk Groeneveld, Iz Beltagy, Pete Walsh, Akshita Bhagia, Rodney Kinney, Oyvind Tafjord, Ananya Harsh Jha, Hamish Ivison, Ian Magnusson, Yizhong Wang, Shane Arora, David Atkinson, Russell Authur, Khyathi Raghavi Chandu, Arman Cohan, Jennifer Dumas, Yanai Elazar, Yuling Gu, Jack Hessel, Tushar Khot, William Merrill, Jacob Morrison, Niklas Muennighoff, Aakanksha Naik, Crystal Nam, Matthew E. Peters, Valentina Pyatkin, Abhilasha Ravichander, Dustin Schwenk, Saurabh Shah, Will Smith, Emma Strubell, Nishant Subramani, Mitchell Wortsman, Pradeep Dasigi, Nathan Lambert, Kyle Richardson, Luke Zettlemoyer, Jesse Dodge, Kyle Lo, Luca Soldaini, Noah A. Smith, Hannaneh Hajishirzi
最終更新: 2024-06-07 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2402.00838
ソースPDF: https://arxiv.org/pdf/2402.00838
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.overleaf.com/learn/latex/Pgfplots_package
- https://huggingface.co/allenai/OLMo-7B
- https://github.com/allenai/OLMo
- https://huggingface.co/datasets/allenai/dolma
- https://github.com/allenai/OLMo-Eval
- https://github.com/allenai/open-instruct
- https://wandb.ai/ai2-llm/OLMo-7B/reports/OLMo-7B--Vmlldzo2NzQyMzk5
- https://www.apache.org/licenses/LICENSE-2.0
- https://github.com/allenai/dolma
- https://paloma.allen.ai
- https://www.lumi-supercomputer.eu
- https://www.mosaicml.com
- https://www.nrel.gov/computational-science/measuring-efficiency-pue.html
- https://www.google.com/about/datacenters/efficiency/
- https://www.cleanenergyregulator.gov.au/Infohub/Markets/Pages/qcmr/december-quarter-2022/Emissions-Reduction.aspx
- https://trycarbonara.com
- https://www.lumi-supercomputer.eu/sustainable-future/
- https://www.lumi-supercomputer.eu/lumi-one-of-the-greenest-supercomputers-in-the-world/
- https://huggingface.co/allenai/OLMo-7B-Twin-2T
- https://huggingface.co/allenai/OLMo-1B
- https://huggingface.co/allenai/OLMo-7B-SFT
- https://huggingface.co/allenai/OLMo-7B-Instruct
- https://github.com/allenai/wimbd
- https://github.com/allenai/catwalk
- https://allenai.org/impact-license
- https://allenai.org/licenses/impact-lr
- https://paperswithcode.com/method/lion
- https://github.com/mlfoundations/open_clip/pull/432
- https://huggingface.co/mosaicml/mpt-7b-chat
- https://huggingface.co/tiiuae/falcon-7b-instruct
- https://huggingface.co/togethercomputer/RedPajama-INCITE-7B-Chat
- https://github.com/hendrycks/test
- https://huggingface.co/tomh/toxigen
- https://github.com/sylinrl/TruthfulQA/