ネモトロン-4 340Bモデルファミリーを紹介するよ。
Nemotron-4 340Bファミリーは、さまざまなアプリケーションや合成データ生成に強力なモデルを提供するよ。
― 1 分で読む
目次
私たちはNemotron-4 340Bモデルファミリーを紹介できることにワクワクしています。これはさまざまな用途向けに設計されたいくつかのモデルを含んでいます。これらのモデルは、NVIDIAオープンモデルライセンス契約のもとで誰でも自由に使用できるようになっています。これにより、モデルやその結果を共有、修正、使用することができます。
パフォーマンスの概要
Nemotron-4 340Bモデルは、多くのテストで他のオープンアクセスモデルと並んで良いパフォーマンスを発揮します。これらのモデルは、FP8精度で8つのGPUを搭載した単一のDGX H100システムで効率的に動作するように設計されています。これらのモデルは、特に小さい言語モデルをトレーニングするための合成データの作成において、研究者やビジネスに役立つと信じています。特に、私たちのモデルを調整するために使用したデータの98%以上が合成的に作成されたものであることが、このモデルのデータ生成能力を示しています。
さらに、私たちはモデルの調整に使用した合成データ生成プロセスのオープンソース化も行います。これにより、さらなる研究開発が進むことを促進します。
モデルの詳細
Nemotron-4 340Bファミリーに含まれるモデルは次のとおりです:
- Nemotron-4-340B-Base
- Nemotron-4-340B-Instruct
- Nemotron-4-340B-Reward
これらのモデルや関連するコードは、さまざまなプラットフォームでアクセス可能です。これらのモデルは、さまざまなアプリケーションにおいて、多くのタスクに非常に効果的に設計されています。
訓練データとプロセス
最近の研究では、より多く高品質なデータを使用してモデルの精度を向上させることに焦点が当てられています。Nemotron-4 340Bベースモデルは、高品質のデータセットから9兆トークンを使用して訓練されました。
モデルが指示に従いやすく、効果的な会話に参加できるように、私たちは主に2つのプロセスを使って調整しました:監視付きファインチューニング(SFT)と嗜好ファインチューニング(人間のフィードバックによる強化学習を含む)。これらのプロセスにより、モデルはタスクをより効果的に実行できます。
報酬モデル
私たちの報酬モデルは調整の重要な部分であり、レスポンスの品質を評価するのに役立ちます。また、合成データ生成中にデータをフィルタリングしたり、嗜好をランク付けしたりするのにも役立ちます。このモデルは、10,000件の人間の嗜好例を含むデータセットを使用して訓練されており、これも公開しています。
評価と比較
私たちは、Llama-3やQwen-2などの他の有名なモデルと自分たちのモデルを比較しました。結果は、Nemotron-4モデルがさまざまなタスク、特に常識的推論や指示のフォローが必要なタスクで競争力のあるレベルでパフォーマンスを示したことを明らかにしました。
合成データ生成の応用
これらのモデルの主な用途の1つは、合成データの生成です。これは、事前トレーニング中のデータ品質を向上させるのに特に役立ちます。合成データは、ウェブテキストの要約やトレーニングセット内の過小評価されたドメインのデータ生成など、多くの分野で使用できます。
さらに、人間が注釈をつけたデータを収集するのは高コストで時間がかかるため、私たちのモデルは合成データに大きく依存しています。調整プロセスで使用したデータの98%以上が合成的に生成されたものでした。
合成データ生成パイプライン
私たちは高品質を確保するための合成データ生成パイプラインも共有しています。このパイプラインは、プロンプト、レスポンス、対話を生成し、品質をフィルタリングし、嗜好をランク付けするいくつかのステップで構成されています。
責任ある開発への焦点
これらのモデルやツールをリリースするにあたり、私たちは責任ある開発実践を強く重視しています。私たちの目標は、有害または毒性のあるコンテンツの生成を防ぎながら、強力なモデルの一般的なアクセス可能性を促進することです。
貢献の要約
要約すると、私たちはNemotron-4 340Bモデルファミリーをリリースしています。これには商業利用のためのオープンアクセスライセンスのもとでいくつかのモデルが含まれています。透明性と再現性を支援するために、トレーニングと推論用のコードを提供します。
私たちは合成データ生成パイプラインの包括的な詳細とそのモデル調整における効果を提供しています。これらの貢献がAIアプリケーションや言語モデルの開発の進展を加速することを信じています。
訓練とアーキテクチャの詳細
Nemotron-4 340Bアーキテクチャは、前のモデルで使用されたものと似ており、標準のデコーダー専用Transformerフレームワークを採用しています。このセットアップには、ロータリー位置埋め込みやSentencePieceトークナイザーなどのいくつかの革新的な機能が含まれています。
私たちは、特に強力なGPUを搭載した768のDGX H100ノードを用いて訓練を行いました。効率とモデル性能を高めるために、訓練中にさまざまな技術の組み合わせが使用されました。
継続的な訓練プロセス
8兆トークンの初期訓練の後、さらに1兆トークンを使用して継続的な訓練に切り替えました。このアプローチでは、より高品質なソースに焦点を当てた別のデータ分布を使用しました。この方法により、モデルはこの後の段階で導入されたデータからより良く学習できるようになりました。
ベースモデル評価
評価中、私たちはさまざまなベンチマークでNemotron-4モデルを評価しました。これには、MMLUやHumanEvalなどの人気のテスト、常識的推論の課題が含まれました。結果は、私たちのモデルがこれらのベンチマークで良いパフォーマンスを示したことを示しています。
報酬モデルの詳細
報酬モデルは調整プロセス中に重要な役割を果たします。これはレスポンスを評価し、インタラクションの質を改善するのに役立ちます。私たちは、正確さや一貫性などのさまざまな有用な属性を捉えるために設計されたデータセットを使用してこのモデルを構築しました。
合成プロンプトの生成
合成プロンプトを作成することは、生成データの質にとって重要です。さまざまなタスクのために多様なプロンプトを生成するために、構造化されたアプローチを使用しました。この方法により、モデルは異なるトピックや指示のタイプに対応できるようになります。
訓練のための対話生成
モデルを対話形式で訓練するために、ユーザーとアシスタントの間のインタラクションを可能にする合成会話を設計しました。このセットアップは、モデルが効果的に対話に参加する方法を学ぶのに役立ちます。
嗜好データセットの構築
モデルが嗜好を理解する能力を高めるために、選ばれたレスポンスと拒否されたレスポンスからなるデータセットを生成しました。このデータセットは、トレーニングの多様性と質を確保するためにさまざまなプロンプトを使用して作成されました。
反復改善プロセス
データ生成のアプローチは、反復改善プロセスに従っています。最初のモデルから始めて、訓練やデータ生成の各段階から得た洞察を使って継続的に改良します。この方法により、各ステップでのパフォーマンスを向上させることができます。
追加データソースの取り入れ
モデル性能をさらに向上させるために、いくつかの補助データセットを追加しました。これらのデータセットはさまざまなトピックやタスクをカバーしており、モデルが幅広いアプリケーションでのパフォーマンスを向上させるのに役立ちます。
アライメントアルゴリズム
モデル調整に標準プロトコルを使用しました。これには、監視付きファインチューニングと嗜好ファインチューニングの2つの主要なステージが含まれます。これらの段階は、モデルのタスク遂行能力を正確に高めるのに役立ちます。
監視付きファインチューニングアプローチ
監視付きファインチューニングの初期段階では、混合データセットを使用してモデルを訓練します。タスクを明確に分けることで、特にコーディングタスクにおいてモデルのパフォーマンスが向上することがわかりました。
嗜好ファインチューニング戦略
監視付きファインチューニングの後、嗜好ファインチューニングを適用しました。これは、さまざまなアルゴリズムを使用して改善の複数のラウンドを行うことから成ります。このアプローチは、モデルが優先されるレスポンスとそうでないレスポンスを効果的に区別できるようにすることを目指しています。
評価メトリック
モデルのパフォーマンスを評価するために、さまざまなタスクでいくつかの評価メトリックを使用しました。これらのメトリックは、モデルがどれほど良いパフォーマンスを示し、どこに改善の余地があるかを理解するのに役立ちました。
人間評価プロセス
自動評価に加えて、モデルのパフォーマンスに対する人間の評価も行いました。訓練されたアノテーターがレスポンスを評価し、モデルの効果と改善の余地をよりよく理解しました。
安全評価と措置
大規模な言語モデルの使用が拡大するにつれて、安全性がますます重要になります。私たちは安全リスクを評価し、モデルのレスポンスが適切なガイドラインと一致することを保証するために、徹底した評価システムを実施しました。
結論と今後の方向性
Nemotron-4 340Bモデルファミリーのリリースは、モデルの開発とアクセシビリティにおいて重要なステップを示しています。私たちは、この貢献がAI技術の成長と革新を促進することを期待しており、責任ある使用を維持することにコミットしています。
これらのモデルが言語理解の質を向上させ、将来のアプリケーションのための合成データを生成する可能性にワクワクしています。これからも、フィードバックや協力を歓迎し、これらのモデルをさらに向上させていきたいと思います。
タイトル: Nemotron-4 340B Technical Report
概要: We release the Nemotron-4 340B model family, including Nemotron-4-340B-Base, Nemotron-4-340B-Instruct, and Nemotron-4-340B-Reward. Our models are open access under the NVIDIA Open Model License Agreement, a permissive model license that allows distribution, modification, and use of the models and its outputs. These models perform competitively to open access models on a wide range of evaluation benchmarks, and were sized to fit on a single DGX H100 with 8 GPUs when deployed in FP8 precision. We believe that the community can benefit from these models in various research studies and commercial applications, especially for generating synthetic data to train smaller language models. Notably, over 98% of data used in our model alignment process is synthetically generated, showcasing the effectiveness of these models in generating synthetic data. To further support open research and facilitate model development, we are also open-sourcing the synthetic data generation pipeline used in our model alignment process.
著者: Nvidia, Bo Adler, Niket Agarwal, Ashwath Aithal, Dong H. Anh, Pallab Bhattacharya, Annika Brundyn, Jared Casper, Bryan Catanzaro, Sharon Clay, Jonathan Cohen, Sirshak Das, Ayush Dattagupta, Olivier Delalleau, Leon Derczynski, Yi Dong, Daniel Egert, Ellie Evans, Aleksander Ficek, Denys Fridman, Shaona Ghosh, Boris Ginsburg, Igor Gitman, Tomasz Grzegorzek, Robert Hero, Jining Huang, Vibhu Jawa, Joseph Jennings, Aastha Jhunjhunwala, John Kamalu, Sadaf Khan, Oleksii Kuchaiev, Patrick LeGresley, Hui Li, Jiwei Liu, Zihan Liu, Eileen Long, Ameya Sunil Mahabaleshwarkar, Somshubra Majumdar, James Maki, Miguel Martinez, Maer Rodrigues de Melo, Ivan Moshkov, Deepak Narayanan, Sean Narenthiran, Jesus Navarro, Phong Nguyen, Osvald Nitski, Vahid Noroozi, Guruprasad Nutheti, Christopher Parisien, Jupinder Parmar, Mostofa Patwary, Krzysztof Pawelec, Wei Ping, Shrimai Prabhumoye, Rajarshi Roy, Trisha Saar, Vasanth Rao Naik Sabavat, Sanjeev Satheesh, Jane Polak Scowcroft, Jason Sewall, Pavel Shamis, Gerald Shen, Mohammad Shoeybi, Dave Sizer, Misha Smelyanskiy, Felipe Soares, Makesh Narsimhan Sreedhar, Dan Su, Sandeep Subramanian, Shengyang Sun, Shubham Toshniwal, Hao Wang, Zhilin Wang, Jiaxuan You, Jiaqi Zeng, Jimmy Zhang, Jing Zhang, Vivienne Zhang, Yian Zhang, Chen Zhu
最終更新: 2024-08-06 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2406.11704
ソースPDF: https://arxiv.org/pdf/2406.11704
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/nemotron-4-340b-base
- https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/nemotron-4-340b-instruct
- https://catalog.ngc.nvidia.com/orgs/nvidia/teams/nemo/models/nemotron-4-340b-reward
- https://huggingface.co/nvidia/Nemotron-4-340B-Base
- https://huggingface.co/nvidia/Nemotron-4-340B-Instruct
- https://huggingface.co/nvidia/Nemotron-4-340B-Reward
- https://github.com/NVIDIA/Megatron-LM
- https://github.com/NVIDIA/NeMo-Aligner
- https://blogs.nvidia.com/blog/nemotron-4-synthetic-data-generation-llm-training/
- https://developer.download.nvidia.com/licenses/nvidia-open-model-license-agreement-june-2024.pdf
- https://huggingface.co/datasets/nvidia/HelpSteer2
- https://github.com/lm-sys/FastChat/pull/3158
- https://ai.meta.com/blog/meta-llama-3/
- https://qwenlm.github.io/blog/Qwen-2/
- https://huggingface.co/nvidia/Aegis-AI-Content-Safety-LlamaGuard-Permissive-1.0
- https://www.sfgate.com/tech/article/fisker-warns-bankruptcy-california-car-19418654.php
- https://en.wikipedia.org/wiki/Intimidation
- https://en.wikipedia.org/wiki/Coercion
- https://en.wikipedia.org/wiki/Crime
- https://en.wikipedia.org/wiki/Injury