Llama-3を改善する: 言語混合とトレーニングに焦点を当てて
Llama-3の能力を言語混合やトレーニング方法の改善で強化する。
Ningyuan Xi, Yetao Wu, Kun Fan, Teng Chen, Qingqing Gu, Peng Yu, Jinxian Qu, Chenxi Liu, Zhonglin Jiang, Yong Chen, Luo Ji
― 1 分で読む
目次
大規模言語モデル(LLM)は、今日のAIの大きな部分を占めてるんだ。テキストを書いたり、質問に答えたり、人とチャットしたりもできる。ただ、元々のトレーニングに含まれない言語には苦労することもあるんだよ。これを解決するために、連続的な再トレーニング(CPT)って方法が使われてる。この方法で新しい言語を学んだり、コーディングや数学のような特定の分野に適応したりするんだ。
でも、こういうトレーニングを行うのはお金も時間もかかる。トレーニングの設定を正しく選ぶことがすごく大事なんだ。その中でも、トレーニングデータに含まれる言語のミックスが重要な選択肢になるんだ。正しいミックスを選べば、モデルがもっと効果的に学べる。でも、今までのところ、言語ミックスがモデルのパフォーマンスにどう影響するかを示す明確な研究はなかったんだ。
この論文では、特定のモデル、Llama-3を改善することに焦点を当てて、中国語の練習をもっとさせることを目指してる。追加の言語データのミックスのベストな方法を探したり、より良い結果を得るための適切な学習率を見つけたりしてるんだ。
連続的な再トレーニングの説明
CPTは、モデルが新しい情報や言語を学ぶ必要があるときに役立つんだ。プロセスは通常、2つの主な領域に分けられるんだ:
言語スキル: これは、モデルが新しい言語を学んだり、既に知っている言語の能力を向上させたりするのを助けること。語彙を増やしたり、文の構造を理解したりすることが含まれるね。
特定の分野の知識: これは、モデルが法律や数学のような特定の科目を理解するのを助けること。
便利なんだけど、CPTにはたくさんのコンピュータパワーと長いトレーニング時間が必要なんだ。どのようにトレーニングプロセスを設定するのがベストかを予測するのは難しいことが多いし、すべてのオプションを試すのは現実的じゃないから、トレーニングが適切に設定されていないとモデルが学んだことを忘れちゃうこともあるんだ。
さらに、一般に公開されてる大規模モデルと、産業界が必要としている実際のアプリケーションとの間には、明らかなギャップがある。そのギャップが、トレーニングに関連する実験の準備を難しくしているんだ。
連続的な再トレーニングの背後にある方法
CPTは、LLMの初期トレーニングからいくつかのアイデアを使っているんだ。例えば、学習率(モデルが知識をどれだけ早く調整するか)とデータサイズのバランスを取る必要がある。一部の研究では、これらの率をどう設定するのがベストかを調べてきたけど、言語ミックス比を選ぶときにはさらに理解が必要なんだ。
最近、「クリティカルミクスチャー比(CMR)」という新しいアイデアが提案されて、新しい言語データを含められる理想的な最大比があることがわかった。私たちのアプローチでは、追加の言語のミックスと学習率との関連性を調べて、より良いトレーニング結果を得る方法を探りたいんだ。
言語ミックス比の研究の必要性
正しい言語ミックスを見つけるのは難しいんだ、トレーニングには数週間かかることもあるからね。研究者がモデルのトレーニングに最適な設定を見つけることはほとんどないんだ。私たちの焦点は、追加の言語を使うことがトレーニングプロセスやモデル全体の成功にどう影響するかを探ること。
正しいミクスチャー比を見つけるために、異なる言語ミックスと学習率でいくつかのトレーニングセッションを行うんだ。モデルのパフォーマンスが安定するまでセッションを止めることで、安定した結果を得るようにしてるんだ。
実験アプローチ
私たちの実験では、Llama-3の小さい(8B)と大きい(70B)バージョンを使うよ。モデルが中国語を話したり理解したりする能力を向上させることを目指してる。言語ミックス比と学習率を調整して、様々なタスクでのモデルのパフォーマンスをテストしたいんだ。
ミクスチャー比と学習率の関係を観察して、どちらにとっても最適な設定を見つける手助けをするよ。実験を通じて、モデルがいくつかの重要なタスクでどれだけうまく機能するかを分析して、言語スキルだけじゃなく、数学やコーディングのような他の特定の分野での能力も評価してるんだ。
トレーニング手順
Llama-3のトレーニングプロセスは、3つの主なステップから成るんだ:
連続的な再トレーニング: ここでは、追加の中国語データを使って、モデルが中国語のテキストを理解し生成する能力を高めるんだ。
教師あり微調整: このステップでは、トレーニングされたモデルを特定のプロンプト-レスポンスのペアの例に基づいて洗練させて、会話で正しく応答するようにするんだ。
直接的な好みの最適化: この段階では、追加のデータを通じてモデルを人間の好みにより近づけるように調整するんだ。
これらのステップは、モデルが効果的に学ぶことを確保するために、慎重な計画と実行が必要なんだ。
連続的な再トレーニングの結果
私たちのトレーニングセッションを実行した後、様々なベンチマークを使ってモデルを評価するんだ。8Bサイズでは、私たちのモデルは中国語に関するすべてのベンチマークで改善を示して、推論や数学、コーディングスキルをテストするものでもいくつか良くなったんだ。結果を元のLlama-3モデルと、中国語専用のモデルと比較したよ。
70Bモデルでも改善が見られ、特に追加の言語やテストしたドメインに関連する部分で良くなったよ。
トレーニングプロセスからの発見
トレーニング中に集めたデータを見ると、知識の異なる側面が異なる速さで改善していくことが明らかになるんだ。例えば、モデルは基本的な言語スキルをすぐに身に付けるけど、複雑な推論タスクを理解するにはもっと時間がかかるんだ。これは、継続的なトレーニングと高品質のデータがさらなる発展を促す必要があることを示しているんだ。
ミクスチャー比を正しく設定することが重要だともわかった。トレーニングデータの約30-40%を中国語にすると、最良の結果が得られたんだ。他の実験では異なる学習率を使って、それがモデルの学ぶ能力にどう影響するかを観察したよ。
感情知能とチャットボットの展開
私たちの仕事の面白い部分は、モデルの感情知能を向上させることだったんだ。会話の中で感情の手がかりを理解し、反応できるようにトレーニングしたよ。チャットインタラクションを通じてテストして、人間とのコミュニケーションがどれだけうまくいくかを測定したんだ。
チャットボットは感情分類タスクと会話ベンチマークを使ってテストされた。私たちの強化版がこれらの領域で既存のモデルを上回ったのを見て、嬉しかったよ。
チャットボットが中国語の好ましい話し方に合うように、トレーニングデータセットに感情的な会話の例をもっと含めるようにしたんだ。
結論
要するに、私たちはLlama-3が追加の言語に対応できる能力を強化し、様々な分野の知識も向上させるための研究を行ったんだ。私たちの方法は、言語理解を改善するだけでなく、他の特定の分野でのパフォーマンスも良くなったことがわかったよ。
モデルの最終版は感情知能のベンチマークで最先端のパフォーマンスを示していて、実際の使用のために展開され、日常の文脈でのサポート的なインタラクションを提供してるんだ。私たちの仕事は、新しい言語データと学習率をミックスすることがLLMのパフォーマンス向上にどれだけ重要かを強調しているよ。
未来の研究は、これらの発見を基にLLMをさらに洗練させ、言語処理やアプリケーション特化のパフォーマンスを向上させるかもしれないね。
タイトル: A Practice of Post-Training on Llama-3 70B with Optimal Selection of Additional Language Mixture Ratio
概要: Large Language Models (LLM) often needs to be Continual Pre-Trained (CPT) to obtain the unfamiliar language skill or adapt into new domains. The huge training cost of CPT often asks for cautious choice of key hyper-parameters such as the mixture ratio of extra language or domain corpus. However, there is no systematic study which bridge the gap between the optimal mixture ratio and the actual model performance, and the gap between experimental scaling law and the actual deployment in the full model size. In this paper, we perform CPT on Llama-3 8B and 70B to enhance its Chinese ability. We study the optimal correlation between the Additional Language Mixture Ratio (ALMR) and the Learning Rate (LR) on the 8B size which directly indicate the optimal experimental set up. By thorough choice of hyper-parameter, and subsequent fine-tuning, the model capability is improved not only on the Chinese-related benchmark, but also some specific domains including math, coding and emotional intelligence. We deploy the final 70B version of LLM on an real-life chat system which obtain satisfying performance.
著者: Ningyuan Xi, Yetao Wu, Kun Fan, Teng Chen, Qingqing Gu, Peng Yu, Jinxian Qu, Chenxi Liu, Zhonglin Jiang, Yong Chen, Luo Ji
最終更新: 2024-09-10 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2409.06624
ソースPDF: https://arxiv.org/pdf/2409.06624
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://aaai.org/example/code
- https://aaai.org/example/datasets
- https://aaai.org/example/extended-version
- https://huggingface.co/FlagAlpha/Atom-7B
- https://github.com/dandelionsllm/pandallm
- https://huggingface.co/IDEA-CCNL
- https://github.com/CVI-SZU/Linly
- https://github.com/yangjianxin1/Firefly-LLaMA2-Chinese
- https://github.com/ymcui/Chinese-LLaMA-Alpaca-3
- https://huggingface.co/BAAI/Infinity-Instruct-3M-0625-Llama3-70B
- https://github.com/CrazyBoyM/llama3-Chinese-chat
- https://ai.meta.com/blog/meta-llama-3/
- https://huggingface.co/hfl/
- https://github.com/NVIDIA/Megatron-LM