大規模言語モデルのトレーニング効率を向上させる
新しい方法が大規模言語モデルのトレーニングコストの高さに挑む。
Pihe Hu, Shaolong Li, Longbo Huang
― 1 分で読む
目次
大規模言語モデル(LLM)はいろんなタスクに使える強力なツールだけど、訓練にはかなりの計算能力が必要なんだ。これらのモデルは何百億ものパラメータを持っていて、ハイエンドのGPUクラスタで数か月も訓練する必要があるから、たくさんの人や組織には使いにくいんだ。最近の調査で、これらのモデルの訓練には無駄な計算がいっぱいあることが分かった。この問題を解決するために、計算量を減らしつつ性能を保つことを目指した新しい手法、ミックススパーシティトレーニング(MST)を紹介するよ。
背景
GPT-3やT5みたいな言語モデルは、機械が人間の言葉を理解し生成するのを大幅に改善してきた。でも、そのサイズのせいで訓練に時間がかかり、コストも高くなるんだ。例えば、GPT-3の訓練には、1024台のトップクラスのGPUクラスタで約34日かかるんだ。この計算資源を大量に使うことが、普及の妨げになっている。
これらのモデルの訓練をもっと効率的にしようと、いろんな試みがなされてきた。例えば、並列訓練や特化したハードウェア、ミックス精度訓練などがあるんだけど、ほとんどのアプローチは訓練中の計算量を減らすんじゃなくて、システム性能を向上させることに焦点を当ててるんだ。現在の削減技術、たとえばプルーニングや量子化は、モデルが訓練された後に使われることが多くて、訓練フェーズ中には役立たないんだ。
高い計算コストの課題
GPT-2みたいなモデルでは、計算のほとんどが二つの主な部分、完全結合層と自己注意層から来てるんだ。完全結合層は計算負荷の大部分を占めていて、自己注意層も少しは負担をかけてる。これらのことから、これらの部分の計算量を減らすことが、訓練効率を改善するために重要だってことが分かるんだ。
ダイナミックスパーストレーニング(DST)は、完全結合層の計算を減らす手法なんだ。スパースな接続でモデルを訓練するから、全ての接続を一度に使うわけじゃないんだ。でも、DSTをトランスフォーマーに直接適用すると、複雑さのせいであんまり計算が減らないんだ。
ミックススパーシティトレーニング(MST)の紹介
訓練中の高い計算コストの問題に取り組むために、MSTという方法を提案するよ。MSTは、トランスフォーマーの訓練を最適化するために、いくつかのテクニックを組み合わせているんだ。プロセスは三つの主要なフェーズで進む:ウォームアップ、ウルトラスパーシフィケーション、そしてリストレーション。
ウォームアップフェーズ
この最初のフェーズでは、モデルは密な(完全結合)モデルから始まって、徐々にスパースなモデルに移行するんだ。このフェーズでは、モデルの接続にスパース性を与える一連のステップが含まれてる。全体の目標は、次のフェーズのために良い初期のスパース構造を確立することなんだ。
ウルトラスパーシフィケーションフェーズ
このフェーズでは、モデルは主に非常にスパースな構造で訓練されるんだ。モデルの性能にとって重要な接続の小さなサブセットに焦点を当てるアイデアなんだ。以前の研究では、トランスフォーマーモデルの多数のパラメータが冗長であることが示されていて、それが高い計算コストの理由なんだ。一番重要な接続に集中することで、計算総量の顕著な削減が得られる。
リストレーションフェーズ
最後のフェーズでは、モデルの接続が戦略的に復元されて、ウルトラスパーシフィケーションフェーズでの性能低下を回復するんだ。ウォームアップと同様に、このフェーズも接続を復元しながら性能を注意深く監視する一連のステップで構成されてるんだ。
MSTの主要コンポーネント
MSTは、スパーシティバリエーション(SV)、ミックスグローイング(MG)、ハイブリッドスパースアテンション(HSA)の三つの主要なコンポーネントを統合してるんだ。これらのコンポーネントが一緒に機能して、訓練プロセスを最適化し、トランスフォーマーの事前訓練をもっと効率的にするんだ。
スパーシティバリエーション(SV)
スパーシティバリエーションは、訓練中にモデルの接続がどう進化していくかを決める手法なんだ。異なる段階でモデルのスパーシティを変えることで、冗長性を活用しつつ、高い性能を維持することを目指せるんだ。
ミックスグローイング(MG)
ミックスグローイングは、MSTのために設計されたユニークなトポロジー進化スキームなんだ。接続の成長とプルーニングを両方とも許容することで、モデルの訓練中の探索を強化するんだ。この柔軟性が、モデルが訓練プロセスの変化する要求に適応できるようにするんだ。
ハイブリッドスパースアテンション(HSA)
トランスフォーマーモデルの自己注意メカニズムは、入力テキストの関係をキャッチするのに重要なんだ。HSAは、このメカニズムを変更して、スパースアテンションアプローチを実装することで計算を減らすんだ。最初は、初期の訓練段階で未分解のスパースアテンションマスクを使って、モデルが密になってくると、完全に密なアテンションマスクに切り替えてその能力をフル活用するんだ。
実験評価
GPT-2モデルを訓練してMSTの性能を評価する実験を行ったんだ。MSTをいろんな従来の訓練方法と比較したんだ。この評価では、さまざまなゼロショットやフューショットタスクが含まれていて、MSTの効果を異なるシナリオで測定したんだ。
結果と性能比較
結果は、MSTが事前訓練中に必要な計算量を大幅に削減しながらも、密な訓練方法と同等の性能を保っていることを示したんだ。この効率は様々なタスクで観察されて、MSTの頑強さを示してる。
さらに、BERTという別の人気モデルでの実験でも、MSTは標準の密な訓練に必要な計算の約三分の一で同等の性能を達成したんだ。これはMSTが異なるアーキテクチャに対して一般化する能力を示してる。
アブレーションスタディ
MSTの各コンポーネントの寄与を理解するためにアブレーションスタディも行ったんだ。この研究では、異なるスパーシティパターンやトポロジー進化スキームがモデル性能に与える影響を調べたんだ。結果は、ウルトラスパーシフィケーションフェーズ中に起こる性能低下をカバーするために、ウォームアップとリストレーションフェーズが重要であることを再確認させたんだ。
研究からの知見
訓練中のモデルパラメータの進化は、MSTの効果についての追加的な洞察を提供してくれるんだ。パラメータの大きさの分布を調べたところ、大きなトランスフォーマーモデルはパラメータがより均一になる傾向があって、その一貫性が後の訓練段階で接続を復元することがますます重要になるってことを意味してるんだ。
学習したパラメータの可視化は、MSTがモデルを重要なパラメータを特定する方向に効果的に導いて、未来のプルーニングに簡単に適応できる構造を維持できることを示したんだ。
結論と今後の研究
要するに、ミックススパーシティトレーニング(MST)は、大規模トランスフォーマーモデルの訓練効率を向上させる新しくて効果的な方法を提示しているんだ。スパーシティバリエーション、ミックスグローイング、ハイブリッドスパースアテンションを統合することで、MSTはこれらのモデルの幅広い普及を妨げている主要な非効率性や高い計算要求に対処してるんだ。
今後は、さらに大きなモデルや多様なアーキテクチャへのMSTの応用を広げる可能性があるんだ。将来の研究では、これらの発見をもとに、さまざまなタスクドメインで大規模モデルを訓練するためのより効率的なアプローチを作り出せるかもしれないんだ。MSTが既存のシステムレベルの最適化手法と完全に互換性があるから、トランスフォーマーの事前訓練効率をさらに改善する潜在能力はかなり大きいんだ。
タイトル: Mixed Sparsity Training: Achieving 4$\times$ FLOP Reduction for Transformer Pretraining
概要: Large language models (LLMs) have made significant strides in complex tasks, yet their widespread adoption is impeded by substantial computational demands. With hundreds of billion parameters, transformer-based LLMs necessitate months of pretraining across a high-end GPU cluster. However, this paper reveals a compelling finding: transformers exhibit considerable redundancy in pretraining computations, which motivates our proposed solution, Mixed Sparsity Training (MST), an efficient pretraining method that can reduce about $75\%$ of Floating Point Operations (FLOPs) while maintaining performance. MST integrates dynamic sparse training (DST) with Sparsity Variation (SV) and Hybrid Sparse Attention (HSA) during pretraining, involving three distinct phases: warm-up, ultra-sparsification, and restoration. The warm-up phase transforms the dense model into a sparse one, and the restoration phase reinstates connections. Throughout these phases, the model is trained with a dynamically evolving sparse topology and an HSA mechanism to maintain performance and minimize training FLOPs concurrently. Our experiment on GPT-2 showcases a FLOP reduction of $4\times$ without compromising performance.
著者: Pihe Hu, Shaolong Li, Longbo Huang
最終更新: 2024-08-21 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2408.11746
ソースPDF: https://arxiv.org/pdf/2408.11746
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。