Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 分散・並列・クラスターコンピューティング

長いシーケンスのLLMトレーニングの進展

新しいシステムが長いシーケンスを使った大規模言語モデルのトレーニングを強化するんだ。

― 1 分で読む


長いシーケンスのLLMを効長いシーケンスのLLMを効率的にトレーニングするのメモリとスケーラビリティを最適化。新しいフレームワークがLLMトレーニング
目次

長いシーケンスで大規模な言語モデル(LLM)をトレーニングするのは大事だけど、かなりの課題があるんだ。この課題は主に高い計算能力とメモリの要求から来てる。これを解決するために、シーケンス並列性みたいな方法が登場したんだけど、今あるLLMのトレーニング戦略にはスケーラビリティや効率に関して限界があるんだ。

これらの制約を克服するために、長いシーケンスでLLMを効率的に大規模でトレーニングすることに重点を置いた新しいシステムが開発された。このシステムの中心には、ヘッド並列とコンテキスト並列技術を組み合わせたユニークな2Dアテンションメカニズムがある。この組み合わせにより、パフォーマンスを犠牲にせずにスケーラビリティの問題を軽減できるんだ。

長いシーケンスのLLMが必要な理由

最近、大規模な言語モデルはすごく人気が出て、長いシーケンスを使用する多様なアプリケーションが増えてる。生成AIや長い文脈情報を理解するのもその一つ。チャットボットの使用が増える中で、長い会話を処理するのは今まで以上に重要になってきてる。

さらに、言語タスクに優れたトランスフォーマーモデルは、コンピュータビジョンや科学的応用でも素晴らしい結果を出してる。特に、長い入力を管理する必要があるタスク、例えば動画ストリームの分析やタンパク質の特性予測においては特にそうだ。

長いシーケンスでLLMをトレーニングするには、かなりのメモリと処理能力が必要なんだ。この要求を軽減するために、シーケンス並列性がよく使われるんだけど、これは主にヘッド並列性とコンテキスト並列性に分けられる。

既存のアプローチの限界

ヘッド並列メソッドは、全体のシーケンスをそのまま保ちながら、異なるヘッド間で同時にアテンションを計算する。一方で、コンテキスト並列メソッドは、関連するテンソルをシーケンスに沿って小さい部分に分解する。しかし、どちらのアプローチも、非常に長いシーケンスを大規模に適用するときに課題に直面するんだ。

ヘッド並列性はアテンションヘッドの数によって制限される。つまり、スケールアウトできる能力には限界があるってこと。コンテキスト並列性は通信の非効率に悩まされてる。ピアツーピアの通信に依存してるから、帯域幅の利用が遅くて、ネットワークリソースをうまく使いきれてない。このため、通信にかかる時間が実際の計算よりも長くなることがあるんだ。

2Dアテンションの導入

既存のメソッドの隙間を埋めるために、2Dアテンションシステムが長いシーケンスのLLMのトレーニングフレームワークとして導入された。この革新的な方法は、ヘッド並列性とコンテキスト並列性を組み合わせて、よりスケーラブルで効率的なトレーニングプロセスを作り出す。

2Dアテンションでは、テンソルがヘッドの次元に基づいてGPUに分散され、同時にコンテキストの次元内でチャンクに分割される。この二重アプローチは、二つの方法を統合することでスケーラビリティを向上させ、プロセスを管理しやすいセクションに整理することでピアツーピア通信の必要を減少させる。また、この設計により、通信プロセスと計算の重なりをより効率的に行えるようになるんだ。

ダブルリングアテンションで通信効率を改善

トレーニング中のアテンションブロックの効果を高めるために、ダブルリングアテンションが導入された。この技術は、利用可能なネットワークリソースをより効率的に使用し、通信と計算のタスクが同時に行えるようにして、全体の時間を短縮する。

2Dアテンションフレームワークは、テンソルを分割してアテンションプロセスを整理するだけでなく、タスクの配置に対して異なる戦略を使用できるようにしている。つまり、タスクに応じてヘッドファーストやコンテキストファーストの配置が使えるということ。

ヘッドファーストの配置では、同じアテンショングループで作業するGPUをまとめてスピードを最大化する。ただし、コンテキストファーストの配置では、同じコンテキストグループにいるGPUを優先して、処理中の待ち時間を減らす。

パフォーマンス結果と実装

数多くの実験により、2DアテンションフレームワークがDeepSpeed-UlyssesやMegatron Context Parallelismなどの既存のシステムよりも大幅に優れていることが示されている。この新しいシステムは、トレーニングスピードやスケーラビリティにおいてその能力を証明しており、モデルのFLOPs利用率も向上させている。

ハイブリッドZeROやセレクティブチェックポイント++といった高度な技術を組み合わせることで、このシステムはトレーニング中のメモリコストを最小化できる。これは特に、長いシーケンストレーニング中にはメモリリソースが大きく消耗されるため、非常に重要だ。

分散トレーニング戦略

データ並列性、テンソル並列性、パイプライン並列性のような分散トレーニング手法は、トレーニングスピードを向上させつつリソース消費を減らすために長い間利用されている。データ並列性では、入力データを小さいセクションに分割して複数のGPUに分配する。テンソル並列性は、モデルパラメータをGPU間で共有して並列計算を可能にする。パイプライン並列性では、モデルの層をステージに分割して並行処理を行うことで、さらに速度を向上させるが、正しく管理しないと非効率が生じることもある。

これらの戦略それぞれには強みと弱みがあるから、トレーニング中に最適な効率を達成するためには慎重な考慮が必要だ。

LLMのアーキテクチャを理解する

LLMは通常、複数の層から成るトランスフォーマーアーキテクチャを採用している。各層はアテンションブロックとフィードフォワードネットワーク(FFN)ブロックを含んでいて、アテンションブロックは入力データを受け取り、アテンション計算に不可欠なクエリ、キー、バリューのためのテンソルに分ける。

マルチヘッドアテンション(MHA)は、これらのテンソルをいくつかのヘッドに分割して処理する。それぞれのヘッドは自分のアテンションを計算し、結果を組み合わせる。グループクエリアテンション(GQA)は、クエリヘッドをグループ化することによって、単一のキーとバリューのヘッドを共有できるようにする。

評価と既存システムとの比較

新しいシステムのパフォーマンスは、さまざまなセットアップと構成で測定されている。従来の方法と比べて効率や利用率が向上したことが示されている。革新的な技術を取り入れることで、7B-MHAや7B-GQAのモデルに対してトレーニングパフォーマンスが大幅に向上した。

結果は、2Dアテンションフレームワークを使用することでリソースの効率的な利用が促進され、モデルのFLOPs利用率や1秒あたりのトークン数が向上したことを示している。これにより、トレーニング時間が短縮され、全体的なパフォーマンスが向上する。

スケーラビリティとメモリ管理

スケーラビリティは大規模なモデルのトレーニングにおいて重要な要素だ。この新しいシステムは、タスクの分配を広げる戦略を使用することで、長いシーケンスのトレーニングのスケーラビリティを向上させる。

メモリの賢い管理も大事な焦点だ。この新しいフレームワークは、メモリを効果的に管理でき、リソース不足に陥ることなくトレーニングを継続できる。選択的グラデイエントチェックポイントのような技術は、必要なデータだけを保存し、必要に応じて再計算することでメモリコストを管理するのに役立ち、大きなモデルを長時間にわたってトレーニングしやすくしている。

結論

長いシーケンスで大規模な言語モデルを効率的にトレーニングするのは、今のAI開発の中で重要な取り組みだ。2Dアテンションやダブルリングアテンションのような革新的な技術の導入は、既存の方法に比べて大幅な改善をもたらす。この新しいフレームワークは、スケーラビリティの向上、コミュニケーション効率の改善、リソース利用の最適化を実現することで、長いシーケンスのLLMのトレーニングのやり方を変える可能性がある。

全体的に見て、このフレームワークで示された進展は、AI研究と応用の未来に向けた有望な方向性を示していて、この分野でのさらなる探求のためのしっかりした基盤を提供している。

オリジナルソース

タイトル: LoongTrain: Efficient Training of Long-Sequence LLMs with Head-Context Parallelism

概要: Efficiently training LLMs with long sequences is important yet challenged by the massive computation and memory requirements. Sequence parallelism has been proposed to tackle these problems, but existing methods suffer from scalability or efficiency issues. We propose LoongTrain, a novel system to efficiently train LLMs with long sequences at scale. The core of LoongTrain is the 2D-Attention mechanism, which combines both head-parallel and context-parallel techniques to break the scalability constraints while maintaining efficiency. We introduce Double-Ring-Attention and analyze the performance of device placement strategies to further speed up training. We implement LoongTrain with the hybrid ZeRO and Selective Checkpoint++ techniques. Experiment results show that LoongTrain outperforms state-of-the-art baselines, i.e., DeepSpeed-Ulysses and Megatron Context Parallelism, in both end-to-end training speed and scalability, and improves Model FLOPs Utilization (MFU) by up to 2.88x.

著者: Diandian Gu, Peng Sun, Qinghao Hu, Ting Huang, Xun Chen, Yingtong Xiong, Guoteng Wang, Qiaoling Chen, Shangchun Zhao, Jiarui Fang, Yonggang Wen, Tianwei Zhang, Xin Jin, Xuanzhe Liu

最終更新: 2024-06-26 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2406.18485

ソースPDF: https://arxiv.org/pdf/2406.18485

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事

人工知能コミュニケーションで人間とエージェントの協力を強化する

研究は、自律エージェントと人間の間でのより良いチームワークのためのコミュニケーション戦略を探求している。

― 0 分で読む