大規模言語モデルのプルーニング指標の進展
新しいフレームワークが、大規模言語モデルのプルーニング手法を再訓練なしで改善するよ。
― 1 分で読む
目次
大規模言語モデル(LLM)は自然言語処理(NLP)で大きな進歩を遂げてきたけど、これらのモデルはサイズが大きいから展開が難しいっていう課題があるんだ。プルーニングは不要な重みを取り除いてモデルサイズを減らすための一般的な技術だよ。
多くのプルーニング手法は再トレーニングが必要で、これが時間も資源もかかるんだ。そこで最近の手法では、再トレーニングなしでプルーニングを行うための新しいメトリックが開発されてるけど、専門家の知識が必要だったり、試行錯誤が多かったりするのが問題なんだ。この論文では、遺伝子プログラミングを使ったより良いプルーニングメトリックを探索する自動フレームワークについて話すよ。
大規模言語モデルの課題
LLMは強力なんだけど、そのサイズが展開においての課題になる。例えば、GPT-3は1750億のパラメーターがあって、かなりの計算リソースが必要なんだ。こうした課題に対処するために、モデルの圧縮技術がいくつか開発されていて、モデルの量子化やスパース性、知識蒸留などがあるんだ。
その中でも、モデルのスパース性は有望な解決策として浮上してきた。これは重み行列の中から不要な要素を特定して取り除くことを含むんだ。ただし、既存の多くの手法は最初からトレーニングしたり、広範なファインチューニングが必要で、大きなモデルには現実的じゃないんだ。
ポストトレーニングプルーニング:実用的なアプローチ
大量のデータと大きなモデルサイズを考えると、ポストトレーニングプルーニングが人気を集めてる。この手法は資源をほとんど必要としないから、LLMを最適化するためのコスト効果の高い方法として魅力的なんだ。最近の研究では、ポストトレーニングプルーニングがプルーニングプロセスを大いに簡素化し、LLMをよりアクセスしやすくすることが示されているよ。
ポストトレーニングプルーニングの手法の例にはSparseGPTやWandaがある。SparseGPTは重みの重要度に基づいて重みを除去し、Wandaは再トレーニングや重みの更新を避けることでプロセスを簡素化する。しかし、これらの方法には利点があるものの、いくつかの課題もあるんだ。
- 人間依存: 多くの手法は専門知識に依存していて、試行錯誤が多くなる。
- フォーマット感受性: 既存のプルーニングメトリックはフォーマットに敏感で、実験には厳密なアプローチが必要だ。
これらの課題に対処するために、二つの重要な質問が浮かび上がる。
- どうやって既存のメトリックの強みを取り入れた包括的なプルーニングメトリックを作れる?
- 大規模言語モデル専用の最適なプルーニングメトリックをどう見つける?
より良いプルーニングメトリックを探す
これらの質問に答えるために、既存のプルーニングメトリックを取り入れた包括的な探索空間が作成された。このプロセスでは、現在のメトリックを見直し、その構造を分解して共通の入力や操作を特定することが含まれる。入力には重み、勾配、活性化が含まれ、操作は一項または二項に分類できる。
シンボリック回帰(SR)に触発されて、プルーニングメトリックは表現木として表現できる。この記事では、遺伝子プログラミングを使って新しいシンボリックプルーニングメトリックを生成するフレームワークを提案するよ。
遺伝子プログラミングフレームワーク
このフレームワークは遺伝子プログラミングを使用して最適なプルーニングメトリックを探すプロセスを含む。これには、潜在的なメトリックを表すシンボリックツリーの集団を作成することが含まれる。各ツリーは、端末ノード(変数を表す)と内部ノード(数学的操作を表す)から成り立っている。
フレームワークの主要なステップには以下がある:
- 集団の初期化: 初期集団は異なる深さのシンボリックツリーで構成される。
- 選択: 最もパフォーマンスが良い候補から2つの親ツリーを選ぶ。
- 交差: 親からサブツリーを交換して子孫を作る。
- 突然変異: 子孫にランダムな変更を加えて多様性を導入する。
- 評価: 各新しいメトリックは、そのフィットネスに基づいて評価される。
このサイクルは満足のいくプルーニングメトリックが見つかるまで続く。
対立操作簡素化戦略
探索中に、いくつかのメトリックには不要な複雑さを加える対立操作が含まれていることに気づいた。そのため、対立操作簡素化(OOS)戦略が導入されて、探索空間を合理化することに重点が置かれている。この手法は対立パターンを特定して取り除くことに焦点を当てていて、新しいメトリックの発見の効率を高めるんだ。
フレームワークの評価
新しいプルーニングメトリックはLLaMAモデルでその効果を評価した。結果として、これらの新たに発見されたメトリックは、言語モデリングやゼロショットタスクの両方で既存の最先端手法よりも優れた性能を示したよ。
言語モデリング
言語モデリングは、モデルが前の単語に基づいて次の単語をどれだけうまく予測できるかを理解するために重要だ。このモデルはWikiText2データセットで評価して、その困惑度を測定した。
結果は、新しいプルーニングメトリックが以前の手法よりもはるかに低い困惑度を達成していることを示してる。特にモデルのサイズが大きくなるにつれ、その性能が改善されることが分かっていて、提案されたメトリックが大きなモデルに特に有益であることを示している。
ゼロショットタスク
言語モデリングに加えて、モデルの性能もさまざまなゼロショットタスクで評価した。これらのタスクは、モデルが特定のトレーニングなしで新しい状況に知識を一般化できる能力を評価するんだ。新しく開発されたメトリックは再び既存の手法と比べて強い性能を示したよ。
インコンテキスト学習
インコンテキスト学習は、モデルの適応能力と推論能力を評価するために重要だ。このフレームワークは、難しい数学問題を含むGSM8Kデータセットでテストされた。結果は、新しいプルーニングアプローチが以前の手法を大幅に上回り、推論や理解が必要なシナリオでの効果を強調した。
Robustness and Generalization
提案されたメトリックの頑健性を評価するために、さまざまな設定で一連のテストを行った。メトリックは異なる初期条件やモデルサイズにおいても一貫した性能を示した。この安定性は新しいプルーニング戦略の信頼性を強化する。
また、フレームワークはLLaMA以外の他のLLMファミリーにも適用され、その多様性と効果を示したよ。
結論
提案されたフレームワークは、大規模言語モデルのプルーニングメトリックを発見するための新しいアプローチを提供する。遺伝子プログラミングと対立操作簡素化戦略を活用することで、フレームワークはプルーニングの効率を高めながらモデルの性能を維持する。結果は、この手法が困惑度やゼロショット性能において現在の最先端技術を上回っていることを示し、大規模言語モデルの展開における実用的な応用の可能性を示しているよ。
要するに、この研究は大規模言語モデルを最適化してさまざまなアプリケーションで使いやすくするための大きな一歩を意味してる。今後の研究では、モデル性能をさらに向上させつつ、大規模言語モデルの展開をより容易にするためにフレームワークの能力を拡張することに焦点を当てていく予定だよ。
タイトル: Pruner-Zero: Evolving Symbolic Pruning Metric from scratch for Large Language Models
概要: Despite the remarkable capabilities, Large Language Models (LLMs) face deployment challenges due to their extensive size. Pruning methods drop a subset of weights to accelerate, but many of them require retraining, which is prohibitively expensive and computationally demanding. Recently, post-training pruning approaches introduced novel metrics, enabling the pruning of LLMs without retraining. However, these metrics require the involvement of human experts and tedious trial and error. To efficiently identify superior pruning metrics, we develop an automatic framework for searching symbolic pruning metrics using genetic programming. In particular, we devise an elaborate search space encompassing the existing pruning metrics to discover the potential symbolic pruning metric. We propose an opposing operation simplification strategy to increase the diversity of the population. In this way, Pruner-Zero allows auto-generation of symbolic pruning metrics. Based on the searched results, we explore the correlation between pruning metrics and performance after pruning and summarize some principles. Extensive experiments on LLaMA and LLaMA-2 on language modeling and zero-shot tasks demonstrate that our Pruner-Zero obtains superior performance than SOTA post-training pruning methods. Code at: \url{https://github.com/pprp/Pruner-Zero}.
著者: Peijie Dong, Lujun Li, Zhenheng Tang, Xiang Liu, Xinglin Pan, Qiang Wang, Xiaowen Chu
最終更新: 2024-06-05 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2406.02924
ソースPDF: https://arxiv.org/pdf/2406.02924
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。