スマートフォンで大規模言語モデルを動かす新システム
革新的なシステムがスマホでの高速LLM操作を可能にして、ユーザーのプライバシーを強化する。
― 1 分で読む
目次
この記事では、大きな言語モデル(LLM)をスマートフォンで素早く動かすために設計された新しいシステムについて話してるよ。これらのモデルはとても大きくて、しばしばスマホのメモリを超えることもあるんだ。このシステムは、スマホの中にあるさまざまなコンピュータ資源を巧みに使って、モデルの要求に応えてるんだ。
システムの主な特徴
このシステムにはいくつかの重要な機能があるよ。複雑な計算を小さな部分に分けて処理することで、スマホの異なる計算資源をより効果的に使えるようにしてる。特別なエンジンがあって、使っているモデルに応じて動作を調整するんだ。さらに、よく使うデータをキャッシュに保存して、操作を速くし、メモリやストレージからの読み込みによる遅延を最小限に抑えられるようにしてる。
このデザインで、システムはさまざまなスマホ上で幅広い言語モデルをサポートできるんだ。他の先進的なシステムと比べて、最大29.2倍速く動作することができるよ。特に、スマホでTurboSparse-Mixtral-47Bというモデルを動かせる最初のシステムで、毎秒11.68トークンのスピードでテキストを生成できるんだ。
大きな言語モデルの台頭
大きな言語モデルは、私たちとテクノロジーとのインタラクションを変えつつあるよ。これらのモデルは人間のようなテキストを理解し生成できるから、色んなタスクに役立つんだ。でも、最も高度なモデルはデータセンターにある強力なコンピュータが必要で、そこには高度なグラフィックス処理ユニット(GPU)や大量のメモリがあるんだ。
スマホがより高性能になってきてるから、研究者たちはこれらのモデルを直接スマホで動かす方法を模索してるんだ。そうすることで、スマホがスマートアシスタントとして個人データを使えるようになって、クラウドに送る必要がなくなるから、ユーザープライバシーの保護にもつながるよ。
スマートフォンでのLLM運用の課題
メリットがある一方で、スマホでLLMを動かすのは大きな課題があるんだ。スマホは通常、ハイエンドのコンピュータに比べて処理能力やメモリが少ないからね。小さいモデルを使おうとすると、パフォーマンスに妥協が生じることが多いんだ。たとえば、GoogleのGemini Nanoモデルはスマホのメモリに収まるようにスケールダウンされてるけど、やっぱり大きいモデルには性能が及ばないんだ。
LLMのメモリや計算リソースの必要性を低く抑える手法もあるんだけど、個人用コンピュータ向けに設計されているものが多くて、スマホの制限されたハードウェアではうまく機能しないんだ。モバイルストレージは遅くて効率的でないから、データを読み取るときにボトルネックになることが多くて、処理に遅れが出ちゃうんだよ。
新しいシステムの紹介
新しいシステムは、大きなモデルをスマホでメモリ制限を超えて動かすために設計されてるんだ。これは、限られた資源を効率的に使うことに焦点を当てた以前の研究を基にしてる。大きなモデルのすべての部分を同時にアクティブにする必要がないことを認識して、選択したニューロンのグループだけで動作できるようになってるんだ。
スマホのユニークなハードウェアに適応することで、返答生成のスピードを最適化できるんだ。これを達成するために、やっていることによって異なる処理戦略を使うんだよ、処理の準備をしているときや実際に返答を生成しているときなど。
メモリとストレージのソリューション
大きな課題の一つが、スマホの限られたメモリだよ。これに対処するために、システムはよく使われるデータをキャッシュしてメモリを効果的に使うんだ。それに加えて、メモリからデータを読み取ることと計算を行うことのバランスを改善する手法も導入されてるんだ。これによって、データを読み込むのにかかる待ち時間を最小限にできて、全体のプロセスを速くできるんだよ。
このシステムの動作は、スマホのメモリとストレージがどのように相互作用するかを考慮した、慎重に計画された読み込みと処理の戦略に基づいているよ。この計画は、新しいモデルがスマホで初めて実行されるときに自動的に行われるんだ。モデルとハードウェアの能力を分析することで、性能を最適化する詳細なプランを作成できるんだ。
新しいシステムの動作
新しいフレームワークは、2つの重要なステップを処理するよ:プレフィルとデコーディング。プレフィルの段階では、全ての入力が一度に処理されて、デコーディング段階では前のトークンに基づいて1つのトークンが生成されるんだ。それぞれのステージには独自の計算ニーズがあって、システムはそれぞれを個別に最適化するんだ。
プレフィルフェーズでは、システムはスマホの処理ユニットの能力をフルに活用して、より大きなデータバッチを効率的に処理できるよ。一方で、デコーディングフェーズは少量のデータを素早く処理することに焦点を当てていて、スマホのアーキテクチャをよりバランスよく活用できるんだ。
パフォーマンス評価
このシステムは、異なる処理能力を持つOnePlus 12とAce 2の2つのスマホモデルでテストされたよ。7億から470億パラメータの大きさを持つさまざまなLLMをサポートしてるんだ。結果は、パフォーマンスの平均的なスピードアップを示していて、モバイルハードウェアで効果的に動作できることを示してるんだ。
特に、両方のスマホが十分なメモリを持っているとき、システムは必要なメモリ量を大幅に削減しながらも、高速な推論スピードを提供してるんだ。たとえば、小さいモデルを扱うときは、メモリ使用量をほぼ40%削減しつつ、他の競合システムと同じパフォーマンスレベルを維持してるよ。
実世界のタスクパフォーマンス
このシステムのパフォーマンスは、マルチターンダイアログ、コード生成、数学問題解決といった実世界のタスクでもテストされたんだ。これらのタスクでは、一貫して堅牢なデコーディングスピードを示したよ。メモリが限られているときでも、他のシステムよりも良いパフォーマンスを発揮して、実用的なアプリケーションを処理するのに効果的なことが証明されたんだ。
結論
この新しいフレームワークは、スマートフォンで大きな言語モデルを動かす能力において重要な進展を示してるよ。モバイルハードウェアの特性に適応し、計算とデータストレージを賢く管理することで、デバイスの制限を尊重しながらも素晴らしい性能を提供できるんだ。今後も進化を続けることで、個人デバイスにおける人間のようなテキストの理解と生成において、さらなる可能性を切り拓くことが期待されてるよ。
タイトル: PowerInfer-2: Fast Large Language Model Inference on a Smartphone
概要: Large language models (LLMs) on smartphones enable real-time AI assistance and privacy-preserving, offline operation. However, resource constraints of smartphones limit current deployments to small language models (SLMs), significantly compromising their capabilities. This paper introduces PowerInfer-2, a smartphone-based framework that enables fast inference for LLMs exceeding the memory capacity. The key insight is decomposing matrix operations into neuron clusters as the basic processing unit, which enables flexible scheduling and efficient I/O-computation pipelining. PowerInfer-2 leverages this neuron-cluster-based design in both computation and storage. For computation, neuron clusters with dense activations are processed on NPU, while sparse clusters use CPU. The storage engine provides a fine-grained pipeline mechanism that coordinates cluster-level computation and I/O operations, enhanced by a segmented neuron cache to reduce I/O activities. PowerInfer-2 achieves up to a 27.8x speed increase compared to state-of-the-art frameworks. PowerInfer-2 is the first system to serve a 47B LLM on a smartphone, achieving 11.68 tokens/s. Notably, these performance improvements preserve model quality with negligible accuracy degradation.
著者: Zhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, Haibo Chen
最終更新: 2024-12-12 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2406.06282
ソースPDF: https://arxiv.org/pdf/2406.06282
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。