デバイス上のLLMのパフォーマンス向上法
新しい推論システムが、オンデバイスのLLMのスピードと効率を向上させた。
― 1 分で読む
目次
デバイス上の大規模言語モデル(LLM)が、テクノロジーとのインタラクションを変えてるんだ。ユーザーインターフェースのタスクを自動化したり、プライバシーを守りながらパーソナライズされたメールの返信を作成したりできるようになったけど、これをモバイルデバイスで実行するのは遅い処理速度のせいで難しいんだ。このアーティクルでは、ユーザーデータを守りつつ、LLMのスピードと効率を向上させる方法について探るよ。
推論遅延の課題
デバイス上のLLMにとって、大きな障害は長い推論遅延なんだ。特に最初の処理ステージ、つまりプレフィル中が問題。パーソナライズされて正確なコンテンツを生成するために多くの情報が必要で、一般的なモバイルプロセッサでは許容できないほど時間がかかることがあるんだ。
長いコンテキストは、メールに返信したり、ユーザーのコマンドに基づいてアクションを自動化したりするタスクにとって重要で、多くの場合、何百または何千ものトークンを処理する必要がある。既存のモバイルCPUやGPUの遅いスピードは、現実のアプリケーションにおけるLLMのパフォーマンスを制限してる。
新しいアプローチ
この問題に対処するために、モバイルのニューラルプロセッシングユニット(NPU)を効率的に利用する新しいLLM推論システムが開発されたんだ。NPUは特定のタスク、特に深層学習計算を得意とするプロセッサで、より速いスピードと低エネルギー消費を約束してる。
アルゴリズムとシステムデザインの戦略を組み合わせた方法を適用することで、この新しいアプローチはLLMアーキテクチャと現代のNPUの能力のギャップに対応してる。主な戦略は、三つの異なるレベルでプロンプトとモデル処理を再構築すること。
改善のための戦略
1. プロンプトの再構築
最初の戦略は、可変長のプロンプトを小さくて固定サイズのチャンクに分けること。これにより、必要なデータの関係を保ちながら、システムが扱いやすくなるんだ。
2. テンソル計算の最適化
二つ目の戦略は、モバイルCPUやGPUで処理するための重要なアウトライダデータポイントを特定すること。この最適化により、システムは不要な処理を最小限に抑えて計算をスピードアップできる。
3. 効率のためのスケジューリング
三つ目のアプローチは、CPU/GPUとNPUのユニークな特性を考慮した処理タスクのスケジューリング。タスクを柔軟に配置することで、システムは利用可能な処理リソースをより効果的に活用でき、遅延を減らせる。
エネルギー節約
この新しいLLMフレームワークは、既存のシステムと比べて素晴らしいエネルギー効率を実現してる。研究によれば、推論タスク中に平均で30%から60%のエネルギー消費を節約できることがわかってる。モバイルNPUを効率的に活用することで、デバイスのバッテリーを急速に消耗させることなく計算ができるんだ。
実世界のアプリケーション
この技術の実用的なアプリケーションは広範で影響力があるよ。たとえば、ユーザーのコマンドをモバイルデバイス上での自動アクションに翻訳するタスクが速く、スムーズに行えるようになったりする。同様に、メールへの返信でも、ユーザーはプロセスがより早く、効率的だと感じられるようになり、モバイルコミュニケーションに関連する一般的なフラストレーションが和らぐんだ。
パフォーマンス比較
他の人気のあるモバイルLLMと比較すると、この新しい推論システムは既存のモデルを大幅に上回ってる。平均して、プレフィルステージで約22倍速く、実世界のアプリケーションシナリオで迅速な応答を実現してる。
自動化の加速
UI管理のような自動化タスクでは、新しいシステムは以前はほぼ40秒かかっていた五段階のタスクを、ほんのわずかな時間で管理できるようになった。この加速により、ユーザーは不必要な待ち時間なしにタスクを終わらせられるので、モバイルテクノロジーの全体的な体験が向上する。
長いコンテキストへの対応
新しいシステムのもう一つの重要な利点は、より長いコンテキストの長さをより効果的に処理できること。最近のモデルは、32,000トークンまでのコンテキスト長をサポートするように開発されていて、この能力があれば、アプリケーションでのユーザーパーソナライズとコンテキスト認識が向上するんだ。
モバイルNPUの役割
モバイルNPUは、現代のほとんどのモバイルデバイスに搭載されていて、毎秒何百万もの操作を実行できるんだ。これらのチップは深層学習プロセスを促進するために設計されていて、LLMタスクのスピードアップに最適なんだ。
それでも、以前のNPUをLLM推論に活用しようとした試みは、いくつかの課題に直面していたんだ。たとえば、LLM処理でよく見られる可変長プロンプトに適応することは、全然スピードが向上しないことが多かったんだ。
主要な革新
新しいLLMシステムには、NPUをLLM推論に使う際の課題を克服するいくつかの革新的な機能が含まれてる。
チャンク共有アプローチ
主要な革新の一つは、チャンク共有グラフの利用。プロンプトを独立して処理可能な固定サイズのチャンクに分けることで、必要なデータの関係を保ちながら、計算を準備し実行するのにかかる時間を減らせるんだ。
シャドウアウトライア実行
このアプローチでは、アウトライダアクティベーションデータを特定し、NPUの効率を損なわずに処理することに焦点を当ててる。これにより、CPUまたはGPUでアウトライダ計算をNPUの操作と並行して実行することで、遅延を最小限に抑えつつ、より良い精度を達成できるんだ。
柔軟なサブグラフ実行
効率をさらに向上させるために、システムは処理タスクを順不同で実行する方法を取り入れてる。この柔軟性により、異なるプロセッサ速度による遅延を埋められることから、最終的に迅速な応答時間を実現できるんだ。
パフォーマンスの評価
新しいLLMシステムの利益を確認するために、さまざまな条件とベンチマークを使用して広範なテストが行われたんだ。評価の結果、新しいシステムはすべての重要な指標、プレフィル速度、エネルギー効率、全体的な精度において既存の選択肢を一貫して上回ることがわかった。
実世界での実装
この新しいフレームワークの実用的な影響は大きいよ。さまざまなモバイルデバイスとシームレスに統合することで、ユーザーは既存のアプリケーションやハードウェアを変更することなく、この高度なLLMシステムの恩恵を受けられるんだ。
既存のフレームワークとの互換性
このシステムは以前に確立されたフレームワークと互換性があり、既存のアプリケーションに簡単に統合できるんだ。この柔軟性により、開発者はシステムを大幅に改修することなく、向上したスピードと効率を活用できるんだ。
ユーザー体験の向上
エンドユーザーにとっては、これによりモバイルアプリケーションとのインタラクションがもっと早く、スムーズになるんだ。タスクを自動化したり、コンテンツを生成したりする場合でも、ユーザーはモバイルテクノロジーをさらにパワフルで使いやすく感じられる、効率的な体験を楽しむことができるんだ。
結論
この革新的な推論システムを通じてデバイス上のLLMが進化することは、モバイルテクノロジーの大きな進展を意味するんだ。スピードが向上し、エネルギー効率が改善され、複雑なタスクの処理が向上することで、ユーザーはモバイルデバイスでより充実した体験を楽しめるようになる。モバイルNPUがLLM処理パイプラインに統合されることで、さまざまな分野でのアプリケーションの新しい可能性が開かれ、個人的な便利さと生産性が向上するんだ。
広範なパフォーマンス評価の結果は自らを物語っていて、期待を超えるシステムが明らかになり、モバイルAIや機械学習技術の未来の発展への道を開いているんだ。
タイトル: Fast On-device LLM Inference with NPUs
概要: On-device inference for Large Language Models (LLMs), driven by increasing privacy concerns and advancements of mobile-sized models, has gained significant interest. However, even mobile-sized LLMs (e.g., Gemma-2B) encounter unacceptably high inference latency, often bottlenecked by the prefill stage in tasks like screen UI understanding. We present llm.npu, the first LLM inference system utilizing on-device Neural Processing Unit (NPU) offloading to reduce prefill latency. llm.npu enhances NPU offloading efficiency by re-constructing the prompt and model in three levels: (1) At prompt level, it divides variable-length prompts into multiple fixed-sized chunks while maintaining data dependencies; (2) At tensor level, it identifies and extracts significant outliers to run on the CPU/GPU in parallel with minimal overhead; (3) At block level, it schedules Transformer blocks in an out-of-order manner to the CPU/GPU and NPU based on their hardware affinity and sensitivity to accuracy. Compared to competitive baselines, llm.npu achieves 22.4x faster prefill speed and 30.7$\times$ energy savings on average, and up to 32.8x speedup in an end-to-end real-world application. For the first time, llm.npu achieves more than 1,000 tokens/sec prefilling for a billion-sized model.
著者: Daliang Xu, Hao Zhang, Liming Yang, Ruiqi Liu, Gang Huang, Mengwei Xu, Xuanzhe Liu
最終更新: 2024-12-15 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2407.05858
ソースPDF: https://arxiv.org/pdf/2407.05858
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。