デバイス内大規模言語モデル処理の進展
新しいアーキテクチャがエッジデバイスでの大規模言語モデルの性能を向上させる。
― 1 分で読む
目次
大規模言語モデル(LLM)が、今のテクノロジーとのやり取りにおいて重要な部分になってきてるね。これらのモデルは、質問に答えたり、人間の書き方に似たテキストを生成したりと、いろんなタスクをこなせるんだ。能力はほぼ魔法みたいで、仕事や生産性の考え方を変えちゃう。でも、スマホやロボットみたいな小さいデバイスでこれらの強力なモデルを動かすと、いくつかの課題があるんだよね。
デバイス上での推論の必要性
エッジデバイスでLLMを動かすことがますます人気になってきてる。そうすることで、ユーザーのプライバシーを守れるし、ネットワークリソースをうまく使える。でも、これらのデバイスでLLMを使うには大きなハードルがあるんだ。主な問題のひとつは、たくさんのメモリと帯域幅が必要なこと。モデルが大きいから、スペースを取っちゃうんだよね。
新しいアーキテクチャの紹介
これらの問題を解決するために新しいハイブリッドアーキテクチャが開発された。このアーキテクチャには、神経処理ユニット(NPU)と専用のNANDフラッシュチップを組み合わせるために特別に設計されたチップが含まれてる。この組み合わせにより、デバイス上でLLMを効率的に処理できるようになって、データをクラウドに行ったり来たりさせる必要がなくなるんだ。これって遅くて不安定だからね。
新しいセットアップは、NPUとフラッシュチップの強みを活かしてる。NPUは複雑な計算をするのが得意だし、フラッシュチップは必要なストレージスペースを提供してくれる。この設計によって、データの移動を最小限に抑えられるから、処理が速くなるし、エネルギーの使用量も減るんだ。
フラッシュメモリの役割
フラッシュメモリはこの新しいアーキテクチャで重要な役割を果たしてる。電源が切れてもデータを保持できるストレージ媒体だから、モバイルデバイスにぴったりなんだ。フラッシュメモリはコンパクトなスペースでたくさんのデータを保持できるから、かなりのメモリを必要とするLLMには最適だよ。
今回は、フラッシュチップが新しい機能でアップグレードされてて、チップ自体でいくつかの計算をすることができるようになった。このおかげで、データの移動が減って、時間とエネルギーを節約できるんだ。
LLMの展開における課題
進展があったものの、小さいデバイスでのLLMの展開にはまだユニークな課題があるんだ。主な問題のひとつは、大きなメモリフットプリントが必要なこと。例えば、特定のLLMを動かすには、スマホに一般的にあるメモリ以上が必要になることもある。これが遅いパフォーマンスや高いエネルギー使用につながるんだ。
もう一つの課題は、LLMが「シングルバッチ」モードで動くことが多いから、一度に1セットのデータしか処理できないんだ。これが効率性の低下につながってて、モデルが持ってる能力をフルに使えてないんだよね。
メモリと帯域幅の問題
メモリと帯域幅について話すときは、いくつかの重要なポイントを理解することが大切だよ:
- メモリフットプリント:Llama-70Bみたいな大きなモデルは約70GBのメモリが必要だから、ほとんどのモバイルデバイスが対処できる量よりもかなり多い。
- 帯域幅の需要:データを移動するプロセスには帯域幅が必要で、LLMはしばしば低い算術強度を持ってるから、メモリに依存しがち。このため、相対的に少ない計算のためにたくさんのデータ移動が必要なんだ。
フラッシュオフロードの制限
フラッシュストレージを使ってメインシステムメモリからの処理をオフロードしようとする試みもあったけど、フラッシュストレージの帯域幅の制限でしばしば問題が起こるんだ。例えば、モデルがフラッシュからシステムメモリにデータを移動させないと処理が始まらない場合、そのプロセスが全体を遅くしちゃうんだよね。
チップレットベースのハイブリッドアーキテクチャ
新しいチップレットベースのアーキテクチャは、これらの課題を克服するために設計されてる。どうやって機能するかを簡単に説明するね:
- 設計:このアーキテクチャには、NPUに直接接続された専用のフラッシュチップが含まれてる。
- データフロー:この接続により、フラッシュメモリに直接アクセスできるようになって、NPUがデータを不必要に移動させなくても計算できるようになるんだ。
- 処理能力:フラッシュメモリはオンダイ処理能力を強化されてて、データが保存されてるところでいくつかの計算を直接行えるんだ。
効率的なシングルバッチ推論の達成
チップレットベースのアーキテクチャを使うことで、エッジデバイスでLLMを効率的に動かすことができるようになった。この設計により、処理速度が以前の方法よりもかなり速くなったんだ。例えば、この新しいシステムは大きなモデルで1秒あたり3.44トークン以上の速度に達することができて、これは以前よりもずっと良いんだ。
オンダイエラー訂正の活用
フラッシュメモリの大きな問題の一つは、エラーが発生しやすいことだよね。LLMがスムーズに動くために、オンデアイエラー訂正ユニットが追加されたんだ。このユニットがあれば、データに小さなミスがあっても、LLMの全体的なパフォーマンスと精度が保たれるんだ。
新しい設計の全体的な貢献
新しいハイブリッドアーキテクチャにはいくつかの利点があるよ:
- 効率的なメモリ使用:大きなモデルをデバイス上で直接動かせるようになって、過剰なメモリが必要なくなる。
- より速い処理:速度が向上したことで、ユーザーはデバイスでよりレスポンスの良い体験を楽しめる。
- エネルギー消費の削減:データ移動を最小限に抑えることで、エネルギーコストが下がって、バッテリー駆動のデバイスにとっても良いんだ。
パフォーマンス評価
新しいシステムがうまく機能することを確認するために、広範なテストが行われた。その結果、このアーキテクチャは以前のフレームワークよりもずっと良く機能することがわかったよ。LLMの処理速度は大幅に改善されて、エネルギー使用量も従来の方法よりはるかに少なくなってる。
結論
エッジデバイスでLLMを使うことへのシフトは、テクノロジーの新しいフロンティアを示してる。チップ設計やメモリの利用が進化したことで、今ではスマホや他のデバイスで強力なモデルを活用できるようになったんだ。この進化はユーザーに新しい能力をもたらすだけじゃなく、プライバシーやデータセキュリティに関する課題にも対処してる。テクノロジーが成長し続ける限り、私たちの日常生活でシームレスなやり取りを可能にするさらに革新的なソリューションが期待できそうだね。
タイトル: Cambricon-LLM: A Chiplet-Based Hybrid Architecture for On-Device Inference of 70B LLM
概要: Deploying advanced large language models on edge devices, such as smartphones and robotics, is a growing trend that enhances user data privacy and network connectivity resilience while preserving intelligent capabilities. However, such a task exhibits single-batch computing with incredibly low arithmetic intensity, which poses the significant challenges of huge memory footprint and bandwidth demands on limited edge resources. To address these issues, we introduce Cambricon-LLM, a chiplet-based hybrid architecture with NPU and a dedicated NAND flash chip to enable efficient on-device inference of 70B LLMs. Such a hybrid architecture utilizes both the high computing capability of NPU and the data capacity of the NAND flash chip, with the proposed hardware-tiling strategy that minimizes the data movement overhead between NPU and NAND flash chip. Specifically, the NAND flash chip, enhanced by our innovative in-flash computing and on-die ECC techniques, excels at performing precise lightweight on-die processing. Simultaneously, the NPU collaborates with the flash chip for matrix operations and handles special function computations beyond the flash's on-die processing capabilities. Overall, Cambricon-LLM enables the on-device inference of 70B LLMs at a speed of 3.44 token/s, and 7B LLMs at a speed of 36.34 token/s, which is over 22X to 45X faster than existing flash-offloading technologies, showing the potentiality of deploying powerful LLMs in edge devices.
著者: Zhongkai Yu, Shengwen Liang, Tianyun Ma, Yunke Cai, Ziyuan Nan, Di Huang, Xinkai Song, Yifan Hao, Jie Zhang, Tian Zhi, Yongwei Zhao, Zidong Du, Xing Hu, Qi Guo, Tianshi Chen
最終更新: Sep 23, 2024
言語: English
ソースURL: https://arxiv.org/abs/2409.15654
ソースPDF: https://arxiv.org/pdf/2409.15654
ライセンス: https://creativecommons.org/licenses/by-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。