Potenziare i LLM sul dispositivo per migliori prestazioni
Un nuovo sistema di inferenza migliora la velocità e l'efficienza degli LLM sul dispositivo.
― 7 leggere min
Indice
- La Sfida della Latenza di Inferenza
- Un Nuovo Approccio
- Strategie per il Miglioramento
- Risparmi Energetici
- Applicazioni nel Mondo Reale
- Confronto delle Prestazioni
- Gestione dei Contesti Lunghi
- Il Ruolo delle NPU Mobili
- Innovazioni Chiave
- Valutazione delle Prestazioni
- Implementazione nel Mondo Reale
- Conclusione
- Fonte originale
- Link di riferimento
I modelli di linguaggio di grandi dimensioni (LLM) su dispositivo stanno cambiando il modo in cui interagiamo con la tecnologia, permettendo applicazioni come l'automazione dei compiti dell'interfaccia utente e la creazione di risposte personalizzate alle email senza compromettere la privacy dell'utente. Tuttavia, utilizzare questi LLM sui Dispositivi Mobili presenta delle sfide, principalmente a causa delle velocità di elaborazione lente. Questo articolo esplorerà come migliorare la velocità e l'efficienza degli LLM mantenendo i dati degli utenti al sicuro.
Latenza di Inferenza
La Sfida dellaUn ostacolo significativo per gli LLM su dispositivo è la loro lunga latenza di inferenza, specialmente durante la fase di elaborazione iniziale, nota come prefill. Questa fase richiede molte informazioni per generare contenuti che sembrino personalizzati e accurati, il che può richiedere un tempo inaccettabilmente lungo sui comuni processori mobili.
Un contesto lungo è cruciale per compiti come rispondere alle email o automatizzare azioni basate sui comandi dell'utente, che spesso necessitano di elaborare centinaia o migliaia di token. La lentezza delle attuali CPU e GPU mobili limita le prestazioni degli LLM nelle applicazioni reali.
Un Nuovo Approccio
Per affrontare questi problemi, è stato sviluppato un nuovo sistema di inferenza LLM che utilizza in modo efficiente le Unità di Elaborazione Neurale (NPU) mobili. Le NPU sono processori specializzati che eccellono nella gestione di compiti specifici come i calcoli di deep learning, promettendo così velocità più elevate e un minor consumo energetico.
Applicando un metodo che combina strategie di algoritmo e design del sistema, questo nuovo approccio colma le lacune tra le architetture LLM e le capacità delle moderne NPU. Le strategie chiave includono la ristrutturazione dei prompt e l'elaborazione del modello a tre livelli diversi.
Strategie per il Miglioramento
1. Ristrutturazione dei Prompt
La prima strategia consiste nel suddividere i prompt di lunghezza variabile in chunk più piccoli e di dimensioni fisse. Questo metodo preserva le relazioni necessarie dei dati rendendo più facile la gestione da parte del sistema.
2. Ottimizzazione dei Calcoli Tensoriali
La seconda strategia si concentra sull'identificazione dei punti dati anomali chiave da elaborare su CPU o GPU mobili invece che sulle NPU. Questa ottimizzazione consente al sistema di velocizzare i calcoli minimizzando l'elaborazione non necessaria.
3. Pianificazione per l'Efficienza
Il terzo approccio lavora sulla pianificazione dei compiti di elaborazione in un modo che considera le peculiarità delle CPU/GPU e NPU. Organizzando i compiti in un ordine flessibile, il sistema può utilizzare meglio le risorse di elaborazione disponibili e ridurre i ritardi.
Risparmi Energetici
Rispetto ai sistemi esistenti, questo nuovo framework LLM raggiunge un'energia notevolmente efficiente. La ricerca mostra che può risparmiare tra il 30% e il 60% del consumo energetico in media durante i compiti di inferenza. Facendo uso efficiente delle NPU mobili, il sistema può eseguire i calcoli senza far scaricare rapidamente la batteria del dispositivo.
Applicazioni nel Mondo Reale
Le applicazioni pratiche di questa tecnologia sono ampie e impattanti. Ad esempio, compiti come tradurre i comandi dell'utente in azioni automatizzate su un dispositivo mobile diventano più veloci e fluide. Allo stesso modo, quando si tratta di rispondere alle email, gli utenti troveranno il processo più rapido ed efficiente, alleviando le frustrazioni comuni associate alla comunicazione mobile.
Confronto delle Prestazioni
Quando messo alla prova contro altri LLM mobili popolari, questo nuovo sistema di inferenza supera significativamente i modelli esistenti. In media, risulta essere circa 22 volte più veloce durante la fase di prefill, portando a risposte più rapide in scenari di applicazione reale.
Accelerazione dell'Automazione
Per compiti automatizzati come la gestione dell'interfaccia utente, il nuovo sistema può gestire compiti a cinque passaggi che prima richiedevano quasi 40 secondi in una frazione di quel tempo. Questa accelerazione significa che gli utenti possono portare a termine i loro compiti senza attese inutili, migliorando la loro esperienza generale con la tecnologia mobile.
Gestione dei Contesti Lunghi
Un altro vantaggio cruciale del nuovo sistema è la sua capacità di gestire più efficacemente le lunghezze dei contesti più lunghi. Modelli recenti sono stati sviluppati con supporto per lunghezze di contesto fino a 32.000 token. Questa capacità consente una migliore personalizzazione per gli utenti e una maggiore consapevolezza del contesto nelle applicazioni.
Il Ruolo delle NPU Mobili
Le NPU mobili sono ora incluse nella maggior parte dei dispositivi mobili moderni, capaci di eseguire milioni di operazioni al secondo. Questi chip sono progettati per facilitare i processi di deep learning, rendendoli un'opzione ideale per velocizzare i compiti degli LLM.
Nonostante i loro vantaggi, i tentativi precedenti di utilizzare le NPU per l'inferenza degli LLM hanno incontrato delle sfide. Ad esempio, adattarsi ai prompt di lunghezza variabile tipicamente visti nell'elaborazione degli LLM spesso non portava a guadagni di velocità.
Innovazioni Chiave
Il nuovo sistema LLM include diverse funzionalità innovative che gli permettono di superare le sfide associate all'uso delle NPU per l'inferenza degli LLM.
Approcci di Condivisione dei Chunk
Una delle innovazioni chiave è l'uso di grafi di condivisione dei chunk. Suddividendo il prompt in chunk di dimensione fissa che possono essere elaborati in modo indipendente, il sistema può ridurre il tempo necessario per preparare ed eseguire questi calcoli mantenendo le necessarie relazioni dei dati.
Esecuzione degli Outlier in Shadow
Questo approccio prevede l'identificazione e la gestione dei dati di attivazione anomali senza compromettere l'efficienza delle NPU. Eseguendo questi calcoli anomali sulla CPU o GPU in parallelo con le operazioni delle NPU, il sistema minimizza i ritardi ottenendo una migliore accuratezza.
Esecuzione Flessibile dei Sottografi
Per migliorare ulteriormente l'efficienza, il sistema incorpora un metodo per eseguire i compiti di elaborazione in modo disordinato. Questa flessibilità consente al sistema di compensare i ritardi causati dalle diverse velocità dei processori, portando a tempi di risposta più rapidi.
Valutazione delle Prestazioni
Per garantire i benefici del nuovo sistema LLM, sono stati condotti test approfonditi in una varietà di condizioni e utilizzando vari benchmark. La valutazione ha confermato che il nuovo sistema ha costantemente superato le alternative esistenti in tutti i principali parametri, incluso la velocità di prefill, l'Efficienza Energetica e l'accuratezza complessiva.
Implementazione nel Mondo Reale
Le implicazioni pratiche di questo nuovo framework sono significative. Integrandosi senza problemi con vari dispositivi mobili, gli utenti possono beneficiare di questo avanzato sistema LLM senza dover modificare le loro applicazioni o hardware esistenti.
Compatibilità con i Framework Esistenti
Il sistema è compatibile con i framework precedentemente stabiliti e può essere facilmente integrato nelle applicazioni esistenti. Questa flessibilità consente agli sviluppatori di sfruttare la velocità e l'efficienza migliorate senza dover ristrutturare i loro sistemi.
Miglioramento dell'Esperienza Utente
Per gli utenti finali, questo significa risposte più veloci e interazioni più fluide con le applicazioni mobili. Che si tratti di automatizzare compiti o generare contenuti, gli utenti possono godere di un'esperienza semplificata che rende la tecnologia mobile ancora più potente e facile da usare.
Conclusione
Il progresso degli LLM su dispositivo attraverso questo innovativo sistema di inferenza segna un passo significativo avanti nella tecnologia mobile. Con velocità migliorata, maggiore efficienza energetica e una migliore gestione di compiti complessi, gli utenti possono aspettarsi un'esperienza più gratificante con i loro dispositivi mobili. L'integrazione delle NPU mobili nella pipeline di elaborazione LLM apre nuove possibilità per applicazioni in vari campi, migliorando sia la comodità personale che la produttività.
I risultati delle estese valutazioni delle prestazioni parlano chiaro, rivelando un sistema che non solo soddisfa ma supera le aspettative, aprendo la strada a futuri sviluppi nelle tecnologie di intelligenza artificiale mobile e machine learning.
Titolo: Fast On-device LLM Inference with NPUs
Estratto: On-device inference for Large Language Models (LLMs), driven by increasing privacy concerns and advancements of mobile-sized models, has gained significant interest. However, even mobile-sized LLMs (e.g., Gemma-2B) encounter unacceptably high inference latency, often bottlenecked by the prefill stage in tasks like screen UI understanding. We present llm.npu, the first LLM inference system utilizing on-device Neural Processing Unit (NPU) offloading to reduce prefill latency. llm.npu enhances NPU offloading efficiency by re-constructing the prompt and model in three levels: (1) At prompt level, it divides variable-length prompts into multiple fixed-sized chunks while maintaining data dependencies; (2) At tensor level, it identifies and extracts significant outliers to run on the CPU/GPU in parallel with minimal overhead; (3) At block level, it schedules Transformer blocks in an out-of-order manner to the CPU/GPU and NPU based on their hardware affinity and sensitivity to accuracy. Compared to competitive baselines, llm.npu achieves 22.4x faster prefill speed and 30.7$\times$ energy savings on average, and up to 32.8x speedup in an end-to-end real-world application. For the first time, llm.npu achieves more than 1,000 tokens/sec prefilling for a billion-sized model.
Autori: Daliang Xu, Hao Zhang, Liming Yang, Ruiqi Liu, Gang Huang, Mengwei Xu, Xuanzhe Liu
Ultimo aggiornamento: 2024-12-15 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.05858
Fonte PDF: https://arxiv.org/pdf/2407.05858
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.