Nuovo sistema per far girare modelli linguistici grandi sugli smartphone
Un sistema innovativo permette operazioni LLM veloci sugli smartphone, migliorando la privacy degli utenti.
― 6 leggere min
Indice
- Caratteristiche Principali del Sistema
- L'Ascesa dei Grandi Modelli di Linguaggio
- Sfide nell'Eseguire LLM sugli Smartphone
- Presentazione del Nuovo Sistema
- Soluzioni di Memoria e Storage
- Come Funziona il Nuovo Sistema
- Valutazione delle Prestazioni
- Prestazioni nei Compiti Reali
- Conclusione
- Fonte originale
- Link di riferimento
Questo articolo parla di un nuovo sistema progettato per far girare modelli di linguaggio grandi (LLM) velocemente sugli smartphone. Questi modelli possono essere davvero grossi, spesso più grandi della memoria disponibile sul telefono. Il sistema usa in modo intelligente diversi tipi di risorse informatiche disponibili nel telefono per gestire le richieste del modello.
Caratteristiche Principali del Sistema
Il sistema include diverse caratteristiche importanti. Suddivide i calcoli complessi in parti più piccole, permettendogli di usare meglio le varie risorse di calcolo del telefono. Ha un motore speciale che adatta il suo funzionamento in base al modello utilizzato. Inoltre, memorizza i dati usati di frequente nella cache per velocizzare le operazioni e ridurre i ritardi causati dalla lettura dalla memoria o dallo storage.
Con questo design, il sistema supporta un'ampia gamma di modelli di linguaggio su diversi smartphone. Può lavorare fino a 29,2 volte più veloce rispetto ad altri sistemi leader attualmente disponibili. Notevolmente, questo è il primo sistema in grado di far girare un modello chiamato TurboSparse-Mixtral-47B su uno smartphone, permettendogli di generare testo a una velocità di 11,68 token al secondo.
L'Ascesa dei Grandi Modelli di Linguaggio
I grandi modelli di linguaggio hanno cambiato il modo in cui interagiamo con la tecnologia. Questi modelli possono capire e generare testo simile a quello umano, rendendoli utili per molti compiti. Tuttavia, i modelli più sofisticati necessitano di computer potenti nei data center, dove ci sono unità di elaborazione grafica (GPU) avanzate e molta memoria.
Con l'aumento delle capacità degli smartphone, i ricercatori stanno cercando modi per far girare questi modelli direttamente sui telefoni. Farlo permetterebbe al telefono di fungere da assistente intelligente, utilizzando dati personali senza doverli inviare al cloud, il che aiuta a proteggere la privacy dell'utente.
Sfide nell'Eseguire LLM sugli Smartphone
Nonostante i loro vantaggi, gli smartphone affrontano grandi sfide nell'eseguire LLM. Di solito hanno meno Potenza di elaborazione e memoria rispetto ai computer di fascia alta. Tentativi di usare modelli più piccoli spesso portano a sacrifici in termini di Prestazioni. Ad esempio, il modello Gemini Nano di Google è stato ridotto per adattarsi alla memoria di un telefono, ma non funziona bene come i modelli più grandi.
Ci sono altri metodi che aiutano a ridurre le esigenze di memoria e calcolo degli LLM. Un approccio è progettato per computer personali, ma fatica con l'hardware limitato degli smartphone. Poiché lo storage mobile è più lento e meno efficiente, spesso diventa un collo di bottiglia quando il sistema deve leggere i dati, causando ritardi nell'elaborazione.
Presentazione del Nuovo Sistema
Il nuovo sistema è progettato per far girare grandi modelli sugli smartphone anche quando superano i limiti di memoria. È costruito su lavori precedenti che si concentravano sull'uso efficiente delle risorse limitate. Riconoscendo che non tutte le parti di un grande modello devono essere attive contemporaneamente, il sistema può lavorare solo con un gruppo selezionato di neuroni, che sono i mattoni del modello.
La capacità del sistema di adattarsi all'hardware unico degli smartphone significa che può ottimizzare la velocità di generazione delle risposte. Raggiunge questo obiettivo utilizzando diverse strategie di elaborazione, a seconda di cosa sta facendo in quel momento, sia che si stia preparando per l'elaborazione o stia effettivamente generando risposte.
Soluzioni di Memoria e Storage
Una delle grandi sfide è la memoria limitata disponibile sugli smartphone. Per affrontare questo, il sistema utilizza la memoria in modo efficace memorizzando i dati usati di frequente. Introduce anche una tecnica che consente di trovare un miglior equilibrio tra la lettura dei dati dalla memoria e l'esecuzione dei calcoli. Questo significa che può ridurre al minimo il tempo trascorso ad aspettare il caricamento dei dati, accelerando così l'intero processo.
Il modo in cui il sistema funziona prevede strategie di lettura e elaborazione pianificate con attenzione che considerano come interagiscono la memoria e lo storage dello smartphone. Questa pianificazione avviene automaticamente quando un nuovo modello viene eseguito per la prima volta su uno smartphone. Analizzando sia il modello che le capacità hardware, il sistema può creare un piano dettagliato che ottimizza le prestazioni.
Come Funziona il Nuovo Sistema
Il nuovo framework gestisce due passaggi chiave: prefill e decoding. Durante la fase di prefill, l'intero input viene elaborato tutto in una volta, mentre la fase di decoding genera un token alla volta in base al precedente. Ogni fase ha le proprie esigenze computazionali, e il sistema ottimizza ciascuna singolarmente.
Nella fase di prefill, il sistema utilizza tutte le capacità delle unità di elaborazione dello smartphone, e questa fase può gestire batch di dati più grandi in modo efficiente. Al contrario, la fase di decoding si concentra sull'elaborazione di quantità più piccole di dati rapidamente, il che le consente di sfruttare l'architettura dello smartphone in modo più bilanciato.
Valutazione delle Prestazioni
Il sistema è stato testato su due modelli di smartphone, OnePlus 12 e Ace 2, che presentano capacità di elaborazione diverse. Supporta una varietà di LLM, incluse dimensioni da 7 miliardi a 47 miliardi di parametri. I risultati mostrano un aumento medio delle prestazioni, dimostrando che può operare efficacemente sull'hardware mobile.
In particolare, quando entrambi gli smartphone avevano abbastanza memoria, il sistema ha ridotto significativamente la quantità di memoria necessaria fornendo comunque velocità di inferenza rapide. Ad esempio, gestendo modelli più piccoli, ha ottenuto quasi un 40% di riduzione nell'uso della memoria, mantenendo comunque livelli di prestazioni paragonabili a quelli di altri sistemi competitivi.
Prestazioni nei Compiti Reali
Le prestazioni del sistema sono state testate anche su compiti reali come dialoghi a più turni, generazione di codice e risoluzione di problemi di matematica. Ha mostrato costantemente velocità di decoding robuste in questi compiti. Anche quando la memoria era limitata, ha performato meglio di altri sistemi, dimostrando la sua efficacia nella gestione di applicazioni pratiche.
Conclusione
Questo nuovo framework rappresenta un passo significativo in avanti nella capacità di eseguire grandi modelli di linguaggio sugli smartphone. Adattandosi alle caratteristiche uniche dell'hardware mobile e gestendo in modo intelligente i calcoli e lo storage dei dati, può offrire prestazioni impressionanti pur rispettando i limiti del dispositivo. Con il suo continuo sviluppo, il sistema promette di sbloccare capacità ancora maggiori per i dispositivi personali nella comprensione e generazione di testo simile a quello umano, aprendo la strada a un'esperienza mobile più intelligente e reattiva.
Titolo: PowerInfer-2: Fast Large Language Model Inference on a Smartphone
Estratto: Large language models (LLMs) on smartphones enable real-time AI assistance and privacy-preserving, offline operation. However, resource constraints of smartphones limit current deployments to small language models (SLMs), significantly compromising their capabilities. This paper introduces PowerInfer-2, a smartphone-based framework that enables fast inference for LLMs exceeding the memory capacity. The key insight is decomposing matrix operations into neuron clusters as the basic processing unit, which enables flexible scheduling and efficient I/O-computation pipelining. PowerInfer-2 leverages this neuron-cluster-based design in both computation and storage. For computation, neuron clusters with dense activations are processed on NPU, while sparse clusters use CPU. The storage engine provides a fine-grained pipeline mechanism that coordinates cluster-level computation and I/O operations, enhanced by a segmented neuron cache to reduce I/O activities. PowerInfer-2 achieves up to a 27.8x speed increase compared to state-of-the-art frameworks. PowerInfer-2 is the first system to serve a 47B LLM on a smartphone, achieving 11.68 tokens/s. Notably, these performance improvements preserve model quality with negligible accuracy degradation.
Autori: Zhenliang Xue, Yixin Song, Zeyu Mi, Le Chen, Yubin Xia, Haibo Chen
Ultimo aggiornamento: 2024-12-12 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2406.06282
Fonte PDF: https://arxiv.org/pdf/2406.06282
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.