Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Apprendimento automatico

LeanQuant: Un Nuovo Approccio alla Quantizzazione dei Modelli

LeanQuant migliora la dimensione e la qualità del modello grazie a tecniche di quantizzazione avanzate.

― 5 leggere min


LeanQuant rivoluziona laLeanQuant rivoluziona laquantizzazione deimodellidimensioni.modello riducendo notevolmente leLeanQuant migliora le prestazioni del
Indice

I modelli di linguaggio grandi (LLM) sono strumenti potenti che possono essere usati in molti campi come la legge, l'istruzione, e altro. Tuttavia, questi modelli richiedono tanta potenza di calcolo e memoria per funzionare bene, rendendoli difficili da usare per molte persone. Per renderli più facili da implementare, un metodo che può aiutare si chiama quantizzazione dei pesi. Questo metodo aiuta a ridurre sia il tempo necessario per eseguire i modelli sia lo spazio che necessitano in memoria.

Nonostante i suoi benefici, i metodi attuali per quantizzare gli LLM tendono a perdere qualità quando le larghezze dei bit sono più basse. Questo significa che, se compressi troppo, i modelli potrebbero non funzionare bene. Le tecniche esistenti si concentrano principalmente sul mantenere intatte le parti importanti dei modelli, ma spesso non riescono a mantenere la qualità nelle dimensioni più piccole.

Cos'è la quantizzazione dei pesi?

La quantizzazione dei pesi è un processo che cambia il modo in cui i parametri del modello vengono memorizzati. Normalmente, questi parametri sono memorizzati in un formato ad alta precisione, ma la quantizzazione riduce questa precisione. Invece di usare numeri a punto mobile completi, i parametri possono essere memorizzati come interi più piccoli. Ad esempio, un modello che normalmente ha bisogno di circa 140 GB di memoria può ridursi a soli 18 GB quando quantizzato a 2 bit per parametro. Questo permette di eseguire modelli enormi, come LLaMA-2-70b, su dispositivi più comuni come una singola GPU RTX 4090.

Quando quantizziamo i pesi, rappresentiamo i parametri originali con l'indice della riga più vicina in una griglia di quantizzazione. Anche se questo salva memoria, può portare a una perdita di qualità se non fatto con attenzione. Alcuni approcci si concentrano nel mantenere i pesi cruciali, che sono gli outlier nei dati, ma hanno ancora difficoltà a larghezze di bit più basse.

Optimal Brain Quantization (OBQ)

Un metodo popolare per quantizzare i modelli si chiama Optimal Brain Quantization (OBQ). Questo metodo cerca di minimizzare gli errori che si verificano durante la quantizzazione regolando iterativamente i pesi. OBQ quantizza i pesi uno alla volta e aggiorna gli altri pesi per compensare l'errore introdotto. Tuttavia, ha una limitazione: utilizza una griglia di quantizzazione uniforme che non mantiene efficacemente la Qualità del modello, portando a errori maggiori.

Il nostro nuovo metodo, LeanQuant, migliora l'OBQ. Apprende una griglia di quantizzazione che è consapevole degli errori e delle perdite che potrebbero verificarsi quando i pesi vengono quantizzati. Concentrandosi sui pesi più critici e assicurandosi che non siano compromessi, LeanQuant può mantenere le performance del modello intatte anche a larghezze di bit più basse.

La Quantizzazione della Rete Consapevole della Perdita e dell'Errore (LeanQuant)

LeanQuant è progettato per creare una griglia di quantizzazione non uniforme che è meglio allineata con i pesi cruciali che potrebbero causare grandi errori se non gestiti correttamente. Per fare questo, LeanQuant apprende un insieme di linee di griglia che aiuta a mantenere la qualità del modello. Utilizzando un metodo chiamato k-means++, LeanQuant crea una griglia di quantizzazione che affronta le specifiche esigenze di ciascun peso, specialmente quelle relative agli errori di perdita più elevati.

Il processo di apprendimento in LeanQuant è efficiente, richiedendo molto meno hardware aggiuntivo rispetto ad altri metodi. Ad esempio, ci sono volute solo 6 ore per quantizzare il modello LLaMA-2-70b utilizzando una singola GPU.

Performance di LeanQuant

LeanQuant è stato testato contro altri metodi per vedere quanto bene si comporta. Negli esperimenti che hanno esaminato la qualità dei modelli, LeanQuant ha mostrato risultati migliori rispetto ai suoi concorrenti quando misurato attraverso diversi punteggi. Ad esempio, nelle valutazioni di perplexity - una misura di quanto bene il modello prevede il testo - LeanQuant ha ottenuto risultati migliori nella quantizzazione a 2 bit rispetto ad altri metodi.

Inoltre, nei test che hanno esaminato l'accuratezza su vari compiti, LeanQuant ha anche superato altre tecniche di un margine notevole, dimostrando la sua efficacia nel mantenere la qualità mentre riduce le dimensioni del modello.

Efficienza dell'Inferenza

Oltre a mantenere alta la qualità del modello, LeanQuant offre anche miglioramenti nell'efficienza dell'inferenza. Con un approccio mirato a come gestisce la griglia di quantizzazione, LeanQuant garantisce calcoli più rapidi durante l'uso del modello. La combinazione di quantizzazione e fusione efficiente dei kernel nella moltiplicazione delle matrici consente ai modelli quantizzati con LeanQuant di funzionare significativamente più velocemente rispetto alle loro controparti non quantizzate.

Ad esempio, la versione LeanQuant di LLaMA-2-7b ha raggiunto miglioramenti di velocità impressionanti rispetto ai modelli non quantizzati, dimostrando che non solo è efficace nel preservare la qualità, ma anche nell'accelerare il processo di inferenza.

Esperimenti Condotti

Sono stati condotti vari esperimenti per convalidare ulteriormente l'efficacia di LeanQuant. Questi includevano test su modelli linguistici da miliardi di parametri e su modelli più piccoli, come BERT. Confrontando la qualità dei modelli quantizzati, LeanQuant ha costantemente mostrato risultati migliori su diversi dataset.

Nei test con il dataset WikiText-2 e altri, LeanQuant ha mantenuto un punteggio di perplexity più basso, il che significa che era migliore nella generazione di testo. Inoltre, nelle valutazioni dell'accuratezza zero-shot - che misura la capacità del modello di eseguire compiti senza una specifica formazione precedente - LeanQuant ha guidato il gruppo, mostrando spesso un vantaggio significativo rispetto ad altri metodi.

Conclusione

In sintesi, LeanQuant è un approccio promettente per quantizzare modelli di linguaggio grandi. Spostando il focus dalle tradizionali griglie di quantizzazione uniforme a un modo più personalizzato di affrontare gli errori di peso e di perdita, LeanQuant mantiene la qualità dei modelli mentre li rende più piccoli e veloci. I risultati di vari test dimostrano la sua efficacia rispetto a metodi competitivi, rendendolo un progresso notevole nel campo. Con la crescente domanda di AI efficiente, approcci come LeanQuant che bilanciano con successo qualità e performance saranno essenziali.

Fonte originale

Titolo: LeanQuant: Accurate and Scalable Large Language Model Quantization with Loss-error-aware Grid

Estratto: Large language models (LLMs) have shown immense potential across various domains, but their high memory requirements and inference costs remain critical challenges for deployment. Post-training quantization (PTQ) has emerged as a promising technique to reduce memory requirements and decoding latency. However, recent accurate quantization methods often depend on specialized computations or custom data formats to achieve better model quality, which limits their compatibility with popular frameworks, as they require dedicated inference kernels tailored to specific hardware and software platforms, hindering wider adoption. Furthermore, many competitive methods have high resource requirements and computational overhead, making it challenging to scale them to hundreds of billions of parameters. In response to these challenges, we propose LeanQuant (Loss-error-aware Network Quantization), a novel quantization method that is accurate, versatile, and scalable. In the existing popular iterative loss-error-based quantization framework, we identify a critical limitation in prior methods: the min-max affine quantization grid fails to preserve model quality due to outliers in inverse Hessian diagonals. To overcome this fundamental issue, we propose learning loss-error-aware grids, instead of using non-adaptive min-max affine grids. Our approach not only produces quantized models that are more accurate but also generalizes to a wider range of quantization types, including affine and non-uniform quantization, enhancing compatibility with more frameworks. Extensive empirical evaluations on recent LLMs demonstrate that LeanQuant is highly accurate, comparing favorably against recent competitive baselines in model quality, and scalable, achieving very accurate quantization of Llama-3.1 405B, one of the largest open-source LLMs to date, using two Quadro RTX 8000-48GB GPUs in 21 hours.

Autori: Tianyi Zhang, Anshumali Shrivastava

Ultimo aggiornamento: 2024-10-07 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.10032

Fonte PDF: https://arxiv.org/pdf/2407.10032

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili