Melhorando as Técnicas de Compressão de Modelos de Linguagem Grande
Um novo método melhora a compressão de modelos enquanto mantém a precisão.
― 6 min ler
Índice
- O que é Quantização Pós-Treinamento?
- O Problema com Métodos Atuais
- Apresentando a Calibração Adaptativa à Saída
- Como o OAC Funciona?
- Benefícios do OAC
- Trabalhos Relacionados em Técnicas de Quantização
- O Desafio da Quantização em Baixa Precisão
- Estudos Experimentais
- Insights dos Experimentos
- Conclusão
- Fonte original
- Ligações de referência
Modelos de Linguagem Grande (LLMs) mudaram a forma como lidamos com tarefas de linguagem. Eles conseguem produzir textos parecidos com os humanos, responder perguntas e entender o contexto. Mas, esses modelos são enormes e exigem muito poder de computação. Isso os torna caros e difíceis de usar em dispositivos menores. Uma forma de facilitar o trabalho com eles é através da compressão, que reduz o tamanho e a velocidade necessários para eles operarem.
Quantização Pós-Treinamento?
O que éQuantização Pós-Treinamento (PTQ) é um método que ajuda a reduzir o tamanho desses modelos depois que eles já foram treinados. Isso significa que podemos deixar os modelos menores sem precisar passar pelo processo de treinamento novamente, que pode ser demorado e caro. O PTQ funciona diminuindo a precisão dos pesos do modelo-pense nele como arredondar números para usar menos memória.
O Problema com Métodos Atuais
A maioria dos métodos de PTQ foca em cada camada do modelo separadamente e não considera como essas camadas afetam a saída final. Isso significa que às vezes podem perder detalhes importantes que impactam o desempenho geral do modelo depois que ele é comprimido. Por causa dessa desatenção, usar uma precisão muito baixa-como converter para 2 bits-pode levar a uma queda na precisão.
Os métodos atuais geralmente usam algo chamado Hessiano, que é uma forma de medir quão sensíveis os pesos são a mudanças. Embora isso possa ser útil, os métodos existentes ainda têm dificuldade em manter a precisão, especialmente quando o nível de quantização é muito baixo.
Apresentando a Calibração Adaptativa à Saída
Para resolver esses problemas, foi proposta uma nova abordagem chamada Calibração Adaptativa à Saída (OAC). A ideia principal do OAC é também olhar para a saída final do modelo ao fazer ajustes durante a compressão. Em vez de focar apenas em cada camada, ele leva em conta como as mudanças afetam a saída geral do modelo.
O OAC funciona estimando quanto a saída final muda com base na compressão. Ele foca em minimizar o erro que pode ocorrer entre a saída do modelo original e a saída do modelo comprimido. Com isso, o OAC busca manter o desempenho do modelo alto mesmo em níveis de precisão muito baixos.
Como o OAC Funciona?
O OAC implementa um processo em duas etapas. Primeiro, ele calcula algo chamado Hessiano adaptativo à saída. Essa matriz ajuda o modelo a entender como diferentes pesos vão afetar sua saída após a quantização. É como um mapa para o modelo ver onde precisa ter cuidado com as mudanças.
A segunda etapa é calibrar os pesos do modelo usando essa informação. Ao fazer isso, o OAC pode ajudar a garantir que, mesmo sendo comprimido, o modelo ainda tenha um bom desempenho em suas tarefas.
Benefícios do OAC
Melhor Precisão: O OAC mostrou melhorar o desempenho, especialmente em casos onde modelos são comprimidos para níveis de precisão muito baixos. Isso significa que os usuários podem se beneficiar de modelos menores sem perder qualidade.
Eficiência: O OAC pode ajudar a tornar o processo mais rápido e barato, já que evita a necessidade de re-treinar o modelo inteiro.
Versatilidade: O método pode ser aplicado a vários tipos de LLMs, tornando-o uma ferramenta flexível para desenvolvedores.
Trabalhos Relacionados em Técnicas de Quantização
Os métodos de quantização tradicionais geralmente caem em duas categorias: Treinamento Consciente de Quantização (QAT) e PTQ. O QAT envolve treinar o modelo enquanto ele está sendo quantizado, o que pode exigir recursos computacionais significativos. O PTQ, por outro lado, permite a quantização depois que o modelo foi treinado, tornando-o menos intensivo em recursos.
Muitos métodos de PTQ existentes foram testados principalmente em modelos menores, o que dificulta a aplicação deles em modelos grandes de forma eficaz. Exemplos incluem AdaRound e OBQ, que funcionam bem em modelos menores, mas têm dificuldades quando enfrentam a complexidade dos LLMs.
Algumas tentativas iniciais de PTQ para LLMs incluíram ZeroQuant e LLM.int8(), mas esses métodos enfrentaram dificuldades ao tentar manter o desempenho em níveis de precisão mais baixos, especialmente em compressão de 2 bits.
O Desafio da Quantização em Baixa Precisão
Quando se tenta quantizar modelos para uma precisão extremamente baixa, como 2 bits ou binário, o desafio se torna complexo. Cada redução na precisão pode afetar muito a capacidade do modelo de realizar tarefas com precisão.
O desempenho de diferentes métodos de quantização mostra que à medida que o tamanho do modelo diminui ou o nível de precisão cai, a precisão tende a cair também. Isso aumenta a necessidade de métodos aprimorados que consigam manter um desempenho razoável, independentemente da quantidade de compressão aplicada.
Estudos Experimentais
Para testar o OAC, vários modelos passaram por avaliações rigorosas. Esses testes envolveram analisar como os modelos se saíram em tarefas como compreensão e geração de linguagem, empregando diferentes conjuntos de dados para medir sua eficácia.
Experimentos indicaram que o OAC superou outros métodos de PTQ de ponta significativamente quando reduzido a baixa precisão, mostrando suas forças especialmente com modelos maiores.
Insights dos Experimentos
As análises dos testes confirmaram que usar calibração adaptativa à saída se destaca em preservar o desempenho durante a compressão. Isso é particularmente verdadeiro para cenários mais difíceis envolvendo tamanhos de modelo menores ou larguras de bits médias mais baixas.
Os resultados mostraram consistentemente que os modelos que utilizam OAC tinham pontuações de perplexidade mais baixas, significando que geravam textos mais coerentes, enquanto também se saíam melhor em tarefas de raciocínio quando comparados a outros métodos.
Conclusão
A Calibração Adaptativa à Saída (OAC) se destaca como um método promissor para comprimir grandes modelos de linguagem enquanto mantém a precisão. Ao focar não apenas nas camadas individuais, mas também no resultado final da saída do modelo, o OAC oferece um melhor equilíbrio entre tamanho do modelo e desempenho.
À medida que os modelos continuam a crescer em complexidade e tamanho, técnicas como o OAC serão vitais para garantir que eles permaneçam acessíveis e utilizáveis em uma variedade de aplicações, especialmente em dispositivos com recursos limitados. Ao realizar mais estudos e expandir essa abordagem, podemos esperar métodos ainda mais refinados para lidar com os desafios do uso de grandes modelos de linguagem.
Título: OAC: Output-adaptive Calibration for Accurate Post-training Quantization
Resumo: Deployment of Large Language Models (LLMs) has major computational costs, due to their rapidly expanding size. Compression of LLMs reduces the memory footprint, latency, and energy required for their inference. Post-training Quantization (PTQ) techniques have been developed to compress LLMs while avoiding expensive re-training. Most PTQ approaches formulate the quantization error based on a layer-wise $\ell_2$ loss, ignoring the model output. Then, each layer is calibrated using its layer-wise Hessian to update the weights towards minimizing the $\ell_2$ quantization error. The Hessian is also used for detecting the most salient weights to quantization. Such PTQ approaches are prone to accuracy drop in low-precision quantization. We propose Output-adaptive Calibration (OAC) to incorporate the model output in the calibration process. We formulate the quantization error based on the distortion of the output cross-entropy loss. OAC approximates the output-adaptive Hessian for each layer under reasonable assumptions to reduce the computational complexity. The output-adaptive Hessians are used to update the weight matrices and detect the salient weights towards maintaining the model output. Our proposed method outperforms the state-of-the-art baselines such as SpQR and BiLLM, especially, at extreme low-precision (2-bit and binary) quantization.
Autores: Ali Edalati, Alireza Ghaffari, Masoud Asgharian, Lu Hou, Boxing Chen, Vahid Partovi Nia
Última atualização: 2024-05-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2405.15025
Fonte PDF: https://arxiv.org/pdf/2405.15025
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.