Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas# Inteligência Artificial

Apresentando os Adaptadores de Alta Classificação Esparsos (SHiRA)

A SHiRA melhora a eficiência na troca de modelos em IA sem perder conceitos importantes.

― 6 min ler


SHiRA: Eficiência doSHiRA: Eficiência doModelo de IA Redefinidamais rápidos e eficazes.A SHiRA cria ajustes de modelos de IA
Índice

Recentemente, uma técnica chamada Low Rank Adaptation (LoRA) ficou popular no campo da inteligência artificial, especialmente para gerar imagens e entender linguagem. LoRA ajuda a ajustar grandes modelos sem precisar de muita memória extra. Faz isso focando em um número pequeno de parâmetros, o que a torna fácil de usar em dispositivos móveis. Mas, tem seus próprios desafios, especialmente quando se tenta mudar rapidamente entre diferentes modelos.

Aqui, apresentamos uma nova abordagem chamada Sparse High Rank Adapters (SHiRA). O SHiRA tem como objetivo superar algumas limitações do LoRA. Ele permite uma troca rápida entre diferentes modelos e minimiza a perda de conceitos importantes ao usar vários modelos juntos. Basicamente, o SHiRA foca em alterar apenas uma parte bem pequena dos parâmetros do modelo, tornando-o super eficiente.

O Desafio com o LoRA

O LoRA tem se mostrado eficaz, mas tem algumas desvantagens notáveis. Quando vários adaptadores LoRA são combinados, pode levar à perda de conceitos importantes. Por exemplo, se você usar vários modelos para gerar imagens com estilos diferentes, às vezes o resultado combinado perde a ideia original por trás de cada estilo.

Além disso, se você precisar trocar de modelo rapidamente, o LoRA pode ser lento; usá-lo de forma não fundida adiciona um tempo significativo ao processo. Isso pode ser um grande problema, especialmente para dispositivos móveis que têm memória e poder de processamento limitados.

Nosso objetivo com o SHiRA é abordar esses problemas diretamente.

O que é o SHiRA?

SHiRA significa Sparse High Rank Adapters. Ele é projetado para fazer ajustes apenas em uma pequena parte dos Pesos de um modelo, enquanto mantém o resto inalterado. Isso permite uma troca rápida entre diferentes configurações de modelo sem que haja lentidão.

Características Principais do SHiRA

  1. Sem Sobrecarga de Inferência: O SHiRA pode ser ligado e desligado rapidamente, permitindo que os usuários mudem entre diferentes funções sem atrasos.

  2. Redução da Perda de Conceitos: Ao usar vários adaptadores SHiRA ao mesmo tempo, as chances de perder conceitos importantes são minimizadas.

  3. Treinamento Eficiente: O SHiRA exige ajustes apenas em um pequeno número de pesos para ter um desempenho eficaz, tornando-o amigável em termos de memória e rápido durante a fase de treinamento.

  4. Integração com Modelos Existentes: O SHiRA pode ser adicionado a modelos LoRA existentes para melhorar suas capacidades sem comprometer o desempenho.

Como o SHiRA Funciona

O SHiRA utiliza um método conhecido como máscara de gradiente. Isso significa que controlamos quais pesos no modelo original serão ajustados durante o treinamento. Ao focar apenas em alguns pesos específicos, preservamos a integridade do restante do modelo enquanto ainda obtemos um alto desempenho.

Criando Máscaras Esparsas

Para determinar quais pesos mudar, o SHiRA emprega diferentes estratégias:

  • Máscaras Estruturadas: Nesta abordagem, definimos certas linhas ou colunas da matriz de pesos como treináveis. Isso cria um padrão que mantém o modelo eficaz enquanto ainda é esparso.

  • Máscaras Aleatórias: Aqui, escolhemos pesos aleatoriamente para ajustar, priorizando a variabilidade.

  • Máscaras de Magnitude de Peso: Este método seleciona pesos com base em sua importância, usando o tamanho dos pesos como guia.

  • Máscaras Baseadas em Gradiente: Essas máscaras são informadas por dados de desempenho anteriores, selecionando pesos que mostraram o maior impacto durante o treinamento.

Troca Rápida e Fusão de Multi-Adaptadores

Uma das características mais legais do SHiRA é a capacidade de trocar rapidamente entre diferentes adaptadores. Os poucos pesos que mudam podem ser acessados rapidamente durante a inferência, o que significa que os aplicativos podem funcionar de forma muito mais eficiente em comparação com os métodos anteriores.

Outro aspecto importante é a fusão de multi-adaptadores. Isso permite que diferentes adaptadores SHiRA trabalhem juntos sem perder conceitos importantes. Em termos mais simples, você pode usar vários estilos ou temas em suas imagens ou dados sem que eles interfiram uns nos outros.

Treinamento e Implementação

O SHiRA foi projetado para ser fácil de implementar. Ele segue um processo de treinamento simples que mantém a eficiência de memória esperada em aplicativos modernos.

Eficiência de Treinamento

O SHiRA é feito para treinar rapidamente, levando tipicamente um tempo semelhante ao do LoRA. No entanto, usa significativamente menos memória ao fazer isso. Isso o torna adequado para uma variedade de dispositivos, incluindo aqueles com hardware menos potente.

Resultados e Desempenho

Em vários testes, o SHiRA mostrou melhorias substanciais em relação ao LoRA. Seja para gerar imagens ou interpretar linguagem, o SHiRA consistentemente superou seu antecessor tanto em tarefas de adaptador único quanto em multi-adaptador.

Tarefas de Visão

No campo da geração de imagens, o SHiRA superou o LoRA na criação de imagens de alta qualidade enquanto usava menos parâmetros. Quando combinado com abordagens de multi-adaptador, o SHiRA manteve a integridade dos conceitos individuais, produzindo melhores resultados ao gerar imagens com vários temas.

Tarefas de Linguagem

Resultados semelhantes foram encontrados em tarefas de linguagem. O SHiRA demonstrou uma melhoria significativa na precisão em testes de raciocínio de senso comum em comparação com o LoRA. Essa melhoria foi alcançada ajustando apenas uma pequena fração dos parâmetros do modelo, validando ainda mais a eficiência do SHiRA.

Conclusão e Direções Futuras

O SHiRA abre novas avenidas para um uso mais eficiente e flexível de modelos de IA gerativa. Ao minimizar drasticamente a quantidade de memória necessária mantendo a velocidade e a precisão, permite aplicações mais amplas projetadas para dispositivos móveis e uso em tempo real.

Olhando para o futuro, mais pesquisas sobre máscaras esparsas ótimas serão importantes para aprimorar as capacidades do SHiRA. Além disso, sua integração com desenvolvimentos em hardware e software vai ainda mais agilizar a adaptação de modelos gerativos para uso prático.

O SHiRA representa um avanço significativo no campo da inteligência artificial, especialmente para tarefas que requerem flexibilidade e eficiência, oferecendo possibilidades empolgantes para aplicações futuras.

Fonte original

Título: Sparse High Rank Adapters

Resumo: Low Rank Adaptation (LoRA) has gained massive attention in the recent generative AI research. One of the main advantages of LoRA is its ability to be fused with pretrained models adding no overhead during inference. However, from a mobile deployment standpoint, we can either avoid inference overhead in the fused mode but lose the ability to switch adapters rapidly, or suffer significant (up to 30% higher) inference latency while enabling rapid switching in the unfused mode. LoRA also exhibits concept-loss when multiple adapters are used concurrently. In this paper, we propose Sparse High Rank Adapters (SHiRA), a new paradigm which incurs no inference overhead, enables rapid switching, and significantly reduces concept-loss. Specifically, SHiRA can be trained by directly tuning only 1-2% of the base model weights while leaving others unchanged. This results in a highly sparse adapter which can be switched directly in the fused mode. We further provide theoretical and empirical insights on how high sparsity in SHiRA can aid multi-adapter fusion by reducing concept loss. Our extensive experiments on LVMs and LLMs demonstrate that finetuning only a small fraction of the parameters in the base model is sufficient for many tasks while enabling both rapid switching and multi-adapter fusion. Finally, we provide a latency- and memory-efficient SHiRA implementation based on Parameter-Efficient Finetuning (PEFT) Library. This implementation trains at nearly the same speed as LoRA while consuming lower peak GPU memory, thus making SHiRA easy to adopt for practical use cases.

Autores: Kartikeya Bhardwaj, Nilesh Prasad Pandey, Sweta Priyadarshi, Viswanath Ganapathy, Rafael Esteves, Shreya Kadambi, Shubhankar Borse, Paul Whatmough, Risheek Garrepalli, Mart Van Baalen, Harris Teague, Markus Nagel

Última atualização: 2024-06-18 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.13175

Fonte PDF: https://arxiv.org/pdf/2406.13175

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes