Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas# Inteligência Artificial# Computação e linguagem

Avaliando a Adaptação de Baixa Classificação no Treinamento de Modelos

Esse artigo compara LoRA e a adaptação completa em relação ao desempenho e uso de memória.

― 4 min ler


LoRA vs. Ajuste CompletoLoRA vs. Ajuste Completotreinamento de modelos.Uma olhada profunda nos métodos de
Índice

Adaptação de Baixa Classificação, ou LoRA, é um jeito de ajustar modelos de linguagem grandes (LLMs) sem gastar muita memória. Esse método só treina uma quantidade pequena de partes extras, chamadas de adaptadores, em vez de mudar o modelo inteiro. Isso ajuda em várias tarefas como programação e matemática. Mas, estudos recentes mostram que, embora o LoRA economize memória, muitas vezes não tem um desempenho tão bom quanto o ajuste completo.

Neste artigo, vamos ver como o LoRA se compara ao ajuste completo em diferentes tarefas. Também vamos explorar como o LoRA mantém o desempenho em tarefas fora do domínio alvo.

Eficiência de Memória no Ajuste

Ajustar modelos grandes pode ser muito pesado para a memória do computador. O jeito tradicional envolve ajustar o modelo todo, o que pode consumir muitos recursos. Em contraste, o LoRA foca em alguns ajustes, o que torna o uso de memória mais leve. Ao mudar só certos componentes, o LoRA permite um treinamento eficiente, usando menos memória em comparação com o ajuste completo.

Comparando Desempenho em Programação e Matemática

Fizemos testes pra ver como o LoRA se sai contra o ajuste completo em duas áreas principais: programação e matemática. Para nossos testes, usamos dois tipos de dados de treinamento: ajuste de instrução (IFT) e pré-treinamento continuado (CPT). IFT usa muitos pares de pergunta-resposta, enquanto CPT foca em grandes quantidades de dados não estruturados.

Nossos achados mostram que o LoRA muitas vezes não tem um desempenho tão bom quanto o ajuste completo. Nas tarefas de programação, a diferença de desempenho foi notável. Porém, nas tarefas de matemática, os resultados do LoRA ficaram mais próximos dos do ajuste completo.

O Papel da Regularização

O LoRA é conhecido por manter o desempenho do modelo base em tarefas que não estão relacionadas. Isso é chamado de regularização. A regularização é importante porque impede que o modelo esqueça o que aprendeu antes de ser adaptado pra uma nova tarefa.

No nosso estudo, descobrimos que o LoRA oferece uma forma de regularização que é mais forte do que outros métodos comuns. Por exemplo, ele se sai melhor do que técnicas como decaimento de peso e dropout, que são usadas pra controlar o overfitting.

Efeitos de Aprendizado e Esquecimento

Quando se ajusta modelos, frequentemente há um equilíbrio entre aprender novas tarefas e reter conhecimentos anteriores, conhecido como o tradeoff de aprendizado-esquecimento. Nos nossos testes, observamos que, enquanto o LoRA aprende menos pra novas tarefas, ele também esquece menos sobre tarefas anteriores.

Isso indica que, embora o LoRA possa ser menos eficaz pra aprender novas informações, ele faz um trabalho melhor em preservar conhecimento do treinamento anterior.

Sensibilidade aos Hiperparâmetros

O desempenho tanto do LoRA quanto do ajuste completo é muito influenciado por hiperparâmetros, que são configurações usadas pra controlar o processo de treinamento. Para o LoRA, descobrimos que ele é mais sensível à escolha da taxa de aprendizado e quais partes do modelo são alvo do ajuste.

No nosso estudo, descobrimos que selecionar esses hiperparâmetros com cuidado poderia levar a melhores resultados com o LoRA, embora ele ainda tenha dificuldades contra o ajuste completo.

Recomendações Práticas para Usar LoRA

A partir dos nossos achados, recomendamos usar o LoRA principalmente para ajuste de instrução em vez de pré-treinamento continuado. É essencial escolher a taxa de aprendizado certa, direcionar todos os módulos e manter a classificação baixa pra conseguir um bom equilíbrio entre desempenho e uso de memória. Treinar por pelo menos quatro épocas tende a trazer resultados benéficos.

Conclusão

O LoRA oferece eficiência de memória e previne o esquecimento, tornando-se uma ferramenta valiosa para treinar modelos grandes, especialmente quando a memória é uma preocupação. Porém, o ajuste completo ainda supera o LoRA em muitas tarefas, principalmente em programação. Entender os tradeoffs, a eficácia e as melhores práticas para usar o LoRA pode ajudar a tomar decisões informadas no campo do treinamento de modelos. À medida que os tamanhos dos modelos continuam a crescer, entender esses métodos vai se tornar cada vez mais importante pra pesquisadores e desenvolvedores.

Fonte original

Título: LoRA Learns Less and Forgets Less

Resumo: Low-Rank Adaptation (LoRA) is a widely-used parameter-efficient finetuning method for large language models. LoRA saves memory by training only low rank perturbations to selected weight matrices. In this work, we compare the performance of LoRA and full finetuning on two target domains, programming and mathematics. We consider both the instruction finetuning (approximately 100K prompt-response pairs) and continued pretraining (20B unstructured tokens) data regimes. Our results show that, in the standard low-rank settings, LoRA substantially underperforms full finetuning. Nevertheless, LoRA better maintains the base model's performance on tasks outside the target domain. We show that LoRA mitigates forgetting more than common regularization techniques such as weight decay and dropout; it also helps maintain more diverse generations. Finally, we show that full finetuning learns perturbations with a rank that is 10-100X greater than typical LoRA configurations, possibly explaining some of the reported gaps. We conclude by proposing best practices for finetuning with LoRA.

Autores: Dan Biderman, Jacob Portes, Jose Javier Gonzalez Ortiz, Mansheej Paul, Philip Greengard, Connor Jennings, Daniel King, Sam Havens, Vitaliy Chiley, Jonathan Frankle, Cody Blakeney, John P. Cunningham

Última atualização: 2024-09-20 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.09673

Fonte PDF: https://arxiv.org/pdf/2405.09673

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes