Otimização com Filtro de Momento: Uma Nova Abordagem pra Evitar Esquecer em LLMs
O MoFO ajuda modelos de linguagem grandes a manter conhecimento durante o ajuste fino sem perder desempenho.
― 6 min ler
Índice
Modelos de linguagem grandes (LLMs) são ferramentas bem avançadas que mostraram habilidades incríveis em várias tarefas, como entender e gerar texto. Esses modelos geralmente passam por duas etapas principais: primeiro, eles são pré-treinados com uma quantidade enorme de texto, e depois são ajustados com conjuntos de dados menores e específicos pra que fiquem melhores em tarefas particulares.
Mas, durante o processo de ajuste, esses modelos podem esquecer o que aprenderam durante o Pré-treinamento. Isso pode fazer com que suas habilidades gerais diminuam. Resolver esse problema de esquecimento durante o ajuste se tornou um campo de estudo bem importante.
O Problema do Esquecimento
Quando os LLMs são ajustados, eles podem perder um pouco do conhecimento que ganharam durante o pré-treinamento. Esse esquecimento é uma questão crucial, já que pode afetar a capacidade do modelo de se sair bem em várias tarefas. Pra lidar com esse problema, os pesquisadores desenvolveram diferentes abordagens. As estratégias mais comuns incluem métodos baseados em replay, que usam dados da fase de pré-treinamento durante o ajuste, e métodos baseados em regularização, que adicionam restrições ao processo de treinamento pra ajudar o modelo a manter seu conhecimento anterior.
Os métodos baseados em replay podem ser complicados porque muitos LLMs de código aberto não compartilham seus dados de pré-treinamento completamente. Mesmo que os dados estejam disponíveis, usá-los durante o ajuste pode ser custoso em termos de recursos computacionais. Os métodos de regularização tentam prevenir o esquecimento adicionando termos extras à função de perda, mas isso pode, às vezes, resultar em um desempenho pior nas tarefas de ajuste se a função de perda original for alterada demais.
Apresentando o Otimizador Filtrado por Momentum (MoFO)
Pra resolver o problema do esquecimento, a gente propõe um novo método chamado Otimizador Filtrado por Momentum (MoFO). Ao contrário de outros métodos, o MoFO não precisa de acesso aos dados de pré-treinamento e não muda a função de perda original, o que pode manter o desempenho nas tarefas de ajuste intacto.
A ideia principal do MoFO é escolher quais Parâmetros do modelo atualizar com base no momentum deles. A cada passo do ajuste, o MoFO escolhe os parâmetros com os maiores valores de momentum pra atualizar. Isso ajuda a manter os outros parâmetros mais próximos do que eram durante o pré-treinamento, reduzindo assim o risco de esquecimento.
Nos nossos experimentos, mostramos através de vários testes que o MoFO supera os métodos existentes tanto em manter o conhecimento adquirido durante o pré-treinamento quanto em alcançar um bom desempenho nas tarefas de ajuste.
Como o MoFO Funciona
O MoFO funciona dividindo os parâmetros do modelo em diferentes partes. Para cada parte, apenas os parâmetros com os maiores valores de momentum são selecionados pra atualizações. Focando nesses parâmetros, o MoFO visa reduzir a distância entre o estado atual do modelo e o modelo pré-treinado. Isso significa que o processo de ajuste pode seguir de uma forma que é menos propensa a esquecer conhecimentos anteriores.
Uma das razões pelas quais o MoFO consegue isso é que ele aproveita a maneira como os parâmetros influenciam a perda do ajuste. Certas configurações de parâmetros podem levar a um desempenho melhor, e o MoFO tenta direcionar o modelo pra essas configurações, escolhendo cuidadosamente quais parâmetros atualizar.
Resultados Experimentais
Fizemos muitos experimentos pra comparar o MoFO com outros métodos comuns de ajuste. Usamos vários modelos e conjuntos de dados pra avaliar quão bem cada método se saiu em termos de eficácia de ajuste e a quantidade de esquecimento.
Ajuste em Conjuntos de Dados Específicos
Pra nossos experimentos, usamos um modelo chamado Pythia-160m. Nós ajustamos esse modelo em um subconjunto de um grande conjunto de dados chamado FLAN. Comparamos como o modelo se saiu usando o MoFO versus usando otimizadores tradicionais como Adam e Lion. Os resultados mostraram que o MoFO não só alcançou um desempenho semelhante em termos de perda de ajuste, mas também conseguiu ficar mais próximo da configuração do modelo pré-treinado.
Avaliando o Esquecimento
Pra entender melhor como o MoFO evitou o esquecimento, também avaliamos o desempenho do modelo em tarefas que exigem raciocínio de bom senso, como HellaSwag e ARC-Challenge. Nossas descobertas indicaram que o MoFO mostrou uma queda menor na precisão em comparação com modelos ajustados usando Adam ou Lion, indicando uma melhor retenção do conhecimento do pré-treinamento.
Importância do Movimento dos Parâmetros
Um aspecto crucial do MoFO é seu foco em quanto os parâmetros se movem durante o ajuste. Foi observado que, se os parâmetros do modelo se afastam demais dos valores pré-treinados, o risco de esquecer aumenta. O MoFO atualiza estrategicamente um pequeno conjunto de parâmetros, o que ajuda a manter os outros parâmetros estáveis e próximos de seus valores originais.
Evitando grandes movimentos no espaço dos parâmetros, o MoFO efetivamente reduz a quantidade de esquecimento que acontece durante a fase de ajuste. Nossos experimentos mostraram que modelos que usaram o MoFO tiveram menos variação em seu desempenho em diferentes tarefas comparados àqueles que usaram outros métodos de otimização.
Conclusão e Direções Futuras
Resumindo, o Otimizador Filtrado por Momentum (MoFO) apresenta uma abordagem promissora pra resolver o problema do esquecimento em modelos de linguagem grandes durante o ajuste. Ao focar nos parâmetros com os maiores valores de momentum e evitar mudanças na função de perda, o MoFO ajuda a manter o conhecimento do pré-treinamento enquanto alcança um bom desempenho em tarefas específicas.
Conforme o campo avança, existem oportunidades pra refinar e melhorar ainda mais o método MoFO. Trabalhos futuros poderiam explorar estratégias adicionais para melhorar o desempenho, potenciais aplicações em contextos multimodais e exames mais profundos das propriedades de convergência. O desenvolvimento contínuo de métodos como o MoFO poderia levar a modelos de linguagem ainda mais robustos e capazes em várias aplicações.
Título: MoFO: Momentum-Filtered Optimizer for Mitigating Forgetting in LLM Fine-Tuning
Resumo: Recently, large language models (LLMs) have demonstrated remarkable capabilities in a wide range of tasks. Typically, an LLM is pre-trained on large corpora and subsequently fine-tuned on task-specific datasets. However, during fine-tuning, LLMs may forget the knowledge acquired in the pre-training stage, leading to a decline in general capabilities. To address this issue, we propose a new fine-tuning algorithm termed Momentum-Filtered Optimizer (MoFO). The key idea of MoFO is to iteratively select and update the model parameters with the largest momentum magnitudes. Compared to full-parameter training, MoFO achieves similar fine-tuning performance while keeping parameters closer to the pre-trained model, thereby mitigating knowledge forgetting. Unlike most existing methods for forgetting mitigation, MoFO combines the following two advantages. First, MoFO does not require access to pre-training data. This makes MoFO particularly suitable for fine-tuning scenarios where pre-training data is unavailable, such as fine-tuning checkpoint-only open-source LLMs. Second, MoFO does not alter the original loss function. This could avoid impairing the model performance on the fine-tuning tasks. We validate MoFO through rigorous convergence analysis and extensive experiments, demonstrating its superiority over existing methods in mitigating forgetting and enhancing fine-tuning performance.
Autores: Yupeng Chen, Senmiao Wang, Zhihang Lin, Zeyu Qin, Yushun Zhang, Tian Ding, Ruoyu Sun
Última atualização: 2024-07-31 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2407.20999
Fonte PDF: https://arxiv.org/pdf/2407.20999
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.