Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas# Inteligência Artificial

Configurando o Peso de Decaimento no AdamW para Deep Learning

Aprenda a ajustar a decaída de peso para melhorar o desempenho do modelo no AdamW.

― 8 min ler


Decaimento de Peso noDecaimento de Peso noAdamW Explicadomelhor performance do modelo.Ajuste o peso da decaída pra ter a
Índice

Quando se trata de trabalhar com modelos de aprendizado de máquina, especialmente os de deep learning, um aspecto importante a considerar é como definir os hiperparâmetros para otimizadores como o AdamW. O AdamW é bastante usado, especialmente para modelos grandes, e gerenciar a sua decaída de peso é crucial à medida que o tamanho do modelo e o conjunto de dados que você está usando crescem. Este texto tem como objetivo explicar como definir e ajustar a decaída de peso no AdamW de forma eficaz.

O que é AdamW?

AdamW é um algoritmo de otimização avançado baseado em outro algoritmo chamado Adam. Enquanto o Adam é conhecido pela sua Taxa de Aprendizado adaptativa, o AdamW modifica a forma como a decaída de peso é aplicada, o que pode melhorar o desempenho, especialmente em redes neurais. A decaída de peso é uma técnica de regularização que ajuda a prevenir o overfitting, penalizando pesos grandes em um modelo.

Entendendo a Conexão Entre Taxa de Aprendizado e Decaída de Peso

De forma simples, a taxa de aprendizado determina o quanto os pesos são atualizados durante o treinamento. Uma boa maneira de pensar nas atualizações de peso do AdamW é como uma média ponderada das atualizações anteriores, que pode ser ajustada através de algo chamado média móvel exponencial (EMA).

A timescale da EMA é essencial e nos diz quantas atualizações passadas considerar ao ajustar os pesos. Um ponto crucial é que a timescale da EMA deve ser definida com base em algumas diretrizes naturais. Não deve ser menor que uma única passagem pelo conjunto de dados inteiro (chamada de época), e não deve ser maior que o número total de épocas.

A Relação Entre Tamanho do Modelo e Tamanho do Conjunto de Dados

Conforme o tamanho dos modelos e conjuntos de dados aumenta, é importante entender como definir a decaída de peso corretamente. A principal conclusão é que, à medida que o tamanho do conjunto de dados aumenta, a decaída de peso ideal tende a diminuir. No entanto, se você aumentar o tamanho do modelo, a decaída de peso deve aumentar. Essa abordagem mantém seu modelo funcionando de forma eficaz em várias escalas de dados e tamanhos de modelo.

Configurando um Fluxo de Trabalho Eficaz

Um fluxo de trabalho típico envolve começar com modelos menores para prototipar suas ideias. Esse processo geralmente leva a uma corrida final de treinamento com o maior modelo no maior conjunto de dados. Para que essa abordagem funcione, é crucial saber como transferir os hiperparâmetros que você aprende com esses modelos menores para os maiores.

Ajustando a Decaída de Peso Durante a Escala do Modelo

Uma estratégia comum para ajustar hiperparâmetros enquanto se escala é modificar a taxa de aprendizado. Como você pode esperar, a taxa de aprendizado pode influenciar quão rápido o modelo aprende. No entanto, os comportamentos da decaída de peso e das taxas de aprendizado têm impactos diferentes conforme o modelo se aproxima da convergência (quando o modelo aprendeu o suficiente com os dados).

Por causa dessa diferença, não é suficiente apenas pensar em como a taxa de aprendizado muda enquanto você escala seu modelo; também é crítico considerar como a decaída de peso deve ser ajustada.

Como AdamW Funciona Como uma Média Móvel Exponencial (EMA)

Entender o AdamW em termos de EMA ajuda a esclarecer como gerenciar as atualizações de peso. Tanto o Adam quanto o AdamW usam EMAs para estimar gradientes, mas o que torna o AdamW único é seu foco em manter uma EMA dos próprios pesos. Essa distinção ajuda a entender como definir os hiperparâmetros relacionados tanto à taxa de aprendizado quanto à decaída de peso.

Quando você trabalha com AdamW, você tem principalmente dois hiperparâmetros a considerar: a timescale da EMA e a inicialização do modelo. Ao ajustar a timescale da EMA com base no número de épocas, você também está indiretamente definindo a decaída de peso.

Encontrando a Faixa Certa para Timescales de EMA

Por meio de diversos experimentos, foi indicado que uma timescale de EMA adequada geralmente cai dentro de uma faixa específica. A timescale ideal costuma estar entre uma época e o número total de épocas que você planeja treinar seu modelo. Quando testada em diferentes tipos de modelos, essa faixa parece consistente, seja você trabalhando com uma rede menor ou um grande modelo de linguagem (LLM).

Testando os Efeitos de Mudar o Tamanho do Conjunto de Dados

À medida que você muda o tamanho do conjunto de dados, especificamente aumentando-o, você quer garantir que a decaída de peso não permaneça fixa. Estudos mostraram que quando você aumenta o tamanho do conjunto de dados enquanto mantém o tamanho do lote constante, a decaída de peso ideal geralmente diminui. Esse comportamento sugere que conjuntos de dados maiores permitem que os modelos capturem mais informações e requerem uma decaída de peso menos rigorosa.

Em um estudo controlado, modelos treinados em subconjuntos de conjuntos de dados maiores como o ImageNet mostraram que, à medida que o tamanho desses subconjuntos aumentava, a decaída de peso também precisava ser ajustada adequadamente.

Testando os Efeitos de Mudar o Tamanho do Modelo

Por outro lado, ao aumentar o tamanho do modelo, as tendências mostram que a decaída de peso ideal deve na verdade aumentar. Esse aumento vem da recomendação de que à medida que os modelos crescem, eles precisam de um pouco mais de decaída de peso para gerenciar a complexidade aumentada. Por meio de experiências práticas, foi observado que se você seguir esses aumentos de escala para a decaída de peso, os modelos apresentam desempenho mais consistente em diferentes tarefas.

A Importância das Taxas de Aprendizado Adaptativas

Ao escalar modelos, é importante ajustar as taxas de aprendizado também. A ideia é que a taxa de aprendizado deve idealmente escalar com o tamanho do modelo, mas se a decaída de peso permanecer fixa, problemas de estabilidade podem surgir.

Ao modificar a decaída de peso de forma apropriada enquanto ajusta as taxas de aprendizado, os resultados para modelos maiores se tornam muito mais estáveis. Essa abordagem permite que você mantenha um desempenho consistente em várias escalas de modelos.

Superando Desafios com a Transferência de Hiperparâmetros

À medida que você transita de modelos menores para maiores, transferir hiperparâmetros (como a decaída de peso) pode ser complicado. Por exemplo, se você aplicar um método simples de escala à decaída de peso sem considerar o tamanho do modelo, pode acabar comprometendo a eficácia do aprendizado dos seus modelos maiores.

Na prática, quando você torna a decaída de peso mais forte para modelos maiores enquanto mantém a timescale da EMA constante, você pode frequentemente alcançar melhor consistência em como o modelo aprende. Essa estratégia garante que o comportamento do seu modelo permaneça estável em diferentes configurações.

O Impacto Geral da Decaída de Peso no Aprendizado do Modelo

Quando você analisa as atualizações de peso no AdamW, é importante reconhecer que os ajustes que você faz na decaída de peso podem impactar profundamente como seu modelo aprende. Acontece que o tamanho da decaída de peso influencia a magnitude dos pesos aprendidos. Por exemplo, gerenciar o equilíbrio de quanta decaída de peso você permite pode determinar se seu modelo aprende de forma eficaz ou se luta contra o overfitting.

Mal-entendidos Comuns Sobre AdamW

Muitos praticantes podem pensar que simplesmente ajustar a taxa de aprendizado é o suficiente para retocar um modelo. Embora seja importante, os ajustes na decaída de peso podem ser igualmente críticos. É essencial ver ambos os parâmetros como interagindo e encontrar um equilíbrio que otimize o aprendizado de forma eficaz.

Conclusão

Resumindo, definir a decaída de peso para o AdamW ao escalar o tamanho do modelo e do conjunto de dados não é uma tarefa trivial. Isso requer entender a interação entre as timescales da EMA, tamanhos de modelo e tamanhos de conjunto de dados. Orientado por experimentos práticos e insights teóricos, aqui estão os pontos principais a lembrar:

  • A timescale da EMA deve idealmente permanecer constante à medida que você muda os tamanhos do modelo e do conjunto de dados.
  • Aumentar o tamanho do conjunto de dados geralmente leva a uma diminuição da decaída de peso ideal.
  • Aumentar o tamanho do modelo geralmente requer um aumento na decaída de peso ideal.
  • Ao transferir hiperparâmetros de modelos menores para maiores, preste atenção em como tanto as taxas de aprendizado quanto a decaída de peso devem ser ajustadas.

Essa compreensão pode ajudar a garantir que seus modelos maiores tenham um desempenho eficiente e eficaz à medida que você escala seus projetos de aprendizado de máquina.

Fonte original

Título: How to set AdamW's weight decay as you scale model and dataset size

Resumo: We show that weights learned by AdamW can be understood as an exponential moving average (EMA) of recent updates. This gives critical insights for how to set the weight decay in AdamW, and how the weight decay should scale with model and dataset size. In particular, the key hyperparameter for an exponential moving average is the EMA timescale. Intuitively, the EMA timescale can be understood as the number of recent iterations the EMA averages over. Given a fixed learning rate, there is a one-to-one mapping from the EMA timescale to the usual weight decay hyperparameter. Thus, choosing an EMA timescale implicitly sets the weight decay. Importantly, there are natural guidelines for sensible values for the EMA timescale: we need to average over all datapoints, so the EMA timescale should not be (much) smaller than 1 epoch, and we need to forget early updates, so the EMA timescale should not be (much) bigger than the total number of training epochs. In our experiments, we find that optimal EMA timescales are consistent with these guidelines, as are the hyperparameters chosen in recent large-scale LLM pretraining runs (e.g.\ Llama 1+2 and Stable LM). Critically, these guidelines suggest that the optimal EMA timescale should not change (much) as we scale the model and dataset. That implies that as the dataset size increases, the optimal weight decay should fall. Moreover, as the model size increases, the optimal weight decay should also increase (if we follow the muP recommendation for scaling the learning rate).

Autores: Xi Wang, Laurence Aitchison

Última atualização: 2024-05-22 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.13698

Fonte PDF: https://arxiv.org/pdf/2405.13698

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes