Treinamento de Subrede em Evolução: Uma Abordagem Econômica para LLMs
Aprenda como o EST melhora a eficiência do treinamento e reduz os custos para grandes modelos de linguagem.
― 8 min ler
Índice
- O Desafio de Treinar Modelos de Linguagem Grandes
- Métodos de Treinamento Atuais
- Apresentando o Treinamento de Subredes Evolutivas (EST)
- Componentes do EST
- Benefícios do EST
- Como o EST Funciona
- Processo Passo a Passo do EST
- Exemplo de Treinamento de Subrede
- Resultados: Testando o EST nos Modelos GPT-2 e TinyLlama
- Experimento no Modelo GPT-2
- Experimento no Modelo TinyLlama
- Insights Teóricos sobre o EST
- Entendendo as Economias de Custo
- Generalização e Desempenho do Modelo
- Conclusão
- Fonte original
- Ligações de referência
Modelos de linguagem grandes (LLMs) são uma área importante de pesquisa em inteligência artificial. Eles conseguem processar e gerar texto parecido com o humano, o que os torna úteis para várias aplicações. No entanto, treinar esses modelos é caro e exige muita potência de computação, o que limita seu uso.
Esse artigo apresenta um novo método para treinar LLMs chamado Treinamento de Subredes Evolutivas (EST). Esse método tem o objetivo de reduzir os Custos de Treinamento usando partes menores, ou subredes, do modelo completo durante o treinamento. Ao aumentar gradualmente o tamanho dessas subredes, o EST torna o processo de treinamento mais eficiente, mantendo o Desempenho.
O Desafio de Treinar Modelos de Linguagem Grandes
Os LLMs têm muitos parâmetros, que são as partes de um modelo que aprendem a partir dos dados. Por exemplo, o GPT-3 tem impressionantes 175 bilhões de parâmetros. Treinar um modelo assim exige enormes recursos, com estimativas de 355 anos de GPU e custos que podem chegar a vários milhões de dólares.
Essa demanda massiva de recursos retarda a pesquisa e limita o uso desses modelos. Além disso, o impacto ambiental da energia usada para treinamento é uma preocupação crescente. Como resultado, há uma necessidade urgente de métodos de treinamento mais eficientes na pesquisa em IA.
Métodos de Treinamento Atuais
Muitas abordagens foram propostas para lidar com as ineficiências no treinamento de modelos de linguagem grandes. Algumas focam em melhorias de hardware, enquanto outras buscam aprimorar métodos de software.
Algumas estratégias notáveis incluem:
Melhoria dos Mecanismos de Atenção: Técnicas como FlashAttention melhoram a forma como o modelo processa informações, otimizando o acesso à memória e, assim, reduzindo os custos de treinamento.
Treinamento Esparso: Isso envolve métodos como Mistura de Especialistas (MoE) que permitem que os modelos usem apenas uma parte de sua capacidade com base em tarefas específicas. No entanto, esses métodos muitas vezes não alcançam o desempenho de modelos totalmente densos.
Treinamento Incremental: Algumas técnicas começam com modelos menores e vão escalando gradualmente. Esse método pode melhorar a estabilidade do treinamento, mas nem sempre utiliza todo o potencial do modelo.
Apresentando o Treinamento de Subredes Evolutivas (EST)
O EST é uma nova abordagem que combina os benefícios desses métodos existentes enquanto aborda suas limitações. A ideia principal é usar subredes aleatórias durante o treinamento, que são amostradas do modelo maior. Fazendo isso, o processo de treinamento se torna mais flexível e eficiente.
Componentes do EST
Amostragem de Subrede: O EST amostra redes menores do modelo geral durante cada etapa de treinamento. Isso significa que a cada vez que o modelo é treinado, ele não usa todas as suas partes, mas foca em algumas.
Agendamento Adaptativo: O método usa um agendador adaptativo para controlar quando e como aumentar o tamanho das subredes ao longo do treinamento. Isso permite uma escalada gradual dos recursos, resultando em economia nos custos de treinamento.
Benefícios do EST
Redução de Custos: Ao se concentrar em partes menores do modelo, o EST pode economizar uma quantidade significativa de recursos de treinamento. Por exemplo, testes mostraram economias de 26,7% para o modelo GPT-2 e 25,0% para o modelo TinyLlama sem perder desempenho.
Desempenho Aprimorado: Modelos treinados usando EST não apenas mantêm desempenho similar durante o treinamento, mas também mostram melhorias em tarefas que requerem compreensão ou geração de texto.
Apoio Teórico: O método é respaldado por estudos que analisam como a dinâmica de treinamento muda ao usar subredes. Esses estudos confirmam que os ajustes feitos durante o treinamento levam a um aprendizado mais rápido e uma melhor generalização dos dados.
Como o EST Funciona
Processo Passo a Passo do EST
Inicialização: O modelo completo é mantido intacto enquanto subredes menores são definidas aleatoriamente. Isso pode incluir selecionar menos cabeças de atenção ou reduzir o tamanho de algumas camadas internas.
Fases de Treinamento: O treinamento ocorre em etapas. Inicialmente, pequenas subredes são usadas. À medida que o treinamento avança, o agendador aumenta o tamanho das subredes até que o modelo completo seja treinado.
Amostragem Aleatória: A cada etapa de treinamento, seleciona-se aleatoriamente quais subredes usar. Essa aleatoriedade ajuda o modelo a aprender diferentes aspectos dos dados.
Normalização da Saída: Durante o treinamento, é crucial garantir que as saídas das subredes coincidam com as do modelo completo. Isso é feito através de técnicas de normalização.
Exemplo de Treinamento de Subrede
Vamos supor que estamos usando um modelo com várias camadas. Durante o treinamento, em vez de usar todas as camadas, o EST pode usar apenas certas delas. Por exemplo, pode ativar apenas algumas enquanto também seleciona apenas algumas cabeças de atenção dentro dessas camadas.
À medida que o treinamento avança, ele gradualmente inclui mais camadas e cabeças até que o modelo completo esteja ativo. Esse método garante que o modelo aprenda de forma eficiente sem precisar de todos os recursos de uma vez.
Resultados: Testando o EST nos Modelos GPT-2 e TinyLlama
Para validar o EST, experimentos foram realizados em dois modelos populares: GPT-2 e TinyLlama.
Experimento no Modelo GPT-2
Configuração: O modelo GPT-2 com 117 milhões de parâmetros foi treinado do zero em um grande conjunto de dados. O treinamento usou otimizadores e tamanhos de lote específicos.
Descobertas: Os resultados mostraram que o EST economizou custos de treinamento enquanto manteve os níveis de perda em conjuntos de dados de validação. Também melhorou o desempenho em tarefas como benchmarks GLUE e SQuAD.
Comparação de Desempenho: Quando comparado a métodos tradicionais, o EST reduziu significativamente o tempo necessário para o treinamento sem degradar o desempenho do modelo.
Experimento no Modelo TinyLlama
Detalhes: Experimentos semelhantes foram realizados em um modelo maior TinyLlama com 1,1 bilhão de parâmetros.
Resultados: As economias de custo de treinamento foram comparáveis ao GPT-2, com melhorias de desempenho observadas em vários benchmarks.
Escalabilidade: Esses resultados ilustram que o EST é escalável e pode ser aplicado a modelos maiores de forma eficiente.
Insights Teóricos sobre o EST
Entendendo as Economias de Custo
A eficiência do EST pode ser atribuída a como ele altera as dinâmicas de treinamento. Usando subredes menores, o processo de treinamento vê reduções de perda mais rápidas, resultando em custos mais baixos.
Dinâmicas de Perda: Ao transitar entre as fases de treinamento, usar menos parâmetros pode levar a quedas repentinas na perda. Isso é benéfico, pois oferece um melhor ponto de partida para as fases subsequentes.
Otimização de Parâmetros: As dinâmicas de treinamento são ainda mais aprimoradas porque subredes menores permitem que o modelo explore regiões mais planas da paisagem de perda, facilitando a otimização.
Generalização e Desempenho do Modelo
Outra vantagem do EST é seu impacto positivo na capacidade de um modelo de generalizar, ou seja, se sair bem com dados não vistos.
Matriz Hessiana: Estudos mostraram que modelos treinados com EST mantêm um traço menor da matriz Hessiana-uma representação matemática que se relaciona com o desempenho do modelo.
Avaliação: Evidências empíricas sugerem que modelos treinados usando EST não apenas alcançam perda de treinamento equivalente em comparação com métodos tradicionais, mas também se destacam em tarefas do mundo real.
Conclusão
O Treinamento de Subredes Evolutivas (EST) apresenta um método promissor e eficiente para treinar modelos de linguagem grandes. Ao amostrar partes menores do modelo e aumentar gradualmente seu tamanho, o EST reduz os custos de treinamento enquanto melhora o desempenho.
Os resultados positivos tanto do GPT-2 quanto do TinyLlama indicam que essa abordagem pode ser amplamente aplicada a diferentes tipos de modelos. À medida que a IA continua a se desenvolver, métodos como o EST desempenharão um papel crucial em tornar modelos avançados acessíveis e sustentáveis, beneficiando tanto pesquisadores quanto o meio ambiente.
Com trabalhos futuros, melhorias podem ser feitas no EST, incluindo a otimização do agendador de amostragem e sua aplicação a modelos ainda maiores além dos Transformers. As possibilidades para esse método são substanciais, abrindo caminho para práticas de IA mais eficientes.
Título: Evolving Subnetwork Training for Large Language Models
Resumo: Large language models have ushered in a new era of artificial intelligence research. However, their substantial training costs hinder further development and widespread adoption. In this paper, inspired by the redundancy in the parameters of large language models, we propose a novel training paradigm: Evolving Subnetwork Training (EST). EST samples subnetworks from the layers of the large language model and from commonly used modules within each layer, Multi-Head Attention (MHA) and Multi-Layer Perceptron (MLP). By gradually increasing the size of the subnetworks during the training process, EST can save the cost of training. We apply EST to train GPT2 model and TinyLlama model, resulting in 26.7\% FLOPs saving for GPT2 and 25.0\% for TinyLlama without an increase in loss on the pre-training dataset. Moreover, EST leads to performance improvements in downstream tasks, indicating that it benefits generalization. Additionally, we provide intuitive theoretical studies based on training dynamics and Dropout theory to ensure the feasibility of EST. Our code is available at https://github.com/OpenDFM/EST.
Autores: Hanqi Li, Lu Chen, Da Ma, Zijian Wu, Su Zhu, Kai Yu
Última atualização: 2024-06-11 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.06962
Fonte PDF: https://arxiv.org/pdf/2406.06962
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.