Melhorando Modelos de Linguagem Através de Técnicas de Poda de Dados
Novos métodos focam em melhorar a qualidade dos dados de treinamento para modelos de linguagem.
― 7 min ler
Modelos de linguagem grandes (LLMs) têm se tornado super importantes nos últimos anos, e eles dependem de uma quantidade enorme de dados textuais para treinamento. Esses dados são coletados principalmente através de scraping da internet, resultando em conjuntos de dados que muitas vezes têm texto de baixa qualidade. Para melhorar o processo de treinamento, pesquisadores estão buscando maneiras de filtrar dados ruins, focando em métodos que ajudem a manter o conteúdo de alta qualidade.
Práticas Atuais na Coleta de Dados
Ao montar um conjunto de dados para treinar LLMs, os profissionais costumam usar conjuntos maciços como C4, RefinedWeb e The Pile. Esses conjuntos são gerados puxando páginas da web brutas da internet, o que significa que uma parte significativa do texto costuma ser barulhenta ou de baixa qualidade. Há técnicas padrão utilizadas para limpar esses conjuntos, que normalmente envolvem regras simples. Por exemplo, algumas práticas comuns incluem remover texto repetido, livrar-se de caracteres especiais e excluir conteúdo não em inglês. Outra abordagem é ignorar dados de uma lista pré-determinada de sites problemáticos. No entanto, embora esses métodos possam ajudar, eles não medem efetivamente a qualidade real de cada exemplo de treinamento.
A Necessidade de Melhores Medidas de Qualidade
Para melhorar a qualidade dos dados de treinamento, é essencial ter uma maneira clara e confiável de medir a qualidade de exemplos individuais. Isso levou à ideia de Poda de Dados, que envolve selecionar um subconjunto de dados de um conjunto maior. O objetivo é manter os exemplos mais úteis enquanto descarta os menos eficazes para melhorar o desempenho do modelo. Embora a poda de dados tenha sido estudada principalmente em aprendizado supervisionado, ela é menos explorada no contexto de LLMs.
Objetivos da Pesquisa
Essa pesquisa tem como objetivo explorar se podemos efetivamente podar exemplos menos impactantes de um Conjunto de Dados de Treinamento sem perder desempenho. Também busca determinar se métodos mais simples de estimar a qualidade dos dados, como usar Perplexidade, podem superar técnicas mais complexas. Além disso, a pesquisa pretende identificar dinâmicas de treinamento que melhor indicam a qualidade dos dados.
Visão Geral da Metodologia
Três métricas automáticas de poda são avaliadas: perplexidade, Error L2-Norm (EL2N) e Memorização. Essas métricas dependem da saída do modelo para avaliar a qualidade dos exemplos de treinamento sem precisar de um conjunto de dados de alta qualidade definido manualmente. Esse aspecto torna os métodos promissores para seleção automática de dados de treinamento.
Experimentos e Descobertas
Vários modelos de tamanhos diferentes foram treinados em diversos conjuntos de dados podados. Através de extensos experimentos, foi descoberto que usar perplexidade para classificar os dados tem um desempenho melhor do que métodos mais complexos como a memorização. De fato, modelos treinados em apenas 30% do conjunto de dados original, podados usando perplexidade, mostraram melhorias significativas de desempenho em comparação com modelos treinados em mais dados usando métodos de pontuação complexos.
Metodologia de Poda
Para demonstrar o processo de poda, um algoritmo de pontuação é aplicado a cada instância de dado. Uma decisão é tomada sobre qual subconjunto de pontuações manter, seja as de menor, média ou maior pontuação. Um novo modelo é então pré-treinado usando apenas esses dados podados.
O Papel da Perplexidade
A perplexidade serve como uma métrica que indica quão bem o modelo prevê um determinado texto. Uma pontuação de perplexidade mais baixa sugere que o modelo considera o texto mais provável, indicando conteúdo de maior qualidade. Essa medida simples, mas eficaz, impacta significativamente o desempenho geral dos modelos de linguagem.
Avaliação de Outras Métricas
A pontuação EL2N, originalmente criada para tarefas de visão computacional, mede a importância de cada amostra com base em sinais de aprendizado inicial do modelo. Amostras com baixas pontuações de EL2N geralmente são mais fáceis para o modelo aprender, enquanto pontuações mais altas indicam que o modelo ainda tem dificuldade com esses exemplos.
A memorização é outra métrica avaliada nesta pesquisa. Ela se refere à capacidade do modelo de reproduzir texto exatamente como foi visto durante o treinamento. A hipótese é que itens que precisam de mais aprendizado terão pontuações de memorização mais altas. Vários experimentos mostraram que, enquanto a memorização pode indicar a qualidade dos dados, sua eficácia varia em comparação com medidas mais simples como a perplexidade.
Poda Aleatória
Como comparação de base, a poda aleatória também é empregada para avaliar a eficácia dos métodos propostos contra uma seleção aleatória de amostras. Isso ajuda a entender se as novas estratégias de poda geram um melhor desempenho do que simplesmente escolher amostras aleatoriamente.
Configuração do Treinamento do Modelo
Os modelos usados no estudo são modelos de transformer autoregressivos que focam em aprender com tokens anteriores para gerar sequências coerentes. O treinamento envolve minimizar o erro de previsão em um conjunto de dados de treinamento que foi meticulosamente filtrado para manter a qualidade.
Resultados Impressionantes
Os experimentos mostram que a poda simples baseada em perplexidade consistentemente supera abordagens mais complexas. Além disso, modelos treinados com conjuntos de dados podados mostram melhorias em relação àqueles treinados no conjunto completo. Os resultados sugerem que selecionar cuidadosamente exemplos de treinamento pode resultar em melhores modelos de linguagem, mesmo usando um conjunto de dados geral menor.
Importância do Tamanho do Modelo de Referência
O tamanho do modelo de referência usado para calcular as pontuações também desempenha um papel significativo na eficácia do processo de poda. Modelos maiores podem capturar melhor a complexidade da linguagem, o que se traduz em melhores sinais de poda para selecionar instâncias de dados de alta qualidade.
Impacto da Qualidade dos Dados de Treinamento
A pesquisa também examina como os dados de treinamento do modelo de referência influenciam sua capacidade de classificar dados de forma eficaz. As descobertas indicam que usar um conjunto de dados de referência mais limpo e de maior qualidade leva a melhores sinais de poda, resultando, em última análise, em um desempenho aprimorado do modelo.
Pontos de Verificação de Treinamento Precoces
Outro aspecto importante explorado é a eficácia de usar pontos de verificação de treinamento precoces de modelos de referência. Esses pontos de verificação iniciais oferecem insights antes que o treinamento completo seja finalizado, o que pode ser econômico para aqueles que podem não querer investir no treinamento completo de um novo modelo.
Generalizando Descobertas para Modelos Maiores
Os estudos se estendem ainda mais para modelos maiores, mostrando que os sucessos vistos com modelos menores se ampliam bem. As descobertas sugerem uma melhoria consistente de desempenho ao empregar métodos de poda eficazes, independentemente do tamanho do modelo.
Avaliação de Tarefas Futuras
Por fim, o impacto das estratégias de poda nas tarefas futuras é analisado. Os resultados indicam que modelos pré-treinados com conjuntos de dados podados são geralmente mais eficazes em várias tarefas. Embora nenhum método único se destaque como universalmente superior, as melhorias enfatizam o valor de empregar técnicas eficazes de limpeza de dados durante o pré-treinamento.
Conclusão
A pesquisa apresenta um caso convincente para implementar métodos eficazes de poda de dados no treinamento de modelos de linguagem grandes. Ao utilizar métricas simples, mas eficazes, como a perplexidade, os pesquisadores podem melhorar o desempenho do modelo enquanto reduzem a quantidade de dados de baixa qualidade usados. Essa compreensão da qualidade dos dados pave o caminho para futuros avanços no desenvolvimento de LLM.
Título: When Less is More: Investigating Data Pruning for Pretraining LLMs at Scale
Resumo: Large volumes of text data have contributed significantly to the development of large language models (LLMs) in recent years. This data is typically acquired by scraping the internet, leading to pretraining datasets comprised of noisy web text. To date, efforts to prune these datasets down to a higher quality subset have relied on hand-crafted heuristics encoded as rule-based filters. In this work, we take a wider view and explore scalable estimates of data quality that can be used to systematically measure the quality of pretraining data. We perform a rigorous comparison at scale of the simple data quality estimator of perplexity, as well as more sophisticated and computationally intensive estimates of the Error L2-Norm and memorization. These metrics are used to rank and prune pretraining corpora, and we subsequently compare LLMs trained on these pruned datasets. Surprisingly, we find that the simple technique of perplexity outperforms our more computationally expensive scoring methods. We improve over our no-pruning baseline while training on as little as 30% of the original training dataset. Our work sets the foundation for unexplored strategies in automatically curating high quality corpora and suggests the majority of pretraining data can be removed while retaining performance.
Autores: Max Marion, Ahmet Üstün, Luiza Pozzobon, Alex Wang, Marzieh Fadaee, Sara Hooker
Última atualização: 2023-09-08 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.04564
Fonte PDF: https://arxiv.org/pdf/2309.04564
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.