Um Novo Método para Selecionar Dados de Pré-treinamento
Essa abordagem facilita a escolha de conjuntos de dados de pré-treinamento eficazes para modelos de linguagem.
― 10 min ler
Índice
- A Importância da Curadoria de Conjuntos de Dados
- Um Novo Método para Seleção de Dados
- Experimentando com Dados de Pré-Treinamento
- Trabalhos Relacionados em Técnicas de Seleção de Dados
- O Problema de Prever Desempenho
- A Hipótese de Perplexidade-Desempenho
- Seleção de Dados a Partir de Métricas de Perplexidade
- Projetando Dados em Distribuições de Amostragem Úteis
- Robustez do Método Proposto
- Análise de Perdas de Modelos
- O Caminho à Frente com Pré-registro
- Conclusão
- Fonte original
- Ligações de referência
Um bom conjunto de dados de pré-treinamento é fundamental para criar modelos de linguagem eficazes. Porém, descobrir quais dados são os melhores tem sido difícil e caro, já que normalmente exige muitos recursos computacionais para testes. Este artigo apresenta uma nova forma de escolher dados de pré-treinamento sem precisar rodar um treinamento extenso nos nossos modelos.
Nossa abordagem é baseada em uma ideia simples: as perdas dos modelos de linguagem em diferentes textos de pré-treinamento podem nos dizer quão bem esses textos vão se sair em várias tarefas depois. Se escolhermos textos que mostraram boas correlações com o sucesso em testes, podemos criar Conjuntos de dados de pré-treinamento eficazes.
Na nossa pesquisa, desenvolvemos uma estrutura estatística que estima quão próximas as perdas estão dos benchmarks de Desempenho. Analisamos uma amostra de 90 modelos de linguagem da Open LLM Leaderboard, olhando para textos de dezenas de milhares de domínios da web. Esse método se mostrou superior quando testado em experimentos controlados de pré-treinamento em vários benchmarks.
Conforme os conjuntos de dados para treinar modelos de linguagem cresceram imensamente - de menos de 200 bilhões de tokens em 2020 para 240 trilhões de tokens agora - tornou-se essencial identificar os melhores dados. Muitas métodos diferentes surgiram para ajudar nessa Seleção de Dados. Contudo, métodos tradicionais frequentemente envolvem etapas caras de re-treinamento de modelos, o que limita sua utilidade.
A grande questão é se precisamos treinar novos modelos para filtrar os dados. E se, em vez disso, pudéssemos aproveitar os muitos modelos existentes de alto desempenho disponíveis? Isso economizaria custos e nos permitiria acessar uma grande variedade de arquiteturas e distribuições de dados.
Usar modelos publicamente disponíveis traz seus desafios. Os dados de treinamento desses modelos são muitas vezes desconhecidos e variados. No entanto, notamos duas coisas importantes: primeiro, todos os modelos de peso aberto produzem um valor de perda ao serem alimentados com um texto, e segundo, eles podem ser avaliados em relação aos benchmarks. Pesquisas anteriores sugeriram que há uma ligação mensurável entre esses valores de perda e quão bem os modelos se saem em tarefas.
Cavamos mais fundo nessa conexão e encontramos um método simples, mas eficaz. Ao observar a universalidade das correlações entre valores de perda e desempenho em tarefas, decidimos selecionar dados dos domínios onde encontramos essa correlação mais forte.
Com essa estrutura, conseguimos selecionar dados de treinamento com base nessas conexões. Nossos resultados iniciais mostraram que nosso método tem um desempenho melhor do que as técnicas comuns de seleção de dados, enquanto ainda se equipara aos melhores classificadores feitos à mão.
A Importância da Curadoria de Conjuntos de Dados
À medida que os conjuntos de dados de pré-treinamento aumentaram de tamanho, encontrar os subconjuntos certos se tornou cada vez mais crucial para modelos de linguagem de alta qualidade. Embora muitas técnicas existam para essa tarefa, a maioria delas depende de re-treinamento caro.
Pesquisas indicaram que talvez não seja necessário conduzir novos ciclos de treinamento para o processo de seleção. Aproveitar modelos de alto desempenho que já estão disponíveis poderia ser a solução. Essa abordagem nos permite usar os recursos investidos na construção desses modelos e nos dá uma ampla variedade de estruturas existentes que diferem em tamanho e fontes de dados de pré-treinamento.
Apesar dessas vantagens, selecionar dados de modelos existentes é complicado, pois muitas vezes não sabemos quais dados eles foram originalmente treinados. No entanto, descobrimos dois fatores-chave que podem guiar nosso processo de seleção. Podemos utilizar a perda que cada modelo gera ao avaliar um texto e como cada modelo se compara a benchmarks estabelecidos.
Estudos anteriores identificaram que há uma ligação sistemática entre a perda das avaliações de corpus da web e o desempenho posterior. Podemos usar essas correlações para refinar como selecionamos nossos dados de pré-treinamento.
Um Novo Método para Seleção de Dados
Em nosso trabalho, focamos em selecionar dados com base em correlações entre pontuações de Perplexidade e métricas de desempenho. Isso significa que escolhemos domínios onde as probabilidades logarítmicas do modelo de linguagem (a probabilidade que o modelo atribui a um texto específico) se correlacionavam fortemente com o quão bem o modelo se saiu em benchmarks.
Para tornar nosso método eficaz, o complementamos com uma estrutura estatística que estima correlações. Derivamos estimadores que funcionam bem em vários modelos de linguagem, permitindo-nos identificar quais domínios selecionar para dados de pré-treinamento.
Através de uma validação extensa em uma grande amostra de modelos pré-treinados, confirmamos que as correlações de perplexidade muitas vezes podem prever o desempenho de benchmark de um modelo. Além disso, descobrimos que essas correlações se mantiveram robustas o suficiente para criar um processo de seleção confiável voltado para aumentar o desempenho em tarefas posteriores.
Validamos nossa abordagem por meio de experimentos controlados na escala de 160M de parâmetros em oito benchmarks. Nosso método superou técnicas tradicionais, como o DSIR, que se baseia em estatísticas de n-gramas, enquanto consistentemente igualava os resultados dos métodos de melhor desempenho previamente validados em grande escala.
Experimentando com Dados de Pré-Treinamento
Em nossos experimentos, escolhemos especificamente os domínios onde a perda mais baixa se correlacionava com melhor desempenho posterior. Fizemos testes com foco em domínios (como Wikipedia ou StackOverflow) conhecidos por serem de alta qualidade. Através desse processo, escolhemos domínios que mostraram as correlações mais fortes, incorporando até um classificador que ajudou a diferenciar os domínios selecionados de outros.
Essa metodologia gerou resultados de desempenho competitivos entre os métodos conhecidos de seleção de dados. Ao avaliar modelos principalmente em relação à sua precisão e classificação em vários benchmarks, descobrimos que nosso processo de seleção melhorou o desempenho.
Trabalhos Relacionados em Técnicas de Seleção de Dados
Encontramos que muitas abordagens existentes para selecionar dados de pré-treinamento frequentemente se baseiam em técnicas simples, como deduplicação e filtragem de perplexidade. Enquanto alguns métodos buscavam sobreposições de n-gramas ou semelhança em embeddings, normalmente ficavam aquém em comparação com técnicas mais direcionadas.
A maioria das técnicas tradicionais de seleção de dados exige re-treinamento de modelos, o que é complicado e caro. Nossa abordagem, construída em estudos observacionais existentes, se baseia principalmente em relações conhecidas entre o desempenho de modelos de linguagem em conjuntos de dados não controlados, estabelecendo uma base mais refinada para seleção.
O Problema de Prever Desempenho
Nosso objetivo final é criar modelos que possam prever como variações nas distribuições de dados de pré-treinamento impactam o desempenho em tarefas de benchmark. Metodologias conhecidas geralmente envolvem obter diferentes distribuições, treinar novos modelos sobre elas e medir o desempenho. Esses processos podem ser custosos e demorados.
Formulamos uma abordagem mais observacional, aproveitando dados de desempenho de modelos de alta qualidade existentes em vez de re-treinamento extensivo. Ao substituir a política de seleção de dados não observada desses modelos por dados de perda observáveis, poderíamos construir um modelo preditivo mais eficaz.
A Hipótese de Perplexidade-Desempenho
A tarefa de prever desempenho pode ser estabelecida como um modelo de índice único. Ao vincular medidas de perplexidade com desempenho posterior, utilizamos modelos não-lineares que mantêm a relação simples enquanto evitamos complexidades em determinar o mapeamento funcional exato.
Seleção de Dados a Partir de Métricas de Perplexidade
O próximo passo é entender quão bem nossas medidas de desempenho previstas correspondem à eficácia real do modelo. Mesmo com uma forte correlação entre perda e desempenho, ainda não temos uma compreensão clara de como a seleção impacta o desempenho.
Propomos um método de seleção simplificado, focando em amostras de distribuições que alinham perda e desempenho posterior. Se conseguirmos identificar pesos não-negativos que se correlacionem com perdas, melhoramos ainda mais nosso método de seleção de dados ao selecionar distribuições de amostra que minimizam a perda de pré-treinamento.
Projetando Dados em Distribuições de Amostragem Úteis
À medida que refinamos nossa abordagem, também precisamos de métodos para projetar classificações de domínios em uma distribuição de amostragem adequada. O objetivo é maximizar o uso de domínios de alto desempenho enquanto minimizamos redundâncias, evitando cenários onde dados repetidos prejudicam o desempenho.
Em última análise, nosso processo delineia um algoritmo simples e sem parâmetros. Este algoritmo calcula eficientemente coeficientes de correlação e identifica domínios em ordem de relevância para melhorar o desempenho em tarefas posteriores.
Robustez do Método Proposto
Nosso método também demonstrou desempenho robusto em vários benchmarks. Comparámos nossos resultados com várias técnicas de base e confirmamos que nossa abordagem consistentemente superou as outras.
Além disso, aproveitamos classificadores fastText existentes para filtrar dados de forma mais eficaz, sugerindo que nossa abordagem não apenas superou métodos convencionais, mas o fez sem a necessidade de supervisão humana extensiva.
Análise de Perdas de Modelos
Durante nossos experimentos, realizamos análises detalhadas na matriz de perdas gerada pelas avaliações dos modelos. Usamos técnicas como PCA para identificar relações e possíveis agrupamentos entre diferentes domínios.
Nossa análise revelou uma correlação sólida entre atributos de linguagem e pontuações médias de desempenho em diferentes domínios. Essa validação apoia nossa hipótese de que as perdas contêm informações significativas vitais para selecionar dados de pré-treinamento de alta qualidade.
O Caminho à Frente com Pré-registro
Diante dos resultados iniciais positivos, buscamos garantir a confiabilidade e robustez do nosso método por meio de experimentos de escalonamento pré-registrados. Esses experimentos envolvem avaliar uma gama mais ampla de dados de pré-treinamento em configurações diversas, garantindo que nossas descobertas se estendam além do escopo inicial.
Usar a estrutura DataComp-LM para esses experimentos pré-registrados nos permite realizar testes do mundo real com benchmarks conhecidos. Podemos avaliar o desempenho de nossas técnicas em conjuntos de dados maiores enquanto permanecemos comprometidos com a transparência sobre tanto os sucessos quanto os fracassos.
Conclusão
Nosso trabalho apresenta uma alternativa promissora aos métodos atuais de seleção de dados para treinamento de modelos de linguagem. Ao utilizar modelos existentes como fontes de informação e focar em correlações observáveis, podemos criar processos mais eficientes para reunir dados de pré-treinamento de alta qualidade.
Através de experimentação sistemática e validação, abrimos um novo caminho para exploração futura sobre este tópico. As percepções coletadas de nosso trabalho estabelecem a base para inovações futuras na curadoria de conjuntos de dados e na previsão de desempenho.
Com os avanços contínuos em IA e aprendizado de máquina, esperamos que nossos métodos sugeridos contribuam para uma melhor compreensão de como otimizar dados de pré-treinamento e aumentar a eficácia geral dos modelos de linguagem.
Título: Improving Pretraining Data Using Perplexity Correlations
Resumo: Quality pretraining data is often seen as the key to high-performance language models. However, progress in understanding pretraining data has been slow due to the costly pretraining runs required for data selection experiments. We present a framework that avoids these costs and selects high-quality pretraining data without any LLM training of our own. Our work is based on a simple observation: LLM losses on many pretraining texts are correlated with downstream benchmark performance, and selecting high-correlation documents is an effective pretraining data selection method. We build a new statistical framework for data selection centered around estimates of perplexity-benchmark correlations and perform data selection using a sample of 90 LLMs taken from the Open LLM Leaderboard on texts from tens of thousands of web domains. In controlled pretraining experiments at the 160M parameter scale on 8 benchmarks, our approach outperforms DSIR on every benchmark, while matching the best data selector found in DataComp-LM, a hand-engineered bigram classifier.
Autores: Tristan Thrush, Christopher Potts, Tatsunori Hashimoto
Última atualização: 2024-09-09 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2409.05816
Fonte PDF: https://arxiv.org/pdf/2409.05816
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.