Simple Science

Ciência de ponta explicada de forma simples

# Estatística# Computação e linguagem# Inteligência Artificial# Aprendizagem automática

Os Desafios do Treinamento Regurgitativo em LLMs

Este artigo analisa as desvantagens de usar dados gerados por LLM para treinar novos modelos.

― 8 min ler


Questões de TreinamentoQuestões de TreinamentoRegurgitatório em LLMsainda são essenciais.desempenho do modelo; dados humanosDados gerados por LLM prejudicam o
Índice

Os Grandes Modelos de Linguagem (LLMs) ficaram super populares por causa do sucesso deles em criar textos e fazer tarefas como escrever, programar e responder perguntas. Esses modelos são treinados com uma tonelada de dados de várias fontes, incluindo a internet e conteúdos gerados por usuários. Conforme os LLMs se tornam mais comuns, é provável que uma quantidade significativa de novos conteúdos seja gerada pelos próprios modelos. Isso leva a uma situação conhecida como "Treinamento Regurgitativo", onde um novo LLM é treinado com dados que incluem conteúdos gerados por ele mesmo ou por outros LLMs.

A grande pergunta é: como usar Dados gerados por LLMs para treinar novos LLMs afeta o desempenho deles? Por um lado, usar dados sintéticos é atraente porque é fácil e barato de obter. Por outro, a qualidade desses dados pode ser menor do que a de conteúdos criados por humanos, o que pode fazer os modelos terem um desempenho pior. Esse artigo investiga essas questões e tenta entender o que acontece quando LLMs são treinados usando dados criados por outros LLMs.

O Impacto do Treinamento Regurgitativo

O Problema

O treinamento regurgitativo pode ser inevitável à medida que os LLMs continuam a gerar conteúdo. Muitas fontes de dados que se dizem criadas por humanos podem, na verdade, ter sido geradas por LLMs. Isso significa que quando novos LLMs são treinados, é provável que incluam alguns dados produzidos por modelos anteriores. Embora usar dados gerados por LLMs ofereça uma chance de reunir facilmente grandes volumes de dados para treinamento, isso também pode reduzir a eficácia dos modelos devido a possíveis problemas com a qualidade dos dados.

A Pergunta que Exploramos

Nosso objetivo é descobrir como o treinamento regurgitativo afeta o desempenho dos LLMs. Vamos investigar duas abordagens de treinamento: ajustar modelos existentes e treinar novos modelos do zero. O ajuste adapta um modelo existente para uma tarefa específica, enquanto treinar do zero desenvolve um modelo totalmente a partir de novos dados.

Configuração Experimental

Fizemos testes em dois cenários principais. Primeiro, ajustamos o modelo GPT-3.5 usando dados gerados a partir de sua própria saída, outros LLMs e dados reais gerados por humanos. Para a segunda abordagem, construímos pequenos modelos de transformadores do zero e usamos os mesmos tipos de dados de treinamento.

Resultados do Ajuste

Desempenho no Ajuste

Quando ajustamos o modelo GPT-3.5 usando dados gerados por LLMs, descobrimos que ele teve um desempenho pior do que quando usamos dados gerados por humanos. Na verdade, usar dados gerados por LLMs, mesmo do mesmo modelo ou de um mais avançado, consistentemente levou a resultados piores. Por exemplo, treinar com dados de um LLM menos capaz resultou em quedas significativas na qualidade da tradução.

Mesmo quando aumentamos a quantidade de dados para ajuste, o treinamento regurgitativo ainda falhou em melhorar o desempenho e, muitas vezes, levou a resultados piores. Isso mostra que simplesmente ter acesso a mais dados gerados por LLMs não garante melhor desempenho.

Entendendo as Razões para o Desempenho Ruim

Para entender por que o treinamento regurgitativo prejudica o desempenho, examinamos os dados gerados de perto. Descobrimos que o conteúdo gerado por LLMs continha mais erros do que os dados produzidos por humanos. Além disso, a falta de variedade na linguagem usada pelos LLMs, conhecida como Diversidade Lexical, também contribuiu para o desempenho ruim.

Em termos mais simples, os LLMs costumam produzir textos menos interessantes e diversos, o que pode torná-los menos eficazes quando usados para treinar outros modelos. Essa falta de qualidade nos dados gerados pode levar a sérios problemas em tarefas de tradução e outras aplicações.

Treinando Modelos do Zero

Além do ajuste, também analisamos como o treinamento regurgitativo afetou modelos treinados desde o começo. Criamos modelos de transformadores, que são a base de muitos LLMs modernos, usando tipos de dados semelhantes.

Resultados no Treinamento do Zero

Os resultados foram parecidos com o que encontramos nos experimentos de ajuste. Modelos treinados com dados produzidos por LLMs tiveram um desempenho inferior em comparação com aqueles treinados com dados reais. Além disso, o desempenho dos modelos treinados apenas com dados gerados por LLMs estagnou ou até caiu depois de um tempo. Essa tendência se manteve, independentemente de usarmos dados de LLMs de alto desempenho ou de desempenho mais baixo.

Mecanismos por trás da Perda de Desempenho

Depois de observar as tendências de desempenho, analisamos os dados para entender melhor os problemas subjacentes. Focamos em dois fatores principais.

1. Erros nos Dados Gerados por LLM

Ficou claro que os dados gerados por LLMs costumam ser defeituosos. Taxas de erro mais altas em traduções e outras tarefas se traduzem em um desempenho geral pior do modelo. Embora os LLMs possam parecer convincentes, os erros podem se acumular, levando a modelos que têm um desempenho abaixo do esperado quando treinados extensivamente com esse tipo de dado.

2. Falta de Diversidade Lexical

Também descobrimos que o conteúdo gerado por LLMs frequentemente carecia de variedade em comparação com textos gerados por humanos. Essa faixa restrita de uso da linguagem pode impactar negativamente a capacidade de um modelo de generalizar seu aprendizado. Modelos treinados com textos mais diversos tendem a ter um desempenho melhor porque aprendem a partir de uma gama mais ampla de exemplos.

Estratégias para Melhoria

Como resultado das nossas descobertas, propomos três estratégias para aumentar a eficácia do treinamento regurgitativo.

Estratégia 1: Controle de Qualidade

A primeira estratégia envolve focar na qualidade dos dados gerados por LLMs usados para treinamento. Ao classificar os dados com base na qualidade prevista-usando métricas como confiança nas previsões-podemos priorizar dados sintéticos de melhor qualidade para treinamento. Essa abordagem visa incluir dados que sejam menos propensos a erros e mais semelhantes aos textos gerados por humanos.

Estratégia 2: Mistura de Dados

A segunda estratégia busca melhorar a diversidade misturando dados gerados por diferentes LLMs. Ao treinar modelos com uma combinação de saídas de vários modelos, podemos introduzir uma gama mais ampla de palavras e frases, o que pode ajudar a mitigar os problemas causados pelo treinamento na saída de um único modelo.

Estratégia 3: Ferramentas de Detecção de IA

A terceira estratégia envolve aproveitar classificadores de detecção de IA. Essas ferramentas podem ajudar a identificar conteúdos gerados por LLMs que se assemelham muito a conteúdos gerados por humanos. Ao priorizar dados sintéticos que se alinham bem com dados reais, podemos melhorar a qualidade geral do processo de treinamento.

Resultados das Estratégias de Mitigação

Aplicando Controle de Qualidade

Quando implementamos a estratégia baseada em qualidade, observamos algumas melhorias de desempenho ao ajustar com dados de alta qualidade. No entanto, os ganhos foram pequenos e não preencheram completamente a lacuna em comparação com o treinamento com dados reais.

Benefícios da Mistura de Dados

A estratégia de mistura de dados mostrou potencial, especialmente quando combinando saídas de modelos que tinham desempenho semelhante, mas estilos diferentes. Esse método demonstrou o potencial para melhores resultados ao enriquecer o conjunto de dados de treinamento.

Eficácia da Detecção de IA

Finalmente, a estratégia de detecção de IA produziu resultados encorajadores. Ao usar ferramentas de detecção de IA para selecionar os dados gerados mais semelhantes aos humanos, o desempenho dos modelos treinados com esses dados foi significativamente melhor.

Conclusão e Direções Futuras

Nossa pesquisa enfatiza a importância de dados reais gerados por humanos ao treinar LLMs. Usar conteúdo gerado por LLMs pode levar a quedas de desempenho devido a erros e falta de diversidade. Portanto, estratégias cuidadosas devem ser empregadas para usar dados sintéticos de forma eficaz.

Enquanto descobrimos que nossas estratégias propostas podem melhorar o desempenho até certo ponto, elas não compensam completamente as desvantagens de usar dados sintéticos. À medida que os LLMs evoluem, a pesquisa contínua será crucial para entender e mitigar os impactos do treinamento regurgitativo, especialmente em tarefas mais abertas que são mais difíceis de medir.

Resumindo, enquanto os LLMs são ferramentas poderosas, confiar neles para gerar dados de treinamento sem uma abordagem cuidadosa pode levar a desvantagens significativas. As descobertas incentivam os profissionais a priorizar dados humanos de alta qualidade e diversidade em seus processos de treinamento, enquanto também desenvolvem estratégias eficazes para lidar com a integração de dados sintéticos.

Fonte original

Título: Regurgitative Training: The Value of Real Data in Training Large Language Models

Resumo: What happens if we train a new Large Language Model (LLM) using data that are at least partially generated by other LLMs? The explosive success of LLMs means that a substantial amount of content online will be generated by LLMs rather than humans, which will inevitably enter the training datasets of next-generation LLMs. We evaluate the implications of such "regurgitative training" on LLM performance. Through fine-tuning GPT-3.5 with data generated either by itself or by other LLMs in a machine translation task, we find strong evidence that regurgitative training clearly handicaps the performance of LLMs. The same performance loss of regurgitative training is observed on transformer models that we train from scratch. We find suggestive evidence that the performance disadvantage of regurgitative training can be attributed to at least two mechanisms: (1) higher error rates and (2) lower lexical diversity in LLM-generated data as compared to real data. Based on these mechanisms, we propose and evaluate three different strategies to mitigate the performance loss of regurgitative training. First, we devise data-driven metrics to gauge the quality of each LLM-generated data instance, and then carry out an ordered training process where high-quality data are added before low-quality ones. Second, we combine data generated by multiple different LLMs (as an attempt to increase lexical diversity). Third, we train an AI detection classifier to differentiate between LLM- and human-generated data, and include LLM-generated data in the order of resemblance to human-generated data. All three strategies can improve the performance of regurgitative training to some extent but are not always able to fully close the gap from training with real data. Our results highlight the value of real, human-generated data in training LLMs, which cannot be easily substituted by synthetic, LLM-generated data.

Autores: Jinghui Zhang, Dandan Qiao, Mochen Yang, Qiang Wei

Última atualização: 2024-07-25 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2407.12835

Fonte PDF: https://arxiv.org/pdf/2407.12835

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes