LIMA: Uma Nova Abordagem para Modelos de Linguagem
A LIMA mostra que menos exemplos de alta qualidade podem treinar modelos de linguagem avançados de forma eficaz.
― 6 min ler
Índice
Modelos de linguagem são programas de computador feitos pra entender e gerar a linguagem humana. Eles aprendem com um monte de dados textuais. O processo geralmente rola em duas etapas principais: primeiro, o modelo é treinado com muito texto bruto sem orientação específica. Isso ajuda ele a aprender o básico da linguagem. Depois, o modelo é ajustado com instruções específicas pra melhorar sua performance em tarefas como responder perguntas ou escrever redações.
O que é Lima?
LIMA é a sigla pra "Less Is More for Alignment" (Menos é Mais pra Alinhamento). É um novo tipo de modelo de linguagem que mostra que você não precisa de muitos Exemplos pra treinar um modelo de forma eficaz. LIMA usa um modelo chamado LLaMa, que tem 65 bilhões de parâmetros. Parâmetros são as partes do modelo que são ajustadas durante o Treinamento pra ajudar ele a aprender.
A ideia principal do LIMA é focar em um número pequeno de exemplos de treinamento de alta qualidade, em vez de um montão de dados. Especificamente, o LIMA foi treinado com apenas 1.000 exemplos cuidadosamente selecionados. O processo de treinamento não incluiu aprendizagem por reforço ou tentativas de entender o que os usuários preferem, que é uma prática comum.
Como o LIMA Funciona
O LIMA se destaca porque aprende a seguir formatos de resposta específicos muito bem, mesmo com poucos exemplos. O modelo consegue lidar com perguntas complicadas, desde fazer planos de viagem até discutir eventos históricos. Ele também mostra uma boa habilidade de entender tarefas que nunca viu durante o treinamento.
Em testes onde as pessoas compararam as Respostas do LIMA com as de outros modelos avançados, as respostas do LIMA foram tão boas ou até melhores em muitos casos. Cerca de 43% das vezes, as pessoas preferiram as respostas do LIMA em relação ao GPT-4, outro modelo líder. Esse número aumenta quando comparado com outros modelos, sugerindo que o LIMA consegue competir de forma eficaz com sistemas mais complexos enquanto usa menos recursos.
Importância do Pré-treinamento
Modelos de linguagem como o LIMA dependem muito da primeira etapa de treinamento, onde eles aprendem conhecimento geral. Essa etapa ensina o modelo a prever a próxima palavra em uma frase com base nas palavras anteriores. Por causa desse pré-treinamento, o LIMA consegue se adaptar a muitas tarefas sem precisar de um grande volume de dados de treinamento adicionais.
Às vezes, outros modelos precisam de muitos exemplos pra atingir um nível similar de eficácia. O LIMA desafia essa ideia ao mostrar que uma abordagem focada usando só alguns exemplos pode resultar em bons resultados.
Fontes de Dados para Treinamento
Pra criar os 1.000 exemplos de treinamento do LIMA, os pesquisadores coletaram dados de vários fóruns online. Eles reuniram 750 exemplos de duas fontes principais: Stack Exchange e wikiHow. O restante veio de escrita manual, garantindo que os exemplos cobrissem uma ampla gama de perguntas e tópicos.
Stack Exchange: Uma plataforma online onde especialistas respondem perguntas sobre vários assuntos, principalmente em ciência e tecnologia. As respostas foram escolhidas pela qualidade e relevância.
wikiHow: Este site tem muitos artigos sobre como fazer as coisas. O modelo usou os títulos desses artigos como prompts e o conteúdo como respostas.
Reddit: Respostas do Reddit foram selecionadas com cuidado, focando em contribuições que fossem úteis em vez de engraçadas ou fora do tópico.
Exemplos Criados Manualmente: A equipe também escreveu seus próprios exemplos pra garantir que houvesse variedade suficiente no conjunto de dados.
Treinamento e Ajuste Fino do LIMA
O LIMA foi treinado usando um processo básico de ajuste fino. Ele começou a partir de um modelo já estabelecido, e ajustes foram feitos com base nos 1.000 exemplos coletados. Cada resposta foi marcada com tokens especiais pra diferenciar entre o usuário e o assistente, tornando a interação mais clara.
Os pesquisadores seguiram métodos de treinamento padrão, como usar uma taxa de aprendizado e tamanho de lote específicos. Eles monitoraram como o modelo se saiu e ajustaram a abordagem de treinamento conforme necessário.
Avaliando o Desempenho do LIMA
Pra ver como o LIMA se sai, os pesquisadores compararam suas saídas com as de outros modelos líderes. Pediram para as pessoas avaliarem as respostas e escolheram a saída do LIMA quando era preferida ou igualmente boa. Eles também testaram a capacidade do LIMA de lidar com conversas do mundo real e descobriram que o modelo conseguia participar de discussões, fazendo referências a partes anteriores da conversa.
Resultados da Avaliação
Em uma série de testes, o LIMA mostrou que conseguia gerar respostas impressionantes sem precisar de muitos exemplos de prompt. Cerca de 50% das saídas do LIMA foram consideradas excelentes pelos avaliadores. O modelo seguiu os requisitos do prompt em 88% dos casos.
Quando olham pra modelos treinados com muito mais exemplos, como 52.000 prompts, o LIMA muitas vezes se saiu igual ou melhor em comparações diretas. Isso demonstra que dados de treinamento de alta qualidade podem efetivamente substituir grandes quantidades de dados.
Performance Fora da Distribuição
O LIMA também foi testado em tarefas que eram completamente novas pra ele. Nessas provas, ele se saiu comparativamente ao que fez com os exemplos que foi treinado. O modelo lidou com cerca de 45% dessas novas tarefas perfeitamente, sugerindo que ele pode generalizar seu conhecimento bem.
Conversas de Várias Interações
Outro recurso interessante do LIMA é sua capacidade de participar de conversas de várias interações, o que é complicado pra um modelo treinado principalmente em interações de uma só vez. Depois de adicionar exemplos especificamente elaborados pra conversas, o LIMA melhorou bastante. Sua capacidade de fazer respostas coerentes aumentou, mostrando que até um número pequeno de exemplos adicionais pode aprimorar a performance.
Conclusão
Em resumo, o LIMA mostra que uma abordagem focada ao treinar modelos de linguagem pode dar resultados fortes. Ao confiar em exemplos de alta qualidade em vez de um montão de dados, o LIMA consegue entender e gerar linguagem de forma eficaz. Isso reforça a ideia de que ter um conjunto de treinamento bem preparado é mais valioso do que simplesmente ter muitos dados.
O LIMA é um passo importante, enfatizando o potencial de criar modelos de linguagem efetivos com menos esforço e recursos, mantendo uma alta performance. Os achados do LIMA podem levar a novos métodos pra desenvolver e afinar modelos de linguagem no futuro, tornando a tecnologia mais acessível e eficiente.
Título: LIMA: Less Is More for Alignment
Resumo: Large language models are trained in two stages: (1) unsupervised pretraining from raw text, to learn general-purpose representations, and (2) large scale instruction tuning and reinforcement learning, to better align to end tasks and user preferences. We measure the relative importance of these two stages by training LIMA, a 65B parameter LLaMa language model fine-tuned with the standard supervised loss on only 1,000 carefully curated prompts and responses, without any reinforcement learning or human preference modeling. LIMA demonstrates remarkably strong performance, learning to follow specific response formats from only a handful of examples in the training data, including complex queries that range from planning trip itineraries to speculating about alternate history. Moreover, the model tends to generalize well to unseen tasks that did not appear in the training data. In a controlled human study, responses from LIMA are either equivalent or strictly preferred to GPT-4 in 43% of cases; this statistic is as high as 58% when compared to Bard and 65% versus DaVinci003, which was trained with human feedback. Taken together, these results strongly suggest that almost all knowledge in large language models is learned during pretraining, and only limited instruction tuning data is necessary to teach models to produce high quality output.
Autores: Chunting Zhou, Pengfei Liu, Puxin Xu, Srini Iyer, Jiao Sun, Yuning Mao, Xuezhe Ma, Avia Efrat, Ping Yu, Lili Yu, Susan Zhang, Gargi Ghosh, Mike Lewis, Luke Zettlemoyer, Omer Levy
Última atualização: 2023-05-18 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.11206
Fonte PDF: https://arxiv.org/pdf/2305.11206
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.