Avanços no Ajuste Fino de Modelos de Linguagem com o GPT-4
Pesquisas mostram que o GPT-4 melhora o ajuste fino de modelos de linguagem com dados gerados por máquina.
― 7 min ler
Índice
Pesquisas recentes mostraram que ajustar modelos de linguagem grandes (LLMs) com dados gerados por máquinas pode melhorar muito a habilidade deles de realizar novas tarefas sem precisar de instruções feitas por humanos. Este artigo fala sobre uma tentativa inicial de usar o GPT-4 para criar esses dados de seguimento de instruções para ajustar LLMs. Nossos testes iniciais em modelos LLaMA ajustados com esses dados mostram que o desempenho deles em novas tarefas é melhor do que os treinados com dados de modelos mais antigos.
A gente também coletou feedback do GPT-4 para avaliar os dados gerados e melhorar o processo de treinamento. Nossos dados gerados e o código que usamos vão ser disponibilizados ao público para incentivar mais desenvolvimentos nessa área.
Contexto sobre Modelos de Linguagem
Modelos de linguagem grandes têm se tornado cada vez melhores em generalizar conhecimento para lidar com várias tarefas. Eles conseguem aprender com o contexto e seguir instruções. Para ajudar esses modelos a completar tarefas específicas com base em instruções em linguagem natural, os pesquisadores têm trabalhado em métodos de ajuste de instruções. Esses métodos geralmente envolvem o ajuste do modelo usando prompts gerados por humanos ou conjuntos de dados já existentes que incluem uma variedade de tarefas.
Um método eficaz é o ajuste Self-Instruct, que permite que um modelo aprenda com dados de seguimento de instruções criados por outros modelos avançados. Essa direção de pesquisa mostra grande promessas em melhorar a habilidade dos LLMs de generalizar e se adaptar a novas instruções com pouco ou nenhum treinamento na tarefa específica.
Com o sucesso de plataformas como ChatGPT e GPT-4, há uma nova chance de aprimorar LLMs de código aberto através do ajuste de instruções. O LLaMA é uma série desses modelos de código aberto que podem performar comparavelmente a modelos proprietários como o GPT-3. Para criar habilidades de seguimento de instruções no LLaMA, o ajuste Self-Instruct ganhou popularidade por ser eficaz e acessível.
Ajuste de Instruções com GPT-4
Neste artigo, a gente propõe usar o GPT-4 como fonte para criar dados de seguimento de instruções para ajuste de LLM. Nossas contribuições incluem a geração de um conjunto de dados com 52.000 amostras de seguimento de instruções tanto em inglês quanto em chinês, além de dados de feedback gerados pelo GPT-4 para avaliar o desempenho de diferentes modelos.
Processo de Geração de Dados
Nosso conjunto de dados é baseado em 52.000 instruções únicas de um conjunto de dados anterior chamado Alpaca. Cada instrução descreve uma tarefa para o LLM. Para gerar saídas para essas instruções, usamos o GPT-4. Também traduzimos as instruções para o chinês e obtivemos respostas nesse idioma para estudar quão bem os LLMs conseguem generalizar entre idiomas.
Além disso, coletamos dados de comparação onde o GPT-4 avaliava suas próprias respostas e as de vários modelos. Esses dados ajudam a treinar modelos de recompensa que avaliam a qualidade das saídas geradas por diferentes modelos.
Treinamento e Avaliação de Modelos
Treinamos dois modelos usando o ponto de verificação LLaMA 7B. Um modelo usou dados de seguimento de instruções em inglês gerados pelo GPT-4, enquanto o outro usou dados em chinês. Isso nos permitiu avaliar a qualidade da saída do GPT-4 e como os modelos se saem entre os idiomas.
Para avaliar os modelos, adotamos um método chamado Aprendizado por Reforço a partir do Feedback Humano (RLHF). Essa abordagem visa melhorar os LLMs alinhando seu comportamento com o que os humanos preferem. O modelo de recompensa prediz uma pontuação com base em quão bem a resposta de um modelo se alinha com as expectativas humanas.
Resultados Experimentais
Avaliar LLMs é conhecido por ser desafiador. No nosso estudo, nos concentramos em testar os modelos ajustados por self-instruct usando dados do GPT-4 em instruções não vistas. Utilizamos três principais conjuntos de dados para avaliação que incluíam uma mistura de aplicações práticas, perguntas desafiadoras e conjuntos de instruções não naturais.
Avaliação Humana
Para avaliar o quanto nossos modelos estão alinhados com os valores humanos, seguimos três critérios: utilidade, honestidade e inocuidade. Utilidade refere-se a se o modelo ajuda efetivamente os usuários a atingirem seus objetivos. Honestidade verifica se o modelo fornece informações precisas e comunica incertezas. Inocuidade avalia se o modelo evita gerar conteúdo prejudicial.
Usando o Amazon Mechanical Turk, fizemos avaliações humanas das saídas dos nossos modelos com base nesses critérios. Os resultados mostraram que os modelos ajustados com o GPT-4 geralmente se saíram melhor, especialmente em utilidade, em comparação com os ajustados com modelos anteriores.
Avaliação Automática
A gente também usou o GPT-4 para avaliar automaticamente as respostas de vários modelos em um conjunto de perguntas desafiadoras. Cada resposta de modelo foi avaliada em uma escala de 1 a 10. Comparamos todos os modelos para ver como eles se saíram, focando nos modelos LLaMA ajustados com o GPT-4.
Os resultados mostraram que o modelo LLaMA, que foi ajustado usando dados do GPT-4, muitas vezes superou aqueles treinados com versões anteriores do GPT. Contudo, foi notado que ainda havia uma diferença de desempenho em comparação com modelos comerciais maiores, como o GPT-4.
Descobertas sobre Geração de Linguagem
Nas nossas comparações, também examinamos o desempenho dos modelos ao responder em chinês. Traduções das respostas em inglês para o chinês mostraram que as respostas geradas ficaram atrás das traduções do GPT-4. Essa discrepância indica a necessidade de mais dados de treinamento em idiomas além do inglês.
Além disso, analisamos quão bem os modelos lidavam com instruções não naturais, que são feitas para desafiar modelos de linguagem. Os resultados mostraram que, enquanto o LLaMA-GPT4 e o GPT-4 se saíram bem, ainda havia espaço para melhorias, especialmente na produção de respostas coerentes para instruções mais complexas.
Implicações Mais Amplas
Nosso trabalho ilustra a eficácia do ajuste de instruções com o GPT-4. As 52.000 amostras de seguimento de instruções em inglês e chinês, junto com os modelos treinados, visam beneficiar o avanço dos LLMs de código aberto. Esses modelos podem representar melhor a intenção humana e cumprir tarefas através de um seguimento de instruções eficaz.
A gente reconhece que isso representa uma pesquisa em andamento e que existem muitas avenidas futuras a serem exploradas. Por exemplo, aumentar o tamanho do conjunto de dados e dos modelos poderia levar a um desempenho melhor. Nossas descobertas também sugerem que usar dados de comparação gerados pelo GPT-4 poderia aprimorar ainda mais o treinamento de LLMs.
Conclusão
Resumindo, a pesquisa demonstra como ajustar modelos de linguagem usando dados de seguimento de instruções gerados por máquinas pode trazer melhorias significativas no desempenho em novas tarefas. Ao utilizar o GPT-4 para geração de dados, criamos recursos valiosos para o desenvolvimento de LLMs de código aberto mais capazes. Conforme o campo evolui, esperamos que essas ideias e recursos sirvam como uma base para o progresso contínuo no alinhamento dos LLMs com os valores humanos e na melhoria de sua utilidade no mundo real.
Título: Instruction Tuning with GPT-4
Resumo: Prior work has shown that finetuning large language models (LLMs) using machine-generated instruction-following data enables such models to achieve remarkable zero-shot capabilities on new tasks, and no human-written instructions are needed. In this paper, we present the first attempt to use GPT-4 to generate instruction-following data for LLM finetuning. Our early experiments on instruction-tuned LLaMA models show that the 52K English and Chinese instruction-following data generated by GPT-4 leads to superior zero-shot performance on new tasks to the instruction-following data generated by previous state-of-the-art models. We also collect feedback and comparison data from GPT-4 to enable a comprehensive evaluation and reward model training. We make our data generated using GPT-4 as well as our codebase publicly available.
Autores: Baolin Peng, Chunyuan Li, Pengcheng He, Michel Galley, Jianfeng Gao
Última atualização: 2023-04-06 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2304.03277
Fonte PDF: https://arxiv.org/pdf/2304.03277
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://github.com/goodfeli/dlbook_notation
- https://instruction-tuning-with-gpt-4.github.io/
- https://github.com/Instruction-Tuning-with-GPT4/GPT4-LLaMA
- https://arxiv.org/abs/2112.00861
- https://github.com/yizhongw/self-instruct/blob/main/human_eval/user_oriented_instructions.jsonl
- https://github.com/lm-sys/FastChat/blob/main/fastchat/eval/table/question.jsonl
- https://github.com/orhonovich/unnatural-instructions