Avanços no Ajuste Fino de Modelos de Linguagem com o GPT-4

Índice

Contexto sobre Modelos de Linguagem
Ajuste de Instruções com GPT-4
Treinamento e Avaliação de Modelos
Descobertas sobre Geração de Linguagem
Implicações Mais Amplas
Conclusão
Fonte original
Ligações de referência

Pesquisas recentes mostraram que ajustar modelos de linguagem grandes (LLMs) com dados gerados por máquinas pode melhorar muito a habilidade deles de realizar novas tarefas sem precisar de instruções feitas por humanos. Este artigo fala sobre uma tentativa inicial de usar o GPT-4 para criar esses dados de seguimento de instruções para ajustar LLMs. Nossos testes iniciais em modelos LLaMA ajustados com esses dados mostram que o desempenho deles em novas tarefas é melhor do que os treinados com dados de modelos mais antigos.

A gente também coletou feedback do GPT-4 para avaliar os dados gerados e melhorar o processo de treinamento. Nossos dados gerados e o código que usamos vão ser disponibilizados ao público para incentivar mais desenvolvimentos nessa área.

Contexto sobre Modelos de Linguagem

Modelos de linguagem grandes têm se tornado cada vez melhores em generalizar conhecimento para lidar com várias tarefas. Eles conseguem aprender com o contexto e seguir instruções. Para ajudar esses modelos a completar tarefas específicas com base em instruções em linguagem natural, os pesquisadores têm trabalhado em métodos de ajuste de instruções. Esses métodos geralmente envolvem o ajuste do modelo usando prompts gerados por humanos ou conjuntos de dados já existentes que incluem uma variedade de tarefas.

Um método eficaz é o ajuste Self-Instruct, que permite que um modelo aprenda com dados de seguimento de instruções criados por outros modelos avançados. Essa direção de pesquisa mostra grande promessas em melhorar a habilidade dos LLMs de generalizar e se adaptar a novas instruções com pouco ou nenhum treinamento na tarefa específica.

Com o sucesso de plataformas como ChatGPT e GPT-4, há uma nova chance de aprimorar LLMs de código aberto através do ajuste de instruções. O LLaMA é uma série desses modelos de código aberto que podem performar comparavelmente a modelos proprietários como o GPT-3. Para criar habilidades de seguimento de instruções no LLaMA, o ajuste Self-Instruct ganhou popularidade por ser eficaz e acessível.

Ajuste de Instruções com GPT-4

Neste artigo, a gente propõe usar o GPT-4 como fonte para criar dados de seguimento de instruções para ajuste de LLM. Nossas contribuições incluem a geração de um conjunto de dados com 52.000 amostras de seguimento de instruções tanto em inglês quanto em chinês, além de dados de feedback gerados pelo GPT-4 para avaliar o desempenho de diferentes modelos.

Processo de Geração de Dados

Nosso conjunto de dados é baseado em 52.000 instruções únicas de um conjunto de dados anterior chamado Alpaca. Cada instrução descreve uma tarefa para o LLM. Para gerar saídas para essas instruções, usamos o GPT-4. Também traduzimos as instruções para o chinês e obtivemos respostas nesse idioma para estudar quão bem os LLMs conseguem generalizar entre idiomas.

Além disso, coletamos dados de comparação onde o GPT-4 avaliava suas próprias respostas e as de vários modelos. Esses dados ajudam a treinar modelos de recompensa que avaliam a qualidade das saídas geradas por diferentes modelos.

Treinamento e Avaliação de Modelos

Treinamos dois modelos usando o ponto de verificação LLaMA 7B. Um modelo usou dados de seguimento de instruções em inglês gerados pelo GPT-4, enquanto o outro usou dados em chinês. Isso nos permitiu avaliar a qualidade da saída do GPT-4 e como os modelos se saem entre os idiomas.

Para avaliar os modelos, adotamos um método chamado Aprendizado por Reforço a partir do Feedback Humano (RLHF). Essa abordagem visa melhorar os LLMs alinhando seu comportamento com o que os humanos preferem. O modelo de recompensa prediz uma pontuação com base em quão bem a resposta de um modelo se alinha com as expectativas humanas.

Resultados Experimentais

Avaliar LLMs é conhecido por ser desafiador. No nosso estudo, nos concentramos em testar os modelos ajustados por self-instruct usando dados do GPT-4 em instruções não vistas. Utilizamos três principais conjuntos de dados para avaliação que incluíam uma mistura de aplicações práticas, perguntas desafiadoras e conjuntos de instruções não naturais.

Avaliação Humana

Para avaliar o quanto nossos modelos estão alinhados com os valores humanos, seguimos três critérios: utilidade, honestidade e inocuidade. Utilidade refere-se a se o modelo ajuda efetivamente os usuários a atingirem seus objetivos. Honestidade verifica se o modelo fornece informações precisas e comunica incertezas. Inocuidade avalia se o modelo evita gerar conteúdo prejudicial.

Usando o Amazon Mechanical Turk, fizemos avaliações humanas das saídas dos nossos modelos com base nesses critérios. Os resultados mostraram que os modelos ajustados com o GPT-4 geralmente se saíram melhor, especialmente em utilidade, em comparação com os ajustados com modelos anteriores.

Avaliação Automática

A gente também usou o GPT-4 para avaliar automaticamente as respostas de vários modelos em um conjunto de perguntas desafiadoras. Cada resposta de modelo foi avaliada em uma escala de 1 a 10. Comparamos todos os modelos para ver como eles se saíram, focando nos modelos LLaMA ajustados com o GPT-4.

Os resultados mostraram que o modelo LLaMA, que foi ajustado usando dados do GPT-4, muitas vezes superou aqueles treinados com versões anteriores do GPT. Contudo, foi notado que ainda havia uma diferença de desempenho em comparação com modelos comerciais maiores, como o GPT-4.

Descobertas sobre Geração de Linguagem

Nas nossas comparações, também examinamos o desempenho dos modelos ao responder em chinês. Traduções das respostas em inglês para o chinês mostraram que as respostas geradas ficaram atrás das traduções do GPT-4. Essa discrepância indica a necessidade de mais dados de treinamento em idiomas além do inglês.

Além disso, analisamos quão bem os modelos lidavam com instruções não naturais, que são feitas para desafiar modelos de linguagem. Os resultados mostraram que, enquanto o LLaMA-GPT4 e o GPT-4 se saíram bem, ainda havia espaço para melhorias, especialmente na produção de respostas coerentes para instruções mais complexas.

Implicações Mais Amplas

Nosso trabalho ilustra a eficácia do ajuste de instruções com o GPT-4. As 52.000 amostras de seguimento de instruções em inglês e chinês, junto com os modelos treinados, visam beneficiar o avanço dos LLMs de código aberto. Esses modelos podem representar melhor a intenção humana e cumprir tarefas através de um seguimento de instruções eficaz.

A gente reconhece que isso representa uma pesquisa em andamento e que existem muitas avenidas futuras a serem exploradas. Por exemplo, aumentar o tamanho do conjunto de dados e dos modelos poderia levar a um desempenho melhor. Nossas descobertas também sugerem que usar dados de comparação gerados pelo GPT-4 poderia aprimorar ainda mais o treinamento de LLMs.

Conclusão

Resumindo, a pesquisa demonstra como ajustar modelos de linguagem usando dados de seguimento de instruções gerados por máquinas pode trazer melhorias significativas no desempenho em novas tarefas. Ao utilizar o GPT-4 para geração de dados, criamos recursos valiosos para o desenvolvimento de LLMs de código aberto mais capazes. Conforme o campo evolui, esperamos que essas ideias e recursos sirvam como uma base para o progresso contínuo no alinhamento dos LLMs com os valores humanos e na melhoria de sua utilidade no mundo real.

Avanços no Ajuste Fino de Modelos de Linguagem com o GPT-4

Pesquisas mostram que o GPT-4 melhora o ajuste fino de modelos de linguagem com dados gerados por máquina.

Contexto sobre Modelos de Linguagem

Ajuste de Instruções com GPT-4

Processo de Geração de Dados

Treinamento e Avaliação de Modelos

Resultados Experimentais

Avaliação Humana

Avaliação Automática

Descobertas sobre Geração de Linguagem

Implicações Mais Amplas

Conclusão

Ligações de referência

Tópicos referenciados

Avanços no Ajuste Fino de Modelos de Linguagem com o GPT-4

Pesquisas mostram que o GPT-4 melhora o ajuste fino de modelos de linguagem com dados gerados por máquina.

#Contexto sobre Modelos de Linguagem

#Ajuste de Instruções com GPT-4

#Processo de Geração de Dados

#Treinamento e Avaliação de Modelos

#Resultados Experimentais

#Avaliação Humana

#Avaliação Automática

#Descobertas sobre Geração de Linguagem

#Implicações Mais Amplas

#Conclusão

Ligações de referência

Tópicos referenciados

Contexto sobre Modelos de Linguagem

Ajuste de Instruções com GPT-4

Processo de Geração de Dados

Treinamento e Avaliação de Modelos

Resultados Experimentais

Avaliação Humana

Avaliação Automática

Descobertas sobre Geração de Linguagem

Implicações Mais Amplas

Conclusão