Alinhando LLMs Abertos com Avaliação Humana
Um novo método melhora o desempenho de LLM em avaliações personalizadas com dados limitados.
Javad Seraj, Mohammad Mahdi Mohajeri, Mohammad Javad Dousti, Majid Nili Ahmadabadi
― 7 min ler
Índice
- Contribuições
- Trabalhos Relacionados
- Julgamento Eficiente em Dados
- Curadoria e Aumento de Dados
- Semente para o Conjunto de Dados de Preferências
- Abordagem de Criação de Dados Ingênuos
- Abordagem de Pool de Feedback
- Abordagem de Amostragem Eficiente
- Configuração do Experimento
- Configuração da Avaliação
- Resultados
- Conclusão
- Fonte original
- Ligações de referência
A Avaliação automática usando grandes modelos de linguagem (LLMs) tá super em alta hoje em dia. Mas, avaliar tarefas pode ser subjetivo e influenciado por vários fatores, o que complica a adaptação. Vários estudos mostram que os melhores LLMs proprietários conseguem se sair bem comparados a avaliadores humanos, mas eles costumam ter dificuldade pra ajustar as preferências com o tempo. Esse ajuste é super importante pra uma avaliação personalizada.
Tentaram várias vezes usar LLMs abertos como avaliadores, mas muitos desses não lidam bem com a questão de dados limitados. O julgamento personalizado muitas vezes vem de situações com poucos dados, que é bem comum na vida real.
Esse artigo propõe um método de Aumento de Dados pra escolher uma amostra mais efetiva a partir de dados limitados, afim de alinhar um LLM aberto com as preferências humanas. Os resultados mostram uma melhora de cerca de 7% na correlação de Pearson com um avaliador de referência em comparação ao modelo base e uma melhora de 30% no raciocínio matemático.
O processo de avaliação humana é subjetivo e pode variar muito de acordo com o humor do avaliador. Por exemplo, corrigir trabalhos de alunos pode mudar de um semestre pro outro, refletindo o estado de espírito ou a situação do professor. Essa variabilidade precisa ser considerada quando tentamos modelar ou imitar o comportamento de um avaliador.
As avaliações automáticas geralmente enfrentam limitações por causa da pequena quantidade de Feedback normalmente disponível. Isso torna importante procurar métodos de treinamento eficazes pra avaliações em situações de dados limitados.
Esse artigo mostra um jeito de alinhar um LLM aberto com um avaliador de referência em um cenário de escassez de dados, focando no julgamento personalizado em tarefas como matemática e perguntas gerais.
A avaliação baseada em LLM se tornou uma maneira escalável e econômica de avaliar textos gerados por máquinas e humanos. Os LLMs dão feedback com uma nota, indicando a qualidade.
Estudos anteriores usando LLMs proprietários como avaliadores mostraram alta correlação com os julgamentos humanos, maior rapidez e custo-benefício. Esses modelos costumam se sair bem em julgamentos estáticos, onde a pontuação é baseada em critérios fixos. No entanto, personalizar esses modelos pra preferências específicas dos avaliadores é desafiador, e eles costumam não ter um julgamento dinâmico.
Julgamento dinâmico significa a capacidade do avaliador de aprender com poucos exemplos e ajustar as políticas de avaliação ao longo do tempo, o que é crucial pra avaliação personalizada. Esse trabalho apresenta uma maneira eficaz de alinhar um LLM aberto com um avaliador de referência em um cenário de dados limitados.
A ideia é ajustar o julgamento do LLM pra que fique igual ao do juiz humano. O método proposto mostra aproximadamente 9% e 7% de correlação de Pearson a mais nas avaliações de matemática e perguntas gerais, respectivamente. Isso mostra que selecionar dados mais eficazes ajuda a abordagem a superar os métodos base.
Contribuições
- Proposta de um método pra simplificar o julgamento dinâmico pra LLMs abertos, um desafio que ainda não foi completamente abordado.
- Introdução de uma técnica pra aumentar dados visando melhorar a capacidade de raciocínio do modelo avaliador usando o método de cadeia de pensamento (CoT).
- Apresenta um método pra selecionar instâncias eficazes a partir dos julgamentos de referência, focando em reduzir o viés no modelo alinhado.
Trabalhos Relacionados
Criação de Dados Ingênuos
Diferentes métodos são usados pra criação de dados de preferências. A abordagem de criação de dados ingênua utiliza feedback direto de um juiz de referência.
LLM como Juiz
Usar LLMs como juízes ganhou atenção pela habilidade de imitar a precisão da avaliação humana. Muitos usam modelos proprietários como o GPT-4, que mostraram forte concordância com as avaliações humanas.
Alinhamento de Preferências Humanas
Os LLMs são ótimos em gerar texto, mas têm dificuldade em seguir instruções e alinhar com as expectativas humanas. O Fine-Tuning Supervisionado (SFT) se tornou um método chave pra esse alinhamento. Vários métodos surgiram baseados em aprendizado por reforço a partir de feedback humano (RLHF).
Alinhamento Eficiente em Dados
O tamanho e a qualidade dos dados têm um grande impacto no tempo e custo de treinamento dos LLMs. O uso eficiente de dados pode reduzir as iterações de treinamento. Alguns estudos focam em melhorar a qualidade dos dados filtrando os de baixa qualidade.
Julgamento Eficiente em Dados
Essa seção apresenta uma abordagem pra alinhar um LLM com um juiz de referência. Embora o foco seja em texto gerado por máquinas, isso poderia ser estendido pra texto humano também.
Curadoria e Aumento de Dados
As tarefas de avaliação exigem fortes habilidades de raciocínio pra garantir decisões justas e precisas. No entanto, estudos mostraram que LLMs como Llama-3.1-8B-Instruct não são muito eficazes como avaliadores.
Semente para o Conjunto de Dados de Preferências
Começando com um conjunto de dados de perguntas e respostas, o feedback e as notas de um juiz de referência são coletados. Esse conjunto de dados semente visa melhorar o desempenho de julgamento do LLM.
Abordagem de Criação de Dados Ingênuos
Nesse método, o LLM base gera feedback e notas para as respostas. O feedback gerado é considerado de qualidade inferior em comparação ao feedback do juiz de referência.
Abordagem de Pool de Feedback
Múltiplos pares de feedback e notas são gerados pra cada resposta usando o LLM base, aproveitando suas habilidades de raciocínio. Isso permite que o LLM produza feedback melhor.
Abordagem de Amostragem Eficiente
Esse método seleciona amostras mais eficazes do juiz de referência. Em vez de usar todo feedback, um subconjunto é escolhido com base na similaridade.
Configuração do Experimento
Descreve o tamanho dos dados criados e os conjuntos de dados de alinhamento extraídos dos conjuntos de dados de feedback. Os resultados mostram um alinhamento melhorado com o juiz de referência.
Configuração da Avaliação
A configuração experimental pra avaliar os LMs avaliadores envolve usar Pearson, Spearman e Kendall-Tau como métricas de desempenho em relação ao avaliador de referência. Os resultados são comparados entre três métodos, destacando a importância da estratégia de amostragem de dados escolhida.
Resultados
As descobertas mostram que a abordagem proposta traz melhorias significativas no alinhamento com avaliadores humanos. No entanto, o estudo é limitado pela disponibilidade de dados e foca em tarefas específicas, o que pode afetar sua aplicabilidade mais ampla.
Conclusão
Embora os LLMs tenham potencial pra avaliação automática, personalizá-los pra tarefas subjetivas em situações de dados limitados ainda é um desafio. Os métodos propostos mostram melhorias significativas e potencial pra alinhar melhor os LLMs com as avaliações humanas. Trabalhos futuros poderiam focar em expandir a gama de tarefas e aumentar a diversidade dos dados pra maior generalização.
Fonte original
Título: Optimizing Alignment with Less: Leveraging Data Augmentation for Personalized Evaluation
Resumo: Automatic evaluation by large language models (LLMs) is a prominent topic today; however, judgment and evaluation tasks are often subjective and influenced by various factors, making adaptation challenging. While many studies demonstrate the capabilities of state-of-the-art proprietary LLMs in comparison to human evaluators, they often struggle to adapt to reference evaluators over time, a requirement for achieving personalized judgment. Additionally, numerous works have attempted to apply open LLMs as judges or evaluators, but these efforts frequently overlook the limitations of working with scarce data. Personalized judgment is inherently associated with limited data scenarios, which are common in many real-world problems. Our work aims to present a data augmentation technique to select a more effective sample from limited data in order to align an open LLM with human preference. Our work achieves approximately 7% improvements in Pearson correlation with a reference judge over the baseline,and 30% improvement over the base model (Llama3.1-8B-Instruct) in the mathematical reasoning evaluation task. demonstrating that augmenting selecting more effective preference data enables our approach to surpass baseline methods.
Autores: Javad Seraj, Mohammad Mahdi Mohajeri, Mohammad Javad Dousti, Majid Nili Ahmadabadi
Última atualização: 2024-12-10 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2412.07429
Fonte PDF: https://arxiv.org/pdf/2412.07429
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.