Avaliação do Feedback Humano em Grandes Modelos de Linguagem
Analisando a confiabilidade do feedback humano para avaliar saídas de modelos de linguagem.
― 7 min ler
Índice
- O Desafio da Avaliação
- Limitações das Notas de Preferência
- A Influência do Preconceito
- Design Experimental
- Descobertas sobre Assertividade e Complexidade
- Os Riscos do Treinamento com Feedback Humano
- Controle de Qualidade nas Avaliações
- Implicações das Descobertas
- Conclusão
- Fonte original
- Ligações de referência
Avaliar como modelos de linguagem grandes (LLMs) se saem é super importante. A galera costuma usar feedback humano como uma maneira chave de medir isso. Mas rolam questões sobre quão confiável esse feedback realmente é. O que as pessoas falam pode mostrar preconceitos pessoais e pode não refletir todos os aspectos importantes da saída do modelo.
Esse artigo vai explorar como o feedback humano é usado pra avaliar as saídas dos LLMs e como, às vezes, ele pode deixar passar informações importantes. Também vai olhar como certas características das respostas afetam essas avaliações. Por fim, vai discutir como usar feedback humano no treinamento pode mudar a forma como esses modelos respondem.
O Desafio da Avaliação
Os LLMs produzem textos que costumam ser claros e bem escritos. Por isso, avaliar as saídas deles nem sempre é simples. Em alguns casos, as respostas são melhores que os exemplos de referência. Embora isso seja um ponto bom pros LLMs, também dificulta criar um método de avaliação que funcione em todas as situações.
Tradicionalmente, a avaliação humana tem se baseado numa pontuação geral única pra avaliar a qualidade. Nesse método, as pessoas veem diferentes respostas pra mesma pergunta e dão uma nota com base na percepção de qualidade. Essa pontuação pode ser absoluta-quando as pessoas dão uma nota direta-ou relativa, onde duas respostas são comparadas entre si.
Embora a ideia de uma única nota pareça simples, ela esconde a Complexidade de como as pessoas decidem o que é uma boa resposta. Os avaliadores costumam se basear em recursos óbvios, como fluência, em vez de explorar aspectos mais complexos, como correção.
No passado, as avaliações de sistemas de geração de linguagem consideravam muitos critérios diferentes. No entanto, esses critérios costumavam ser adaptados a tarefas específicas, tornando-os difíceis de usar em modelos diferentes. Dado o rápido avanço no desempenho dos modelos, é crucial verificar se o feedback humano captura os recursos-chave que queremos nas saídas.
Limitações das Notas de Preferência
Precisamos analisar quão bem as preferências humanas representam vários tipos de erro. Pra fazer isso, definimos uma série de tipos de erro que são amplos o suficiente pra se aplicar a diferentes situações. Alguns desses tipos de erro incluem:
- Segurança: A resposta é prejudicial de alguma forma?
- Fluência: A resposta tem erros de gramática ou ortografia?
- Escopo: A resposta vai além do que o pedido pede?
- Repetição: A resposta repete coisas desnecessariamente?
- Recusa: A resposta se recusa a atender a um pedido razoável?
- Formatação: A resposta atende às diretrizes de formatação exigidas?
- Relevância: A resposta é sobre o tópico?
- Factualidade: A resposta é factualmente incorreta?
- Inconsistência: A resposta muda informações do pedido?
- Contradição: A resposta se contradiz?
Pedimos pro pessoal checar as saídas dos modelos de acordo com esses critérios. Descobrimos que as notas de preferência geralmente deixavam a desejar em áreas como factualidade. Isso significa que, embora a qualidade geral possa parecer boa, problemas importantes podem estar escondidos.
A Influência do Preconceito
As avaliações das pessoas não são moldadas só pelo conteúdo das saídas. O estilo e a Assertividade de uma resposta podem impactar muito como ela é julgada. Uma resposta confiante ou complexa pode ser vista de maneira mais favorável, mesmo que tenha erros. Isso pode ser perigoso, porque leva a uma situação onde saídas que parecem corretas são aceitas sem questionamento.
Pra testar isso, criamos saídas que variavam em assertividade e complexidade, mas mantivemos o conteúdo central parecido. Essas variações ajudam a ver se os julgamentos das pessoas mudam com base em quão assertivamente algo é dito. Descobrimos que respostas mais assertivas tendem a ter uma avaliação mais alta, independentemente da sua real correção.
Design Experimental
Pra examinar essas ideias, reunimos um grande conjunto de respostas de diferentes tarefas, incluindo resumos e descrições de produtos. Também usamos vários modelos pra produzir essas saídas, garantindo uma ampla gama de estilos e Qualidades.
Trabalhadores de forma avaliavam essas saídas com base nos nossos critérios definidos e na qualidade geral. Além disso, verificamos quão assertiva e complexa cada resposta era. Comparando essas avaliações, conseguimos ver se havia uma ligação entre assertividade, qualidade e detecção de erros.
Descobertas sobre Assertividade e Complexidade
Nossos experimentos revelaram uma relação forte entre assertividade e qualidade percebida. Uma resposta assertiva geralmente recebia uma pontuação de qualidade mais alta. A complexidade também desempenhou um papel, mas foi menos proeminente.
Curiosamente, respostas mais assertivas tendiam a ter uma taxa de erro factual maior. Isso sugere que, quando as pessoas acham que uma resposta é assertiva, podem ignorar erros. Por exemplo, uma resposta que afirma confiantemente um fato incorreto pode ser vista como confiável, simplesmente pela forma como é apresentada.
Por outro lado, quando as respostas eram dadas em um tom cauteloso e incerto, as pessoas encontravam mais erros. Isso indica que a falta de assertividade faz com que as pessoas sejam mais críticas.
Os Riscos do Treinamento com Feedback Humano
Quando modelos são treinados usando feedback humano, isso pode, sem querer, realçar traços como a assertividade. Isso acontece porque os modelos se adaptam ao que os avaliadores parecem preferir, que pode ser respostas confiantes em vez de corretas.
Nossas descobertas sugerem que treinar LLMs com base nas preferências humanas pode nem sempre levar aos melhores resultados. Se o treinamento enfatiza assertividade, as saídas podem se tornar mais confiantes, mas menos confiáveis.
Controle de Qualidade nas Avaliações
Também investigamos quão bem os trabalhadores concordam com suas avaliações. Ao coletar anotações duplicadas para saídas específicas, descobrimos que a maioria dos anotadores avaliava exemplos de distração consistentemente mais baixos que as respostas no tópico. Isso significa que eles estavam prestando atenção na tarefa.
No entanto, um achado notável foi que as pessoas às vezes tinham dificuldade em detectar inconsistências ou imprecisões factuais. A complexidade e a assertividade das respostas dificultaram a identificação desses problemas.
Implicações das Descobertas
Os resultados dessa pesquisa mostram que, enquanto o feedback humano é crucial pra treinar e avaliar modelos de linguagem, ele não é infalível. As pessoas são influenciadas pelo estilo e pela assertividade, levando a preconceitos em suas avaliações. Isso sugere que confiar apenas nas notas de preferência pode não proporcionar um quadro completo da qualidade.
À medida que os LLMs se tornam mais avançados, entender esses preconceitos se torna ainda mais crítico. Uma resposta pode parecer boa na superfície, mas pode faltar utilidade real devido a erros não reconhecidos.
Recomendamos que futuras estratégias de avaliação levem em conta os potenciais preconceitos no feedback humano. Também pode ser benéfico explorar métodos de avaliação alternativos que não dependam apenas do julgamento humano.
Conclusão
Em resumo, avaliar grandes modelos de linguagem usando feedback humano pode ser complicado. Embora o feedback possa capturar muitos aspectos da qualidade, nem sempre reflete elementos cruciais como factualidade e consistência. A assertividade e a complexidade das respostas podem distorcer as percepções de qualidade, levando a erros de julgamento.
À medida que os modelos avançam em suas capacidades, será essencial distinguir entre qualidade percebida e utilidade real. Daqui pra frente, é importante abordar essas limitações no feedback humano e continuar refinando métodos de avaliação pra garantir que os LLMs estejam realmente cumprindo seu propósito de forma eficaz.
Título: Human Feedback is not Gold Standard
Resumo: Human feedback has become the de facto standard for evaluating the performance of Large Language Models, and is increasingly being used as a training objective. However, it is not clear which properties of a generated output this single `preference' score captures. We hypothesise that preference scores are subjective and open to undesirable biases. We critically analyse the use of human feedback for both training and evaluation, to verify whether it fully captures a range of crucial error criteria. We find that while preference scores have fairly good coverage, they under-represent important aspects like factuality. We further hypothesise that both preference scores and error annotation may be affected by confounders, and leverage instruction-tuned models to generate outputs that vary along two possible confounding dimensions: assertiveness and complexity. We find that the assertiveness of an output skews the perceived rate of factuality errors, indicating that human annotations are not a fully reliable evaluation metric or training objective. Finally, we offer preliminary evidence that using human feedback as a training objective disproportionately increases the assertiveness of model outputs. We encourage future work to carefully consider whether preference scores are well aligned with the desired objective.
Autores: Tom Hosking, Phil Blunsom, Max Bartolo
Última atualização: 2024-01-16 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.16349
Fonte PDF: https://arxiv.org/pdf/2309.16349
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.