Reavaliando as Avaliações de Modelos de Linguagem
A pesquisa desafia os métodos tradicionais de avaliar os valores e opiniões dos modelos de linguagem.
― 7 min ler
Índice
- Práticas de Avaliação Atuais
- A Necessidade de Mudança
- Principais Descobertas
- O que é o Teste do Compasso Político?
- Revisando Trabalhos Anteriores
- Impactos das Escolhas Forçadas
- Analisando Respostas
- O Papel da Parafraseação
- Transição para Respostas Abertas
- Conclusão: Recomendações para Melhores Avaliações
- Fonte original
- Ligações de referência
Pesquisas recentes estão focando em como avaliar os valores e opiniões de grandes Modelos de linguagem (LLMs) através de métodos como surveys e questionários. Esses estudos são motivados por preocupações sobre como esses modelos podem afetar a sociedade quando geram conteúdo para muitos usuários. No entanto, a forma como os pesquisadores avaliam LLMs atualmente muitas vezes parece artificial, porque usuários reais normalmente não interagem com esses modelos usando Perguntas formais de survey. Essa discrepância levanta uma pergunta importante: Como podemos avaliar de forma mais precisa quais valores e opiniões são expressos pelos LLMs?
Avaliação Atuais
Práticas deA maioria das avaliações existentes depende de formatos de múltipla escolha, onde os modelos são solicitados a escolher entre opções dadas. Por exemplo, estudos se baseiam em surveys como o conjunto de dados de atitudes globais do Pew ou outros focados em valores políticos. Embora esses formatos funcionem bem para respondentes humanos, eles não refletem como usuários comuns interagem com LLMs. Usuários normalmente fazem perguntas abertas em vez de fornecer uma lista de opções. Essa diferença de abordagem levanta preocupações significativas sobre como entendemos os valores e opiniões expressos pelos LLMs.
A Necessidade de Mudança
Dada a limitação dos métodos atuais, o foco principal desta pesquisa é encontrar uma forma melhor de avaliar os LLMs. Este estudo usa o Teste do Compasso Político (PCT) como um estudo de caso para ilustrar a questão. O PCT é um questionário de múltipla escolha bem conhecido que visa avaliar valores políticos. Uma revisão de trabalhos anteriores mostra que a maioria das avaliações que usam o PCT força os modelos a escolher apenas entre as opções fornecidas. No entanto, os modelos produzem Respostas diferentes quando têm a liberdade de responder.
Principais Descobertas
Fizemos cinco descobertas principais:
- Uma revisão detalhada da literatura existente mostra que a maioria dos estudos que usam o PCT restringe os modelos ao formato de múltipla escolha.
- Quando os modelos são autorizados a responder livremente, eles fornecem respostas diferentes.
- A forma como os modelos são solicitados leva a variações em suas respostas.
- As respostas diferem significativamente com base em pequenas mudanças na formulação das perguntas.
- As respostas dos modelos mudam novamente quando trocamos para um formato de resposta mais aberto.
Essas descobertas sugerem que as avaliações convencionais não são apenas limitadas, mas também instáveis, enfatizando a necessidade de novas práticas de avaliação que representem melhor as interações dos usuários.
O que é o Teste do Compasso Político?
O Teste do Compasso Político contém 62 declarações que categorizam as opiniões dos usuários sobre vários tópicos, incluindo perspectivas nacionais e globais, crenças econômicas, valores pessoais, sociedade, religião e sexo. Cada declaração permite que os respondentes escolham uma das quatro opções: "discordo fortemente", "discordo", "concordo" ou "concordo fortemente". Notavelmente, não há opção neutra.
No final do teste, os indivíduos são posicionados em dois eixos que representam suas visões econômicas (esquerda ou direita) e crenças sociais (libertária ou autoritária). Escolhemos o PCT como nosso estudo de caso porque ele é representativo dos métodos atuais de avaliação de valores e opiniões em LLMs.
Revisando Trabalhos Anteriores
Para avaliar a eficácia do PCT na avaliação de LLMs, analisamos 12 estudos que usaram este teste. A maioria desses estudos pede que os modelos escolham uma das quatro respostas do PCT para cada declaração. Alguns pesquisadores acreditam que essa escolha forçada revela a verdadeira natureza das respostas dos modelos, enquanto outros simplesmente a veem como necessária para obter resultados válidos. No entanto, a realidade é que descobertas anteriores não estabelecem de forma conclusiva quão robustas essas avaliações são, e falta teste sobre como pequenas mudanças nas solicitações impactam os resultados.
Impactos das Escolhas Forçadas
A prática de forçar LLMs a selecionar uma resposta do formato de múltipla escolha do PCT cria uma limitação artificial na capacidade do modelo de expressar seus verdadeiros valores e opiniões. Em nossos experimentos, avaliamos como a remoção e variação dessas escolhas forçadas impactam as respostas dos modelos.
Quando permitimos que os modelos respondessem sem a pressão extra de escolher um lado, descobrimos que muitos modelos ofereceram respostas inválidas. Essas respostas inválidas frequentemente mostram a incapacidade de um modelo de ter uma opinião ou representar ambos os lados de uma declaração, o que aponta para as limitações das avaliações forçadas.
Analisando Respostas
Exploramos ainda mais como diferentes métodos de solicitação afetam as respostas dos LLMs. Testamos várias estratégias para avaliar como diferentes solicitações impactaram a proporção de respostas válidas entre vários modelos. Os resultados mostram uma diferença enorme na conformidade com base em como a solicitação foi formulada. Notavelmente, alguns modelos respondem melhor a solicitações menos insistentes, enquanto outros reagem negativamente quando resultados negativos são sugeridos.
O Papel da Parafraseação
Além disso, examinamos como as respostas mudam quando reformulamos sutilmente as perguntas. Ao fazer pequenas mudanças, conseguimos observar como essas variações levaram a diferenças substanciais nos resultados. Essa falta de consistência levanta questões sobre a confiabilidade do uso de formatos de múltipla escolha para avaliar modelos.
Transição para Respostas Abertas
Para obter uma compreensão mais realista dos LLMs, fizemos a transição para um formato de resposta aberta. Em vez de fornecer múltiplas opções, encorajamos os modelos a gerar texto livre que captura sua perspectiva sobre cada proposição. Essa abordagem espelha como os usuários normalmente interagem com LLMs, permitindo uma expressão mais nuançada de opiniões.
Ao permitir que os modelos respondessem com suas próprias palavras, descobrimos que eles muitas vezes expressavam opiniões opostas em comparação com o formato de múltipla escolha. Essas mudanças nas respostas destacam que os modelos podem tendem a visões mais libertárias quando engajados em um formato aberto. Os resultados também revelaram que pequenas mudanças nas solicitações ainda podem influenciar significativamente as respostas dos modelos, indicando que mesmo em um ambiente aberto, a instabilidade existe.
Conclusão: Recomendações para Melhores Avaliações
Tanto as descobertas da pesquisa quanto os desafios teóricos sugerem que as avaliações dos valores e opiniões dos LLMs devem evoluir. Primeiro, é crucial alinhar as avaliações com os contextos em que os usuários interagem com os modelos. Isso significa se afastar de formatos forçados que não refletem a utilização do mundo real. Em segundo lugar, os pesquisadores devem realizar extensos testes de robustez para entender como pequenas mudanças na formulação ou no contexto podem impactar os resultados. Finalmente, é essencial se concentrar em fazer afirmações localizadas sobre os valores do modelo, em vez de declarações amplas e generalizadas.
No fim das contas, o estudo destaca a necessidade de métodos mais adaptáveis e reflexivos para avaliar os valores ou opiniões políticas dos LLMs. Ao adotar avaliações mais abertas, os pesquisadores podem capturar uma gama mais ampla de respostas, representando melhor as opiniões nuançadas expressas por esses modelos. Essa abordagem não só ajuda a entender melhor os LLMs, mas também contribui para abordar as preocupações sociais urgentes ligadas à sua aplicação em cenários do mundo real.
Título: Political Compass or Spinning Arrow? Towards More Meaningful Evaluations for Values and Opinions in Large Language Models
Resumo: Much recent work seeks to evaluate values and opinions in large language models (LLMs) using multiple-choice surveys and questionnaires. Most of this work is motivated by concerns around real-world LLM applications. For example, politically-biased LLMs may subtly influence society when they are used by millions of people. Such real-world concerns, however, stand in stark contrast to the artificiality of current evaluations: real users do not typically ask LLMs survey questions. Motivated by this discrepancy, we challenge the prevailing constrained evaluation paradigm for values and opinions in LLMs and explore more realistic unconstrained evaluations. As a case study, we focus on the popular Political Compass Test (PCT). In a systematic review, we find that most prior work using the PCT forces models to comply with the PCT's multiple-choice format. We show that models give substantively different answers when not forced; that answers change depending on how models are forced; and that answers lack paraphrase robustness. Then, we demonstrate that models give different answers yet again in a more realistic open-ended answer setting. We distill these findings into recommendations and open challenges in evaluating values and opinions in LLMs.
Autores: Paul Röttger, Valentin Hofmann, Valentina Pyatkin, Musashi Hinck, Hannah Rose Kirk, Hinrich Schütze, Dirk Hovy
Última atualização: 2024-06-05 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.16786
Fonte PDF: https://arxiv.org/pdf/2402.16786
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://www.politicalcompass.org/test
- https://github.com/paul-rottger/llm-values-pct
- https://www.idrlabs.com/tests.php
- https://davidrozado.substack.com/p/the-political-orientation-of-the
- https://www.politicalcompass.org/uselection2020
- https://www.washingtonpost.com/technology/2023/08/16/chatgpt-ai-political-bias-research/
- https://www.forbes.com/sites/emmawoollacott/2023/08/17/chatgpt-has-liberal-bias-say-researchers/
- https://www.politico.com/newsletters/digital-future-daily/2023/08/24/the-tricky-problem-behind-ai-bias-00112845