Modelos de Linguagem Grande e Tomada de Decisão Tipo Humano
Esse estudo analisa se modelos de linguagem tomam decisões como humanos em cenários estratégicos.
― 11 min ler
Índice
- Contexto
- Objetivos deste Artigo
- Trabalhos Relacionados
- Os LLMs Preferem Estratégias com Base em Valor?
- Método Experimental
- Resultados: Preferência Baseada em Valor
- Efeitos do Tamanho do Modelo
- Por que Solar e Mistral Não São Frágeis?
- Os LLMs Têm Preferência Semelhante à dos Humanos no Dilema do Prisioneiro?
- Método Experimental
- Resultados: Preferência do LLM no Dilema do Prisioneiro
- Os LLMs Têm Preferência Semelhante à dos Humanos no Dilema do Viajante?
- Desvio Humano do Equilíbrio de Nash
- Método Experimental
- Resultados: Preferência do LLM no Dilema do Viajante
- Conclusões
- Trabalhos Futuros
- Fonte original
- Ligações de referência
Neste estudo, a gente vê se Modelos de linguagem grandes (LLMs) fazem escolhas parecidas com as dos humanos em situações estratégicas. A gente compara esses modelos com o que sabemos sobre como as pessoas reais se comportam. Descobrimos que modelos chamados Solar e Mistral mostram Preferências que se alinham com as dos humanos em situações conhecidas como o dilema do prisioneiro e o dilema do viajante. A gente também analisa como o tamanho do modelo influencia essas preferências e descobre que modelos maiores são geralmente melhores em tomar Decisões estáveis. Além disso, apresentamos um novo método para descobrir como esses modelos classificam suas preferências com base em vários fatores.
Contexto
Os LLMs como Solar e Mistral têm sido muito bem-sucedidos em realizar uma ampla gama de tarefas desde que apareceram. No entanto, a maioria dos estudos sobre esses modelos foca em tarefas de teste tradicionais. Tem menos investigações sobre como esses modelos pensam ou se comportam de maneiras que são parecidas com os humanos. Esse tipo de análise é importante para integrar os LLMs em aplicações que envolvem interação humana.
Para ilustrar por que essa análise é importante, pense numa pessoa carregando uma caixa pesada pedindo ajuda a alguém. O ajudante decide rapidamente como ajudar, com base em suas próprias preferências sobre como aplicar força da melhor maneira. A pessoa precisando de ajuda confia na capacidade do ajudante de fazer uma boa escolha sem precisar de muitos detalhes.
Atualmente, um robô teria dificuldade em escolher a melhor estratégia para ajudar, a menos que tenha sido programado especificamente com preferências claras. No nosso trabalho futuro, queremos usar LLMs para melhorar como humanos e robôs se comunicam. Para que isso aconteça, os LLMs precisam ter preferências que sejam parecidas com as dos humanos.
Além disso, aplicações que envolvem interação humana exigem que o comportamento dos LLMs permaneça estável, mesmo que a situação mude um pouco. Estudos recentes mostraram que alguns modelos de linguagem não respondem de forma consistente a pequenas mudanças. Para melhorar isso, usamos um método chamado PopulationLM para criar grupos de modelos para testes.
Objetivos deste Artigo
O objetivo deste artigo é descobrir se algum modelo de linguagem de código aberto apresenta preferências humanas estáveis. Criamos diferentes grupos de modelos e testamos suas habilidades de tomada de decisão em várias situações. Usar modelos de código aberto permite que outros reproduzam nossas descobertas, enquanto modelos de código fechado podem mudar inesperadamente, tornando resultados anteriores não confiáveis.
Primeiro, checamos se os modelos de linguagem têm preferências com base em valores atribuídos às suas escolhas. A partir daí, encontramos modelos que valem uma análise mais aprofundada. Testamos esses modelos em duas versões do dilema do prisioneiro: uma com altas apostas e outra com baixas apostas. Também avaliamos eles em cenários relacionados ao dilema do viajante com diferentes tamanhos de penalidade.
Nossas principais descobertas são:
- Alguns LLMs, especificamente Solar e Mistral, mostram preferências estáveis que se assemelham a decisões humanas.
- Modelos menores costumam basear suas escolhas em pistas superficiais.
- Modelos maiores dependem menos de informações superficiais.
- Alguns grandes modelos que mostram preferências estáveis ainda podem ser inconsistentes.
- Coletamos evidências que ajudam a explicar por que os humanos muitas vezes se desviam do equilíbrio esperado no dilema do viajante.
Como parte da nossa pesquisa, também criamos novos conjuntos de dados para cada cenário e introduzimos um método para determinar preferências a partir de grupos de LLMs.
Trabalhos Relacionados
Estudos anteriores envolveram modelos GPT-3.5 e GPT-4 em diversos jogos, incluindo o dilema do prisioneiro. Descobriram que esses modelos reagiam de forma severa à traição, mas eram inicialmente Cooperativos. Uma vez traídos, não optavam por cooperar novamente, mesmo se seu oponente mostrasse cooperação depois.
Outros estudos descobriram que GPT-3.5 e GPT-4 tinham dificuldade em manter suas crenças consistentes, tornando-os menos adequados para experimentos de ciências sociais. Pesquisas adicionais envolveram modelos como GPT-4 e Claude em jogos sociais com desinformação, utilizando um método para ajudá-los a raciocinar em situações complexas.
Embora muitos pesquisadores tenham olhado para o comportamento dos LLMs em jogos, seu foco é diferente do nosso. Nosso trabalho se interessa especificamente pela estabilidade das preferências dos modelos e como elas são afetadas por mudanças nas apostas ou penalidades. Além disso, usamos estritamente modelos de código aberto, o que permite uma medição mais confiável das preferências em comparação com estudos que usaram modelos fechados.
Estratégias com Base em Valor?
Os LLMs PreferemPesquisas mostram que GPT-3.5 e GPT-4 tendem a preferir estratégias de maior valor. No entanto, não está claro se outros modelos se comportam de maneira semelhante. Se um modelo mostrar preferências baseadas em valor, queremos saber quão confiáveis essas preferências são em diferentes circunstâncias. Perguntamos: os LLMs tendem a ter preferências com base em valores atribuídos às estratégias?
Método Experimental
Para responder a essa pergunta, criamos um prompt com três estratégias rotuladas como A1, A2 e A3, cada uma atribuída a um valor de 5, 10 ou 20 pontos. O modelo é solicitado a fornecer uma classificação de probabilidade para cada estratégia com base em uma palavra de avaliação consistente. Repetimos isso com diferentes prompts para garantir que capturamos várias preferências, resultando em 36 prompts únicos e 108 consultas de modelo.
Também avaliamos se modelos com preferências baseadas em valor mostram consistência ao serem considerados com diferentes palavras de avaliação de sentimento, tanto positivas quanto negativas.
Para verificar a influência de variações nas preferências do modelo, usamos PopulationLM para criar grupos de modelos que diferem em arquitetura, tamanho ou treinamento. Isso nos ajuda a avaliar se o comportamento de preferência permanece consistente entre diferentes variantes.
Por fim, examinamos como o tamanho do modelo afeta as preferências baseadas em valor e se modelos menores tendem a se inclinar para pistas superficiais.
Resultados: Preferência Baseada em Valor
Com base em nossos experimentos, apenas alguns modelos mostram preferências estáveis baseadas em valor. Entre os modelos com resultados positivos, Solar e Mistral mostraram a correlação mais forte entre a probabilidade de avaliação e o valor da estratégia. Modelos como Gemma e Llama-2, apesar de alguma correlação, não mostraram preferências consistentes.
Efeitos do Tamanho do Modelo
Nossa análise revela que modelos maiores tendem a preferir estratégias de maior valor. Parece haver uma conexão entre o tamanho do modelo e a capacidade de aprender preferências baseadas em valores, embora o tamanho sozinho não seja suficiente para garantir essa habilidade.
Descobrimos que modelos menores tendem a basear suas estratégias em pistas superficiais, enquanto modelos maiores mostraram uma sensibilidade menor a essas pistas. Além disso, parece que grupos de modelos tendem a depender menos de rótulos superficiais em comparação com seus modelos base.
Por que Solar e Mistral Não São Frágeis?
Da nossa pesquisa, vemos que Solar supera todos os outros modelos em fazer julgamentos de preferências baseadas em valor de forma estável, seguido de perto pelo Mistral. Enquanto modelos como Gemma e Llama-2 mostram preferências baseadas em valor semelhantes, tendem a ser frágeis, significando que seu desempenho varia significativamente com pequenas mudanças.
A história de treinamento desses modelos oferece algumas perspectivas. Mistral foi projetado para construir sobre a arquitetura do Llama-2, melhorando seu desempenho. Solar então levou isso um passo adiante ao aumentar suas camadas, o que contribuiu para seu forte desempenho.
Em contraste, Gemma, embora treinada em mais tokens que Llama-2, luta com a estabilidade. Hipotetizamos que as abordagens de treinamento únicas, especialmente os mecanismos de atenção usados, desempenham um papel significativo no desempenho dos modelos.
Os LLMs Têm Preferência Semelhante à dos Humanos no Dilema do Prisioneiro?
Dado que alguns LLMs mostram preferências estáveis baseadas em valor, queremos saber se essas preferências refletem decisões humanas em situações clássicas de jogos, como o dilema do prisioneiro. Nesse jogo, os jogadores escolhem entre cooperação e traição, com resultados específicos para cada escolha.
Estudos anteriores indicam que os humanos costumam escolher cooperar, especialmente quando as apostas são baixas, enquanto se traem mais em apostas mais altas.
Método Experimental
Para avaliar isso, projetamos uma versão de baixo risco e uma de alto risco do dilema do prisioneiro, enquadrando-as em cenários relacionáveis. Criamos prompts para ambos os cenários e realizamos avaliações semelhantes usando a técnica de prompting contrafactual, como descrito anteriormente.
Resultados: Preferência do LLM no Dilema do Prisioneiro
Nossas descobertas mostram que em cenários de baixo risco, modelos como Solar, Mistral e Llama-2 preferem estratégias cooperativas. No entanto, em cenários de alto risco, todos os modelos mostram alguma preferência por traição, embora possam não abraçar completamente o interesse próprio.
Curiosamente, o modelo Gemma mostrou incerteza em suas preferências na versão de baixo risco.
No geral, os resultados indicam que LLMs auto-consistentes e estáveis, com preferências baseadas em valor, refletem de perto as preferências humanas no dilema do prisioneiro, particularmente em relação ao efeito do tamanho das apostas.
Os LLMs Têm Preferência Semelhante à dos Humanos no Dilema do Viajante?
A seguir, olhamos para o dilema do viajante, outro jogo projetado para destacar como os humanos muitas vezes se desviam das previsões padrão na teoria dos jogos. Nesse cenário, duas pessoas estranhas com itens idênticos enfrentam penalidades por supervalorizarem ao reivindicar compensação por itens quebrados.
Desvio Humano do Equilíbrio de Nash
A teoria dos jogos sugere que jogadores racionais escolherão certos números nesse contexto. No entanto, estudos mostraram que as pessoas costumam selecionar valores mais baixos do que o esperado, indicando uma preferência mais cooperativa, mesmo quando os incentivos sugerem o contrário.
Método Experimental
Realizamos testes usando grupos de modelos e prompting contrafactual novamente, focando em cotações próximas ao equilíbrio de Nash sob diferentes condições de penalidade.
Resultados: Preferência do LLM no Dilema do Viajante
Ao examinar os efeitos das penalidades, descobrimos que os modelos Solar e Mistral mostram indiferença entre duas escolhas em penalidades mais baixas. No entanto, à medida que as penalidades aumentam, sua preferência começa a se inclinar para o valor mais baixo.
Nossos resultados implicam que modelos não frágeis com preferências baseadas em valor exibem uma sensibilidade ao tamanho da penalidade no dilema do viajante, o que ecoa descobertas no comportamento humano.
Conclusões
Resumindo, esta pesquisa avalia como os LLMs preferem estratégias baseadas em valores atribuídos, controlando heurísticas superficiais. Encontramos uma conexão entre preferências estáveis e tamanho do modelo, bem como o número de tokens de treinamento. Solar e Mistral emergem como fortes candidatos para aplicações envolvendo interação humana devido à sua capacidade de modelar preferências estratégicas que se alinham de perto com o comportamento humano.
Embora este trabalho ajude a iluminar o comportamento dos LLMs em contextos estratégicos, reconhecemos que nem todos os cenários podem resultar em preferências semelhantes às dos humanos. No entanto, os insights obtidos aqui abrem caminho para mais pesquisas sobre a aplicação dos LLMs em situações do mundo real.
Trabalhos Futuros
Estudos futuros devem considerar as potenciais influências da estrutura sobre os resultados, bem como a natureza não transitiva das relações de preferência. Compreender essas nuances melhorará nossa capacidade de trabalhar com LLMs em aplicações que exigem um entendimento da tomada de decisão semelhante à humana.
Afinal, à medida que continuamos a investigar, podemos descobrir mais complexidades sobre como esses modelos aprendem e se comportam em configurações estratégicas, fornecendo insights inestimáveis para sua integração em domínios centrados no humano.
Título: Do Large Language Models Learn Human-Like Strategic Preferences?
Resumo: In this paper, we evaluate whether LLMs learn to make human-like preference judgements in strategic scenarios as compared with known empirical results. Solar and Mistral are shown to exhibit stable value-based preference consistent with humans and exhibit human-like preference for cooperation in the prisoner's dilemma (including stake-size effect) and traveler's dilemma (including penalty-size effect). We establish a relationship between model size, value-based preference, and superficiality. Finally, results here show that models tending to be less brittle have relied on sliding window attention suggesting a potential link. Additionally, we contribute a novel method for constructing preference relations from arbitrary LLMs and support for a hypothesis regarding human behavior in the traveler's dilemma.
Autores: Jesse Roberts, Kyle Moore, Doug Fisher
Última atualização: 2024-10-02 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2404.08710
Fonte PDF: https://arxiv.org/pdf/2404.08710
Licença: https://creativecommons.org/licenses/by-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.