Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial# Computadores e sociedade# Interação Homem-Computador

Examinando as Limitações da IA na Simulação Humana

Esse estudo destaca os desafios que a IA enfrenta pra refletir traços psicológicos humanos.

― 6 min ler


A Luta da IA com osA Luta da IA com osTraços Humanospsicologia de cada pessoa.A IA não consegue imitar com precisão a
Índice

Modelos de linguagem grandes (LLMs) como o GPT-3.5 e o GPT-4 conseguem imitar Respostas parecidas com as humanas, o que levou os pesquisadores a questionar se esses modelos podem servir como substitutos para participantes humanos em vários estudos. O foco está em como esses modelos refletem traços psicológicos humanos quando recebem diferentes perguntas ou descrições.

Foco da Pesquisa

Os pesquisadores tentaram entender os perfis psicológicos dos LLMs fazendo-os responder questionários padronizados, mas os resultados foram mistos. Essas variações nos achados não são surpreendentes, já que é bem desafiador capturar com precisão os traços psicológicos subjacentes com base nas respostas de texto geradas pelos LLMs. Para resolver essa questão, uma abordagem científica chamada psicometria é utilizada, que mede traços e comportamentos psicológicos.

O estudo envolveu pedir ao GPT-3.5 e ao GPT-4 que adotassem várias personas e respondessem a perguntas relacionadas à Personalidade. Foram usadas duas tipos de descrições de persona: descrições genéricas, que são simplesmente feitas de traços de caráter aleatórios, e descrições específicas baseadas em dados Demográficos reais de participantes humanos.

Principais Descobertas

  1. Qualidade das Respostas: O estudo descobriu que as respostas do GPT-4 usando descrições de personas genéricas mostraram qualidades psicométricas promissoras que eram semelhantes às médias humanas. No entanto, quando detalhes demográficos específicos foram utilizados, as respostas de ambos os modelos não apresentaram propriedades psicométricas sólidas.

  2. Limitações na Simulação: No geral, a capacidade dos LLMs de simular o comportamento humano real foi considerada limitada, especialmente quando solicitados a imitar personas específicas. Os achados levantam questões sobre a Confiabilidade dos LLMs em imitar com precisão as respostas humanas em pesquisas ou testes.

Metodologia

Os pesquisadores começaram criando um template estruturado que incluía uma descrição de persona junto com perguntas de pesquisa. As descrições de persona para o primeiro conjunto eram genéricas, retiradas de um conjunto de dados conhecido como PersonaChat. Para o segundo conjunto, eles utilizaram dados de uma grande pesquisa de personalidade que coletou detalhes demográficos sobre indivíduos reais.

O conjunto de dados humanos usado no estudo foi substancial, contendo mais de meio milhão de respostas a várias perguntas relacionadas a demografia e traços de personalidade. Depois de limpar os dados para garantir a precisão, eles acabaram com cerca de 123.828 respostas utilizáveis para comparar com as respostas geradas pelos modelos de linguagem.

Processo de Análise

Para avaliar as respostas dos LLMs, várias medidas psicométricas foram aplicadas. Isso incluiu examinar quão consistentes as respostas eram internamente (confiabilidade) e se refletiam com precisão os traços de personalidade subjacentes (validade de constructo). Os pesquisadores também analisaram como as respostas dos LLMs se comparavam com aquelas obtidas de sujeitos humanos.

Exploração dos Tipos de Persona

Usando prompts de persona genéricos, a expectativa era que os LLMs produzissem respostas semelhantes às de uma população amostral geral. Por outro lado, com as personas de silício-baseadas em características demográficas específicas-, os pesquisadores esperavam respostas mais precisas alinhadas com as dos indivíduos reais descritos.

Resumo dos Resultados

  • Personas Genéricas: As respostas do GPT-4 apresentaram confiabilidade aceitável ao usar descrições de personas genéricas. Muitos traços foram consistentes com o que normalmente se esperaria de respostas humanas. No entanto, o GPT-3.5 parecia mais fraco em algumas áreas.

  • Personas de Silício: Ambos os LLMs enfrentaram dificuldades significativas quando solicitados a trabalhar com personas de silício. Os dados psicométricos mostraram baixa consistência, sugerindo que os LLMs não conseguiam refletir com precisão os traços de personalidade de indivíduos específicos.

Importância das Descrições de Persona

Os resultados mostraram que o uso de personas genéricas levou a melhores resultados para ambos os modelos, reforçando a ideia de que os LLMs se saem melhor com prompts menos específicos e mais variados. Quando solicitados a responder com base em traços demográficos específicos, os modelos falharam em produzir dados robustos. Isso indica que, embora os LLMs possam lidar bem com simulações básicas, eles têm dificuldade em aprofundar nas complexidades do comportamento humano individual.

Desafios em Psicometria

Um dos principais desafios nessa área de pesquisa é que, quando os LLMs são questionados repetidamente com as mesmas perguntas, suas respostas podem ser bastante uniformes. Esforços para ajustar certos parâmetros não melhoraram a situação. Para contornar isso, pesquisas anteriores sugeriram utilizar prompts de persona genéricos para incentivar a variação nas respostas. Essa abordagem visa evitar que os modelos se inclinem a padrões previsíveis.

Conclusão sobre as Capacidades dos LLMs

Em resumo, embora o estudo tenha encontrado alguma capacidade no GPT-4 de simular respostas semelhantes às humanas, especialmente com personas genéricas, nem o GPT-3.5 nem o GPT-4 demonstraram desempenho confiável ao usar prompts demográficos detalhados. No geral, os achados sugerem que, embora os LLMs possam replicar alguns aspectos do comportamento humano, sua eficácia em simular traços psicológicos em nível individual ainda é limitada.

Direções Futuras

Essa pesquisa abre a porta para mais explorações sobre como os LLMs podem ser refinados ou treinados para entender e replicar emoções e comportamentos humanos de forma mais eficaz. Ela enfatiza a necessidade de uma análise contínua dos dados de treinamento usados para esses modelos, visando melhorar sua compreensão de construções psicológicas complexas.

Importância para as Ciências Sociais

A capacidade dos LLMs de simular respostas humanas pode trazer grandes benefícios para a pesquisa em ciências sociais, permitindo a coleta de dados de forma econômica e abrangente. No entanto, as limitações atuais sinalizam a necessidade de uma aplicação cautelosa em estudos acadêmicos sérios. Os resultados também destacam o potencial dos LLMs para contribuir em estudos exploratórios que testam hipóteses em relação a dados humanos, oferecendo suporte adicional a várias conclusões nas ciências sociais.

Em conclusão, enquanto os LLMs mostram potencial como ferramentas para simular comportamento humano até certo ponto, ainda há um trabalho significativo a ser feito antes que possam ser considerados confiáveis para simulações precisas em nível individual. Os pesquisadores devem continuar a refinar técnicas e abordagens para entender a profundidade e a precisão desses modelos ao refletir os processos psicológicos humanos genuínos.

Fonte original

Título: Limited Ability of LLMs to Simulate Human Psychological Behaviours: a Psychometric Analysis

Resumo: The humanlike responses of large language models (LLMs) have prompted social scientists to investigate whether LLMs can be used to simulate human participants in experiments, opinion polls and surveys. Of central interest in this line of research has been mapping out the psychological profiles of LLMs by prompting them to respond to standardized questionnaires. The conflicting findings of this research are unsurprising given that mapping out underlying, or latent, traits from LLMs' text responses to questionnaires is no easy task. To address this, we use psychometrics, the science of psychological measurement. In this study, we prompt OpenAI's flagship models, GPT-3.5 and GPT-4, to assume different personas and respond to a range of standardized measures of personality constructs. We used two kinds of persona descriptions: either generic (four or five random person descriptions) or specific (mostly demographics of actual humans from a large-scale human dataset). We found that the responses from GPT-4, but not GPT-3.5, using generic persona descriptions show promising, albeit not perfect, psychometric properties, similar to human norms, but the data from both LLMs when using specific demographic profiles, show poor psychometrics properties. We conclude that, currently, when LLMs are asked to simulate silicon personas, their responses are poor signals of potentially underlying latent traits. Thus, our work casts doubt on LLMs' ability to simulate individual-level human behaviour across multiple-choice question answering tasks.

Autores: Nikolay B Petrov, Gregory Serapio-García, Jason Rentfrow

Última atualização: 2024-05-12 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.07248

Fonte PDF: https://arxiv.org/pdf/2405.07248

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes