Avaliando a Teoria da Mente em Modelos de Linguagem
Um estudo avalia como modelos de linguagem entendem estados mentais usando tarefas de Teoria da Mente.
― 6 min ler
Teoria da Mente (ToM) é a habilidade de reconhecer e entender que outras pessoas têm seus próprios pensamentos, Crenças e emoções. Essa habilidade é essencial para uma comunicação eficaz e várias situações da vida real. Com a ascensão dos grandes modelos de linguagem, o interesse em saber se esses modelos conseguem fazer tarefas que exigem a compreensão da ToM só tem aumentado.
No passado, os pesquisadores usaram diferentes tarefas para testar a ToM em modelos de linguagem. No entanto, os resultados variaram. Alguns estudos dizem que esses modelos conseguem demonstrar ToM, enquanto outros discordam. Para contribuir com essa área, foi criado um novo conjunto de dados que permite uma avaliação profunda da ToM usando dois testes bem conhecidos, chamados teste da Sally-Anne e teste dos Smarties.
O que são os Testes da Sally-Anne e dos Smarties?
O teste da Sally-Anne envolve uma história onde um personagem (Sally) esconde um objeto em um lugar, e outro personagem (Anne) move esse objeto enquanto Sally está fora. A pergunta chave é sobre o que Sally acredita que está no lugar original, mostrando sua crença falsa.
No teste dos Smarties, uma criança vê uma caixa rotulada como Smarties. A criança acredita que Smarties estão dentro. No entanto, quando a caixa é aberta, ela contém outra coisa, como giz de cera. Depois, a criança é questionada sobre o que outra pessoa que não viu dentro da caixa acredita que está lá. Crianças por volta dos 4 anos costumam ter dificuldade com isso e assumem que a outra pessoa sabe o que elas sabem. Esse teste ajuda a ver se uma criança ou modelo consegue distinguir suas próprias crenças das dos outros.
Construindo o Conjunto de Dados
Para avaliar a ToM de forma eficaz, foi criado um conjunto de dados com 30 variações de cada teste. Essas variações incluem mudanças nos nomes, locais e objetos envolvidos. O objetivo era testar a capacidade do modelo de entender diferentes conceitos, como realidade, crença e as crenças dos outros. Diferentes tipos de perguntas foram desenhadas para várias tarefas, incluindo preencher lacunas, múltipla escolha e perguntas e respostas.
Se um modelo realmente tem uma boa ToM, ele deve se sair bem em diferentes tipos de perguntas nos dois testes.
Testando Modelos de Linguagem
Duas versões de um Modelo de Linguagem popular chamado GPT-3.5 foram testadas usando esse novo conjunto de dados. Os resultados mostraram que esses modelos tiveram dificuldades com as tarefas de ToM.
Os modelos de linguagem não conseguiram se sair bem consistentemente nas tarefas feitas para testar sua ToM. Em particular, a tarefa de completar texto teve os melhores resultados, sugerindo que a forma como as perguntas são formuladas pode influenciar muito o desempenho.
A Importância do Desenvolvimento da Linguagem
A ToM está intimamente ligada às habilidades linguísticas. As crianças começam a desenvolver ambas as habilidades por volta da mesma idade. Compreender estados mentais é frequentemente conseguido através da linguagem, porque estados mentais não podem ser observados diretamente.
Modelos de linguagem, sendo poderosos em processar e gerar linguagem, poderiam teoricamente desenvolver sua própria ToM. Testar esses modelos em tarefas de ToM poderia fornecer insights sobre como a linguagem e a compreensão de estados mentais estão relacionadas.
Aplicações da Teoria da Mente
Melhorar a ToM em modelos de linguagem é essencial para aplicações práticas. Por exemplo, se um modelo está gerando uma história, ele deve reconhecer que diferentes personagens têm crenças diferentes. Da mesma forma, um chatbot deve responder aos usuários de uma forma que considere suas emoções e perspectivas distintas, criando interações mais parecidas com as humanas.
Desafios na Pesquisa
Muitos estudos relataram resultados mistos sobre a ToM em modelos de linguagem. As inconsistências podem surgir de diferentes métodos usados para avaliar a ToM. Portanto, é essencial estruturar as tarefas de forma clara e focar em estados mentais para evitar confusões ou fatores irrelevantes.
Alguns estudos anteriores usaram exemplos que introduziam vieses ou dependiam demais de padrões linguísticos, o que poderia levar a avaliações equivocadas. Este estudo visa abordar essas questões garantindo que as tarefas avaliem diretamente a ToM sem adicionar complexidade desnecessária.
Estrutura da Tarefa
O conjunto de dados adota uma abordagem estruturada para testes. As tarefas são categorizadas em três grupos:
Tarefas Totalmente Constrangidas: Essas tarefas permitem respostas específicas, como preencher lacunas ou perguntas de verdadeiro/falso, limitando as respostas do modelo a opções pré-definidas.
Tarefas Semi-Constrangidas: Essas tarefas fornecem alguma orientação, mas permitindo mais flexibilidade. Exemplos incluem perguntas de Cadeia de Pensamento, que exigem que o modelo explique seu raciocínio.
Tarefas Abertas: Essas tarefas permitem respostas livres, incentivando respostas mais diversificadas, como em Completação de Texto.
Cada tipo de tarefa fornece diferentes insights sobre quão bem os modelos de linguagem entendem e podem se envolver em tarefas relacionadas à ToM.
Resultados dos Experimentos
Nos testes, diferentes tipos de perguntas foram usadas em vários prompts. Os modelos foram avaliados em sua capacidade de responder a perguntas relacionadas aos testes da Sally-Anne e dos Smarties.
Os resultados mostraram que, enquanto os modelos se saíram bem em algumas perguntas básicas, eles tiveram dificuldades significativas com perguntas mais complexas que perguntavam sobre as crenças dos personagens na história.
As descobertas indicaram que os modelos não conseguiam entender consistentemente a diferença entre o que eles sabem e o que outro personagem acredita.
Padrões de Erro
Analisando os erros cometidos pelos modelos, foram revelados problemas comuns. Por exemplo, os modelos às vezes presumiam que se um personagem sabia de algo, os outros também deveriam saber. Isso indica que eles não conseguiam diferenciar entre conhecimento e crença.
Além disso, quando confrontados com perguntas que exigiam raciocínio mais profundo, como entender crenças de segundo grau, os modelos frequentemente falhavam. Os resultados sugerem que os modelos careciam de uma compreensão robusta dos estados mentais, que é crucial para um bom desempenho em ToM.
Conclusão
Resumindo, esta pesquisa testou a capacidade dos modelos de linguagem de realizar tarefas que avaliam a Teoria da Mente. Os resultados destacaram limitações significativas no desempenho dos modelos em tarefas de ToM. Embora tenham demonstrado alguma compreensão, não foram confiáveis em seu desempenho geral, especialmente em perguntas complexas relacionadas a crenças.
Entender como e por que esses modelos têm dificuldades pode abrir caminhos para mais pesquisas. Estudos futuros podem explorar como diferentes formas de fazer perguntas afetam os resultados e se os modelos podem ser melhorados para imitar melhor a compreensão humana dos estados mentais.
O objetivo é estimular discussões sobre como a avaliação da ToM pode ser refinada e como os modelos de linguagem podem ser aprimorados para lidar com interações sociais complexas de forma mais eficaz.
Título: ToMChallenges: A Principle-Guided Dataset and Diverse Evaluation Tasks for Exploring Theory of Mind
Resumo: Theory of Mind (ToM), the capacity to comprehend the mental states of distinct individuals, is essential for numerous practical applications. With the development of large language models (LLMs), there is a heated debate about whether they are able to perform ToM tasks. Previous studies have used different tasks and prompts to test the ToM on LLMs and the results are inconsistent: some studies asserted these models are capable of exhibiting ToM, while others suggest the opposite. In this study, We present ToMChallenges, a dataset for comprehensively evaluating the Theory of Mind based on the Sally-Anne and Smarties tests with a diverse set of tasks. In addition, we also propose an auto-grader to streamline the answer evaluation process. We tested three models: davinci, turbo, and gpt-4. Our evaluation results and error analyses show that LLMs have inconsistent behaviors across prompts and tasks. Performing the ToM tasks robustly remains a challenge for the LLMs. In addition, our paper wants to raise awareness in evaluating the ToM in LLMs and we want to invite more discussion on how to design the prompts and tasks for ToM tasks that can better assess the LLMs' ability.
Autores: Xiaomeng Ma, Lingyu Gao, Qihui Xu
Última atualização: 2024-10-27 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2305.15068
Fonte PDF: https://arxiv.org/pdf/2305.15068
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.