Avaliando as Habilidades dos LLMs em Raciocínio Narrativo
Esse estudo avalia quão bem os LLMs entendem os tropos narrativos em resumos de filmes.
Hung-Ting Su, Ya-Ching Hsu, Xudong Lin, Xiang-Qian Shi, Yulei Niu, Han-Yuan Hsu, Hung-yi Lee, Winston H. Hsu
― 4 min ler
Índice
Os grandes modelos de linguagem (LLMs) deram um baita avanço em tarefas de raciocínio. Eles mandam bem em áreas como matemática, conhecimento comum e lógica quando são guiados com prompts estruturados conhecidos como prompts chain-of-thought (CoT). Mas as habilidades deles em raciocínio narrativo, que exige um pensamento mais abstrato, são menos compreendidas. Este estudo investiga como os LLMs entendem os Tropos narrativos em resumos de filmes. A gente descobriu que o desempenho dos LLMs é bem fraco nessa área.
Visão Geral da Pesquisa
A gente foca nos tropos, que são temas ou motivos recorrentes nas histórias, e avaliamos as habilidades dos LLMs em reconhecer esses tropos nos sinopses de filmes. Usamos um método chamado consulta por tropo, que questiona os LLMs sobre um tropo por vez. Essa abordagem melhorou o desempenho em 11,8 pontos na pontuação F1. Enquanto pesquisas anteriores afirmavam que CoT ajuda em tarefas de raciocínio, nosso estudo mostra que pode levar a imprecisões em contextos narrativos, o que diminui o desempenho em modelos como o GPT-4.
Desafios no Raciocínio Narrativo
O raciocínio narrativo é diferente do raciocínio factual, que depende de dados claros e deduções lógicas. Entender narrativas envolve captar temas complexos, motivações dos personagens e eventos que vão além da observação direta. Por exemplo, um tropo como "Sacrifício Heroico" não envolve só um personagem abrindo mão de tudo por uma causa maior, mas também exige perceber elementos temáticos mais profundos, como altruísmo e o valor da vida.
Conceitos Abstratos
Os tropos frequentemente exigem que os LLMs conectem ideias que não estão imediatamente ligadas, tornando mais difícil para eles tirarem conclusões significativas. Por exemplo, um personagem expressando amor pela liberdade de maneira sutil pode se conectar mais tarde a um sacrifício que eles fazem. Se os LLMs juntarem ideias aleatoriamente sem um raciocínio adequado, isso pode resultar em alucinações ou conclusões erradas.
Comparando com Tarefas Existentes
Tarefas tradicionais como raciocínio matemático e inferência de linguagem natural (NLI) exigem pensamento lógico, mas não pedem o mesmo nível de análise temática e raciocínio simbólico que entender tropos exige. As complexidades do raciocínio narrativo destacam as lacunas nas capacidades dos LLMs.
Descobertas
Quando reavaliamos os LLMs usando o conjunto de dados Trope in Movie Synopses (TiMoS), até modelos avançados como o GPT-4 tiveram dificuldades, muitas vezes performando no nível de um palpite aleatório, mesmo com os prompts CoT. Nossas descobertas enfatizam as inadequações nas habilidades dos LLMs em captar tropos de forma eficaz.
Consulta por Tropo
Ao reformular a tarefa para focar em um tropo por vez, notamos um grande aumento no desempenho. Isso sugere que os LLMs têm dificuldade em processar múltiplos conceitos ao mesmo tempo. Nossos resultados indicam que prompts mais focados são necessários para um melhor reconhecimento de tropos nos LLMs.
Limitações do Chain-of-Thought
Embora se acredite que o CoT ajude no raciocínio, descobrimos que pode, na verdade, reduzir o desempenho em certos contextos, especialmente no raciocínio narrativo. Em nossa análise, notamos que o CoT às vezes leva a alucinações e aumenta a vulnerabilidade a entradas enganosas.
Injeção Adversarial
Para investigar ainda mais essa tendência, introduzimos um método de injeção adversarial. Isso envolve embutir tokens de texto relacionados em uma sinopse sem declarar explicitamente os tropos. Nossas descobertas revelaram que, embora os LLMs possam gerar respostas corretas às vezes, eles frequentemente o fazem com raciocínio falho.
Implicações para Pesquisas Futuras
Nosso estudo destaca desafios importantes em melhorar o desempenho dos LLMs relacionados ao raciocínio narrativo. Ao focar nos tropos em resumos de filmes, vemos uma necessidade clara de uma melhor compreensão das estruturas narrativas dentro dos LLMs. Há um espaço significativo para mais exploração sobre como os LLMs podem ser refinados para compreender melhor a narrativa complexa.
Conclusão
Este trabalho reforça as lacunas críticas nos LLMs atuais quando se trata de raciocínio narrativo, especialmente em relação aos tropos. A integração de métodos de consulta focados e o refinamento das aplicações de CoT podem abrir caminho para um melhor desempenho em modelos futuros. Essas descobertas abrem novas possibilidades para aplicações mais confiáveis de LLM, trazendo à tona como enfrentar os desafios intricados do raciocínio narrativo.
Título: Unveiling Narrative Reasoning Limits of Large Language Models with Trope in Movie Synopses
Resumo: Large language models (LLMs) equipped with chain-of-thoughts (CoT) prompting have shown significant multi-step reasoning capabilities in factual content like mathematics, commonsense, and logic. However, their performance in narrative reasoning, which demands greater abstraction capabilities, remains unexplored. This study utilizes tropes in movie synopses to assess the abstract reasoning abilities of state-of-the-art LLMs and uncovers their low performance. We introduce a trope-wise querying approach to address these challenges and boost the F1 score by 11.8 points. Moreover, while prior studies suggest that CoT enhances multi-step reasoning, this study shows CoT can cause hallucinations in narrative content, reducing GPT-4's performance. We also introduce an Adversarial Injection method to embed trope-related text tokens into movie synopses without explicit tropes, revealing CoT's heightened sensitivity to such injections. Our comprehensive analysis provides insights for future research directions.
Autores: Hung-Ting Su, Ya-Ching Hsu, Xudong Lin, Xiang-Qian Shi, Yulei Niu, Han-Yuan Hsu, Hung-yi Lee, Winston H. Hsu
Última atualização: 2024-09-22 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2409.14324
Fonte PDF: https://arxiv.org/pdf/2409.14324
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.