Desafios do Raciocínio Fuzzy em Modelos de Linguagem Grandes

Índice

Fonte original
Ligações de referência

O raciocínio difuso é importante porque a gente lida com informações vagas ou imprecisas no nosso dia a dia. Mas, até agora, não examinamos direito como os grandes modelos de linguagem (LLMs) conseguem lidar com esse tipo de raciocínio. Nesse estudo, apresentamos uma nova referência para raciocínio difuso, focando em Problemas Matemáticos do mundo real que incluem Quantificadores Generalizados. Nossos experimentos mostram que o raciocínio difuso ainda é um grande desafio para os LLMs. Também descobrimos que as técnicas atuais destinadas a melhorar o raciocínio nem sempre resultam em um Desempenho melhor em tarefas de lógica difusa. Curiosamente, percebemos que o desempenho dos LLMs às vezes cai à medida que seu tamanho aumenta.

Saber raciocinar bem é um fator chave para avaliar quão avançados os LLMs são. A maior parte do progresso nas Habilidades de Raciocínio foi verificada usando benchmarks matemáticos que exigem respostas claras de perguntas diretas. Em contraste, muito do pensamento humano e da tomada de decisão envolve lidar com incertezas e informações vagas.

O raciocínio difuso enfrenta incertezas e dados suaves e é bem diferente dos processos claros usados nos benchmarks existentes. Ele geralmente usa linguagem natural que não captura o conhecimento detalhado. Por exemplo, quantificadores generalizados (GQs) como "poucos" ou "a maioria" são comuns na linguagem para introduzir algum nível de vaguidade. Um problema de raciocínio difuso usando um GQ poderia ser: "Os preços do gás subiram 20% e depois a maioria em relação ao mês passado. Por que porcentagem um motorista deve reduzir o uso de gás para manter os custos iguais?" Aqui, a palavra "maioria" adiciona incerteza sobre quanto o preço subiu e requer alguma estimativa para resolver o problema.

Porém, problemas que dependem de GQs para raciocínio difuso não foram muito estudados. Alguns trabalhos existentes investigam lógica difusa probabilística para melhorar as capacidades de raciocínio. Outros estudos tentam aplicar teorias probabilísticas difusas a problemas que conectam características difusas com resultados, como a relação entre fumar muito e câncer. As metodologias usadas para definir características difusas geralmente se baseiam em dados limitados ou heurísticos e não consideram o raciocínio complexo que encontramos na vida real.

Nesta pesquisa, nosso objetivo é avaliar os desafios de raciocínio ligados a eventos difusos, que são incertos e geralmente representados por expressões difusas de GQs, como "maioria nos preços do gás." Desenvolvemos um benchmark para raciocínio difuso envolvendo quantificadores generalizados. Esse benchmark transforma problemas matemáticos do mundo real de conjuntos de dados existentes em perguntas de múltipla escolha. Essas perguntas trocam números exatos por GQs, forçando os modelos a usar tanto raciocínio típico, como cálculos matemáticos básicos, quanto raciocínio difuso para interpretar os GQs.

Nossa avaliação de vários LLMs destaca que raciocínio difuso continua sendo um desafio difícil. Notamos um efeito de escala inversa onde modelos menores têm um desempenho melhor do que os maiores em muitos casos. Além disso, métodos comuns de aprimoramento, como afinação focada para tarefas matemáticas, não melhoram o desempenho de forma consistente. Surpreendentemente, encontramos que habilidades fortes em raciocínio matemático não necessariamente preveem sucesso em nosso benchmark.

Habilidades de raciocínio-o poder de tirar conclusões do que já é conhecido-são fundamentais para a inteligência humana e essenciais para tarefas como tomada de decisão e resolução de problemas matemáticos. Recentemente, a habilidade de resolver problemas matemáticos tem ganhado atenção como uma medida de raciocínio nos LLMs. Muitos métodos foram desenvolvidos para ajudar os LLMs a resolver problemas matemáticos, incluindo designs baseados em prompts. Outros estudos sugerem construir dados especificamente para esse propósito e afinar ainda mais os modelos através de diferentes métodos para aumentar as habilidades de raciocínio. Dado que ferramentas externas são frequentemente utilizadas em tarefas de NLP, há um interesse em integrar ferramentas para melhorar o raciocínio matemático. Outra abordagem envolve usar programação para ajudar os LLMs a raciocinar melhor.

GQs são frequentemente usados em comunicação e benchmarks de NLP para sugerir proporções de satisfação. Eles também contribuem para várias falhas nos sistemas de NLP. Por isso, usar GQs é uma maneira prática de introduzir informações difusas em nossa avaliação.

As abordagens atuais para modelar lógica difusa na linguagem humana dependem de funções de mapeamento pré-definidas. Infelizmente, essas funções geralmente se baseiam em regras simples ou dados limitados, tornando-as inadequadas para os desafios complexos de raciocínio do mundo real. Em nosso trabalho, utilizamos LLMs que foram treinados com grandes quantidades de texto do mundo real para entender a vaguidade nos GQs e enfrentar problemas complexos de raciocínio matemático.

Coleta de Benchmark

Compilamos problemas de dois conjuntos de dados significativos de problemas matemáticos: GSM8K e MathQA. O GSM8K inclui problemas de matemática básica que são resolvíveis principalmente por meio de aritmética básica. O MathQA consiste em perguntas de múltipla escolha de matemática em nível GRE e GMAT. Focamos nas perguntas que contêm referências percentuais.

As etapas que seguimos para criar o benchmark são:

Identificando Perguntas Matemáticas com Percentagens: Filtramos as perguntas originais, mantendo apenas aquelas com pelo menos um valor percentual dentro de limites especificados.
Mascarando Menções Percentuais: Substituímos menções percentuais específicas por um token [MASK] para formar uma nova pergunta. Se várias porcentagens estavam presentes, as mascaramos separadamente.
Buscando Quantificadores Mais Próximos: Identificamos o GQ mais próximo com base em sua força média de um conjunto de dados de raciocínio de quantificadores onde as forças são anotadas por humanos.
Construindo a Tarefa: Fornecemos a pergunta e a resposta original para inferir qual GQ poderia substituir a informação mascarada. Essa abordagem reconhece que formular raciocínio difuso pode ser mais prático do que resolver diretamente problemas matemáticos.

Para avaliar o desempenho de forma abrangente, projetamos modos fácil e difícil com base em como as opções enganosas são apresentadas. As opções incorretas no modo fácil são os GQs enganosos mais comuns; no modo difícil, as opções incorretas são selecionadas aleatoriamente entre GQs enganosos. Montamos a pergunta original, a resposta e as escolhas através de templates.

No total, nosso benchmark consiste em 199 perguntas do GSM8K e 1.845 do MathQA. Cada pergunta tem uma média de 68,2 tokens, e os quantificadores mais comuns são "poucos", "quantidade moderada" e "pequena quantidade".

Avaliar vários LLMs em nosso benchmark tinha como objetivo responder a essas perguntas de pesquisa:

Quão eficazes são os métodos existentes destinados a melhorar o raciocínio?
Podemos observar leis de escala no desempenho?
Habilidade forte em raciocínio matemático se transfere para raciocínio difuso?

Utilizamos estratégias de decodificação gananciosa e instruções de tarefas durante nossos experimentos, realizados em GPUs de alto desempenho.

Examinamos como diferentes estratégias de mascaramento afetaram o desempenho, encontrando uma forte correlação positiva entre diferentes estratégias de tarefa. Os resultados gerais de desempenho indicaram que as tarefas de raciocínio difuso foram difíceis para os LLMs, com taxas de precisão geralmente entre 0,15 e 0,3.

Resultados

Os resultados da nossa avaliação mostraram que todos os modelos tiveram dificuldades com tarefas de raciocínio difuso, com precisão tipicamente entre 5% e 45%. Surpreendentemente, alguns modelos menores apresentaram desempenho melhor do que modelos muito maiores, como um modelo menor superando modelos maiores em precisão.

Eficácia dos Aperfeiçoamentos: Técnicas como afinação por instrução proporcionaram alguma melhoria, mas os benefícios não foram consistentes em todos os modelos. Por exemplo, um modelo sem treinamento adicional superou sua versão afinada por instrução.
Leis de Escala: Embora aumentar o tamanho dos modelos frequentemente leve a um desempenho melhor, isso não se aplica de forma universal. Na verdade, modelos maiores às vezes tiveram um desempenho pior, indicando um efeito de escala inversa para tarefas de raciocínio difuso.
Transmissão de Habilidades Matemáticas: Habilidades fortes em raciocínio matemático nem sempre se traduziram em sucesso no raciocínio difuso. Modelos que se destacaram no raciocínio preciso frequentemente lutaram com tarefas envolvendo GQs.

Conclusão

O raciocínio difuso é uma área menos explorada do raciocínio nos LLMs. Nossas descobertas indicam que as tarefas de raciocínio difuso permanecem um desafio significativo para os modelos existentes. Além disso, estratégias comuns para aprimorar habilidades de raciocínio podem não ser eficazes para tarefas de raciocínio difuso. Observamos comportamentos diversos entre os modelos ao enfrentar raciocínio difuso, sugerindo que um exame mais aprofundado dessa área poderia ser benéfico para futuros avanços.

À medida que continuamos a investigar as habilidades de raciocínio difuso, reconhecemos que os problemas que construímos podem não refletir totalmente os processos de raciocínio natural encontrados em situações da vida real. O uso de GQs é apenas um aspecto do tópico mais amplo do raciocínio difuso na linguagem.

Este trabalho abre portas para mais estudos em raciocínio difuso, o que pode levar a uma melhor compreensão de como os LLMs interagem com informações imprecisas.

Desafios do Raciocínio Fuzzy em Modelos de Linguagem Grandes

Este estudo analisa como os grandes modelos de linguagem lidam com tarefas de raciocínio vago.

Coleta de Benchmark

Resultados

Conclusão

Ligações de referência

Tópicos referenciados

Desafios do Raciocínio Fuzzy em Modelos de Linguagem Grandes

Este estudo analisa como os grandes modelos de linguagem lidam com tarefas de raciocínio vago.

#Coleta de Benchmark

#Resultados

#Conclusão

Ligações de referência

Tópicos referenciados

Coleta de Benchmark

Resultados

Conclusão