Simple Science

Ciência de ponta explicada de forma simples

# Informática# Inteligência Artificial

Avaliando LLMs com um Novo Referencial para Problemas de Busca

Um estudo sobre como melhorar as habilidades de resolução de problemas dos LLMs usando uma nova estrutura.

― 8 min ler


Estudo de Benchmark sobreEstudo de Benchmark sobreLLMs e Problemas de Buscados LLMs.habilidades de resolução de problemasNovos métodos melhoram muito as
Índice

Modelos de Linguagem Grande (LLMs) como o GPT deram um grande passo na compreensão e processamento de linguagem. Eles conseguem lidar bem com tarefas de matemática e raciocínio, mas ainda enfrentam desafios com certos problemas que as pessoas acham fáceis de resolver. Este artigo apresenta uma nova forma de verificar como os LLMs conseguem resolver problemas de busca, que frequentemente requerem a análise de muitas soluções possíveis antes de encontrar a certa.

Criamos um novo benchmark com 11 problemas de busca únicos. Cada um desses problemas pode ser ajustado para criar vários exemplos e testar o desempenho dos LLMs. Nossos achados mostram que até os melhores modelos, como o GPT-4, têm dificuldade com essas tarefas. Eles conseguiram acertar apenas uma pequena fração dos problemas logo de cara.

Ao dar instruções para que os LLMs gerem código para resolver esses problemas, vemos uma leve melhoria no desempenho. Porém, o maior aumento vem quando usamos um método específico que desenvolvemos, que divide as tarefas em etapas gerenciáveis e testa as soluções ao longo do caminho. Esse método ajuda LLMs como o GPT-4 a se saírem melhor, alcançando mais de 57% de sucesso nessas tarefas.

O Benchmark

O benchmark que criamos consiste em vários tipos de problemas de busca. Esses problemas se dividem em cinco categorias: busca de caminho, quebra-cabeças, soma de subconjuntos, ordenação e sistemas subdeterminado. Cada categoria é dividida em diferentes tipos de problemas. O objetivo é garantir que esses problemas sejam diferentes o suficiente do que os LLMs viram durante o treinamento, para que eles realmente tenham que pensar de forma criativa para encontrar uma solução.

Para cada problema, existe um ponto de partida claro e um objetivo. A tarefa é encontrar os passos necessários para ir do começo ao objetivo, minimizando custos. Geramos 100 exemplos para cada tipo de problema, resultando em um total de 1107 instâncias de problemas.

Avaliando Soluções

Cada tipo de problema vem com um sistema para verificar como as respostas geradas pelos LLM funcionam. Medimos três aspectos chave:

  1. Viabilidade: Verifica se as ações realizadas seguem as regras do problema.
  2. Corretude: Verifica se os passos escolhidos realmente levam ao estado objetivo.
  3. Optimalidade: Verifica se a solução encontrada é a melhor em termos de custo.

Os desafios que os LLMs enfrentam para resolver esses problemas vêm de vários lugares. Primeiro, a linguagem natural não é a melhor para descrever ideias complexas. Segundo, os LLMs têm dificuldade em explorar muitas opções que se expandem conforme os problemas ficam mais complicados.

Descobertas Atuais

Nossos testes mostram que até os LLMs de melhor desempenho, como o GPT-4, acham muito difícil resolver esses problemas quando recebem apenas instruções em texto. Usar abordagens baseadas em texto resulta em taxas de sucesso baixas. O desempenho melhora ligeiramente quando damos aos LLMs a oportunidade de gerar código. Mas, no geral, programar ainda leva mais tempo para eles em comparação com um método estruturado como o A*.

Com nosso método A*, vimos um aumento nas taxas de soluções viáveis, corretas e ótimas. Embora os modelos ainda levassem mais tempo com A*, os resultados foram melhores do que qualquer outro método que tentamos.

O Método A*

O algoritmo A* é um método bem conhecido para encontrar soluções ótimas de forma eficiente, explorando rotas possíveis em direção ao objetivo. Adaptamos esse algoritmo para funcionar com os problemas do nosso benchmark.

Quando usamos o A*, pedimos aos LLMs que escrevessem código que seguisse esse algoritmo e fornecemos exemplos para que eles aprendessem. Isso envolveu mostrar a eles como outros problemas foram resolvidos usando esse método.

Método Multi-Etapa e Multi-Tentativa

Para melhorar ainda mais o desempenho dos LLMs, introduzimos um método chamado Multi-Etapa e Multi-Tentativa (MSMT). Esse método divide o processo de resolução em duas etapas principais:

  1. A primeira etapa envolve criar uma versão geral do algoritmo A*.
  2. A segunda etapa envolve definir as condições e variáveis específicas do problema atual.

Antes de avaliar o código gerado, verificamos se ele passa em vários testes simples para garantir que está funcionando corretamente. Se um trecho de código não passar nesses testes, pedimos ao LLM para tentar novamente.

Usando esse MSMT, vimos melhorias significativas em como os LLMs se saíram. O GPT-4, por exemplo, conseguiu resolver uma grande parte dos problemas corretamente nessa fase.

Importância da Modificação das Regras

Os problemas que criamos precisavam ser distintos do que os LLMs normalmente veem. Alterando as regras de quebra-cabeças e problemas tradicionais, buscamos garantir que os LLMs não pudessem depender de seu treinamento anterior. Isso os forçou a pensar criticamente e usar técnicas de raciocínio mais complexas.

A dificuldade de cada problema também foi variada para garantir um amplo campo de testes para os LLMs. Garantimos que todos os problemas fossem solucionáveis e apenas exigissem habilidades matemáticas básicas.

Impactos Mais Amplos

O trabalho realizado aqui tem implicações importantes. Ao melhorar as habilidades de raciocínio e Resolução de problemas dos LLMs, podemos ver avanços em várias áreas como robótica, logística e design de redes. No entanto, à medida que esses modelos se tornam mais capazes, há preocupações sobre a substituição de empregos, já que eles podem assumir tarefas complexas que os humanos atualmente realizam.

Trabalhos Relacionados

Muitos estudos analisaram como os LLMs podem resolver problemas matemáticos e realizar tarefas de raciocínio. Embora muitos benchmarks se concentrem em tarefas simples, eles muitas vezes não desafiam totalmente os LLMs a utilizar raciocínio em várias etapas de forma eficaz. No entanto, nosso benchmark busca abordar cenários de raciocínio mais complexos que envolvem problemas combinatórios.

Resultados e Análise

Realizamos testes extensivos com LLMs como GPT-4 e GPT-3.5 Turbo para ver como eles se saem usando diferentes métodos. Os resultados mostraram que ao confiar apenas no texto, as taxas de sucesso eram bastante baixas, com menos de 9% das respostas do GPT-4 sendo viáveis.

No entanto, incentivar modelos a usar o algoritmo A* resultou em um desempenho melhor no geral. Melhorias foram vistas nas taxas de soluções viáveis, corretas e ótimas. Também descobrimos que o tempo de execução melhorou significativamente com o A*, mas ainda assim foi mais lento em comparação com soluções ótimas.

Comparar o desempenho em vários prompts nos ajudou a ver quais métodos funcionavam melhor. Notamos que combinar geração de código com nosso método MSMT produziu os melhores resultados, solidificando nossa crença de que algoritmos estruturados podem aprimorar a capacidade de resolução de problemas dos LLMs.

Análise de Erros

Depois de avaliar os códigos gerados pelos LLMs, identificamos erros comuns que levaram a falhas. Alguns eram simples erros de codificação, enquanto outros mostraram lacunas no raciocínio. Por exemplo, em tarefas de busca de caminho, o modelo frequentemente não conseguia rastrear os pontos visitados, levando a soluções incorretas. A análise desses erros dá uma visão de como os LLMs podem melhorar no futuro.

Conclusão

Este trabalho apresentou um benchmark único voltado para avaliar as habilidades dos LLMs em lidar com problemas complexos de busca. Ao implementar um algoritmo estruturado e métodos de avaliação rigorosos, conseguimos demonstrar o quanto há potencial para melhorar as habilidades de raciocínio dos LLMs.

Os insights obtidos podem levar a modelos mais eficazes que podem ajudar a resolver problemas cruciais em muitos setores, ao mesmo tempo que refinam nossa compreensão de como os LLMs podem se adaptar e melhorar. No entanto, apesar dos avanços, ainda há um espaço significativo para melhorias, apontando para oportunidades empolgantes de pesquisa futura nessa área.

Trabalhos Futuros

Os esforços futuros se concentrarão na ampliação do conjunto de dados e na refinamento dos métodos usados nas avaliações. Podemos também explorar maneiras de automatizar a geração de novos tipos de problemas com base em descrições em linguagem natural, garantindo um crescimento e desenvolvimento contínuos na área.

Com acesso aberto ao conjunto de dados e ao código, encorajamos pesquisadores a explorar e construir sobre este trabalho. Ao compartilhar nossas descobertas, esperamos fomentar a colaboração e mais avanços nas capacidades dos LLMs.

Resumo das Contribuições

Para resumir, nossas principais contribuições são:

  1. Um benchmark que testa LLMs em problemas baseados em estado envolvendo busca combinatória.
  2. A introdução do método MSMT A* que combina compreensão de linguagem natural com algoritmos estruturados.
  3. Demonstração de melhorias significativas nas habilidades de resolução de problemas dos LLMs por meio de melhores estratégias de estímulo.

Esta pesquisa estabelece as bases para futuras explorações e inovações, destacando tanto as capacidades quanto as limitações dos LLMs na navegação por tarefas complexas de raciocínio.

Considerações Finais

À medida que continuamos a desenvolver modelos de linguagem avançados, é vital estar ciente de suas limitações enquanto também aproveitamos seus pontos fortes. Com as abordagens certas e pesquisa contínua, podemos melhorar suas habilidades e desbloquear novo potencial em várias áreas. Compreender como abordar os desafios impostos por problemas complexos será a chave para os próximos passos no desenvolvimento dos LLMs.

Fonte original

Título: Navigating the Labyrinth: Evaluating and Enhancing LLMs' Ability to Reason About Search Problems

Resumo: Recently, Large Language Models (LLMs) attained impressive performance in math and reasoning benchmarks. However, they still often struggle with logic problems and puzzles that are relatively easy for humans. To further investigate this, we introduce a new benchmark, SearchBench, containing 11 unique search problem types, each equipped with automated pipelines to generate an arbitrary number of instances and analyze the feasibility, correctness, and optimality of LLM-generated solutions. We show that even the most advanced LLMs fail to solve these problems end-to-end in text, e.g. GPT4 solves only 1.4%. SearchBench problems require considering multiple pathways to the solution as well as backtracking, posing a significant challenge to auto-regressive models. Instructing LLMs to generate code that solves the problem helps, but only slightly, e.g., GPT4's performance rises to 11.7%. In this work, we show that in-context learning with A* algorithm implementations enhances performance. The full potential of this promoting approach emerges when combined with our proposed Multi-Stage-Multi-Try method, which breaks down the algorithm implementation into two stages and verifies the first stage against unit tests, raising GPT-4's performance above 57%.

Autores: Nasim Borazjanizadeh, Roei Herzig, Trevor Darrell, Rogerio Feris, Leonid Karlinsky

Última atualização: 2024-06-17 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.12172

Fonte PDF: https://arxiv.org/pdf/2406.12172

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes