Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial# Aprendizagem de máquinas

Hub de Cadeia de Pensamento: Avaliando o Raciocínio em Modelos de Linguagem

Uma ferramenta pra avaliar as capacidades de raciocínio em várias etapas de modelos de linguagem grandes.

― 6 min ler


Avaliação do RaciocínioAvaliação do Raciocíniode Modelos de Linguagemmúltiplas etapas em modelos de IA.Uma ferramenta pra medir raciocínio em
Índice

À medida que os grandes Modelos de linguagem (LLMs) continuam evoluindo, entender como eles funcionam se torna cada vez mais importante. Isso é especialmente verdadeiro para tarefas que exigem Raciocínio complexo. Apresentamos o Chain-of-Thought Hub, uma ferramenta gratuita que ajuda a avaliar como esses modelos lidam com raciocínio em várias etapas.

Por que focar no raciocínio?

Estamos interessados em como diferentes modelos se saem por duas razões principais. Primeiro, percebemos que a habilidade de lidar com raciocínio complexo distingue os modelos mais fortes dos mais fracos. Segundo, acreditamos que os LLMs vão ser a base de muitas novas aplicações. Para isso acontecer, eles precisam enfrentar tarefas complexas que combinam linguagem e lógica.

Nossa abordagem

Para acompanhar o Desempenho dos LLMs em tarefas de raciocínio, coletamos uma variedade de benchmarks desafiadores. Nossas descobertas até agora indicam alguns pontos-chave:

  1. Modelos maiores tendem a se sair melhor em tarefas de raciocínio.
  2. Desde maio de 2023, apenas dois modelos, Claude-v1.3 e PaLM-2, são competitivos com o GPT-4, enquanto modelos de código aberto ainda ficam atrás.
  3. LLaMA-65B, um modelo de código aberto, pode ter um desempenho similar a outro modelo forte, code-davinci-002, o que sugere que com mais desenvolvimento, LLaMA-65B pode melhorar ainda mais.

Nossas descobertas também mostram que a comunidade de código aberto poderia se beneficiar de construir melhores modelos base e focar em aprendizado por reforço a partir do feedback humano (RLHF).

O estado atual da IA

Os avanços nos LLMs chamaram a atenção de todo mundo. Esses modelos podem realizar uma ampla gama de tarefas, mas sua Avaliação continua sendo um desafio. Enquanto é fácil ajustar um modelo base para transformá-lo em um chatbot, entender como diferentes modelos se comportam em conversas mais profundas é mais complexo. Em chats casuais, os modelos podem parecer semelhantes, mas as diferenças ficam claras quando as tarefas se tornam mais complexas.

Avaliando as razões por trás do desempenho

Quando olhamos para as capacidades de raciocínio, o que se destaca é que modelos maiores, como GPT-4 e Claude, tendem a ter um desempenho melhor que os menores. Essa capacidade de raciocínio é importante para que esses modelos se tornem ferramentas úteis para várias aplicações.

Por exemplo, o LangChain é uma iniciativa onde desenvolvedores constroem aplicações usando LLMs. Essas aplicações geralmente exigem que os modelos realizem tarefas complexas. Essa visão motiva nosso esforço para medir quão bem os LLMs podem raciocinar, nos levando a criar o Chain-of-Thought Hub.

O que é o Chain-of-Thought Hub?

O Chain-of-Thought Hub é um recurso contínuo e gratuito que rastreia as capacidades de raciocínio de muitos grandes modelos de linguagem. Ele apresenta uma comparação de vários modelos, incluindo os populares como GPT, Claude, PaLM e LLaMA. Avaliamos seu desempenho em benchmarks e tarefas específicas.

Atualmente, temos dados de 19 modelos principais em seis benchmarks, que incluem mais de 100 tarefas. Estamos constantemente adicionando mais modelos e conjuntos de dados.

Observações-chave do CoT Hub

  1. Há uma ligação clara entre o tamanho de um modelo e suas habilidades de raciocínio.
  2. Desde maio de 2023, apenas PaLM e Claude conseguem se igualar à família de modelos GPT, embora sejam um pouco menos eficazes.
  3. LLaMA-65B mostra um desempenho forte, próximo ao modelo base da família GPT-3.5, indicando seu potencial para crescimento.

Esperamos que essas informações ajudem a guiar a comunidade no desenvolvimento de melhores modelos.

Coletando dados para avaliação

Para garantir que nossos testes sejam eficazes, focamos em coletar conjuntos de dados de alta qualidade que reflitam o uso real dos LLMs. Nosso objetivo é escolher conjuntos de dados que possam mostrar claramente as diferenças de desempenho entre modelos mais fortes e mais fracos.

Usamos o prompting de poucos exemplos para nosso tipo de avaliação. Esse método envolve dar ao modelo alguns exemplos para guiar suas respostas, ao contrário da maioria das outras avaliações que se baseiam apenas em prompt de resposta. O prompting de poucos exemplos nos permite avaliar melhor as capacidades tanto de modelos pré-treinados quanto de modelos ajustados por instrução.

Comparando com outras plataformas de avaliação

Já existem várias plataformas de avaliação excelentes para LLMs, como HeLM, Chatbot Arena e Open LLM Leaderboard. A diferença do nosso hub é que focamos especificamente em tarefas de raciocínio, enquanto outras plataformas podem cobrir uma gama mais ampla de tarefas ou preferências do usuário.

Medindo a capacidade de raciocínio

A maioria dos conjuntos de dados que avaliamos exige que o modelo descubra várias etapas para chegar a uma resposta final, seja um número para problemas de matemática ou uma saída específica para tarefas de codificação. Focamos na precisão dessas respostas finais porque, geralmente, se um modelo está correto em sua resposta final, suas etapas intermediárias tendem a ser razoáveis também.

Visão geral do desempenho dos modelos

Em nossas observações, notamos uma diferença de desempenho entre modelos líderes como GPT, Claude e PaLM, e modelos de código aberto como LLaMA e FlanT5. Os melhores modelos geralmente passam por RLHF, destacando oportunidades para modelos de código aberto melhorarem usando essa técnica.

A relação entre o tamanho do modelo e o desempenho no raciocínio também é notável. Modelos que não divulgam seu tamanho tendem a ter um desempenho melhor do que aqueles que divulgam, mostrando que ainda há uma lacuna a ser preenchida entre modelos de código aberto e proprietários.

O potencial do LLaMA-65B

O LLaMA-65B mostrou resultados impressionantes em tarefas comparado ao code-davinci-002. Embora ele fique atrás em algumas áreas, como tarefas de matemática, ainda se sai melhor do que outros modelos de código aberto. Isso sugere que com os ajustes certos, o LLaMA-65B pode eventualmente alcançar níveis de desempenho próximos aos do ChatGPT.

Conclusão e trabalho futuro

Em resumo, desenvolvemos o Chain-of-Thought Hub para medir continuamente as capacidades de raciocínio dos grandes modelos de linguagem. Nossas descobertas destacam as diferenças de desempenho entre vários modelos e apontam para duas direções principais para aprimorar modelos de código aberto: melhores modelos base e mais pesquisas em RLHF.

Planejamos expandir o CoT Hub incluindo mais conjuntos de dados de raciocínio que cobrem aspectos como raciocínio de senso comum e resolução de problemas matemáticos. Também vamos avaliar mais modelos, incluindo aqueles baseados no LLaMA e outros modelos ajustados por instrução. Explorar maneiras de lidar com conjuntos de dados desafiadores, como aqueles que exigem habilidades matemáticas ou chamadas de API, também será um foco.

Nosso trabalho visa guiar o desenvolvimento de LLMs de código aberto, contribuindo para o futuro da inteligência artificial.

Fonte original

Título: Chain-of-Thought Hub: A Continuous Effort to Measure Large Language Models' Reasoning Performance

Resumo: As large language models (LLMs) are continuously being developed, their evaluation becomes increasingly important yet challenging. This work proposes Chain-of-Thought Hub, an open-source evaluation suite on the multi-step reasoning capabilities of large language models. We are interested in this setting for two reasons: (1) from the behavior of GPT and PaLM model family, we observe that complex reasoning is likely to be a key differentiator between weaker and stronger LLMs; (2) we envisage large language models to become the next-generation computational platform and foster an ecosystem of LLM-based new applications, this naturally requires the foundation models to perform complex tasks that often involve the composition of linguistic and logical operations. Our approach is to compile a suite of challenging reasoning benchmarks to track the progress of LLMs. Our current results show that: (1) model scale clearly correlates with reasoning capabilities; (2) As of May 2023, Claude-v1.3 and PaLM-2 are the only two models that are comparable with GPT-4, while open-sourced models still lag behind; (3) LLaMA-65B performs closely to code-davinci-002, indicating that with successful further development such as reinforcement learning from human feedback (RLHF), it has great potential to be close to GPT-3.5-Turbo. Our results also suggest that for the open-source efforts to catch up, the community may focus more on building better base models and exploring RLHF.

Autores: Yao Fu, Litu Ou, Mingyu Chen, Yuhao Wan, Hao Peng, Tushar Khot

Última atualização: 2023-05-26 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.17306

Fonte PDF: https://arxiv.org/pdf/2305.17306

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes