Sci Simple

New Science Research Articles Everyday

# Informática # Inteligência Artificial # Aprendizagem de máquinas # Computação simbólica

Confronto de IA: Modelos de Linguagem vs. Raciocínio Neuro-Simbólico

Pesquisadores comparam LLMs e sistemas neuro-simbólicos na resolução das Matrizes Progressivas de Raven.

Michael Hersche, Giacomo Camposampiero, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi

― 6 min ler


Raciocínio da IA: Uma Raciocínio da IA: Uma Batalha de Mentes em tarefas de raciocínio. Sistemas neuro-simbólicos superam LLMs
Índice

No mundo da inteligência artificial, raciocinar é tipo o molho secreto que faz tudo funcionar. Isso é especialmente verdade quando falamos sobre resolver quebra-cabeças, como as Matrizes Progressivas de Raven (RPM). Esses quebra-cabeças exigem uma mistura de lógica e matemática, tornando-se um verdadeiro desafio para as máquinas. Recentemente, pesquisadores deram uma olhada mais de perto em como os grandes modelos de linguagem (LLMs), como o GPT-4, se saem em comparação com uma abordagem diferente chamada raciocínio neuro-simbólico. Spoiler: os resultados são bem interessantes!

O Que São as Matrizes Progressivas de Raven?

As Matrizes Progressivas de Raven são como uma série de jogos mentais que testam quão bem alguém consegue entender Padrões e relacionamentos entre formas. Imagine uma série de caixas cheias de padrões únicos, e uma caixa está faltando. A tarefa? Descobrir qual padrão se encaixa melhor na caixa vazia. Esses quebra-cabeças foram feitos para medir a inteligência fluida, que é como as pessoas usam lógica e raciocínio para resolver problemas desconhecidos.

O Desafio para a IA

Enquanto os humanos podem achar esses quebra-cabeças tranquilos, eles podem ser complicados para a IA. Modelos tradicionais como os LLMs dependem de uma quantidade enorme de texto para aprender. Quando confrontados com quebra-cabeças visuais como o RPM, eles têm que traduzir os elementos visuais em linguagem, o que nem sempre é fácil. Esta pesquisa procurou descobrir quão bem esses modelos conseguem lidar com essas tarefas, especialmente no que diz respeito ao raciocínio matemático.

O Grande Confronto da IA

Neste estudo, os pesquisadores decidiram fazer um confronto entre dois métodos de IA diferentes: LLMs e Sistemas neuro-simbólicos. Os LLMs são como os sabe-tudo da IA, treinados em um monte de texto e capazes de gerar frases que fazem sentido. Por outro lado, os sistemas neuro-simbólicos são feitos para lidar com dados estruturados e relações, tornando-os uma opção potencialmente melhor para tarefas de raciocínio.

A Configuração: Testando os Modelos

Para comparar os dois métodos de IA, os pesquisadores criaram testes usando as Matrizes Progressivas de Raven. Eles apresentaram esses modelos com vários quebra-cabeças visuais e mediram quão bem eles conseguiram resolvê-los. A ideia era ver se uma abordagem se destacava mais que a outra ou se ambas tinham dificuldades diante do raciocínio abstrato.

Os Resultados: Quem é a IA Mais Inteligente?

Os testes revelaram que LLMs como GPT-4 e Llama-3 tiveram sérios problemas ao tentar entender e aplicar regras Aritméticas. Mesmo quando receberam diretrizes claras e dados organizados, eles acharam difícil chegar às respostas certas no RPM. Por exemplo, em um conjunto específico de testes chamado constelação central do I-RAVEN, os LLMs foram surpreendentemente imprecisos.

Em contrapartida, os modelos neuro-simbólicos mostraram uma habilidade em reconhecer padrões e aplicar regras aritméticas de forma eficaz. Eles pontuaram incrivelmente alto, quase acertando todas as respostas certas. Então, nesta batalha das IAs, parecia que a abordagem neuro-simbólica levou a melhor nas tarefas de raciocínio.

A Luta Aritmética

Um grande parte do problema para os LLMs estava na forma como lidam com regras aritméticas. Enquanto eles podiam processar textos complexos e tarefas baseadas em linguagem, na hora de fazer cálculos e deduções lógicas, eles tropeçavam. É como pedir para um gênio da matemática pintar uma obra-prima—simplesmente não rola!

Ampliando o Desafio

Para deixar as coisas ainda mais interessantes, os pesquisadores decidiram aumentar a dificuldade. Eles expandiram os quebra-cabeças RPM para tamanhos maiores, criando grades mais largas que permitiam maior alcance de números. Isso foi um desafio particularmente difícil para os LLMs, e os resultados foram surpreendentes. À medida que o tamanho das grades e o alcance dos números cresciam, a precisão dos LLMs despencava para menos de 10% em problemas aritméticos. Enquanto isso, os sistemas neuro-simbólicos mantinham seu desempenho estelar.

Por Que os LLMs Estão Tendo Dificuldades?

Então, o que está causando toda essa confusão para os LLMs? Os pesquisadores especularam que muitos LLMs dependem muito do reconhecimento de padrões superficiais, o que pode levar a um raciocínio de curta duração. Em vez de aprofundar o que as regras são, eles tendem a olhar para a última linha de um quebra-cabeça e adivinhar a resposta com base em algumas pistas. Esse tipo de raciocínio até funciona para problemas mais simples, mas quando os quebra-cabeças ficam difíceis, simplesmente não dá conta.

Fazendo Sentido dos Resultados

As descobertas desta pesquisa destacam as diferentes forças e fraquezas dos LLMs e das abordagens neuro-simbólicas. Os LLMs podem ser ótimos em tarefas onde a linguagem e o contexto são essenciais, mas quando enfrentam raciocínio estruturado e lógica aritmética, eles podem vacilar. Os sistemas neuro-simbólicos, com sua capacidade de processar relações e padrões complexos, se destacaram como a escolha mais confiável para esse tipo de tarefa de raciocínio.

O Futuro do Raciocínio IA

Com os resultados em mãos, há esperança de que entender as forças dos sistemas neuro-simbólicos possa ajudar a melhorar os LLMs. É como uma equipe de super-heróis juntando forças para criar uma entidade ainda mais poderosa! Ao integrar as capacidades de raciocínio estruturado das abordagens neuro-simbólicas nos LLMs, podemos encontrar um caminho para máquinas que conseguem lidar com raciocínios complexos com mais sucesso.

Conclusão

A busca por um melhor raciocínio em IA continua. À medida que os pesquisadores descobrem mais sobre como diferentes modelos se comportam, nos aproximamos de criar máquinas que possam raciocinar e pensar de maneiras semelhantes às humanas. No mundo da IA, não se trata apenas de gerar texto ou processar dados; é sobre aprender a raciocinar, resolver quebra-cabeças e navegar pelas complexidades do mundo. E quem sabe? Talvez um dia tenhamos IAs que consigam nos superar em nossos próprios jogos!

Fique ligado—afinal, na corrida das mentes (ou circuitos), sempre há mais para aprender e descobrir!

Fonte original

Título: Towards Learning to Reason: Comparing LLMs with Neuro-Symbolic on Arithmetic Relations in Abstract Reasoning

Resumo: This work compares large language models (LLMs) and neuro-symbolic approaches in solving Raven's progressive matrices (RPM), a visual abstract reasoning test that involves the understanding of mathematical rules such as progression or arithmetic addition. Providing the visual attributes directly as textual prompts, which assumes an oracle visual perception module, allows us to measure the model's abstract reasoning capability in isolation. Despite providing such compositionally structured representations from the oracle visual perception and advanced prompting techniques, both GPT-4 and Llama-3 70B cannot achieve perfect accuracy on the center constellation of the I-RAVEN dataset. Our analysis reveals that the root cause lies in the LLM's weakness in understanding and executing arithmetic rules. As a potential remedy, we analyze the Abductive Rule Learner with Context-awareness (ARLC), a neuro-symbolic approach that learns to reason with vector-symbolic architectures (VSAs). Here, concepts are represented with distributed vectors s.t. dot products between encoded vectors define a similarity kernel, and simple element-wise operations on the vectors perform addition/subtraction on the encoded values. We find that ARLC achieves almost perfect accuracy on the center constellation of I-RAVEN, demonstrating a high fidelity in arithmetic rules. To stress the length generalization capabilities of the models, we extend the RPM tests to larger matrices (3x10 instead of typical 3x3) and larger dynamic ranges of the attribute values (from 10 up to 1000). We find that the LLM's accuracy of solving arithmetic rules drops to sub-10%, especially as the dynamic range expands, while ARLC can maintain a high accuracy due to emulating symbolic computations on top of properly distributed representations. Our code is available at https://github.com/IBM/raven-large-language-models.

Autores: Michael Hersche, Giacomo Camposampiero, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi

Última atualização: 2024-12-07 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2412.05586

Fonte PDF: https://arxiv.org/pdf/2412.05586

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes