Sci Simple

New Science Research Articles Everyday

# Informatique # Intelligence artificielle # Apprentissage automatique # Calcul symbolique

Duels d'IA : Modèles de langue vs. Raisonnement neuro-symbolique

Des chercheurs comparent les LLM et les systèmes neuro-symboliques pour résoudre les Matrices Progressives de Raven.

Michael Hersche, Giacomo Camposampiero, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi

― 6 min lire


Raisonnement IA : Une Raisonnement IA : Une bataille d'esprits raisonnement. les LLM dans les tâches de Les systèmes neuro-symboliques battent
Table des matières

Dans le monde de l'intelligence artificielle, le raisonnement, c'est un peu comme la sauce secrète qui fait tout fonctionner. C'est surtout vrai quand on parle de résoudre des énigmes, comme Les Matrices Progressives de Raven (RPM). Ces énigmes demandent un mélange de logique et de maths, ce qui les rend vraiment difficiles pour les machines. Récemment, des chercheurs ont examiné de plus près comment les grands Modèles de langage (LLMs), comme GPT-4, se comparent à une autre approche appelée raisonnement neuro-symbolique. Spoiler : les résultats sont plutôt intéressants !

Qu'est-ce que les Matrices Progressives de Raven ?

Les Matrices Progressives de Raven, c'est une série de jeux d'esprit qui testent à quel point quelqu'un peut comprendre des motifs et des relations entre des formes. Imagine une série de cases remplies de motifs uniques, et une case est vide. Le but ? Trouver quel motif convient le mieux dans la case vide. Ces énigmes sont conçues pour mesurer l'intelligence fluide, c'est-à-dire comment les gens utilisent la logique et le raisonnement pour résoudre des problèmes inconnus.

Le défi pour l'IA

Alors que les humains peuvent trouver ces énigmes gérables, elles peuvent être compliquées pour l'IA. Les modèles traditionnels comme les LLMs s'appuient sur d'énormes quantités de texte pour apprendre. Lorsqu'ils sont confrontés à des énigmes visuelles comme les RPM, ils doivent traduire les éléments visuels en langage, ce qui n'est pas toujours évident. Cette recherche avait pour but de découvrir à quel point ces modèles peuvent gérer ce genre de tâches, surtout en ce qui concerne le raisonnement mathématique.

Le grand affrontement de l'IA

Dans cette étude, les chercheurs ont décidé d'organiser un affrontement entre deux méthodes d'IA différentes : les LLMs et les Systèmes neuro-symboliques. Les LLMs, c'est un peu les "sachants" de l'IA, formés sur une tonne de texte et capables de générer des phrases qui ont du sens. D'un autre côté, les systèmes neuro-symboliques sont conçus pour gérer des données structurées et des relations, ce qui les rend potentiellement plus adaptés pour les tâches de raisonnement.

La mise en place : Tester les modèles

Pour comparer les deux méthodes d'IA, les chercheurs ont créé des tests utilisant les Matrices Progressives de Raven. Ils ont présenté ces modèles avec diverses énigmes visuelles et mesuré à quel point ils pouvaient les résoudre. L'idée était de voir si une approche surpassait l'autre ou si les deux avaient du mal avec le raisonnement abstrait.

Les résultats : Qui est l'IA la plus maligne ?

Les tests ont révélé que les LLMs comme GPT-4 et Llama-3 avaient de sérieux problèmes pour comprendre et appliquer des règles Arithmétiques. Même avec des consignes claires et des données organisées, ils ont eu du mal à trouver les bonnes réponses dans les RPM. Par exemple, dans un ensemble de tests spécifiques appelés la constellation centrale de I-RAVEN, les LLMs étaient étonnamment inexactes.

En revanche, les modèles neuro-symboliques ont montré une aptitude à reconnaître des motifs et à appliquer efficacement des règles arithmétiques. Ils ont obtenu des scores remarquablement élevés, presque en réussissant toutes les bonnes réponses. Donc, dans cette bataille des IA, il semblait que l'approche neuro-symbolique a pris la couronne pour les tâches de raisonnement.

La lutte arithmétique

Une grande partie du problème pour les LLMs résidait dans leur gestion des règles arithmétiques. Bien qu'ils puissent traiter des textes complexes et des tâches basées sur le langage, quand il s'agissait de faire des calculs et des déductions logiques, ils trébuchaient. C'est un peu comme demander à un matheux de peindre un chef-d'œuvre—ça ne fonctionne tout simplement pas !

Élargir le défi

Pour rendre les choses encore plus intéressantes, les chercheurs ont décidé d'augmenter la difficulté. Ils ont élargi les énigmes RPM à des tailles plus grandes, créant des grilles plus larges et permettant des plages de nombres plus élevées. C'était un défi particulièrement dur pour les LLMs, et les résultats étaient révélateurs. Au fur et à mesure que la taille des grilles et la plage de nombres augmentaient, la précision des LLMs chutait à moins de 10 % pour les problèmes arithmétiques. Pendant ce temps, les systèmes neuro-symboliques maintenaient leur performance exceptionnelle.

Pourquoi les LLMs galèrent ?

Alors, qu'est-ce qui cause tous ces problèmes pour les LLMs ? Les chercheurs ont émis l'hypothèse que de nombreux LLMs s'appuient fortement sur la reconnaissance de motifs superficiels, ce qui peut mener à un raisonnement éphémère. Au lieu de plonger dans les règles, ils ont tendance à regarder la dernière ligne d'une énigme et à deviner la réponse en se basant sur quelques indices. Ce type de raisonnement peut fonctionner pour des problèmes simples, mais quand les énigmes deviennent compliquées, ça ne tient pas.

Donner un sens aux résultats

Les résultats de cette recherche mettent en lumière les différentes forces et faiblesses des LLMs et des approches neuro-symboliques. Les LLMs peuvent exceller dans des tâches où le langage et le contexte sont essentiels, mais quand ils sont confrontés à un raisonnement structuré et une logique arithmétique, ils peuvent faillir. Les systèmes neuro-symboliques, avec leur capacité à traiter des relations et des motifs complexes, se sont révélés être le choix le plus fiable pour ces types de tâches de raisonnement.

L'avenir du raisonnement IA

Avec les résultats en main, il y a de l'espoir que comprendre les forces des systèmes neuro-symboliques puisse aider à améliorer les LLMs. C'est comme une équipe de super-héros qui combine leurs forces pour créer une entité encore plus puissante ! En intégrant les capacités de raisonnement structuré des approches neuro-symboliques dans les LLMs, on pourrait trouver un chemin vers des machines capables de résoudre des raisonnements complexes avec plus de succès.

Conclusion

La quête pour un meilleur raisonnement IA continue. Alors que les chercheurs découvrent davantage sur la performance des différents modèles, on se rapproche de la création de machines capables de raisonner et de penser de manière similaire aux humains. Dans le monde de l'IA, il ne s'agit pas seulement d'être capable de générer du texte ou de traiter des données ; il s'agit d'apprendre à raisonner, à résoudre des énigmes et à naviguer dans les complexités du monde. Et qui sait ? Peut-être qu'un jour, on aura des IA qui peuvent nous surpasser dans nos propres jeux !

Gardez vos chapeaux de réflexion sur—après tout, dans la course des cerveaux (ou circuits), il y a toujours plus à apprendre et à découvrir !

Source originale

Titre: Towards Learning to Reason: Comparing LLMs with Neuro-Symbolic on Arithmetic Relations in Abstract Reasoning

Résumé: This work compares large language models (LLMs) and neuro-symbolic approaches in solving Raven's progressive matrices (RPM), a visual abstract reasoning test that involves the understanding of mathematical rules such as progression or arithmetic addition. Providing the visual attributes directly as textual prompts, which assumes an oracle visual perception module, allows us to measure the model's abstract reasoning capability in isolation. Despite providing such compositionally structured representations from the oracle visual perception and advanced prompting techniques, both GPT-4 and Llama-3 70B cannot achieve perfect accuracy on the center constellation of the I-RAVEN dataset. Our analysis reveals that the root cause lies in the LLM's weakness in understanding and executing arithmetic rules. As a potential remedy, we analyze the Abductive Rule Learner with Context-awareness (ARLC), a neuro-symbolic approach that learns to reason with vector-symbolic architectures (VSAs). Here, concepts are represented with distributed vectors s.t. dot products between encoded vectors define a similarity kernel, and simple element-wise operations on the vectors perform addition/subtraction on the encoded values. We find that ARLC achieves almost perfect accuracy on the center constellation of I-RAVEN, demonstrating a high fidelity in arithmetic rules. To stress the length generalization capabilities of the models, we extend the RPM tests to larger matrices (3x10 instead of typical 3x3) and larger dynamic ranges of the attribute values (from 10 up to 1000). We find that the LLM's accuracy of solving arithmetic rules drops to sub-10%, especially as the dynamic range expands, while ARLC can maintain a high accuracy due to emulating symbolic computations on top of properly distributed representations. Our code is available at https://github.com/IBM/raven-large-language-models.

Auteurs: Michael Hersche, Giacomo Camposampiero, Roger Wattenhofer, Abu Sebastian, Abbas Rahimi

Dernière mise à jour: Dec 7, 2024

Langue: English

Source URL: https://arxiv.org/abs/2412.05586

Source PDF: https://arxiv.org/pdf/2412.05586

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires