Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle# Apprentissage automatique# Robotique

Évaluation des modèles de langue dans la navigation en labyrinthe

Les tests de benchmark MANGO évaluent les modèles de langage pour la navigation et la cartographie dans des contextes de labyrinthe.

― 8 min lire


Navigation dans unNavigation dans unlabyrinthe pour lesmodèles de languede l'IA avec MANGO.Tester les compétences de cartographie
Table des matières

Ces dernières années, les grands modèles de langage (LLMs) comme ChatGPT et GPT-4 ont montré des capacités incroyables pour gérer différentes tâches linguistiques. Cependant, ces modèles peuvent galérer quand il s'agit de tâches de cartographie et de navigation basées sur du texte. Cet article présente MANGO, un benchmark conçu pour évaluer à quel point les LLMs peuvent performer en matière de cartographie et de navigation textuelle dans des environnements semblables à des labyrinthes.

Qu'est-ce que MANGO ?

MANGO est un benchmark qui teste la capacité des modèles de langage à comprendre et à naviguer à travers des labyrinthes en utilisant des descriptions textuelles. Chaque labyrinthe est accompagné d'un guide qui fournit une série d'actions, mais ce guide ne couvre pas tous les chemins possibles dans le labyrinthe. La tâche principale consiste à répondre à des Questions liées à ces labyrinthes, comme comment se rendre d'un endroit à un autre.

Comment MANGO fonctionne

Les labyrinthes utilisés dans MANGO sont tirés de jeux d'aventure textuels. Chaque labyrinthe est associé à un ensemble de questions qui testent la compréhension du modèle par rapport au guide fourni. Par exemple, un modèle pourrait avoir besoin de répondre à des questions comme "Comment fais-tu pour aller de l'Ouest de la Maison au Grenier ?" ou "Où es-tu si tu vas vers le nord et l'est depuis la Cave ?"

Bien que ces questions soient relativement simples pour les humains, la performance des LLMs, y compris les modèles les plus récents, est surprenamment médiocre. Par exemple, GPT-4 a eu du mal à répondre correctement à de nombreuses questions, surtout celles qui nécessitent de comprendre des chemins pas explicitement mentionnés dans le guide.

Pourquoi la cartographie et la navigation sont importantes

La cartographie et la navigation sont des compétences cruciales tant pour les humains que pour les systèmes intelligents. Alors que les humains peuvent construire des cartes mentales et naviguer à travers des environnements complexes, il reste à voir si les LLMs peuvent reproduire cette capacité. Notre recherche vise à répondre à cela en évaluant les LLMs avec le benchmark MANGO.

Quand les humains se déplacent dans un espace inconnu, ils peuvent planifier des itinéraires dans leur tête, même s'ils ne se souviennent pas de chaque tournant. MANGO vise à évaluer si les LLMs peuvent effectuer un raisonnement similaire.

Les composants de MANGO

MANGO inclut plusieurs labyrinthes, chacun conçu pour tester différents aspects de la cartographie et de la navigation :

  1. Guides : Ce sont des descriptions détaillées sur comment naviguer dans le labyrinthe, fournissant une séquence d'actions effectuées pendant le jeu.

  2. Questions : Chaque labyrinthe a des questions associées qui nécessitent que le modèle tire des réponses basées sur le guide. Les questions peuvent être catégorisées comme suit :

    • Questions de recherche de destination (DF) : Celles-ci demandent où un modèle se retrouverait après une série de mouvements.
    • Questions de recherche de parcours (RF) : Celles-ci s'interrogent sur comment atteindre un endroit spécifique depuis un autre.
  3. Métriques d'évaluation : Le succès est mesuré en fonction de l'exactitude des réponses du modèle, avec une attention spéciale portée aux questions faciles et difficiles.

Le processus de collecte des labyrinthes

Pour créer MANGO, nous avons rassemblé des labyrinthes à partir d'une collection de jeux textuels. Chaque jeu fournit un guide qui inclut une séquence d'étapes qu'un joueur pourrait prendre pour naviguer. Notre objectif était de générer un labyrinthe pour chaque jeu qui reflète les actions spécifiées dans le guide.

Nous avons soigneusement annoté chaque labyrinthe en notant les emplacements présents et les actions qui changent ces emplacements. Les données du labyrinthe sont stockées dans un format structuré, ce qui nous permet de générer facilement des questions sur les itinéraires et les destinations.

Génération de questions

En nous basant sur nos données de labyrinthe, nous avons créé des questions de recherche de destination et de recherche de parcours. Une approche simple consiste à représenter les points de départ et les destinations possibles sous forme de tuples. Cependant, de nombreuses questions sont difficiles car elles peuvent impliquer des itinéraires qui ne sont pas explicitement couverts dans le guide.

Par exemple, si le guide incluait un déplacement de "Autel" à "Salle du Dôme", mais que le modèle doit considérer un itinéraire indirect qui traverse plusieurs autres emplacements, cela nécessite une compréhension plus profonde des relations spatiales.

Aborder les chemins implicites

Tous les itinéraires ne sont pas explicitement mentionnés dans le guide. Certains pourraient nécessiter que le modèle infère des chemins potentiels basés sur des emplacements et des actions précédents. Par exemple, si un joueur peut se déplacer vers le nord d'un emplacement à un autre, nous conçevons nos questions pour nous assurer que le modèle reconnaisse les mouvements valides, même s'ils n'ont pas été directement mentionnés.

Pour s'assurer que notre cadre inclut ces chemins implicites, nous avons examiné les mécaniques de jeu à travers un gameplay réel et identifié des actions comme "entrer" et "prier" qui peuvent mener à différents emplacements, mais pas tous peuvent être facilement inférés.

Programme d'évaluation

Le programme d'évaluation évalue la performance de chaque modèle sur le benchmark MANGO. Il vérifie l'exactitude des réponses en les comparant aux réponses correctes. Nous notons les réponses en fonction de la précision et du degré de chevauchement avec les réponses correctes.

Pour les questions DF, le succès est simple : la réponse du modèle doit correspondre au nom de l'emplacement attendu. Cependant, la prise en compte de variations (comme une légère reformulation) améliore la flexibilité de l'évaluation. Les questions RF sont mesurées différemment, nécessitant une série de mouvements pour atteindre un emplacement cible.

Expérimentation avec différents modèles

Nous avons testé plusieurs LLMs largement utilisés, y compris GPT-3.5, GPT-4 et d'autres modèles avancés. Chaque modèle a été évalué en utilisant les mêmes guides et questions pour déterminer à quel point ils pouvaient efficacement naviguer à travers les labyrinthes fournis en utilisant uniquement du texte.

Les résultats ont montré que, bien que GPT-4 ait dominé en performance, il a quand même eu du mal avec de nombreuses questions. Cela met en lumière l'écart dans la capacité des LLMs par rapport aux capacités humaines en matière de raisonnement spatial.

Analyse de la performance des modèles

Nous avons analysé les taux de réussite à travers différents modèles pour identifier des motifs dans leurs performances. Nos découvertes suggèrent que divers facteurs affectent la capacité d'un modèle à répondre aux questions, y compris la complexité du labyrinthe, la longueur des chemins, etc.

Certains labyrinthes se sont révélés particulièrement difficiles pour les modèles, tandis que d'autres étaient plus faciles à naviguer. La performance variait largement selon la structure et les descriptions du labyrinthe lui-même.

Importance de la cartographie dans d'autres tâches

Les compétences évaluées par MANGO ne sont pas seulement précieuses dans les jeux, mais aussi dans d'autres applications réelles. Par exemple, des agents intelligents utilisant des compétences de cartographie et de navigation peuvent mieux comprendre des environnements complexes et accomplir des tâches nécessitant un sens de l'orientation.

Nous avons mené une étude de cas sur la façon dont de fortes capacités de cartographie peuvent aider les modèles à accomplir diverses tâches. En examinant les performances dans des scénarios spécifiques, nous avons trouvé que les modèles ayant de meilleures compétences en navigation pouvaient performer significativement mieux dans des défis connexes.

Directions futures

MANGO pose les bases pour évaluer les capacités de cartographie et de navigation des LLMs. Les recherches futures peuvent s'étendre à cela en examinant comment les modèles peuvent généraliser leurs connaissances à travers différents scénarios.

Il y a aussi un besoin d'améliorer le benchmark MANGO lui-même. Nous pourrions améliorer les configurations spatiales dans les labyrinthes, ajouter des exigences pour des mouvements plus complexes, ou même intégrer des couches supplémentaires de défi pour tester davantage les modèles.

Conclusion

MANGO est un outil précieux pour comprendre comment les LLMs peuvent gérer des tâches de navigation et de cartographie. Nos évaluations révèlent que même les meilleurs modèles rencontrent des difficultés dans ce domaine, surtout avec des questions plus complexes. À l'avenir, le développement de MANGO aidera à évaluer les améliorations et les capacités des LLMs, offrant une voie pour de futurs travaux de recherche dans ce domaine passionnant.

Source originale

Titre: MANGO: A Benchmark for Evaluating Mapping and Navigation Abilities of Large Language Models

Résumé: Large language models such as ChatGPT and GPT-4 have recently achieved astonishing performance on a variety of natural language processing tasks. In this paper, we propose MANGO, a benchmark to evaluate their capabilities to perform text-based mapping and navigation. Our benchmark includes 53 mazes taken from a suite of textgames: each maze is paired with a walkthrough that visits every location but does not cover all possible paths. The task is question-answering: for each maze, a large language model reads the walkthrough and answers hundreds of mapping and navigation questions such as "How should you go to Attic from West of House?" and "Where are we if we go north and east from Cellar?". Although these questions are easy to humans, it turns out that even GPT-4, the best-to-date language model, performs poorly at answering them. Further, our experiments suggest that a strong mapping and navigation ability would benefit large language models in performing relevant downstream tasks, such as playing textgames. Our MANGO benchmark will facilitate future research on methods that improve the mapping and navigation capabilities of language models. We host our leaderboard, data, code, and evaluation program at https://mango.ttic.edu and https://github.com/oaklight/mango/.

Auteurs: Peng Ding, Jiading Fang, Peng Li, Kangrui Wang, Xiaochen Zhou, Mo Yu, Jing Li, Matthew R. Walter, Hongyuan Mei

Dernière mise à jour: 2024-08-08 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2403.19913

Source PDF: https://arxiv.org/pdf/2403.19913

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires