Avancer la planification avec des stratégies ouvertes et ancrées

Table des matières

Contexte
Conception de l'Expérience
Capacités de Planification et Défis
Construction de l'Ensemble de Données
Évaluation de la Qualité des Plans
Résultats
Analyse des Erreurs
Conclusion et Travaux Futurs
Source originale
Liens de référence

Les grands modèles de langage (LLMs) ont gagné en popularité grâce à leur capacité à effectuer des tâches qui ressemblent à la planification humaine. Ces modèles peuvent générer des plans de plusieurs manières. Certaines méthodes utilisent des LLMs pour créer des plans libres, tandis que d'autres s'appuient sur l'apprentissage par renforcement pour prendre des décisions dans des environnements contrôlés. Cependant, les deux méthodes ont des difficultés quand il s'agit de planifier dans des situations réelles, où les exigences peuvent être plus complexes et ouvertes.

Dans ce contexte, on introduit une nouvelle tâche de planification connue sous le nom de planification ancrée ouverte. L'objectif de cette tâche est de faire en sorte que le modèle produise un plan qui peut être exécuté en fonction d'un ensemble d'actions flexible. Cela garantit que le plan généré est non seulement pertinent mais aussi pratique pour des tâches du monde réel. Pour soutenir cela, on a créé un banc d'essai pour la planification ancrée ouverte dans divers domaines. Notre recherche teste les meilleurs LLMs et d'autres techniques de planification, révélant que les modèles existants rencontrent encore des défis significatifs lorsqu'il s'agit de tâches de planification ouvertes.

Contexte

La vie quotidienne implique une gamme de tâches qui varient en complexité. Des choses simples comme faire du café à des tâches plus compliquées comme apprendre de nouvelles compétences, on se fie à notre connaissance du monde pour créer des plans. Alors qu'on peut utiliser de nombreuses stratégies pour atteindre nos objectifs, l'intelligence artificielle (IA) fait face à un défi plus compliqué. L'IA a du mal à ancrer des plans dans un large éventail d'actions lors de la gestion de tâches dans des domaines ouverts.

Des recherches antérieures indiquent que les LLMs peuvent entreprendre une certaine planification. Ils peuvent utiliser leur connaissance interne et leur bon sens pour générer des plans. Cependant, les plans produits manquent souvent de la structure nécessaire pour l'exécution. Ils ont tendance à être flexibles et cohérents en langage naturel, mais ne fournissent pas d'instructions actionnables pour les agents IA. Il y a eu des recherches sur la planification ancrée, surtout dans des domaines comme la robotique et l'utilisation d'outils. La plupart de ces approches appliquent un ajustement fin pour améliorer les performances dans des situations spécifiques et étroites, ce qui limite leur efficacité face à des tâches plus larges.

La capacité à opérer sur un large éventail d'actions et à développer des plans réalisables en choisissant des actions appropriées parmi un large éventail est un objectif important pour les LLMs. C'est pourquoi on introduit l'idée de planification ancrée ouverte pour faire avancer la recherche dans ce domaine. Ce concept a deux composantes :

Planification Ancrée : Le modèle doit créer des plans en utilisant uniquement les actions trouvées dans les ensembles d'actions disponibles.
Planification Ouverte : On s'attend à ce que le modèle planifie dans un large ensemble d'actions qui peuvent couvrir plusieurs domaines de tâches.

Nos ensembles de données couvrent des domaines divers tels que les activités quotidiennes, l'utilisation d'outils et des scénarios avec des robots. Chaque ensemble de données a été standardisé pour inclure des objectifs de tâche, des conditions, des étapes clés et des ensembles d'actions. Cette base nous permet de construire un banc d'essai pour évaluer différents modèles et méthodes dans la tâche de planification ancrée ouverte.

Pour surmonter les défis de la planification ancrée ouverte, on a proposé un cadre appelé "Récupérer et Réécrire". Cette méthode implique de faire générer un plan initial par le LLM, qui est ensuite affiné à travers une série d'itérations et de récupération d'actions en fonction du contexte de planification actuel.

Conception de l'Expérience

On a mené des tests complets en utilisant plusieurs méthodes de planification et modèles de pointe, y compris GPT-3.5, Vicuna-7B et LLaMA-2-7B, tous ajustés finement avec une certaine connaissance spécifique au domaine. Nos expériences évaluent la performance de divers modèles sur des tâches de planification ancrée ouverte.

Types de Tâches de Planification

On catégorise les tâches de planification en trois types :

Planification Heuristique : Cela implique une planification libre et flexible.
Planification Ancrée Restreinte : Cela se concentre sur la planification spécifique à un domaine avec un ensemble limité d'actions.
Planification Ancrée Ouverte : Cela nécessite de planifier avec des ensembles d'actions étendus à travers divers domaines.

Capacités de Planification et Défis

La capacité des LLMs à planifier a été examinée en profondeur. Ils peuvent générer des plans en utilisant un raisonnement basé sur le bon sens ; cependant, ces plans manquent souvent de structure pour l'exécution. En planification ancrée, des recherches ont montré des approches qui peuvent fonctionner dans certaines situations, mais celles-ci sont généralement limitées à des environnements contrôlés.

La complexité augmente considérablement dans des domaines ouverts, où le nombre de tâches et d'actions est beaucoup plus grand. Cela crée un écart entre les plans générés par les LLMs et l'exécution pratique des tâches du monde réel. Notre focus sur la planification ancrée ouverte aborde ce problème et vise à créer des ensembles de données qui couvrent un large éventail de tâches quotidiennes et d'ensembles d'actions.

Construction de l'Ensemble de Données

On a identifié trois domaines d'application principaux pour la planification des LLMs :

Vie Quotidienne : Tâches provenant de sources comme wikiHow fournissent une gamme de guides et de tutoriels pour diverses compétences de vie.
Utilisation d'Outils : Les données provenant d'outils démontrent comment les LLMs peuvent utiliser des outils pour effectuer des tâches. Ces données incluent différents types d'outils et comment ils peuvent être invoqués.
Scénarios de Robots : La recherche sur la robotique fournit une base pour comprendre comment la planification peut être effectuée dans un contexte robotique.

On a collecté des ensembles de données dans ces domaines pour créer un ensemble d'évaluation équilibré, avec un maximum de 500 tâches par catégorie. Cela nous permet d'évaluer efficacement les capacités en domaine des LLMs.

L'ensemble de données sur la vie quotidienne, wikiHow, a été utilisé pour évaluer la planification ancrée en raison de sa large gamme et de la complexité des ensembles d'actions. Pendant ce temps, les ensembles de données provenant d'outils et de la robotique sont utilisés pour mesurer comment les modèles peuvent se généraliser à des tâches de planification hors domaine.

Ensemble de Données de Vie Quotidienne

L'ensemble de données wikiHow comprend une riche collection de guides qui couvrent diverses tâches dans un format structuré. Pour chaque tâche, on a conservé uniquement les parties essentielles pour garder le focus sur les étapes pratiques. Cela nous a permis de créer une ressource complète avec plus de 76 000 tâches classées en 19 catégories.

Ensembles de Données Hors-Domaine

On a également rassemblé des données liées à l'utilisation d'outils, ce qui est crucial pour comprendre comment les LLMs peuvent utiliser efficacement des outils dans la planification. Cette partie de l'ensemble de données est construite à partir de contributions de sources telles que ToolAlpaca et GPT4Tools, qui fournissent une collection d'opérations d'outils standards pour différentes tâches.

Dans le domaine de la robotique, on a intégré divers ensembles de données qui montrent la planification des robots. Cela nous permet de créer un ensemble diversifié de tâches que les robots pourraient entreprendre, facilitant une analyse plus large des capacités de planification des LLMs.

Évaluation de la Qualité des Plans

Pour tous les ensembles de données collectés, chaque tâche est associée à un plan standard de référence, qui fournit une manière possible de compléter la tâche. Étant donné la variété des solutions potentielles, il est essentiel d'évaluer les plans générés sous plusieurs angles plutôt que de les juger uniquement sur leur correspondance avec le standard de référence.

Les critères d'évaluation que nous avons adoptés incluent :

Complétude : Le plan est-il complet et logique sans lacunes ni conditions inutiles ?
Faisabilité : Chaque étape du plan peut-elle être exécutée de manière réaliste ? Est-ce que cela correspond au bon sens et aux normes éthiques ?
Pertinence par rapport à la Tâche : Le plan aborde-t-il efficacement la tâche donnée et utilise-t-il les conditions spécifiées ?

Pour évaluer ces critères, on a employé ChatGPT comme réviseur, comparant les plans générés par les modèles au standard de référence. On a introduit diverses méthodologies pour minimiser les biais potentiels dans ces évaluations, permettant une analyse plus précise de la qualité du plan.

Résultats

Les résultats de nos expériences révèlent les forces et les faiblesses des différents LLMs et méthodes de planification. On a principalement examiné la performance sur des ensembles de données en domaine et hors domaine pour évaluer l'efficacité de chaque approche.

Résultats en Domaine

Lors de l'évaluation de l'ensemble de données wikiHow, on a trouvé que le modèle Llama-2-7B ajusté finement performait particulièrement bien. Il surpassait systématiquement à la fois Vicuna et GPT-3.5 à travers toutes les méthodes de planification. Le modèle a montré un haut niveau d'exécution tout en maintenant une forte qualité des plans.

Différentes méthodes ont montré des forces variées. Bien que la méthode Plan-Retrieve ait rencontré des défis liés à la génération de plans initiaux, elle a généralement produit de meilleurs plans finaux par rapport à la méthode Task-Retrieve. L'approche Step-wise Select avait du mal avec un espace de recherche limité, tandis que la méthode DFS avait tendance à offrir une meilleure exécution au détriment de la qualité.

Résultats Hors-Domaine

Dans l'analyse des ensembles de données hors domaine, LLaMA-2-SFT surpassait souvent GPT-3.5 dans la plupart des méthodes. Cela met en évidence les avantages de l'ajustement fin pour les modèles au-delà de leurs données d'entraînement initiales. Dans l'ensemble de données sur les outils, la tendance de GPT-3.5 à générer des étapes complètes au lieu d'utiliser les noms d'API fournis a entraîné une performance inférieure.

Lors de l'utilisation de la méthode DFS, on a observé que la longueur moyenne des plans générés était plus faible par rapport aux autres, conduisant à une forte dépendance au retour en arrière. Cela a indiqué l'hésitation du modèle à sélectionner des actions dans les listes récupérées lorsqu'il travaillait avec des données hors domaine.

Analyse des Erreurs

On a réalisé une analyse des erreurs en se concentrant sur l'exécutable et la qualité pour la sortie de GPT-3.5 concernant l'ensemble de données wikiHow. On a noté qu'une partie significative des plans non exécutables provenait d'hallucinations, des cas où le modèle a généré du contenu en dehors de l'ensemble d'actions fourni.

Les plans produits par la méthode Plan-Retrieve incluaient parfois des étapes non pertinentes parce que les actions récupérées n'étaient pas entièrement applicables à la tâche. Dans les cas où la méthode DFS générait des étapes dupliquées, cela indiquait l'incapacité du modèle à gérer efficacement le processus de planification itératif.

Conclusion et Travaux Futurs

Dans cette étude, on a introduit le concept de planification ancrée ouverte et développé un banc d'essai d'ensembles de données à travers divers domaines avec des ensembles d'actions étendus. Nos expériences complètes ont montré des limitations significatives des modèles actuels lorsqu'il s'agit de générer des plans actionnables pour ces ensembles.

Le cadre "Récupérer et Réécrire" que nous avons proposé offre une solution partielle aux défis de la planification ancrée ouverte. Il montre un besoin d'améliorer les capacités des modèles et des méthodes pour fonctionner efficacement dans divers scénarios de planification. Les recherches futures pourraient se concentrer sur l'affinement des méthodes de récupération et l'expansion de l'ensemble de données pour inclure des paramètres d'action plus complexes.

De plus, bien que nous ayons utilisé ChatGPT pour l'évaluation des plans, nous reconnaissons les biais et les limitations inhérents à cette approche. Les efforts futurs pourraient bénéficier de métriques d'évaluation plus objectives pour réduire l'impact de ces biais.

Dans l'ensemble, notre travail pose les bases pour une exploration plus approfondie dans le riche domaine de la planification basée sur des LLM et offre des perspectives pour améliorer l'exécutabilité et la qualité globale des plans générés.

Avancer la planification avec des stratégies ouvertes et ancrées

Présentation de la planification ouverte ancrée pour améliorer l'exécution des tâches dans le monde réel.

Contexte

Conception de l'Expérience

Types de Tâches de Planification

Capacités de Planification et Défis

Construction de l'Ensemble de Données

Ensemble de Données de Vie Quotidienne

Ensembles de Données Hors-Domaine

Évaluation de la Qualité des Plans

Résultats

Résultats en Domaine

Résultats Hors-Domaine

Analyse des Erreurs

Conclusion et Travaux Futurs

Liens de référence

Sujets référencés

Avancer la planification avec des stratégies ouvertes et ancrées

Présentation de la planification ouverte ancrée pour améliorer l'exécution des tâches dans le monde réel.

#Contexte

#Conception de l'Expérience

#Types de Tâches de Planification

#Capacités de Planification et Défis

#Construction de l'Ensemble de Données

#Ensemble de Données de Vie Quotidienne

#Ensembles de Données Hors-Domaine

#Évaluation de la Qualité des Plans

#Résultats

#Résultats en Domaine

#Résultats Hors-Domaine

#Analyse des Erreurs

#Conclusion et Travaux Futurs

Liens de référence

Sujets référencés

Contexte

Conception de l'Expérience

Types de Tâches de Planification

Capacités de Planification et Défis

Construction de l'Ensemble de Données

Ensemble de Données de Vie Quotidienne

Ensembles de Données Hors-Domaine

Évaluation de la Qualité des Plans

Résultats

Résultats en Domaine

Résultats Hors-Domaine

Analyse des Erreurs

Conclusion et Travaux Futurs