Améliorer les requêtes utilisateur avec des LLM et de la planification
Une nouvelle méthode améliore les réponses aux demandes incomplètes des utilisateurs en utilisant des LLM et un raisonnement logique.
― 7 min lire
Table des matières
Ces dernières années, les grands modèles linguistiques (LLM) sont devenus populaires pour aider les gens à accomplir diverses tâches en interprétant et en traitant le langage naturel. Ces tâches reposent souvent sur différentes interfaces de programmation d'application (API). Cependant, les utilisateurs ne fournissent pas toujours toutes les informations nécessaires dans leurs demandes, ce qui peut rendre difficile d'obtenir des résultats précis. Cet article explique une nouvelle approche qui combine les LLM avec le Raisonnement logique et la Planification pour soutenir les demandes des utilisateurs, même quand l'information est incomplète.
Requêtes des utilisateurs
Le défi desLes clients ont souvent des questions ou des demandes adressées aux organisations avec lesquelles ils traitent. Ces demandes peuvent couvrir un large éventail, y compris la recherche de données, l'obtention de conseils ou la mise à jour de dossiers. Comme les utilisateurs ne fournissent pas toujours tous les détails nécessaires, il devient crucial de trouver des moyens d'identifier quelles informations supplémentaires sont nécessaires pour répondre à leurs demandes.
Par exemple, si un utilisateur veut réserver un vol mais oublie de mentionner la date de voyage, sa demande manque d'informations clés. Les méthodes traditionnelles ont souvent du mal à gérer ce genre de requêtes incomplètes, ce qui peut mener à des réponses incorrectes ou à des questions peu utiles pour clarifier.
Solutions actuelles et leurs limites
Divers cadres existants ont essayé de s'attaquer aux demandes des utilisateurs en utilisant des LLM et des API. Cependant, beaucoup d'entre eux s'appuient fortement sur les LLM pour choisir et utiliser les outils nécessaires, ce qui peut limiter leur capacité à travailler avec un plus grand nombre d'API. Ça les rend moins efficaces pour des applications réelles.
Certaines études récentes ont exploré l'utilisation d'un planificateur aux côtés d'un LLM. Un planificateur peut prendre en compte les conditions de départ, les résultats souhaités et les actions possibles pour créer un plan sur la façon de répondre aux demandes des utilisateurs. Pourtant, la plupart de ces méthodes ne fonctionnent qu'avec des requêtes complètes, ce qui n'est pas pratique puisque beaucoup de demandes d'utilisateurs vont manquer d'informations.
Notre approche
Pour surmonter ces limitations, notre méthode proposée combine les LLM avec le raisonnement logique et les techniques de planification classique. Cette approche se concentre sur l'interprétation précise des demandes des utilisateurs tout en identifiant les informations manquantes. Les étapes de ce processus sont les suivantes :
Traduction de la demande utilisateur : La première étape consiste à convertir la demande d'un utilisateur dans un format qui peut être traité par un planificateur. Cela se fait en utilisant un LLM, qui traduit la requête en une représentation intermédiaire.
Raisonnement logique : Une fois que la requête est représentée dans le format intermédiaire, nous appliquons un raisonnement logique pour inférer les informations manquantes. Cette étape utilise un outil appelé Programmation par ensembles de réponses (ASP) pour combler les lacunes dans la compréhension.
Générer un plan : Après avoir identifié les détails manquants, nous créons un plan sur la façon d'utiliser les API pour répondre à la demande de l'utilisateur. Ce plan comprend des étapes pour recueillir des informations manquantes si nécessaire.
Exécution : Le plan final est exécuté, ce qui implique de faire les appels API pertinents dans le bon ordre, en s'assurant que toutes les informations nécessaires sont collectées et en fournissant finalement une réponse à l'utilisateur.
Composants clés de l'approche
LLM pour la traduction : En utilisant les LLM uniquement pour traduire la demande de l'utilisateur en un format intermédiaire, nous pouvons éviter les problèmes liés à l'hallucination, où le modèle infère incorrectement des informations.
ASP pour le raisonnement logique : L'ASP est un outil puissant pour déterminer des détails supplémentaires qui peuvent ne pas avoir été inclus dans la demande initiale. Il fonctionne en appliquant des règles logiques basées sur les informations fournies.
Planification classique : L'utilisation d'un planificateur permet d'orchestrer plusieurs appels API de manière cohérente. Il prend en compte à la fois les API disponibles et les objectifs dérivés de la demande de l'utilisateur.
API spéciales pour la collecte d'informations : Nous avons introduit une API spécifique appelée "getinfoapi" pour demander des informations manquantes à l'utilisateur ou à une source externe si nécessaire. Cette API est essentielle pour gérer efficacement les requêtes incomplètes.
Requêtes des utilisateurs et leur représentation
Les demandes des utilisateurs peuvent varier considérablement. Certaines peuvent être des requêtes simples, tandis que d'autres pourraient impliquer plusieurs objectifs ou tâches. Pour gérer cela, nous avons développé une méthode structurée de décomposition des requêtes :
Demandes à objectif unique : Ce sont des demandes simples qui ont un objectif clair, comme demander un rapport de profits et pertes pour une période spécifique.
Demandes à objectifs multiples : Celles-ci impliquent des scénarios plus complexes où l'utilisateur peut vouloir accomplir plusieurs tâches d'un coup, comme demander un rapport financier et demander un chat avec le service client.
Gestion des requêtes incomplètes : L'approche brille lorsqu'elle est confrontée à des demandes incomplètes. Au lieu de deviner les informations manquantes, la méthode identifie activement ce qui manque et cherche à collecter ces détails auprès de l'utilisateur.
Ensemble de données et évaluation
Pour évaluer notre méthode, nous avons créé un ensemble de données de requêtes d'utilisateurs à la fois complètes et incomplètes. Cela a été fait en utilisant des LLM pour générer des demandes diverses simulant des interactions réelles. Chaque requête utilisateur a été étiquetée avec des résultats attendus pour mesurer la précision de notre approche.
Lors des tests, nous avons constaté que notre combinaison de LLM, de raisonnement logique et de planification surpassait significativement une approche standard basée uniquement sur les LLM, en particulier avec des demandes incomplètes.
Résultats et observations
En comparant notre approche à un modèle de base qui reposait uniquement sur des LLM pour gérer les requêtes des utilisateurs, nous avons remarqué des améliorations notables. Les taux de réussite pour les demandes complètes et incomplètes ont montré une augmentation substantielle, dépassant souvent les 95 %. Cette amélioration provient de :
- La traduction précise des requêtes grâce aux LLM.
- L'identification efficace des informations manquantes par le raisonnement logique.
- La capacité du planificateur à créer des plans réalisables pouvant s'adapter en fonction des informations fournies.
Globalement, cette approche intégrée permet de répondre plus fiablement aux demandes des utilisateurs tout en réduisant la probabilité d'erreurs lorsque l'on traite avec des informations incomplètes.
Directions futures
Bien que l'approche actuelle soit efficace, il reste des domaines à améliorer. Les travaux futurs pourraient se concentrer sur :
Élargir l'approche : À mesure que les organisations grandissent, le nombre d'API et de demandes potentielles augmentera. Trouver des moyens de gérer cette complexité efficacement sera vital.
Préférences des utilisateurs : Actuellement, le système ne prend pas en compte les préférences douces des utilisateurs. Intégrer cet aspect pourrait améliorer la qualité des réponses.
Simplification de la modélisation de domaine : Le besoin de spécifications précises des API peut parfois être lourd. Trouver des moyens d'alléger cette exigence rendra l'approche plus adaptable à diverses organisations.
Conclusion
En résumé, l'utilisation combinée de LLM, de raisonnement logique et de planification classique fournit une solution robuste pour traiter les demandes des utilisateurs, y compris celles qui sont incomplètes. En identifiant activement et en acquérant les informations manquantes, cette méthode garantit que les utilisateurs reçoivent des réponses précises et pertinentes à leurs requêtes. À mesure que le domaine de l'IA continue d'évoluer, de telles techniques innovantes joueront un rôle crucial dans l'amélioration de la manière dont les utilisateurs interagissent avec les organisations via le langage naturel.
Titre: LLM+Reasoning+Planning for supporting incomplete user queries in presence of APIs
Résumé: Recent availability of Large Language Models (LLMs) has led to the development of numerous LLM-based approaches aimed at providing natural language interfaces for various end-user tasks. These end-user tasks in turn can typically be accomplished by orchestrating a given set of APIs. In practice, natural language task requests (user queries) are often incomplete, i.e., they may not contain all the information required by the APIs. While LLMs excel at natural language processing (NLP) tasks, they frequently hallucinate on missing information or struggle with orchestrating the APIs. The key idea behind our proposed approach is to leverage logical reasoning and classical AI planning along with an LLM for accurately answering user queries including identification and gathering of any missing information in these queries. Our approach uses an LLM and ASP (Answer Set Programming) solver to translate a user query to a representation in Planning Domain Definition Language (PDDL) via an intermediate representation in ASP. We introduce a special API "get_info_api" for gathering missing information. We model all the APIs as PDDL actions in a way that supports dataflow between the APIs. Our approach then uses a classical AI planner to generate an orchestration of API calls (including calls to get_info_api) to answer the user query. Our evaluation results show that our approach significantly outperforms a pure LLM based approach by achieving over 95\% success rate in most cases on a dataset containing complete and incomplete single goal and multi-goal queries where the multi-goal queries may or may not require dataflow among the APIs.
Auteurs: Sudhir Agarwal, Anu Sreepathy, David H. Alonso, Prarit Lamba
Dernière mise à jour: 2024-10-10 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.12433
Source PDF: https://arxiv.org/pdf/2405.12433
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.