Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Nouveaux ensembles de données QA ciblant les produits logiciels d'Adobe

Deux ensembles de données QA spécialisés visent à améliorer les systèmes de question-réponse pour Adobe Acrobat et Photoshop.

― 13 min lire


Jeux de données QA pourJeux de données QA pourles outils Adobelogiciels Adobe.améliorent les systèmes QA pour lesDes jeux de données spécialisés
Table des matières

Les récents développements des modèles de langage de grande taille (LLMs) ont rendu ces derniers populaires pour certaines tâches spécifiques. L’une de ces tâches est la réponse aux questions (QA), surtout dans des domaines spécialisés. Cependant, évaluer l’efficacité de ces modèles dans des domaines précis reste difficile. C'est surtout parce qu'il n'existe pas de tests adaptés qui imitent des situations réelles.

Pour résoudre ce problème, on a créé deux jeux de données QA axés sur les produits Adobe Acrobat et Photoshop. Ces jeux de données vont aider à tester la performance des modèles existants pour répondre à des questions liées aux produits. On a aussi conçu un nouveau système qui utilise des connaissances spécifiques pour améliorer les performances dans les tâches de QA produit. Nos expériences ont montré que reformuler les questions avec des connaissances pertinentes a aidé à améliorer à la fois la récupération et la génération de réponses, mais l'amélioration globale était modeste. Cela souligne les défis posés par les nouveaux jeux de données que nous avons introduits.

Avec la montée des grands modèles de langage, on a vu une forte augmentation d'applications adaptées à des domaines spécifiques. Le besoin de systèmes QA précis a grandi, mais beaucoup de méthodes générales ne sont souvent pas à la hauteur dans ces domaines spécialisés. Les chercheurs essaient activement de trouver des moyens d'améliorer ces systèmes.

Il est vital d'entraîner et de tester correctement ces systèmes. On appelle à avoir plus de jeux de données QA spécifiques au domaine pour aider dans ce processus. Bien qu'il y ait eu plusieurs efforts pour créer des jeux de données dans des domaines comme la Médecine, la Finance et le Juridique, il y a toujours un manque de jeux de données axés sur les produits logiciels.

Pour combler cette lacune, on a étudié la création de jeux de données QA spécifiques à l'industrie, en se concentrant surtout sur les jeux de données Adobe HelpX. Ces jeux de données sont maintenant prêts à être utilisés comme références pour améliorer leurs systèmes QA. Ils incluent des questions d'utilisateurs et les réponses correspondantes sur les produits Adobe.

Vue d'ensemble des jeux de données

Les jeux de données comprennent des questions et des réponses typiques des utilisateurs concernant Adobe Acrobat et Photoshop. En fournissant ces jeux de données, on veut offrir des ressources précieuses pour tester la performance des systèmes QA spécialisés. On publiera les jeux de données une fois qu'on aura la permission d'Adobe.

De plus, on introduit un cadre unique qui intègre la connaissance du domaine dans les systèmes QA. Ce cadre utilise des bases de connaissances complètes pour élargir les requêtes des utilisateurs, améliorant ainsi la récupération et la génération de réponses dans les tâches QA produit.

À travers des tests approfondis, on a trouvé que récupérer des informations à partir de ces jeux de données est difficile. Même en utilisant les connaissances des jeux de données pour reformuler des requêtes, l'amélioration des performances des modèles était limitée, soulignant les difficultés inhérentes à ces jeux de données.

En publiant ces jeux de données et en proposant ce cadre innovant, on espère faire avancer l'utilisation des grands modèles de langage dans des tâches QA spécifiques, améliorant ainsi l'expérience utilisateur dans divers secteurs.

Travaux connexes

De nombreux efforts ont été faits pour créer des références QA et des jeux de données d'entraînement dans différents domaines, y compris le biomédical, la finance et le juridique. En revanche, notre focus est sur la QA produit, qui a une grande valeur dans de nombreux environnements d'affaires. Les jeux de données précédents utilisaient souvent des formats de questions simples, tandis que notre travail se concentre sur la QA générative.

Parmi les recherches pertinentes, un jeu de données s’est concentré sur la réponse aux requêtes concernant les produits Microsoft. Cependant, beaucoup de questions nécessitaient des réponses simples par oui/non, limitant la complexité. Un autre jeu de données, PhotoshopQuiA, est similaire au nôtre, car il concerne également Adobe Photoshop. Cependant, il se concentre sur les questions "pourquoi", tandis que nous nous concentrons sur les questions "comment faire", qui nécessitent des réponses détaillées étape par étape. Ce type de requêtes est difficile à traiter car chaque étape doit être précise pour que la réponse soit utile.

Le cadre de génération augmentée par récupération (RAG) a été étudié depuis un certain temps. Les travaux futurs suggèrent de trouver des méthodes pour utiliser pleinement les grands modèles de langage afin d'améliorer les systèmes RAG spécifiques au domaine. Des avancées récentes visent à améliorer la génération contextuelle dans des domaines spécifiques en incorporant des connaissances externes. Par exemple, une méthode a utilisé des structures arborescentes pour montrer les relations dans les documents ; cependant, cette approche ne fonctionnerait pas pour notre jeu de données, qui manque d'une telle organisation.

Une autre méthode spécifique au contexte consiste à entraîner un modèle avec des connaissances pertinentes, puis à l'utiliser pour aider un grand modèle de langage à produire des réponses plus détaillées. Notre approche s'appuie sur cela en créant une base de connaissances composée de relations et d'un processus de reformulation de requêtes en plusieurs étapes. Notre propre évaluation des grands modèles de langage pour diverses tâches soutient leur efficacité à améliorer les réponses. De plus, nous avons exploré l'enrichissement des requêtes en incitant ces modèles dans différents contextes d'apprentissage. Notre travail pousse ce concept plus loin en intégrant des tuples de base de connaissances dans l'expansion des requêtes.

Création de jeux de données

Prétraitement des données

On a obtenu nos données à partir des pages web Adobe HelpX qui fournissent des instructions sur comment utiliser Adobe Acrobat et Photoshop. Un script a été utilisé pour extraire le contenu de ces pages, les divisant en sections basées sur les titres. Chaque section concerne généralement une tâche ou un sujet spécifique dans le logiciel. Cette structure aide à une analyse ciblée.

Au cours de ce processus, tous les liens cliquables et les images dans les pages ont été supprimés, s'assurant que notre jeu de données ne contient que du contenu textuel.

Création de paires question-réponse

Des paires question-réponse de haute qualité ont été soigneusement élaborées. Des experts produits ont été engagés pour rédiger des questions sur comment faire et fournir des réponses détaillées pour des tâches spécifiques utilisant le logiciel. Chaque paire QA était reliée à sa page web source pour vérification.

Pour Adobe Acrobat, des experts ont manuellement créé des paires basées sur les pages HelpX. Pour Adobe Photoshop, on a d'abord généré des paires utilisant un modèle AI, qui ont ensuite été examinées et corrigées par des experts pour s'assurer de leur précision et pertinence.

Cette méthode de création de paires question-réponse garantit que le jeu de données est fiable et utile pour évaluer la recherche axée sur les produits logiciels.

Analyse des données et statistiques

Les jeux de données pour Adobe Acrobat et Photoshop comprennent des questions, des réponses et des liens vers leurs pages web sources correspondantes. Toutes les questions sont de type comment faire, demandant des étapes pour réaliser des tâches comme éditer du texte ou ajouter des images dans des PDF. Les réponses fournissent des guides étape par étape, et les URL permettent aux utilisateurs de vérifier l'information.

Répondre à ces questions comment faire peut être difficile car chaque étape est importante. Une réponse doit contenir des instructions précises, et toute erreur peut affecter l'utilité globale. Par exemple, dans le jeu de données Adobe Acrobat, le nombre moyen d'étapes nécessaires pour répondre à une requête est d'environ 4,71, montrant que la plupart des questions impliquent plusieurs étapes.

Un exemple de requête est "Comment insérer des images dans un PDF ?" avec une réponse multi-étapes détaillant les étapes exactes.

De plus, beaucoup de questions dans le jeu de données Acrobat sont implicites ou ambiguës, ce qui peut mener à diverses interprétations. Notre cadre QA proposé est conçu pour gérer ces complexités efficacement.

Pour évaluer l'applicabilité générale de notre cadre, on a aussi créé un jeu de données synthétique axé sur Adobe Photoshop, qui reflète le jeu de données Acrobat en termes de types de questions et de longueurs de réponses. Bien que ces questions synthétiques soient bien formées et claires, elles nous permettent encore de mesurer à quel point notre cadre peut s'adapter.

Les deux jeux de données servent de références importantes, représentant de vraies requêtes d'utilisateurs et des questions contrôlées. Ils offrent une gamme de scénarios, les rendant précieux pour la recherche dans le domaine des logiciels.

Catégories de questions

Dans le jeu de données Acrobat, diverses catégories de questions sont établies, chacune avec des exemples illustrant les types de requêtes que les utilisateurs pourraient poser.

Le flux de travail typique dans un processus RAG-QA standard implique un récupérateur qui sélectionne des documents pertinents en fonction de la question d'entrée. Notre approche ajoute une étape initiale de reformulation de requête qui affine les requêtes des utilisateurs en utilisant des connaissances dérivées de nos triples. Cette reformulation garantit que les requêtes sont mieux adaptées pour la récupération, augmentant ainsi l'efficacité du système.

Notre pipeline comprend plusieurs étapes allant de la génération de triples de base de connaissances à la récupération et au raffinement des requêtes, ce qui améliore finalement la qualité des réponses générées.

Étape 1 : Génération de triples

La première étape consiste à représenter chaque document sous forme d'un ensemble de triples qui capturent les informations clés. Chaque triple suit le format (Source, Action, Cible), qui s'aligne avec les requêtes potentielles des utilisateurs. Par exemple, un document sur l'édition de texte pourrait produire le triple (poignée de rotation, tourner, zone de texte), indiquant que la poignée de rotation affecte la zone de texte.

Chaque document produit un nombre variable de triples, généralement entre 1 et 35, selon le contenu. Ces triples sont ensuite encodés et organisés de manière à permettre des recherches efficaces.

Étape 2 : Récupération de triples

Cette étape prend la requête de l'utilisateur et recherche des triples pertinents en calculant des scores de similarité entre la requête et les triples stockés. Cette méthode aide à récupérer de nombreux triples pertinents pour chaque requête d'utilisateur.

Étape 3 : Classification de la pertinence

Après la récupération, on filtre les triples les plus pertinents en utilisant un LLM. Le contenu du document et la liste des triples récupérés sont fournis comme entrée au modèle, qui identifie les relations les plus pertinentes. Seuls les triples jugés pertinents sont utilisés dans les étapes suivantes.

Étape 4 : Amélioration de la requête

À ce stade, la requête de l'utilisateur est reformulée pour inclure des détails nécessaires qui aident le processus de récupération. Cette amélioration permet au récupérateur d'effectuer des recherches plus précises. Les triples pertinents et la requête d'utilisateur originale sont présentés au LLM, qui reformule la requête.

Évaluation de la performance

On a mené de nombreuses expériences en utilisant nos jeux de données, mesurant l'efficacité de notre cadre QA par rapport à diverses méthodes de base. Plusieurs récupérateurs ont été testés avec différents composants dans le pipeline RAG-QA.

À travers ces évaluations, notre méthode proposée a constamment montré des améliorations par rapport aux méthodes de base. Les métriques d'évaluation comprenaient des taux de réussite et des scores de similarité sémantique pour évaluer la qualité des sorties générées par notre approche.

Méthodes de base et résultats

En utilisant les méthodes BM25 et Dense Passage Retrieval (DPR) comme méthodes de base, on a évalué leurs performances par rapport à notre cadre proposé. Nos résultats ont indiqué que la méthode DPR a généralement mieux performed que BM25. De plus, notre cadre a surpassé d'autres qui s'appuyaient uniquement sur des incitations générales de LLM sans inclure de connaissances spécifiques au domaine.

Analyse des erreurs

Bien que notre approche puisse efficacement identifier des entités liées, on a aussi noté des erreurs survenues pendant la récupération. Par exemple, une requête sur la réduction de la taille d'un PDF a été mal interprétée en raison de l'accent mis sur les mots-clés plutôt que sur l'intention de la requête. Cela souligne le besoin critique de mécanismes de récupération efficaces dans notre cadre.

On a également reconnu que les métriques de score de similarité étaient seulement marginalement plus élevées que leurs homologues de récupération. Cette observation nous a amenés à considérer des métriques supplémentaires, telles que le Gain Cumulé Normalisé Discounté (NDCG), pour fournir une évaluation plus complète de la performance de notre système.

Conclusion

En résumé, on a introduit deux jeux de données axés sur Adobe Acrobat et Photoshop, servant de références pour un nouveau cadre RAG-QA adapté à des questions procédurales longues spécifiques. Le cadre intègre des connaissances de domaine pour améliorer la récupération d'informations et la génération de réponses.

Globalement, notre recherche ouvre des voies pour de futures améliorations, y compris le potentiel d'applications plus larges dans différents secteurs et l'amélioration des systèmes de récupération pour réduire le bruit lors de la reformulation de requêtes. S'attaquer à ces limitations est essentiel pour faire avancer le domaine des systèmes de réponse aux questions dans des domaines spécialisés.

Source originale

Titre: KaPQA: Knowledge-Augmented Product Question-Answering

Résumé: Question-answering for domain-specific applications has recently attracted much interest due to the latest advancements in large language models (LLMs). However, accurately assessing the performance of these applications remains a challenge, mainly due to the lack of suitable benchmarks that effectively simulate real-world scenarios. To address this challenge, we introduce two product question-answering (QA) datasets focused on Adobe Acrobat and Photoshop products to help evaluate the performance of existing models on domain-specific product QA tasks. Additionally, we propose a novel knowledge-driven RAG-QA framework to enhance the performance of the models in the product QA task. Our experiments demonstrated that inducing domain knowledge through query reformulation allowed for increased retrieval and generative performance when compared to standard RAG-QA methods. This improvement, however, is slight, and thus illustrates the challenge posed by the datasets introduced.

Auteurs: Swetha Eppalapally, Daksh Dangi, Chaithra Bhat, Ankita Gupta, Ruiyi Zhang, Shubham Agarwal, Karishma Bagga, Seunghyun Yoon, Nedim Lipka, Ryan A. Rossi, Franck Dernoncourt

Dernière mise à jour: 2024-07-22 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.16073

Source PDF: https://arxiv.org/pdf/2407.16073

Licence: https://creativecommons.org/licenses/by-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires