Nouveaux ensembles de données QA ciblant les produits logiciels d'Adobe

Deux ensembles de données QA spécialisés visent à améliorer les systèmes de question-réponse pour Adobe Acrobat et Photoshop.

Table des matières

Vue d'ensemble des jeux de données
Travaux connexes
Création de jeux de données
Prétraitement des données
Création de paires question-réponse
Analyse des données et statistiques
Catégories de questions
Étape 1 : Génération de triples
Étape 2 : Récupération de triples
Étape 3 : Classification de la pertinence
Étape 4 : Amélioration de la requête
Évaluation de la performance
Méthodes de base et résultats
Analyse des erreurs
Conclusion
Source originale
Liens de référence

Les récents développements des modèles de langage de grande taille (LLMs) ont rendu ces derniers populaires pour certaines tâches spécifiques. L’une de ces tâches est la réponse aux questions (QA), surtout dans des domaines spécialisés. Cependant, évaluer l’efficacité de ces modèles dans des domaines précis reste difficile. C'est surtout parce qu'il n'existe pas de tests adaptés qui imitent des situations réelles.

Pour résoudre ce problème, on a créé deux jeux de données QA axés sur les produits Adobe Acrobat et Photoshop. Ces jeux de données vont aider à tester la performance des modèles existants pour répondre à des questions liées aux produits. On a aussi conçu un nouveau système qui utilise des connaissances spécifiques pour améliorer les performances dans les tâches de QA produit. Nos expériences ont montré que reformuler les questions avec des connaissances pertinentes a aidé à améliorer à la fois la récupération et la génération de réponses, mais l'amélioration globale était modeste. Cela souligne les défis posés par les nouveaux jeux de données que nous avons introduits.

Avec la montée des grands modèles de langage, on a vu une forte augmentation d'applications adaptées à des domaines spécifiques. Le besoin de systèmes QA précis a grandi, mais beaucoup de méthodes générales ne sont souvent pas à la hauteur dans ces domaines spécialisés. Les chercheurs essaient activement de trouver des moyens d'améliorer ces systèmes.

Il est vital d'entraîner et de tester correctement ces systèmes. On appelle à avoir plus de jeux de données QA spécifiques au domaine pour aider dans ce processus. Bien qu'il y ait eu plusieurs efforts pour créer des jeux de données dans des domaines comme la Médecine, la Finance et le Juridique, il y a toujours un manque de jeux de données axés sur les produits logiciels.

Pour combler cette lacune, on a étudié la création de jeux de données QA spécifiques à l'industrie, en se concentrant surtout sur les jeux de données Adobe HelpX. Ces jeux de données sont maintenant prêts à être utilisés comme références pour améliorer leurs systèmes QA. Ils incluent des questions d'utilisateurs et les réponses correspondantes sur les produits Adobe.

Vue d'ensemble des jeux de données

Les jeux de données comprennent des questions et des réponses typiques des utilisateurs concernant Adobe Acrobat et Photoshop. En fournissant ces jeux de données, on veut offrir des ressources précieuses pour tester la performance des systèmes QA spécialisés. On publiera les jeux de données une fois qu'on aura la permission d'Adobe.

De plus, on introduit un cadre unique qui intègre la connaissance du domaine dans les systèmes QA. Ce cadre utilise des bases de connaissances complètes pour élargir les requêtes des utilisateurs, améliorant ainsi la récupération et la génération de réponses dans les tâches QA produit.

À travers des tests approfondis, on a trouvé que récupérer des informations à partir de ces jeux de données est difficile. Même en utilisant les connaissances des jeux de données pour reformuler des requêtes, l'amélioration des performances des modèles était limitée, soulignant les difficultés inhérentes à ces jeux de données.

En publiant ces jeux de données et en proposant ce cadre innovant, on espère faire avancer l'utilisation des grands modèles de langage dans des tâches QA spécifiques, améliorant ainsi l'expérience utilisateur dans divers secteurs.

Travaux connexes

De nombreux efforts ont été faits pour créer des références QA et des jeux de données d'entraînement dans différents domaines, y compris le biomédical, la finance et le juridique. En revanche, notre focus est sur la QA produit, qui a une grande valeur dans de nombreux environnements d'affaires. Les jeux de données précédents utilisaient souvent des formats de questions simples, tandis que notre travail se concentre sur la QA générative.

Parmi les recherches pertinentes, un jeu de données s’est concentré sur la réponse aux requêtes concernant les produits Microsoft. Cependant, beaucoup de questions nécessitaient des réponses simples par oui/non, limitant la complexité. Un autre jeu de données, PhotoshopQuiA, est similaire au nôtre, car il concerne également Adobe Photoshop. Cependant, il se concentre sur les questions "pourquoi", tandis que nous nous concentrons sur les questions "comment faire", qui nécessitent des réponses détaillées étape par étape. Ce type de requêtes est difficile à traiter car chaque étape doit être précise pour que la réponse soit utile.

Le cadre de génération augmentée par récupération (RAG) a été étudié depuis un certain temps. Les travaux futurs suggèrent de trouver des méthodes pour utiliser pleinement les grands modèles de langage afin d'améliorer les systèmes RAG spécifiques au domaine. Des avancées récentes visent à améliorer la génération contextuelle dans des domaines spécifiques en incorporant des connaissances externes. Par exemple, une méthode a utilisé des structures arborescentes pour montrer les relations dans les documents ; cependant, cette approche ne fonctionnerait pas pour notre jeu de données, qui manque d'une telle organisation.

Une autre méthode spécifique au contexte consiste à entraîner un modèle avec des connaissances pertinentes, puis à l'utiliser pour aider un grand modèle de langage à produire des réponses plus détaillées. Notre approche s'appuie sur cela en créant une base de connaissances composée de relations et d'un processus de reformulation de requêtes en plusieurs étapes. Notre propre évaluation des grands modèles de langage pour diverses tâches soutient leur efficacité à améliorer les réponses. De plus, nous avons exploré l'enrichissement des requêtes en incitant ces modèles dans différents contextes d'apprentissage. Notre travail pousse ce concept plus loin en intégrant des tuples de base de connaissances dans l'expansion des requêtes.

Création de jeux de données

Prétraitement des données

On a obtenu nos données à partir des pages web Adobe HelpX qui fournissent des instructions sur comment utiliser Adobe Acrobat et Photoshop. Un script a été utilisé pour extraire le contenu de ces pages, les divisant en sections basées sur les titres. Chaque section concerne généralement une tâche ou un sujet spécifique dans le logiciel. Cette structure aide à une analyse ciblée.

Au cours de ce processus, tous les liens cliquables et les images dans les pages ont été supprimés, s'assurant que notre jeu de données ne contient que du contenu textuel.

Création de paires question-réponse

Des paires question-réponse de haute qualité ont été soigneusement élaborées. Des experts produits ont été engagés pour rédiger des questions sur comment faire et fournir des réponses détaillées pour des tâches spécifiques utilisant le logiciel. Chaque paire QA était reliée à sa page web source pour vérification.

Pour Adobe Acrobat, des experts ont manuellement créé des paires basées sur les pages HelpX. Pour Adobe Photoshop, on a d'abord généré des paires utilisant un modèle AI, qui ont ensuite été examinées et corrigées par des experts pour s'assurer de leur précision et pertinence.

Cette méthode de création de paires question-réponse garantit que le jeu de données est fiable et utile pour évaluer la recherche axée sur les produits logiciels.

Analyse des données et statistiques

Les jeux de données pour Adobe Acrobat et Photoshop comprennent des questions, des réponses et des liens vers leurs pages web sources correspondantes. Toutes les questions sont de type comment faire, demandant des étapes pour réaliser des tâches comme éditer du texte ou ajouter des images dans des PDF. Les réponses fournissent des guides étape par étape, et les URL permettent aux utilisateurs de vérifier l'information.

Répondre à ces questions comment faire peut être difficile car chaque étape est importante. Une réponse doit contenir des instructions précises, et toute erreur peut affecter l'utilité globale. Par exemple, dans le jeu de données Adobe Acrobat, le nombre moyen d'étapes nécessaires pour répondre à une requête est d'environ 4,71, montrant que la plupart des questions impliquent plusieurs étapes.

Un exemple de requête est "Comment insérer des images dans un PDF ?" avec une réponse multi-étapes détaillant les étapes exactes.

De plus, beaucoup de questions dans le jeu de données Acrobat sont implicites ou ambiguës, ce qui peut mener à diverses interprétations. Notre cadre QA proposé est conçu pour gérer ces complexités efficacement.

Pour évaluer l'applicabilité générale de notre cadre, on a aussi créé un jeu de données synthétique axé sur Adobe Photoshop, qui reflète le jeu de données Acrobat en termes de types de questions et de longueurs de réponses. Bien que ces questions synthétiques soient bien formées et claires, elles nous permettent encore de mesurer à quel point notre cadre peut s'adapter.

Les deux jeux de données servent de références importantes, représentant de vraies requêtes d'utilisateurs et des questions contrôlées. Ils offrent une gamme de scénarios, les rendant précieux pour la recherche dans le domaine des logiciels.

Catégories de questions

Dans le jeu de données Acrobat, diverses catégories de questions sont établies, chacune avec des exemples illustrant les types de requêtes que les utilisateurs pourraient poser.

Le flux de travail typique dans un processus RAG-QA standard implique un récupérateur qui sélectionne des documents pertinents en fonction de la question d'entrée. Notre approche ajoute une étape initiale de reformulation de requête qui affine les requêtes des utilisateurs en utilisant des connaissances dérivées de nos triples. Cette reformulation garantit que les requêtes sont mieux adaptées pour la récupération, augmentant ainsi l'efficacité du système.

Notre pipeline comprend plusieurs étapes allant de la génération de triples de base de connaissances à la récupération et au raffinement des requêtes, ce qui améliore finalement la qualité des réponses générées.

Étape 1 : Génération de triples

La première étape consiste à représenter chaque document sous forme d'un ensemble de triples qui capturent les informations clés. Chaque triple suit le format (Source, Action, Cible), qui s'aligne avec les requêtes potentielles des utilisateurs. Par exemple, un document sur l'édition de texte pourrait produire le triple (poignée de rotation, tourner, zone de texte), indiquant que la poignée de rotation affecte la zone de texte.

Chaque document produit un nombre variable de triples, généralement entre 1 et 35, selon le contenu. Ces triples sont ensuite encodés et organisés de manière à permettre des recherches efficaces.

Étape 2 : Récupération de triples

Cette étape prend la requête de l'utilisateur et recherche des triples pertinents en calculant des scores de similarité entre la requête et les triples stockés. Cette méthode aide à récupérer de nombreux triples pertinents pour chaque requête d'utilisateur.

Étape 3 : Classification de la pertinence

Après la récupération, on filtre les triples les plus pertinents en utilisant un LLM. Le contenu du document et la liste des triples récupérés sont fournis comme entrée au modèle, qui identifie les relations les plus pertinentes. Seuls les triples jugés pertinents sont utilisés dans les étapes suivantes.

Étape 4 : Amélioration de la requête

À ce stade, la requête de l'utilisateur est reformulée pour inclure des détails nécessaires qui aident le processus de récupération. Cette amélioration permet au récupérateur d'effectuer des recherches plus précises. Les triples pertinents et la requête d'utilisateur originale sont présentés au LLM, qui reformule la requête.

Évaluation de la performance

On a mené de nombreuses expériences en utilisant nos jeux de données, mesurant l'efficacité de notre cadre QA par rapport à diverses méthodes de base. Plusieurs récupérateurs ont été testés avec différents composants dans le pipeline RAG-QA.

À travers ces évaluations, notre méthode proposée a constamment montré des améliorations par rapport aux méthodes de base. Les métriques d'évaluation comprenaient des taux de réussite et des scores de similarité sémantique pour évaluer la qualité des sorties générées par notre approche.

Méthodes de base et résultats

En utilisant les méthodes BM25 et Dense Passage Retrieval (DPR) comme méthodes de base, on a évalué leurs performances par rapport à notre cadre proposé. Nos résultats ont indiqué que la méthode DPR a généralement mieux performed que BM25. De plus, notre cadre a surpassé d'autres qui s'appuyaient uniquement sur des incitations générales de LLM sans inclure de connaissances spécifiques au domaine.

Analyse des erreurs

Bien que notre approche puisse efficacement identifier des entités liées, on a aussi noté des erreurs survenues pendant la récupération. Par exemple, une requête sur la réduction de la taille d'un PDF a été mal interprétée en raison de l'accent mis sur les mots-clés plutôt que sur l'intention de la requête. Cela souligne le besoin critique de mécanismes de récupération efficaces dans notre cadre.

On a également reconnu que les métriques de score de similarité étaient seulement marginalement plus élevées que leurs homologues de récupération. Cette observation nous a amenés à considérer des métriques supplémentaires, telles que le Gain Cumulé Normalisé Discounté (NDCG), pour fournir une évaluation plus complète de la performance de notre système.

Conclusion

En résumé, on a introduit deux jeux de données axés sur Adobe Acrobat et Photoshop, servant de références pour un nouveau cadre RAG-QA adapté à des questions procédurales longues spécifiques. Le cadre intègre des connaissances de domaine pour améliorer la récupération d'informations et la génération de réponses.

Globalement, notre recherche ouvre des voies pour de futures améliorations, y compris le potentiel d'applications plus larges dans différents secteurs et l'amélioration des systèmes de récupération pour réduire le bruit lors de la reformulation de requêtes. S'attaquer à ces limitations est essentiel pour faire avancer le domaine des systèmes de réponse aux questions dans des domaines spécialisés.

Nouveaux ensembles de données QA ciblant les produits logiciels d'Adobe

Vue d'ensemble des jeux de données

Travaux connexes

Création de jeux de données

Prétraitement des données

Création de paires question-réponse

Analyse des données et statistiques

Catégories de questions

Étape 1 : Génération de triples

Étape 2 : Récupération de triples

Étape 3 : Classification de la pertinence

Étape 4 : Amélioration de la requête

Évaluation de la performance

Méthodes de base et résultats

Analyse des erreurs

Conclusion

Liens de référence

Sujets référencés

Plus d'auteurs

Articles similaires

Nouveaux ensembles de données QA ciblant les produits logiciels d'Adobe

#Vue d'ensemble des jeux de données

#Travaux connexes

#Création de jeux de données

#Prétraitement des données

#Création de paires question-réponse

#Analyse des données et statistiques

#Catégories de questions

#Étape 1 : Génération de triples

#Étape 2 : Récupération de triples

#Étape 3 : Classification de la pertinence

#Étape 4 : Amélioration de la requête

#Évaluation de la performance

#Méthodes de base et résultats

#Analyse des erreurs

#Conclusion

Liens de référence

Sujets référencés

Plus d'auteurs

Articles similaires

Vue d'ensemble des jeux de données

Travaux connexes

Création de jeux de données

Prétraitement des données

Création de paires question-réponse

Analyse des données et statistiques

Catégories de questions

Étape 1 : Génération de triples

Étape 2 : Récupération de triples

Étape 3 : Classification de la pertinence

Étape 4 : Amélioration de la requête

Évaluation de la performance

Méthodes de base et résultats

Analyse des erreurs

Conclusion