Améliorer le routage des compétences pour les assistants vocaux
Améliorer la gestion des requêtes rares dans les assistants vocaux grâce à l'augmentation de données.
― 8 min lire
Table des matières
Les grands systèmes de conversation comme Amazon Alexa et Google Assistant doivent comprendre et orienter les demandes des utilisateurs vers la bonne fonction ou compétence. Cette partie de l'acheminement des compétences est cruciale car elle détermine comment la demande de l'utilisateur sera traitée. Le défi vient du fait que certaines demandes sont très courantes, tandis que d'autres sont rares. Par exemple, demander de jouer de la musique est beaucoup plus fréquent que demander les horaires de spectacles de théâtre.
À cause de cette inégalité dans les demandes, les données d'entraînement ont souvent beaucoup plus d'exemples de demandes populaires et très peu d'exemples de celles moins populaires. Cela entraîne des difficultés dans la performance du système, surtout quand il s'agit de ces demandes moins fréquentes, connues sous le nom de trafic de queue.
Un autre problème est que les entrées utilisées pour l'acheminement des compétences contiennent un mélange de différents types de données, comme du texte, des chiffres et des catégorisations. Cela complique l'utilisation d'une méthode qui génère des données supplémentaires, appelée Augmentation de données. L'augmentation de données aide en créant des exemples supplémentaires pour l'entraînement, surtout pour ces demandes rares qui ont peu de trafic.
L'objectif de l'augmentation de données
Le but principal ici est d'améliorer le fonctionnement du système d'acheminement des compétences pour ces demandes rares. Pour cela, l'idée est de créer plus d'exemples d'entraînement à partir des exemples existants, moins fréquents. En augmentant les données, on espère booster la performance du système et lui permettre de gérer des demandes qui ont généralement peu de trafic.
Cela implique d'utiliser des méthodes avancées qui peuvent créer des Données synthétiques. De telles méthodes peuvent modifier les données originales de différentes manières pour créer de nouveaux exemples tout en gardant le sens principal intact.
Comment fonctionne le système
Le système d'acheminement des compétences examine les demandes des utilisateurs et détermine quelle fonction ou compétence doit répondre. Pour chaque demande, le système a de nombreuses réponses possibles, appelées hypothèses. Chacune de ces hypothèses inclut les mots prononcés par l'utilisateur, le type de dispositif, l'état du dispositif et les compétences suggérées.
Une partie importante de la création d'un système d'acheminement des compétences robuste est de s'assurer qu'il peut répéter des décisions passées avec précision. Cela signifie que le système doit pouvoir apprendre à partir des données précédentes, en se concentrant particulièrement sur ces demandes moins fréquentes qui peuvent facilement être négligées.
Défis de l'augmentation de données
Créer de nouveaux exemples de données pour des demandes rares est un défi. Beaucoup de techniques se concentrent uniquement sur la modification des données textuelles, mais dans l'acheminement des compétences, on traite également d'autres types d'informations. Les méthodes existantes reposent souvent sur un travail manuel, qui est gourmand en main-d'œuvre et prend beaucoup de temps.
Pour surmonter ces défis, des techniques modernes comme les modèles génératifs conditionnels peuvent aider. Ces modèles peuvent générer de nouvelles données qui conservent le sens essentiel tout en modifiant des parties des données originales. Cependant, appliquer ces modèles à des types de données mixtes dans les systèmes de dialogue est encore un domaine qui nécessite plus d'attention.
Exploration de cadres génératifs
Pour aborder le problème de la génération de données synthétiques pour l'acheminement des compétences, trois cadres génératifs différents ont été proposés. Ces cadres permettent de créer de nouveaux échantillons de données qui remplacent des parties des données originales tout en gardant d'autres parties inchangées. L'objectif est de s'assurer que les nouveaux échantillons ont l'air réalistes et s'intègrent bien dans les données existantes.
Autoencodeurs variationnels conditionnels (cVAE) : Cette approche encode les données existantes dans une forme compacte. Elle peut ensuite générer de nouvelles données basées sur des motifs appris, introduisant de la variabilité tout en gardant les significations essentielles intactes.
BERT variationnel conditionnel (CV-BERT) : Ce cadre s'appuie sur BERT, un puissant modèle de langage. Il modifie des parties spécifiques du texte tout en gardant la structure globale, visant à produire de nouveaux échantillons sans perdre la sémantique.
Modèle Seq2Seq T5 joint : Ce cadre basé sur des transformateurs est conçu pour générer à la fois du texte et des informations catégorielles à partir de zéro. T5 peut créer de manière flexible de nouvelles formes de données, ce qui le rend adapté pour traiter divers types d'entrées souvent trouvés dans les systèmes d'acheminement des compétences.
Mise en œuvre des cadres
Les cadres proposés ont été testés pour voir à quel point ils pouvaient générer de nouveaux exemples d'entraînement pour des demandes rares. L'accent a été mis sur le maintien d'une haute qualité et l'assurance que les données générées reflètent des variations du monde réel.
Au cours des expériences, diverses techniques ont également été appliquées pour améliorer la qualité du texte généré. Par exemple, une méthode d'apprentissage contrastif a été utilisée pour garantir que les sorties générées étaient distinctes et cohérentes. Cette méthode a aidé à éviter que le modèle ne reproduise simplement les données d'entraînement, encourageant la créativité dans les sorties générées.
Résultats de l'expérience
Les résultats ont indiqué que l'utilisation de ces cadres génératifs améliorait efficacement la précision du système d'acheminement des compétences pour traiter des demandes rares.
Diversité vs. qualité : Les modèles pouvaient générer un éventail diversifié de nouveaux échantillons d'entraînement. Dans certains cas, un niveau de diversité plus élevé dans le texte produit a conduit à de meilleures améliorations en termes de précision de réplication, surtout pour les segments de trafic de queue.
Améliorations statistiques : Plusieurs métriques ont été utilisées pour mesurer le succès des données générées. Par exemple, la manière dont les nouvelles données correspondaient à ce qui était attendu a été évaluée, et les améliorations étaient notables en termes de précision d'acheminement.
Aperçus de performance : L'étude a révélé que disposer de données synthétiques de haute qualité était crucial pour améliorer la performance sur des demandes rares. Alors que la simple réplication des données ne fonctionnait pas bien, générer des exemples réfléchis a entraîné des améliorations significatives.
Résultats élargis
Bien que les résultats soient prometteurs, ils ont également mis en évidence des domaines à améliorer. Au fur et à mesure que des champs supplémentaires étaient introduits dans les données, la complexité de maintenir la qualité des échantillons générés augmentait. Le besoin d'une manipulation soigneuse des types de données divers présents dans les demandes est devenu évident.
Dans l'ensemble, l'expérimentation a souligné une opportunité significative d'utiliser des approches génératives pour créer des données supplémentaires qui peuvent enrichir les ensembles d'entraînement, en particulier pour ces demandes qui ne reçoivent généralement pas suffisamment d'attention dans les ensembles de données traditionnels.
Considérations éthiques
Comme avec toute technologie qui crée des données, il est important de considérer les implications éthiques. Dans ce cas, il est nécessaire de s'assurer que les exemples générés n'incluent pas de contenus problématiques ou de biais. Étant donné que les données d'entraînement ont été nettoyées au préalable, on s'attend à ce que les sorties soient également appropriées.
Cependant, il est crucial que le travail continu dans le domaine évalue en permanence les sorties générées et mette en œuvre d'autres vérifications pour atténuer le risque de produire du contenu nuisible.
Conclusion
Améliorer les systèmes d'acheminement des compétences pour les assistants vocaux représente un domaine d'intérêt croissant. Ce travail met en lumière le potentiel de l'augmentation de données grâce à des méthodes génératives pour relever les défis uniques posés par les demandes rares. À mesure que les systèmes de conversation deviennent plus sophistiqués, maintenir leur précision et leur utilité pour tous les types de demandes des utilisateurs sera primordial.
Avec les avancées continues dans la génération de données synthétiques, les systèmes d'acheminement des compétences peuvent évoluer pour fournir des réponses plus fiables et précises, améliorant ainsi l'expérience utilisateur sur diverses plateformes.
Titre: Data Augmentation for Improving Tail-traffic Robustness in Skill-routing for Dialogue Systems
Résumé: Large-scale conversational systems typically rely on a skill-routing component to route a user request to an appropriate skill and interpretation to serve the request. In such system, the agent is responsible for serving thousands of skills and interpretations which create a long-tail distribution due to the natural frequency of requests. For example, the samples related to play music might be a thousand times more frequent than those asking for theatre show times. Moreover, inputs used for ML-based skill routing are often a heterogeneous mix of strings, embedding vectors, categorical and scalar features which makes employing augmentation-based long-tail learning approaches challenging. To improve the skill-routing robustness, we propose an augmentation of heterogeneous skill-routing data and training targeted for robust operation in long-tail data regimes. We explore a variety of conditional encoder-decoder generative frameworks to perturb original data fields and create synthetic training data. To demonstrate the effectiveness of the proposed method, we conduct extensive experiments using real-world data from a commercial conversational system. Based on the experiment results, the proposed approach improves more than 80% (51 out of 63) of intents with less than 10K of traffic instances in the skill-routing replication task.
Auteurs: Ting-Wei Wu, Fatemeh Sheikholeslami, Mohammad Kachuee, Jaeyoung Do, Sungjin Lee
Dernière mise à jour: 2023-06-07 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2306.04823
Source PDF: https://arxiv.org/pdf/2306.04823
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.