Melhorando o Roteamento de Habilidades para Assistentes de Voz
Melhorando o manuseio de pedidos raros em assistentes de voz através de aumento de dados.
― 7 min ler
Índice
Sistemas de conversa grandes como a Amazon Alexa e o Google Assistant precisam entender e direcionar os pedidos dos usuários para a função ou habilidade certa. Essa parte de roteamento de habilidades do sistema é crucial porque decide como bem o pedido do usuário vai ser tratado. A parada é que alguns pedidos são muito comuns, enquanto outros são raros. Por exemplo, pedir para tocar música é muito mais frequente do que perguntar sobre os horários de teatro.
Por causa dessa desigualdade nos pedidos, os dados de treinamento geralmente têm muito mais exemplos de pedidos populares e poucos exemplos de pedidos menos populares. Isso causa dificuldades no desempenho do sistema, especialmente quando lida com aqueles pedidos menos frequentes, conhecidos como "tail traffic".
Outro problema é que as entradas usadas para o roteamento de habilidades contêm uma mistura de diferentes tipos de dados, como texto, números e categorização. Isso torna complicado usar um método que gera dados extras, chamado de Aumento de Dados. O aumento de dados ajuda criando exemplos adicionais para treinamento, especialmente para aqueles pedidos raros que têm pouco tráfego.
O Objetivo do Aumento de Dados
O principal objetivo aqui é melhorar como o sistema de roteamento de habilidades funciona para esses pedidos raros. Para isso, a ideia é criar mais exemplos de treinamento a partir dos existentes, que são menos frequentes. Ao aumentar os dados, esperamos melhorar o desempenho do sistema e permitir que ele lide com pedidos que normalmente têm baixo tráfego.
Isso envolve usar métodos avançados que podem criar Dados Sintéticos. Esses métodos podem mudar os dados originais de várias maneiras para criar novos exemplos, mantendo o significado principal intacto.
Como o Sistema Funciona
O sistema de roteamento de habilidades analisa os pedidos dos usuários e determina qual função ou habilidade deve responder. Para cada pedido, o sistema tem várias respostas possíveis, chamadas de hipóteses. Cada uma dessas hipóteses inclui as palavras faladas pelo usuário, tipo de dispositivo, status do dispositivo e habilidades sugeridas.
Uma parte importante de criar um sistema de roteamento de habilidades robusto é garantir que ele possa repetir decisões passadas com precisão. Isso significa que o sistema deve ser capaz de aprender com dados anteriores, especialmente focando naqueles pedidos menos frequentes que podem facilmente ser ignorados.
Desafios com Aumento de Dados
Criar novos exemplos de dados para pedidos raros é desafiador. Muitas técnicas se concentram em alterar apenas os dados textuais, mas no roteamento de habilidades, também lidamos com outros tipos de informações. Métodos existentes muitas vezes dependem de trabalho manual, que é muito trabalhoso e leva bastante tempo.
Para superar esses desafios, técnicas modernas como modelos generativos condicionais podem ajudar. Esses modelos podem gerar novos dados que mantêm o significado essencial enquanto alteram partes dos dados originais. No entanto, aplicar esses modelos a tipos de dados mistos em sistemas de diálogo ainda é uma área que precisa de mais atenção.
Explorando Estruturas Generativas
Para resolver o problema de gerar dados sintéticos para o roteamento de habilidades, três estruturas generativas diferentes foram propostas. Essas estruturas permitem a criação de novos exemplos de dados que substituem partes dos dados originais, mantendo outras partes inalteradas. O objetivo é garantir que os novos exemplos pareçam realistas e se encaixem bem com os dados existentes.
Autoencoders Variacionais Condicionais (cVAE): Essa abordagem codifica dados existentes em uma forma compacta. Depois, pode gerar novos dados com base em padrões aprendidos, introduzindo variabilidade enquanto mantém os significados principais intactos.
BERT Variacional Condicional (CV-BERT): Essa estrutura é baseada no BERT, um modelo de linguagem poderoso. Ela modifica partes específicas do texto enquanto mantém a estrutura geral, visando produzir novos exemplos sem perder a semântica.
Modelo Joint T5 Seq2Seq: Essa estrutura baseada em transformadores é projetada para gerar tanto texto quanto informações categóricas do zero. O T5 pode criar novos tipos de dados de forma flexível, o que o torna adequado para lidar com tipos de entrada diversos que costumam ser encontrados em sistemas de roteamento de habilidades.
Implementando as Estruturas
As estruturas propostas foram testadas para ver como elas poderiam gerar novos exemplos de treinamento para pedidos raros. O foco foi manter a alta qualidade e assegurar que os dados gerados refletissem variações do mundo real.
Durante os experimentos, várias técnicas também foram aplicadas para melhorar a qualidade do texto gerado. Por exemplo, um método de aprendizado contrastivo foi empregado para garantir que as saídas geradas fossem distintas e coerentes. Esse método ajudou a evitar que o modelo simplesmente reproduzisse dados de treinamento, incentivando a criatividade nas saídas geradas.
Resultados do Experimento
Os resultados mostraram que usar essas estruturas generativas melhorou efetivamente a precisão do sistema de roteamento de habilidades ao lidar com pedidos raros.
Diversidade vs. Qualidade: Os modelos puderam gerar uma variedade diversificada de novos exemplos de treinamento. Em alguns casos, um nível mais alto de diversidade no texto produzido levou a melhores melhorias na precisão da replicação, especialmente para os segmentos de "tail traffic".
Melhorias Estatísticas: Várias métricas foram empregadas para medir o sucesso dos dados gerados. Por exemplo, quão bem os novos dados correspondiam ao que era esperado foi avaliado, e as melhorias foram notáveis em termos de precisão de roteamento.
Insights de Desempenho: O estudo descobriu que ter dados sintéticos de alta qualidade era crucial para melhorar o desempenho em pedidos raros. Enquanto simplesmente replicar dados não funcionou bem, gerar exemplos pensativos levou a melhorias significativas.
Descobertas Estendidas
Embora os resultados tenham sido promissores, eles também destacaram áreas para melhorias. À medida que mais campos eram introduzidos nos dados, a complexidade de manter a qualidade nos exemplos gerados aumentava. A necessidade de um manuseio cuidadoso dos diversos tipos de dados presentes nos pedidos se tornou evidente.
No geral, a experimentação destacou uma oportunidade significativa para usar abordagens generativas para criar dados adicionais que podem enriquecer conjuntos de treinamento, especialmente para aqueles pedidos que tipicamente não recebem atenção suficiente nos conjuntos de dados tradicionais.
Considerações Éticas
Assim como em qualquer tecnologia que cria dados, é importante considerar as implicações éticas. Nesse caso, garantir que os exemplos gerados não incluam conteúdo problemático ou vieses é necessário. Dado que os dados de treinamento foram limpos previamente, a expectativa é que as saídas também sejam apropriadas.
No entanto, é crucial que o trabalho contínuo na área continue a avaliar as saídas geradas e implemente mais verificações para mitigar o risco de produzir conteúdo prejudicial.
Conclusão
Melhorar os sistemas de roteamento de habilidades para assistentes de voz representa um campo de interesse crescente. Este trabalho destaca o potencial do aumento de dados por meio de métodos generativos para enfrentar os desafios exclusivos apresentados por pedidos raros. À medida que os sistemas de conversa se tornam mais sofisticados, manter sua precisão e utilidade para todos os tipos de pedidos dos usuários será fundamental.
Com os avanços contínuos na geração de dados sintéticos, os sistemas de roteamento de habilidades podem evoluir para fornecer respostas mais confiáveis e precisas, melhorando a experiência do usuário em várias plataformas.
Título: Data Augmentation for Improving Tail-traffic Robustness in Skill-routing for Dialogue Systems
Resumo: Large-scale conversational systems typically rely on a skill-routing component to route a user request to an appropriate skill and interpretation to serve the request. In such system, the agent is responsible for serving thousands of skills and interpretations which create a long-tail distribution due to the natural frequency of requests. For example, the samples related to play music might be a thousand times more frequent than those asking for theatre show times. Moreover, inputs used for ML-based skill routing are often a heterogeneous mix of strings, embedding vectors, categorical and scalar features which makes employing augmentation-based long-tail learning approaches challenging. To improve the skill-routing robustness, we propose an augmentation of heterogeneous skill-routing data and training targeted for robust operation in long-tail data regimes. We explore a variety of conditional encoder-decoder generative frameworks to perturb original data fields and create synthetic training data. To demonstrate the effectiveness of the proposed method, we conduct extensive experiments using real-world data from a commercial conversational system. Based on the experiment results, the proposed approach improves more than 80% (51 out of 63) of intents with less than 10K of traffic instances in the skill-routing replication task.
Autores: Ting-Wei Wu, Fatemeh Sheikholeslami, Mohammad Kachuee, Jaeyoung Do, Sungjin Lee
Última atualização: 2023-06-07 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.04823
Fonte PDF: https://arxiv.org/pdf/2306.04823
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.