Uma Nova Abordagem para Identificação de Palavras-Chave
Apresentando um método flexível para reconhecer palavras-chave na fala em diferentes idiomas.
― 7 min ler
Índice
A detecção de palavras-chave (KWS) é uma parte importante dos sistemas que reconhecem fala. Ela foca em encontrar palavras ou frases específicas dentro de um fluxo contínuo de áudio. Essa habilidade é essencial para vários aplicativos, como serviços de transcrição automática e assistentes ativados por voz.
Apesar dos avanços na tecnologia, a KWS ainda enfrenta desafios. Um grande problema é a adaptabilidade e personalização. Normalmente, os sistemas de detecção de palavras-chave só conseguem reconhecer uma lista pré-definida de palavras. Isso significa que eles precisam de muitos dados rotulados para cada palavra, o que pode limitar sua utilidade.
Às vezes, adaptar um modelo para reconhecer novas palavras-chave envolve re-treinamento, que é demorado e que consome muitos recursos. Recentemente, alguns métodos novos, como o aprendizado com poucos exemplos, tentaram oferecer uma maneira mais flexível de lidar com a KWS, mas ainda têm dificuldades em se sair bem com palavras-chave novas ou fora do vocabulário. Isso pode ser especialmente desafiador em línguas de poucos recursos, onde encontrar dados suficientes pode ser complicado.
Um objetivo na KWS é criar um sistema que consiga reconhecer palavras-chave definidas pelo usuário em várias línguas, sem precisar de exemplos ou ajustes extras. Alguns métodos recentes têm trabalhado em sistemas de detecção de palavras-chave de vocabulário aberto, que podem se adaptar para reconhecer palavras que não foram vistas durante o treinamento. Esses sistemas geralmente utilizam um Codificador de Texto para ligar informações de áudio e texto em um espaço compartilhado. No entanto, ainda existem desafios.
Um desafio é que usar dois codificadores separados para áudio e texto pode levar a desalinhamentos entre os dois. Outra limitação é que alguns desses métodos dependem de modelos de fonemas, que podem não funcionar bem para línguas com menos recursos. Por fim, a maioria dessas abordagens foi avaliada principalmente em dados em inglês, deixando dúvidas sobre sua eficácia em línguas e dialetos diversos.
Método Proposto para Detecção de Palavras-Chave
Para enfrentar esses problemas, introduzimos um novo método de detecção de palavras-chave que usa normalização de instância adaptativa. Em vez de tentar alinhar áudio e texto em um espaço conjunto, nosso método emprega um codificador baseado em caracteres que converte a palavra-chave de entrada em parâmetros de normalização. Esses parâmetros ajudam a processar o áudio através de módulos especificamente projetados para adaptação de palavras-chave.
O módulo adaptativo substitui camadas de normalização padrão por camadas de normalização de instância adaptativa. Essas camadas mostraram ser eficazes em várias tarefas, como edição de imagem. Para reduzir detecções incorretas de palavras-chave com sons similares durante o treinamento, desenvolvemos uma nova técnica para encontrar exemplos negativos desafiadores.
Diferente de métodos anteriores que treinavam modelos de detecção de palavras-chave em amostras de áudio segmentadas que contêm apenas a palavra-alvo, treinamos nosso modelo em frases completas. Isso significa que não precisamos nos preocupar em alinhar palavras-chave com segmentos de áudio, o que nos permite usar muito mais dados de treinamento.
Componentes do Modelo de Detecção de Palavras-Chave
O modelo é composto por duas partes principais: um codificador de texto e um classificador de áudio. O classificador de áudio inclui um Codificador de Áudio e módulos adaptativos para palavras-chave. Para nosso codificador de áudio, usamos um modelo pré-treinado e o mantemos inalterado durante nossos experimentos. Quando inserimos áudio no codificador de áudio, ele gera uma representação de áudio que é alimentada nos módulos adaptativos para palavras-chave. Cada módulo processa o áudio usando os parâmetros de normalização ligados à palavra-chave específica.
Também temos um codificador de texto leve que mapeia a palavra-chave alvo para parâmetros de normalização. Essa configuração permite que o modelo compartilhe informações entre diferentes palavras-chave, enquanto ainda consegue se adaptar a palavras-chave específicas de forma eficaz.
Amostragem Negativa
Técnica deCriar exemplos negativos diversos é vital para um treinamento eficaz. Usamos uma abordagem de amostragem negativa que gera exemplos negativos difíceis para cada lote de treinamento. Os dados de treinamento consistem em enunciados de fala e suas transcrições, junto com um conjunto de palavras-chave.
Por exemplo, para criar um exemplo positivo de treinamento, selecionamos aleatoriamente uma palavra-chave e a emparelhamos com o áudio correspondente. Para criar exemplos negativos, podemos usar várias estratégias:
Amostragem Negativa Aleatória: Selecionar uma palavra-chave aleatória. No entanto, esse método não é sempre eficaz, já que as palavras-chave selecionadas aleatoriamente podem soar muito diferentes da palavra-chave alvo.
Substituição de Caracteres: Mudar um ou mais caracteres na palavra-chave positiva para criar uma nova. Isso pode envolver escolher caracteres aleatoriamente ou usar um mapeamento de caracteres que soam semelhantes.
Concatenação de Palavras-Chave: Combinar uma palavra-chave positiva com outra palavra-chave aleatória para criar um exemplo negativo.
Amostragem de Palavra-Chave Mais Próxima: Encontrar uma palavra-chave que seja acusticamente semelhante à palavra-chave positiva ao olhar suas representações textuais.
Esses métodos ajudam a treinar o modelo para distinguir melhor entre palavras-chave que soam parecidas.
Avaliação de Desempenho
Nosso método foi testado em vários conjuntos de dados para avaliar sua eficácia. Um dos conjuntos de dados principais que usamos é o VoxPopuli, que contém um grande número de amostras de fala multilíngues. Também usamos o LibriPhrase, um benchmark projetado para detecção de palavras-chave, que tem divisões difíceis e fáceis.
Quando comparamos nosso método com vários outros, encontramos consistentemente que nossa abordagem superou os modelos existentes. Por exemplo, no conjunto de dados VoxPopuli, nosso modelo apresentou resultados melhores do que os métodos de referência, mostrando sua eficiência em várias línguas.
Além disso, avaliamos a capacidade do nosso modelo de generalizar para novas línguas de poucos recursos. Testamos em um subconjunto de línguas de outro conjunto de dados sem qualquer ajuste fino. Os resultados confirmaram que nosso modelo ainda poderia apresentar um desempenho forte, mesmo ao trabalhar com línguas que não havia encontrado durante o treinamento.
Estudo de Ablação
Realizamos uma análise adicional para investigar como diferentes estratégias de amostragem negativa afetaram o desempenho do nosso modelo. Os resultados indicaram que nossas técnicas de amostragem negativa sugeridas contribuíram significativamente para a eficácia do modelo de detecção de palavras-chave.
Conclusão
Em resumo, apresentamos uma nova abordagem para a detecção de palavras-chave que utiliza normalização de instância adaptativa. Nosso método permite que o modelo se ajuste a novas palavras-chave durante sua operação, o que aumenta sua versatilidade. Ao introduzir estratégias inovadoras para gerar exemplos negativos difíceis, conseguimos resultados de ponta em configurações de vocabulário aberto, mesmo em várias línguas.
Além disso, nosso método demonstrou fortes habilidades de adaptação a línguas e conjuntos de dados não vistos. Esses avanços não só melhoram os métodos atuais de detecção de palavras-chave, mas também abrem caminhos para novas pesquisas nessa área importante de reconhecimento de fala.
Título: Open-vocabulary Keyword-spotting with Adaptive Instance Normalization
Resumo: Open vocabulary keyword spotting is a crucial and challenging task in automatic speech recognition (ASR) that focuses on detecting user-defined keywords within a spoken utterance. Keyword spotting methods commonly map the audio utterance and keyword into a joint embedding space to obtain some affinity score. In this work, we propose AdaKWS, a novel method for keyword spotting in which a text encoder is trained to output keyword-conditioned normalization parameters. These parameters are used to process the auditory input. We provide an extensive evaluation using challenging and diverse multi-lingual benchmarks and show significant improvements over recent keyword spotting and ASR baselines. Furthermore, we study the effectiveness of our approach on low-resource languages that were unseen during the training. The results demonstrate a substantial performance improvement compared to baseline methods.
Autores: Aviv Navon, Aviv Shamsian, Neta Glazer, Gill Hetz, Joseph Keshet
Última atualização: 2023-09-13 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.08561
Fonte PDF: https://arxiv.org/pdf/2309.08561
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.