Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Computação e linguagem# Som# Processamento de Áudio e Fala

Avaliação de Modelos de Reconhecimento de Fala: Um Estudo Completo

Uma análise de seis modelos de reconhecimento de fala focando na velocidade e precisão.

― 7 min ler


Avaliação de Modelo deAvaliação de Modelo deReconhecimento de Falamodelos de fala.Uma avaliação detalhada dos principais
Índice

A tecnologia de reconhecimento automático de fala (ASR) melhorou muito ao longo dos anos, se tornando bem mais confiável e sendo usada em várias situações do dia a dia. Mas, quando se trata de pesquisa, escolher o modelo certo para uma tarefa específica pode ser complicado. Isso é ainda mais verdadeiro quando tanto a velocidade quanto a precisão são importantes. Este artigo avalia seis modelos de reconhecimento de fala com base em seu desempenho e traz novas ideias sobre como analisá-los.

Avaliando Reconhecedores de Fala

Na nossa avaliação, olhamos para seis reconhecedores de fala diferentes. Medimos eles usando várias métricas chave: Taxa de Erro de Palavras (quantas vezes o sistema erra), latência (quanto tempo leva para reconhecer as palavras) e quantas vezes o sistema precisa atualizar suas palavras reconhecidas. Também introduzimos uma nova métrica chamada Revokes por Segundo, que verifica com que frequência o sistema muda de ideia sobre o que reconheceu.

Com os nossos achados, percebemos que os modelos de reconhecimento de fala local, que rodam em um dispositivo, tendem a ser mais rápidos e precisam de menos atualizações em comparação com os modelos baseados na nuvem, que dependem de serviços da internet. Dentre eles, o modelo Wav2vec da Meta foi o mais rápido, enquanto o modelo DeepSpeech da Mozilla mostrou mais estabilidade nas suas previsões.

Importância da Velocidade e Precisão

O desempenho do reconhecimento de fala melhorou muito nos últimos anos. Muitos modelos agora produzem saídas de forma incremental, ou seja, conseguem mostrar palavras ou partes de palavras conforme vão sendo reconhecidas. Isso aumenta sua utilidade em situações em tempo real, como conversas com robôs ou assistentes virtuais, onde respostas rápidas são esperadas.

Em aplicações onde a interação rápida é crucial, ter previsões precisas é vital. Erros e atrasos podem afetar tudo que vem depois em um sistema, levando a um desempenho geral ruim. Enquanto a maioria dos modelos se baseia na taxa de erro de palavras para avaliação, essa métrica nem sempre capta bem como os modelos se saem em configurações em tempo real.

Para lidar com essa lacuna, alguns pesquisadores sugeriram novas métricas focadas no desempenho incremental. Exemplos incluem Sobreposição de Edição (quanto de edição é necessária) e Taxa de Sobrevivência de Palavras (com que frequência as palavras reconhecidas são mantidas). Essas métricas caem em três áreas principais: precisão geral, velocidade e estabilidade, mas focam mais nas saídas de palavras individuais.

Contribuições Este Estudo

Neste artigo, fizemos três contribuições importantes:

  1. Avaliamos seis modelos recentes de reconhecimento de fala usando dados da língua inglesa.
  2. Propusemos uma nova métrica contínua que mede com que frequência um modelo muda sua saída ao longo do tempo.
  3. Comparamos dois métodos diferentes para combinar saídas de palavras menores em saídas de palavras maiores à medida que o reconhecimento acontece.

Seguindo estratégias de avaliação já estabelecidas, oferecemos orientações sobre qual modelo de reconhecimento de fala pode funcionar melhor para diferentes tarefas. Para facilitar o uso desses modelos de forma progressiva, implementamos todos eles como módulos dentro da estrutura ReTiCo.

Modelos Locais vs. Baseados na Nuvem

Nos concentramos em modelos locais que operam em um dispositivo e aqueles que dependem de serviços baseados na nuvem. Os modelos de nuvem que examinamos foram a API Speech-to-Text do Google Cloud e o Speech SDK da Microsoft Azure. Os modelos locais incluíram Wav2Vec, DeepSpeech, PocketSphinx e Vosk.

O Wav2Vec é um modelo avançado que trabalha diretamente com dados de áudio bruto e foi pré-treinado em um grande conjunto de dados. O DeepSpeech utiliza redes neurais recorrentes e opera em espectrogramas de áudio. O PocketSphinx é um modelo mais leve baseado em métodos tradicionais de reconhecimento de fala. O Vosk combina uma rede neural com outros métodos padrão para melhorar o desempenho.

Diferentes Métodos para Saída

Dois métodos principais foram usados para combinar saídas menores em saídas maiores: Janela Deslizante e Concatenação. No método de Janela Deslizante, o sistema processa segmentos sobrepostos de áudio, enquanto o método de Concatenação junta todo o áudio em um único buffer para previsões.

Embora o método de Janela Deslizante tenha uma latência mais baixa, o método de Concatenação é geralmente mais preciso. No entanto, ele requer mais recursos computacionais e memória à medida que o áudio fica mais longo com o tempo.

Dados Experimentais e Configuração

Para nossa avaliação, usamos dois conjuntos de dados: o conjunto de dados LibriSpeech e um conjunto de dados de diálogos simulados de conversas médicas. O conjunto de dados LibriSpeech inclui uma ampla gama de amostras de fala, proporcionando um conjunto diversificado de vozes e sotaques. O conjunto de dados de diálogo médico consiste em conversas gravadas que incluem vários padrões de fala e hesitações.

Do conjunto de dados LibriSpeech, examinamos arquivos contendo cerca de 20 palavras cada, enquanto o conjunto de dados médico incluía conversas mais longas, permitindo que avaliássemos o desempenho do modelo em diferentes contextos.

Resultados da Avaliação

Nossos resultados mostraram que os modelos locais geralmente tinham uma latência mais baixa em comparação com os modelos baseados na nuvem. Eles também eram mais estáveis, precisando de menos atualizações no geral. Ao usar o método de Janela Deslizante, os modelos locais superaram os modelos de nuvem em termos de velocidade.

No entanto, alguns modelos locais que usaram o método de Concatenação mostraram melhor precisão do que as opções baseadas na nuvem. Por exemplo, o Google tendia a ser mais rápido, mas menos estável, enquanto o Azure era mais preciso, mas mais lento.

Principais Descobertas

No geral, o modelo Wav2Vec foi o que teve o melhor desempenho em termos de precisão ao usar o método de Concatenação no conjunto de dados LibriSpeech. Da mesma forma, para o conjunto de dados de Diálogo Médico, o Vosk superou os outros. No entanto, o modelo DeepSpeech teve um alto nível de estabilidade enquanto mantinha baixas taxas de atualização.

A métrica Revokes por Segundo provou ser valiosa para avaliar tanto a velocidade quanto a estabilidade. Um sistema que teve menos revogações no início foi preferido, pois minimizou problemas em configurações em tempo real.

Limitações e Trabalhos Futuros

Um desafio que enfrentamos foi a falta de informações detalhadas sobre a arquitetura e o treinamento dos modelos de nuvem. Isso dificultou determinar por que alguns modelos se saíram melhor do que outros. No futuro, pretendemos testar mais conjuntos de dados e explorar como os modelos de reconhecimento de fala se comportam em diferentes idiomas.

Conclusão

Este artigo destaca a avaliação de seis modelos diferentes de reconhecimento de fala em um ambiente incremental. Introduzimos uma nova métrica chamada Revokes por Segundo para avaliar o desempenho de forma abrangente. No geral, nossas descobertas indicam que os modelos locais geralmente se saem melhor em termos de velocidade e estabilidade, enquanto os modelos de nuvem, apesar de serem precisos, podem levar a mais atrasos em situações que exigem rapidez. Esta pesquisa deve ajudar a orientar futuros trabalhos em reconhecimento automático de fala, especialmente em aplicações em tempo real, como sistemas de diálogo falados.

Fonte original

Título: Evaluating Automatic Speech Recognition in an Incremental Setting

Resumo: The increasing reliability of automatic speech recognition has proliferated its everyday use. However, for research purposes, it is often unclear which model one should choose for a task, particularly if there is a requirement for speed as well as accuracy. In this paper, we systematically evaluate six speech recognizers using metrics including word error rate, latency, and the number of updates to already recognized words on English test data, as well as propose and compare two methods for streaming audio into recognizers for incremental recognition. We further propose Revokes per Second as a new metric for evaluating incremental recognition and demonstrate that it provides insights into overall model performance. We find that, generally, local recognizers are faster and require fewer updates than cloud-based recognizers. Finally, we find Meta's Wav2Vec model to be the fastest, and find Mozilla's DeepSpeech model to be the most stable in its predictions.

Autores: Ryan Whetten, Mir Tahsin Imtiaz, Casey Kennington

Última atualização: 2023-02-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2302.12049

Fonte PDF: https://arxiv.org/pdf/2302.12049

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes