Melhorando a Precisão do Reconhecimento de Voz com Modelos de Linguagem
Um estudo sobre usar modelos de linguagem pra corrigir erros em sistemas de reconhecimento de fala.
― 6 min ler
Índice
Sistemas de reconhecimento de voz estão se tornando comuns em várias aplicações, como busca por voz e serviços de transcrição. Mas esses sistemas podem cometer erros, especialmente em ambientes barulhentos ou com sotaques diferentes. Quando ocorrem falhas na saída desses sistemas, isso pode causar problemas sobre como as aplicações funcionam. Para corrigir esses erros, processos de correção são necessários para deixar a saída mais precisa.
O Papel dos Modelos de Linguagem
Um método usado para melhorar a precisão do reconhecimento de voz é usar um Modelo de Linguagem (LM). Isso envolve checar várias transcrições possíveis produzidas pelo sistema de reconhecimento e escolher a que parece mais correta. Porém, essa abordagem geralmente só escolhe a melhor opção e ignora outras informações que poderiam ser úteis.
Recentemente, modelos de linguagem grandes (LLMs) foram aplicados para corrigir erros de uma maneira mais criativa. Em vez de apenas selecionar a melhor opção, esses modelos conseguem gerar transcrições melhores diretamente a partir das hipóteses disponíveis criadas pelo sistema de reconhecimento de voz.
Uma Necessidade de Correção Abrangente
A maioria dos estudos sobre o uso de modelos de linguagem para Correção de Erros focou em frases curtas. Isso não é suficiente para entender todo o contexto das conversas ou o conteúdo geral de documentos mais longos. Além disso, corrigir erros frase por frase pode demandar muito tempo e recursos, pois cada frase precisa passar por um processo separado de verificação e correção.
Para resolver isso, uma nova abordagem foi adotada para criar um conjunto de dados focado na correção de erros em textos mais longos. O objetivo era avaliar como os LLMs conseguem reconhecer e corrigir uma ampla gama de erros em documentos completos, que incluem artigos, reportagens ou transcrições completas de conversas.
Desenvolvendo um Conjunto de Dados
O novo conjunto de dados para corrigir erros em textos completos se chama ChFT. Esse conjunto de dados envolve várias etapas para gerar textos precisos para treinamento e teste.
Coleta de Texto: Uma parte de artigos de notícias chinesas é coletada para fornecer uma base sólida para o treinamento. Esses artigos vêm de uma fonte de notícias histórica e cobrem diversos temas.
Texto para Fala (TTS): O texto coletado é convertido em fala. Essa etapa é crucial, pois permite a criação de fontes de áudio que precisam ser transcritas.
Reconhecimento Automático de Fala (ASR): O áudio é então transformado novamente em texto usando um sistema de Reconhecimento de Fala. Esse processo não é sempre perfeito, levando a vários erros no texto transcrito.
Extração de Pares de Correção de Erro: A última etapa envolve identificar tipos específicos de erros no texto transcrito. Isso pode incluir erros de Pontuação ou formatos incorretos. Ao comparar o texto transcrito com o original, pares específicos de erros e correções são identificados.
O conjunto de dados ChFT é único porque se concentra em textos completos em vez de apenas frases individuais. Isso permite uma correção de erros mais abrangente e inclui diferentes tipos de erros, como erros de pontuação e problemas com formatação de texto.
Testes e Avaliação
Para ver como os modelos conseguem corrigir erros, o conjunto de dados é dividido em diferentes conjuntos de teste para medir o desempenho:
Conjunto de Teste Homogêneo: Esse teste usa dados da mesma fonte que o conjunto de treinamento para ver como o modelo se sai com material familiar.
Conjunto de Teste Atualizado: Esse teste verifica como o modelo pode lidar com novos dados que nunca encontrou antes. Isso garante que o modelo consiga se adaptar a conteúdos novos.
Conjunto de Teste Difícil: Esse teste introduz ruído de fundo para ver como o modelo se sai em condições mais difíceis. Avalia quão bem o modelo consegue corrigir erros quando a transcrição é afetada por sons adicionais.
O Impacto dos Prompts
Ao trabalhar com o modelo de linguagem, os prompts são cuidadosamente elaborados para guiar o modelo na correção de erros. Esses prompts consideram se o texto é um documento completo ou um segmento menor. Eles também decidem como os resultados serão formatados, seja como um texto corrigido simples ou como uma lista estruturada de pares de erro-correção.
Diferentes tipos de prompts geram resultados diferentes ao ajustar o modelo de linguagem. Os testes com vários prompts mostram que o modelo pode melhorar seu desempenho significativamente em diversos tipos de tarefas.
Resultados Experimentais
Quando testado, o modelo de linguagem mostra resultados promissores na correção de erros em todos os conjuntos de teste. No conjunto de teste homogêneo, ele superou significativamente o sistema de reconhecimento de fala de base. Notavelmente, usar um formato de saída estruturado levou a melhores resultados na minimização de respostas incorretas, conhecidas como alucinações. Enquanto certos prompts se saíram melhor para textos completos, outros se destacaram ao corrigir segmentos menores.
O conjunto de teste atualizado também teve bons resultados, indicando que o modelo consegue generalizar bem para novos tipos de conteúdo. No entanto, o desempenho caiu quando testado com ruído adicional, o que trouxe desafios para reconhecer e corrigir erros com precisão. Apesar disso, o modelo manteve melhorias consistentes de desempenho, especialmente com saídas estruturadas de correção de erro.
Direções Futuras
Embora essa pesquisa tenha fornecido insights sobre as capacidades dos modelos de linguagem para correção de erros no reconhecimento de fala em chinês, ainda há áreas para melhorar. Uma grande limitação é que o áudio usado no estudo foi gerado por máquinas, o que pode não refletir as condições do mundo real. Pesquisas futuras planejam envolver dados de áudio do mundo real para entender melhor como o modelo pode se sair em cenários práticos.
Além disso, mais avanços nas técnicas de prompting estão sendo explorados. Isso pode incluir fornecer ao modelo informações contextuais adicionais ou palavras-chave relevantes que possam ajudar a melhorar suas habilidades de correção.
Conclusão
Esse trabalho enfatiza a importância da correção de erros em sistemas de reconhecimento de fala, especialmente ao lidar com entradas de texto mais longas. Ao criar o conjunto de dados ChFT e testar modelos de linguagem, ficou demonstrado que os LLMs podem corrigir efetivamente uma variedade de erros, incluindo problemas com pontuação e formatação de texto.
Os achados fornecem uma base sólida para pesquisas futuras, que visam implementar esses modelos em contextos do mundo real e melhorar sua capacidade de lidar com diferentes tipos de gravações de fala e conteúdo.
Título: Full-text Error Correction for Chinese Speech Recognition with Large Language Model
Resumo: Large Language Models (LLMs) have demonstrated substantial potential for error correction in Automatic Speech Recognition (ASR). However, most research focuses on utterances from short-duration speech recordings, which are the predominant form of speech data for supervised ASR training. This paper investigates the effectiveness of LLMs for error correction in full-text generated by ASR systems from longer speech recordings, such as transcripts from podcasts, news broadcasts, and meetings. First, we develop a Chinese dataset for full-text error correction, named ChFT, utilizing a pipeline that involves text-to-speech synthesis, ASR, and error-correction pair extractor. This dataset enables us to correct errors across contexts, including both full-text and segment, and to address a broader range of error types, such as punctuation restoration and inverse text normalization, thus making the correction process comprehensive. Second, we fine-tune a pre-trained LLM on the constructed dataset using a diverse set of prompts and target formats, and evaluate its performance on full-text error correction. Specifically, we design prompts based on full-text and segment, considering various output formats, such as directly corrected text and JSON-based error-correction pairs. Through various test settings, including homogeneous, up-to-date, and hard test sets, we find that the fine-tuned LLMs perform well in the full-text setting with different prompts, each presenting its own strengths and weaknesses. This establishes a promising baseline for further research. The dataset is available on the website.
Autores: Zhiyuan Tang, Dong Wang, Shen Huang, Shidong Shang
Última atualização: 2024-12-23 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2409.07790
Fonte PDF: https://arxiv.org/pdf/2409.07790
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.