Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Processamento de Áudio e Fala# Som

Libriheavy: Um Novo Conjunto de Dados para Reconhecimento de Fala

A Libriheavy oferece 50.000 horas de inglês falado pra melhorar a tecnologia de reconhecimento de fala.

― 6 min ler


Conjunto de DadosConjunto de DadosLibriheavy paraTecnologia de Falamodelos de reconhecimento de fala.50.000 horas de áudio melhora os
Índice

Apresentamos um novo conjunto de dados chamado Libriheavy, que traz 50.000 horas de inglês falado coletadas de audiolivros. Diferente de outros conjuntos, o Libriheavy inclui não só texto bruto, mas também Pontuação, formatação e Contexto, tornando-o mais valioso pra melhorar sistemas de Reconhecimento de Fala. O objetivo desse conjunto de dados é apoiar o desenvolvimento de tecnologias de reconhecimento de fala mais eficazes.

Importância do Contexto no Reconhecimento de Fala

A maioria dos sistemas de reconhecimento de fala foca em entender frases faladas isoladas. No entanto, entender o contexto em torno dessas frases pode aumentar muito a precisão. O contexto pode dar pistas sobre o significado de palavras e frases que poderiam ser interpretadas de forma errada. Conjuntos de dados tradicionais costumam faltar essa informação contextual, limitando sua utilidade. O Libriheavy preenche essa lacuna ao fornecer contexto que pode ajudar a melhorar como os sistemas de fala reconhecem e entendem palavras faladas.

Visão Geral do Conjunto de Dados Libriheavy

O Libriheavy é baseado em um conjunto anterior chamado Librilight, que consiste em áudio de inglês falado não rotulado. O Librilight tinha uma quantidade enorme de áudio, mas faltavam transcrições marcadas. Na criação do Libriheavy, alinhamos os arquivos de áudio com o texto correspondente dos livros originais, resultando em dados rotulados que contêm texto preciso, pontuação e formatação.

O Libriheavy tem três subconjuntos para treinamento, variando de 500 horas a 50.000 horas, além de conjuntos de avaliação separados usados pra validar o desempenho de modelos treinados com o conjunto de dados. Esses conjuntos de avaliação garantem que os mesmos falantes e livros não estejam presentes tanto no treinamento quanto no teste, dando uma visão mais clara da capacidade de generalização de um modelo.

Criando o Corpo do Libriheavy

O processo pra criar o Libriheavy envolveu várias etapas de alinhamento de áudio a texto e segmentação em pedaços gerenciáveis. Esse fluxo forma uma maneira sistemática de criar conjuntos de dados semelhantes no futuro.

Alinhando Áudio e Texto

A primeira fase envolve combinar áudio falado com o texto correspondente. Pra isso, usamos Transcrição automática pra converter áudio em texto e depois encontramos as melhores correspondências no texto original. Essa etapa é crucial, pois garante que o áudio esteja conectado com o texto correto.

Transcrevendo o Áudio

Os arquivos de áudio variam em comprimento, então dividimos arquivos mais longos em segmentos menores. Em seguida, usamos um modelo de reconhecimento automático de fala (ASR) pra converter esses segmentos de áudio menores em texto. Fazendo isso em partes, tornamos o processo de transcrição mais eficiente.

Encontrando Correspondências Próximas

Depois de obter as transcrições, identificamos correspondências próximas entre as transcrições automáticas e o texto original. Isso envolveu um método de determinar quais partes do texto original são parecidas o suficiente pra corresponder com o áudio falado.

Segmentando o Áudio

Uma vez que tivemos o áudio e o texto alinhados, segmentamos o áudio em pedaços que variam de 2 a 30 segundos. Esse tamanho é ideal pra treinar sistemas de reconhecimento de fala, ajudando-os a aprender a reconhecer a fala em pedaços mais gerenciáveis.

Avaliação do Conjunto de Dados Libriheavy

A eficácia do Libriheavy foi avaliada através de testes com dois tipos populares de modelos de reconhecimento de fala. Esses modelos foram treinados tanto em texto normalizado quanto no formato mais rico encontrado no Libriheavy, que inclui pontuação e formatação.

Sistemas Baseline

Sistemas baseline foram estabelecidos usando dois tipos de modelos: CTC-Attention e modelos de transdutor neural. Esses modelos servem como referência pra medir a eficácia do Libriheavy em comparação com outros conjuntos de dados.

Resultados Experimentais

Os resultados dos experimentos usando o Libriheavy mostraram melhorias significativas em precisão em comparação com aqueles treinados apenas com texto normalizado. Quando tanto pontuação quanto formatação foram incluídas nos textos de treinamento, os modelos tiveram um desempenho notavelmente melhor, especialmente ao trabalhar com conjuntos de treinamento menores. Conforme o volume de dados de treinamento aumentou, a diferença no desempenho baseada no estilo do texto se tornou menos significativa.

Benefícios de Usar Libriheavy

O Libriheavy apresenta várias vantagens pra pesquisa e desenvolvimento em reconhecimento de fala:

  1. Grande Escala: Com 50.000 horas de áudio, o Libriheavy oferece uma quantidade substancial de dados pra treinar modelos, o que é crucial pra melhorar o desempenho de reconhecimento de fala.

  2. Formatação Rica: A inclusão de pontuação, formatação e informações contextuais permite que os modelos aprendam com estruturas de linguagem mais complexas, tornando-os melhores em reconhecer e interpretar a linguagem falada.

  3. Pipeline Open Source: Os métodos usados pra criar o Libriheavy são de código aberto, facilitando pra outros desenvolverem conjuntos de dados semelhantes ou melhorarem seus conjuntos existentes.

  4. Conjuntos de Avaliação de Alta Qualidade: O design cuidadoso dos conjuntos de treinamento e avaliação garante que os modelos possam ser testados de forma justa e precisa, levando a resultados mais confiáveis.

Direções Futuras

A introdução do Libriheavy abre portas pra mais pesquisas em reconhecimento de fala. Trabalhos futuros podem envolver a exploração de conjuntos de dados adicionais que incorporem várias línguas ou dialetos, ou mergulhar mais fundo em como diferentes pontuações e formatações afetam a compreensão e precisão nos sistemas de reconhecimento de fala.

Além disso, os pesquisadores podem expandir os métodos usados pra criar e alinhar conjuntos de dados, melhorando a eficiência na criação desses conjuntos. O objetivo será continuar aprimorando as capacidades dos sistemas de reconhecimento de fala e aplicá-los a uma variedade de aplicações práticas.

Conclusão

O Libriheavy é um recurso abrangente pra quem tá interessado em avançar no campo do reconhecimento de fala. Ele combina um grande volume de dados de áudio com detalhes contextuais essenciais que podem impactar significativamente o desempenho dos sistemas ASR. Ao tornar um conjunto de dados assim publicamente disponível, esperamos incentivar mais inovação e colaboração nessa área, levando a tecnologias de fala mais eficazes e amigáveis.

Fonte original

Título: Libriheavy: a 50,000 hours ASR corpus with punctuation casing and context

Resumo: In this paper, we introduce Libriheavy, a large-scale ASR corpus consisting of 50,000 hours of read English speech derived from LibriVox. To the best of our knowledge, Libriheavy is the largest freely-available corpus of speech with supervisions. Different from other open-sourced datasets that only provide normalized transcriptions, Libriheavy contains richer information such as punctuation, casing and text context, which brings more flexibility for system building. Specifically, we propose a general and efficient pipeline to locate, align and segment the audios in previously published Librilight to its corresponding texts. The same as Librilight, Libriheavy also has three training subsets small, medium, large of the sizes 500h, 5000h, 50000h respectively. We also extract the dev and test evaluation sets from the aligned audios and guarantee there is no overlapping speakers and books in training sets. Baseline systems are built on the popular CTC-Attention and transducer models. Additionally, we open-source our dataset creatation pipeline which can also be used to other audio alignment tasks.

Autores: Wei Kang, Xiaoyu Yang, Zengwei Yao, Fangjun Kuang, Yifan Yang, Liyong Guo, Long Lin, Daniel Povey

Última atualização: 2024-01-14 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2309.08105

Fonte PDF: https://arxiv.org/pdf/2309.08105

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes