Melhorando o Treinamento de Vocoders com Aprendizado Contrastivo
Novos métodos melhoram o desempenho de vocoder com dados de áudio limitados.
― 6 min ler
Índice
Avanços recentes em vocoders levaram a resultados impressionantes na geração de Áudio que soa muito parecido com a fala humana. Esses sistemas estão melhorando em criar sons realistas, enquanto usam menos memória e funcionam mais rápido. No entanto, um grande desafio para esses modelos é que eles geralmente precisam de uma quantidade enorme de dados de áudio para aprender a produzir sons de alta qualidade. Em situações onde não tem dados suficientes, o treinamento desses modelos fica complicado.
Pra resolver esse problema, a gente propõe usar um método chamado aprendizado contrastivo. Essa abordagem visa melhorar a qualidade dos sons gerados pelo vocoder sem mudar o modelo em si ou precisar de mais dados. A gente introduz uma tarefa que compara diferentes tipos de representações de áudio pra ajudar o vocoder a aprender melhor em situações com dados limitados.
Desafios no Treinamento de Vocoders
Vocoders baseados em Redes Adversariais Generativas (GANs) ficaram muito populares e eficazes em criar áudio de alta qualidade. Mas, existem dois desafios principais quando se trata de treinar esses modelos: a falta de dados e os problemas com o Discriminador, que é a parte do sistema que julga se o áudio gerado é real ou falso.
Nos casos com apenas um locutor, a quantidade de dados de áudio disponíveis pode ser bem limitada. Essa situação dificulta a melhoria dos vocoders nessas condições. Pra lidar com esse problema, podemos usar técnicas de aprendizado não supervisionado pra extrair sinais extras que ajudem o sistema a aprender. O aprendizado não supervisionado já mostrou bons resultados em várias tarefas relacionadas à fala, então a gente acha que pode ajudar no treinamento do vocoder também.
O segundo desafio é que o discriminador pode ficar muito focado em distinguir áudio real de falso, especialmente quando tem pouca informação pra trabalhar. Quando isso acontece, o modelo não se sai tão bem. Em outros campos, usar aprendizado contrastivo pro discriminador tem ajudado a melhorar o desempenho e a resiliência. Porém, no caso dos vocoders, aplicar simplesmente o aprendizado contrastivo em mel-spectrogramas não vai ajudar, porque não envolve o discriminador. Por isso, sugerimos estender essa tarefa pra envolver tanto mel-spectrogramas quanto formas de onda.
Método Proposto
A gente desenvolveu duas tarefas principais pro treinamento do modelo de vocoder. Primeiro, a gente propõe uma tarefa de aprendizado contrastivo focada em mel-spectrogramas. Isso envolve pegar trechos do áudio, aplicar algumas máscaras e usar esses trechos modificados pra criar amostras positivas e negativas. Treinando o modelo pra reconhecer essas amostras, ele aprende representações melhores que melhoram seu desempenho.
A segunda tarefa combina mel-spectrogramas com formas de onda, permitindo que tanto o gerador quanto o discriminador aprendam juntos. Essa abordagem de tarefas duplas encoraja o modelo a entender as conexões entre diferentes formas de áudio. Ao introduzir essa abordagem multimodal, a gente acredita que vai ajudar a evitar o overfitting do discriminador, ao mesmo tempo em que melhora a qualidade geral do áudio gerado.
Pra combinar essas tarefas contrastivas com os objetivos tradicionais do treinamento de GAN, criamos uma estrutura de múltiplas tarefas. Essa estrutura nos permite otimizar tanto as tarefas originais quanto as tarefas de aprendizado contrastivo adicionais ao mesmo tempo, levando a um desempenho melhor pro vocoder.
Configuração Experimental
Pra avaliar quão eficazes são nossos métodos, fizemos experimentos usando um dataset conhecido chamado LJSpeech. Esse dataset consiste em clipes de áudio curtos falados por um único locutor, o que o torna uma boa escolha pra testar vocoders. Rodamos várias sessões de treinamento nesse dataset, comparando nossos métodos propostos com os vocoders GAN tradicionais.
Implementamos nossas tarefas de aprendizado contrastivo junto com modelos já conhecidos, focando especificamente nas versões do HiFi-GAN que são amplamente reconhecidas pela qualidade do áudio. Com isso, buscamos avaliar objetivamente quão bem nossos métodos se saem em comparação com esses modelos estabelecidos.
Resultados e Análise
Depois de treinar nossos modelos no dataset completo, a gente descobriu que, embora nossos métodos mostrassem desempenho comparável aos modelos base, eles não superaram significativamente. No entanto, a gente estava especialmente interessado em como nossos métodos se saíram quando havia menos dados disponíveis.
Rodando experimentos com apenas 20% do dataset de treinamento, a diferença ficou mais evidente. O modelo tradicional HiFi-GAN viu uma queda no desempenho quando treinado com dados limitados, enquanto os modelos que usaram nossas tarefas de aprendizado contrastivo tiveram uma queda menor. Especificamente, o modelo que usou o aprendizado contrastivo de mel-spectrograma e forma de onda ficou notavelmente menos afetado pela limitação de dados, o que sugere que nossa abordagem ajuda a manter um desempenho melhor nessas condições desafiadoras.
Discussão
Os experimentos mostram que nossa abordagem de aprendizado contrastivo proposta pode extrair sinais de supervisão extras, ajudando a melhorar o treinamento do vocoder mesmo quando há dados limitados. Isso é particularmente importante, já que muitas aplicações podem não ter acesso a grandes quantidades de dados de áudio. Além disso, a gente descobriu que o método de combinar mel-spectrogramas e formas de onda funcionou melhor, oferecendo uma maneira eficaz de apoiar o vocoder e limitar o overfitting.
Curiosamente, enquanto geralmente se esperaria que modelos maiores tivessem mais dificuldades com dados limitados, nossos achados indicaram que um dos vocoders maiores teve um desempenho surpreendentemente melhor nessas condições. Essa observação pode ser atribuída à escolha da arquitetura e ao equilíbrio entre os componentes do gerador e do discriminador.
Conclusão
Em resumo, nosso trabalho introduz uma estrutura de aprendizado contrastivo projetada pra melhorar o treinamento de vocoders GAN. Nossa abordagem demonstra com sucesso que tarefas suplementares podem melhorar a qualidade do áudio gerado sem exigir dados adicionais ou mudar a estrutura do modelo. Isso é particularmente crucial quando os dados de treinamento disponíveis são limitados.
Olhando pra frente, a gente planeja testar nossos métodos em várias arquiteturas de modelo e com diferentes datasets pra avaliar sua eficácia em mais contextos. Isso inclui explorar datasets com múltiplos locutores, onde também há problemas de escassez de dados. Além disso, a gente pretende investigar outras maneiras de avaliar o desempenho do discriminador, o que pode oferecer uma visão mais abrangente de como nossos métodos se saem.
Título: Enhancing GAN-Based Vocoders with Contrastive Learning Under Data-limited Condition
Resumo: Vocoder models have recently achieved substantial progress in generating authentic audio comparable to human quality while significantly reducing memory requirement and inference time. However, these data-hungry generative models require large-scale audio data for learning good representations. In this paper, we apply contrastive learning methods in training the vocoder to improve the perceptual quality of the vocoder without modifying its architecture or adding more data. We design an auxiliary task with mel-spectrogram contrastive learning to enhance the utterance-level quality of the vocoder model under data-limited conditions. We also extend the task to include waveforms to improve the multi-modality comprehension of the model and address the discriminator overfitting problem. We optimize the additional task simultaneously with GAN training objectives. Our results show that the tasks improve model performance substantially in data-limited settings.
Autores: Haoming Guo, Seth Z. Zhao, Jiachen Lian, Gopala Anumanchipalli, Gerald Friedland
Última atualização: 2023-12-18 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2309.09088
Fonte PDF: https://arxiv.org/pdf/2309.09088
Licença: https://creativecommons.org/licenses/by-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.