Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Processamento de Áudio e Fala# Som

Apresentando o GOLF: Uma Nova Era na Síntese de Voz Cantante

O GOLF traz uma nova maneira de criar cantoria parecida com a humana usando menos recursos.

― 7 min ler


GOLF: Sintetizador de VozGOLF: Sintetizador de Vozda Próxima Geraçãocanto realistas.Um método inovador pra criar vozes de
Índice

A Síntese de Voz Cantada (SVS) é uma forma de criar cantos parecidos com humanos usando computadores. Ao longo dos anos, várias técnicas foram desenvolvidas pra alcançar esse objetivo. No passado, os sistemas costumavam usar amostras de canto real pra montar novas performances. Hoje em dia, sistemas mais avançados utilizam um método chamado síntese paramétrica, que envolve criar sons com base em certos parâmetros, ao invés de só misturar amostras.

Num sistema paramétrico típico, uma ferramenta especial chamada Vocoder pega a entrada de um modelo acústico. Esse modelo acústico utiliza vários fatores musicais, como duração das notas e sons de fala, pra criar parâmetros pro vocoder. O vocoder então gera o som. As versões mais antigas desses sistemas se baseavam num modelo simples de fonte-filtro. Recentemente, técnicas de aprendizado profundo, especialmente redes neurais profundas (DNNs), têm liderado a tecnologia de SVS.

Mas, um desafio com DNNs é que elas costumam usar mel-espectrogramas como entrada. Embora sejam úteis, essas características de entrada são mais difíceis de interpretar do que parâmetros mais tradicionais, como altura e níveis de ruído. Além disso, treinar esses modelos exige uma grande quantidade de dados pra capturar estilos de canto diferentes de forma eficaz.

Um método mais recente conhecido como Processamento de Sinal Digital Diferenciável (DDSP) combina técnicas tradicionais de processamento de som com redes neurais. Essa abordagem permite modelos mais compreensíveis e versáteis. Esforços anteriores incorporaram várias técnicas de síntese, mas muitos desses sistemas só funcionam bem pra instrumentos de nota única e não representam com precisão as complexidades da voz humana.

Pra criar um sintetizador de voz cantada mais eficaz, propomos um novo método chamado Filtro LPC de Fluxo Glotal (GOLF). Esse método é baseado nas propriedades físicas da voz humana e tem como objetivo entender como a gente produz som. O GOLF usa um "modelo glotal" como ponto de partida pra criar harmônicos e emprega filtros digitais pra simular o trato vocal humano, produzindo um processo mais interpretável e eficiente.

Como o GOLF Funciona

O GOLF foi projetado pra precisar de menos parâmetros do que os métodos líderes atuais, o que o torna mais rápido e menos exigente em memória. Esse modelo pode não só criar vozes cantadas com precisão, mas também captar os detalhes mais sutis de como as vozes soam, incluindo suas fases. Analisar e refinar vozes dessa forma abre novas possibilidades pra criação e estudo musical.

Nesse modelo, o som é produzido definindo primeiro uma versão simplificada de como a voz humana funciona. As pregas vocais criam vibrações, e outros componentes adicionam aleatoriedade ao som. O trato vocal molda o som ainda mais, e finalmente, o som é emitido através dos lábios. Ao unir alguns desses elementos em um único processo chamado pulso glotal radiado, o modelo simplifica a síntese de som.

Entendendo a Produção Vocal

Um aspecto importante da produção da voz humana é o conceito de Codificação Preditiva Linear (LPC). O LPC assume que o som atual da voz pode ser previsto com base nos sons anteriores que ela produziu. Essa abordagem usa um conjunto de coeficientes pra criar um filtro, que simula o trato vocal.

No entanto, há desafios ao integrar LPC em sistemas de aprendizado profundo. Como a saída do filtro depende dos resultados anteriores, isso gera a necessidade de várias alocações de memória. Métodos tradicionais podem ser lentos, especialmente ao processar longas sequências de áudio.

Pra superar esses problemas, o GOLF implementa um jeito simples de gerenciar o cálculo. Ele separa o ruído da fonte glotal, o que simplifica o processo de otimização. Ao tratar o ruído fora do processo principal de síntese, o GOLF ainda consegue produzir canto de alta qualidade sem complexidade.

Wavetables de Fluxo Glotal

No GOLF, utilizamos um modelo especial pra criar pulsos glotais. Esse modelo pode ajustar vários aspectos do som, como esforço vocal e formato. Ao criar wavetables que armazenam esses fluxos glotais, conseguimos gerar sons interpolando entre diferentes formas. O modelo prevê parâmetros como frequência e índice, que guiam o processo de síntese.

Síntese Eficiente

Ao sintetizar som, o GOLF adota uma abordagem quadro a quadro, em vez de processar cada amostra uma de cada vez. Esse método paralelo aplica o filtro de forma eficiente. Ao tratar frames de forma independente e sobrepor segmentos de som, o GOLF consegue produzir áudio de alta qualidade mais rapidamente.

A estabilidade do filtro LPC também é crucial. Todos os componentes devem estar dentro de uma faixa específica pra funcionar corretamente. O GOLF utiliza um método que garante a estabilidade dos filtros, permitindo uma produção de som consistente.

Lidando com Sons Não Vozeados

Um desafio enfrentado por sistemas de síntese de canto é como lidar com sons não vozeados, como a respiração. Às vezes, o modelo pode usar harmônicos mesmo quando não deveria, resultando em sons artificiais. O GOLF resolve isso treinando o modelo pra prever quando os sons são vozeados ou não vozeados e ajustando o processo de síntese conforme necessário.

Treinando o Modelo

Treinar o GOLF envolve retropropagação, que é uma técnica comum em aprendizado de máquina. Esse processo ajusta os parâmetros com base em como o modelo se sai. O GOLF foi otimizado especificamente pra funcionar com seu sistema de filtro, garantindo eficiência e precisão.

Conjunto de Dados para Treinamento

Pra avaliar o GOLF, usamos um conjunto de dados de vozes cantadas com gravações de alta qualidade em mandarim. Esse conjunto consistia em quase 600 gravações feitas por diferentes cantores. As gravações foram processadas pra produzir características de mel-espectrograma, essenciais pra treinar o modelo.

Comparando o GOLF com Outros Sistemas

O GOLF foi comparado com outros sistemas líderes em síntese de voz cantada. Em vários testes, o GOLF mostrou resultados competitivos, precisando de menos memória e rodando mais rápido, enquanto ainda alcançava som de alta qualidade. O modelo conseguiu reproduzir as características naturais da voz de forma mais precisa do que muitas alternativas.

Testes de Audição

Pra avaliar ainda mais o GOLF, foram realizados testes de audição onde os participantes avaliaram a qualidade das vozes sintetizadas. O feedback foi coletado de vários ouvintes, revelando que o GOLF frequentemente recebeu notas mais altas do que seus concorrentes. Isso sugere que ele produz sons vocais mais naturais e atraentes.

Observações e Direções Futuras

Com base em todos os resultados de avaliação, tá claro que o GOLF oferece uma forma mais compacta de representar parâmetros de síntese de voz cantada. O uso de wavetables pra fluxos glotais melhora a capacidade do modelo, enquanto os métodos tradicionais podem ser mais custosos em termos de poder de processamento.

Ainda há potencial pra melhorar ainda mais a qualidade do som do GOLF usando um modelo de fonte glotal mais flexível. Adicionar técnicas de filtragem mais sofisticadas poderia aprimorar a síntese de sons complexos e se adaptar melhor a vários estilos de canto.

Considerações Finais

O GOLF representa uma abordagem inovadora pra síntese de voz cantada, oferecendo um método rápido, eficiente e interpretável pra criar cantos parecidos com humanos. Sua capacidade de modelar com precisão características vocais complexas pode levar a novos avanços na produção musical e análise. À medida que a tecnologia continua a evoluir, o GOLF oferece possibilidades empolgantes tanto pra criadores quanto pra pesquisadores no campo da música e inteligência artificial.

Fonte original

Título: Singing Voice Synthesis Using Differentiable LPC and Glottal-Flow-Inspired Wavetables

Resumo: This paper introduces GlOttal-flow LPC Filter (GOLF), a novel method for singing voice synthesis (SVS) that exploits the physical characteristics of the human voice using differentiable digital signal processing. GOLF employs a glottal model as the harmonic source and IIR filters to simulate the vocal tract, resulting in an interpretable and efficient approach. We show it is competitive with state-of-the-art singing voice vocoders, requiring fewer synthesis parameters and less memory to train, and runs an order of magnitude faster for inference. Additionally, we demonstrate that GOLF can model the phase components of the human voice, which has immense potential for rendering and analysing singing voices in a differentiable manner. Our results highlight the effectiveness of incorporating the physical properties of the human voice mechanism into SVS and underscore the advantages of signal-processing-based approaches, which offer greater interpretability and efficiency in synthesis.

Autores: Chin-Yun Yu, György Fazekas

Última atualização: 2024-10-18 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.17252

Fonte PDF: https://arxiv.org/pdf/2306.17252

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes