Simple Science

Ciência de ponta explicada de forma simples

# Engenharia Eletrotécnica e Ciência dos Sistemas# Som# Processamento de Áudio e Fala

Avanços na Síntese de Fala Articulatória

Um estudo sobre como melhorar a reprodução do som vocal usando técnicas de síntese avançadas.

― 6 min ler


Melhorando a TecnologiaMelhorando a Tecnologiade Síntese de Falasom na síntese de fala.Novas técnicas melhoram a precisão do
Índice

A síntese de fala é um processo onde máquinas tentam replicar a fala humana. Um método interessante é chamado de síntese articulatória, que foca em como as partes da boca humana, como a língua, os lábios e a mandíbula, moldam os sons. Isso permite que os usuários tenham mais controle sobre os sons produzidos. Mas, pra fazer esses sons combinarem com a fala real, precisamos descobrir como as partes da boca devem estar posicionadas com base em gravações de áudio.

Neste estudo, nosso objetivo é melhorar como estimamos as formas e movimentos do trato vocal usando um método chamado descida de gradiente. Vamos analisar como esse método pode ajudar a recriar sons produzidos por um sintetizador conhecido como Pink Trombone, que é uma ferramenta que permite que os usuários criem sons vocais de forma interativa.

Síntese Articulatória

A síntese articulatória funciona simulando como o ar se move pelo sistema vocal, transformando isso em sons que reconhecemos como fala. Esse método usa um modelo que imita como o trato vocal humano produz sons. Os usuários podem manipular diferentes parâmetros pra moldar os sons, tornando esse processo flexível e intuitivo.

Mesmo que esse método seja promissor, descobrir as formas certas pro trato vocal não é fácil. Uma maneira de medir essas formas com precisão é através de técnicas como ressonância magnética ou eletromiografia. Infelizmente, esses métodos podem ser lentos, complicados e exigem equipamentos especiais.

Pra melhorar isso, pesquisadores desenvolveram maneiras de estimar essas formas diretamente a partir de gravações de fala. Essa tarefa é frequentemente chamada de Inversão Acústica para Articulatória (AAI). Existem duas abordagens principais pra AAI. A primeira foca em usar métodos baseados em dados que analisam grandes conjuntos de dados de fala gravada junto com medições correspondentes. A segunda abordagem é análise por síntese, onde criamos métodos numéricos pra simular como configurações articulatórias podem produzir som.

Nosso Método

Neste estudo, focamos no método de análise por síntese. Nosso objetivo é encontrar os parâmetros certos que permitam que o sintetizador recrie sons-alvo com precisão. O processo envolve pegar gravações de áudio, dividi-las em diferentes componentes e depois otimizar esses componentes pra combinar com o som desejado.

Primeiro, separamos o som-alvo em duas partes: um sinal de fonte glotal e um filtro do trato vocal. A fonte glotal representa o fluxo de ar, enquanto o filtro molda o som. Depois, ajustamos a configuração do trato vocal pra minimizar a diferença entre o nosso som sintetizado e o som-alvo. Isso é feito através de um processo chamado descida de gradiente, onde podemos ajustar finamente os parâmetros com base em quão próximo eles estão do alvo.

O Sintetizador Pink Trombone

O Pink Trombone é um sintetizador online que permite aos usuários experimentar sons vocais ajustando parâmetros como a posição da língua e a forma do trato vocal. É baseado em um modelo bem conhecido que descreve como o som é produzido pelo sistema vocal. Nosso método se aplica especificamente aos sons criados por esse sintetizador.

Ao usar nossa abordagem, primeiro analisamos uma gravação de som pra extrair o fluxo glotal e o filtro do trato vocal. Depois, otimizamos os parâmetros relacionados à língua e outros controles pra garantir que a saída sintetizada combine de perto com o som original.

Avaliando Nossa Abordagem

Pra testar nosso método, primeiro examinamos seu desempenho usando sons gerados pelo próprio Pink Trombone. Como esses sons são conhecidos, permite comparações precisas. Também aplicamos nosso método a sons que não foram gerados pelo sintetizador pra ver quão bem ele poderia se adaptar.

Na avaliação, usamos diferentes conjuntos de parâmetros de controle, avaliando quão precisamente conseguimos recuperar as formas do trato vocal. Realizamos várias tentativas de otimização pra ver quão próximo os sons sintetizados estavam das gravações originais.

Durante os testes, descobrimos que nosso método foi eficaz em recuperar funções de controle para os sons produzidos pelo Pink Trombone. Os resultados foram promissores, mostrando que nossa técnica de otimização poderia produzir sons que não só eram similares, mas também de alta qualidade.

Comparação com Outros Métodos

Pra avaliar ainda mais nosso método, comparamos com outras técnicas de otimização que não utilizam informações sobre a estrutura do sintetizador, muitas vezes chamadas de métodos de caixa-preta. Isso pode incluir algoritmos genéticos e redes neurais. Embora esses métodos possam ser úteis, eles são intensivos em computação e geralmente exigem um treinamento extenso em grandes conjuntos de dados.

Nossa abordagem de caixa-branca, por outro lado, aproveita a estrutura conhecida do Pink Trombone, levando a uma correspondência sonora mais eficiente. Ao integrar nosso método com a otimização por descida de gradiente, conseguimos superar esses métodos convencionais de caixa-preta em avaliações subjetivas.

Testes com Usuários

Realizamos testes de audição com participantes pra comparar nosso método com as alternativas de caixa-preta. Os voluntários foram convidados a avaliar quão de perto os sons reproduzidos combinavam com as gravações originais com base em várias qualidades, incluindo altura e soprosidade.

Os resultados mostraram que os participantes avaliaram reproduções do nosso método significativamente mais altas. Isso confirmou que nossa abordagem não só produziu sons que eram mais precisos, mas também mais agradáveis de ouvir em comparação com os outros métodos.

Aplicações Práticas

A capacidade de estimar características articulatórias com precisão tem várias implicações práticas. Pode beneficiar tudo, desde melhorar a tecnologia de síntese de fala até ajudar na terapia da fala e no aprendizado de idiomas. Nosso método estabelece a base pra futuras pesquisas, potencialmente permitindo que redes neurais lidem com tarefas de correspondência sonora com ainda mais complexidade.

Além disso, nossa abordagem poderia ser adaptada pra sintetizadores mais avançados que envolvem modelos tridimensionais do trato vocal. Essa flexibilidade significa que poderíamos visar uma gama mais ampla de vozes além das limitações atualmente impostas pelo Pink Trombone.

Conclusão

Em resumo, apresentamos uma técnica nova pra estimar formas do trato vocal usando otimização por descida de gradiente. Nosso método combina sons-alvo de forma eficaz enquanto permite controle flexível sobre vários parâmetros vocais. Com nossa abordagem, demonstramos que conseguimos recuperar as características articulatórias necessárias com precisão, levando a reproduções sonoras de alta qualidade.

Este estudo não só mostra as capacidades da síntese articulatória, mas também abre caminho pra futuros avanços na área. Ao integrar nosso método com tecnologias modernas, podemos explorar novas profundidades na síntese de fala e correspondência sonora.

Fonte original

Título: Vocal Tract Area Estimation by Gradient Descent

Resumo: Articulatory features can provide interpretable and flexible controls for the synthesis of human vocalizations by allowing the user to directly modify parameters like vocal strain or lip position. To make this manipulation through resynthesis possible, we need to estimate the features that result in a desired vocalization directly from audio recordings. In this work, we propose a white-box optimization technique for estimating glottal source parameters and vocal tract shapes from audio recordings of human vowels. The approach is based on inverse filtering and optimizing the frequency response of a wave\-guide model of the vocal tract with gradient descent, propagating error gradients through the mapping of articulatory features to the vocal tract area function. We apply this method to the task of matching the sound of the Pink Trombone, an interactive articulatory synthesizer, to a given vocalization. We find that our method accurately recovers control functions for audio generated by the Pink Trombone itself. We then compare our technique against evolutionary optimization algorithms and a neural network trained to predict control parameters from audio. A subjective evaluation finds that our approach outperforms these black-box optimization baselines on the task of reproducing human vocalizations.

Autores: David Südholt, Mateo Cámara, Zhiyuan Xu, Joshua D. Reiss

Última atualização: 2023-07-10 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2307.04702

Fonte PDF: https://arxiv.org/pdf/2307.04702

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes