Transformando a Fala Típica pra Quem Tem Disartria
Um novo método melhora a conversão de voz para pessoas com fala atípica.
― 5 min ler
A Conversão de Voz é um método que permite mudar a voz de alguém enquanto mantém as palavras originais intactas. Uma área que não foi muito explorada é a mudança de vozes típicas para atípicas, especialmente para pessoas com dificuldades na fala, como a disartria. A disartria pode vir de lesões ou doenças que afetam a forma como a pessoa fala. Outros fatores como perda auditiva ou condições como lábio leporino também podem levar à fala atípica. A fala atípica frequentemente resulta em menos clareza, tornando mais difícil para os outros entenderem.
Uma forma de ajudar pessoas com fala atípica é através da conversão de voz, que pode melhorar os sistemas de reconhecimento automático de fala (ASR). Esses sistemas costumam ter dificuldades devido a dados limitados de falantes atípicos. A conversão de voz pode criar mais exemplos de fala para treinar sistemas de ASR e ajudar os cuidadores a aprenderem como entender e trabalhar com indivíduos que têm dificuldades na fala.
Os métodos comuns para melhorar o ASR geralmente apenas mudam a velocidade da fala. Embora essa abordagem funcione até certo ponto, ela não aborda aspectos cruciais da fala desordenada, como articulação confusa e qualidade da voz. Métodos mais avançados, como abordagens quadro a quadro ou sequência a sequência, podem mudar aspectos da fala, mas geralmente exigem muitos dados para treinamento, o que é difícil de coletar para vozes atípicas.
Nossa Abordagem
Para enfrentar esses desafios, desenvolvemos um novo método de conversão de voz chamado DuTa-VC. Esse método pode ser treinado mesmo quando não temos comparações diretas de vozes típicas e atípicas. Ele envolve três etapas principais:
- Um codificador que transforma a voz original em um formato independente do falante.
- Um decodificador que reconstrói a voz desejada a partir desse formato.
- Um vocoder que converte a voz reconstruída em ondas sonoras reais.
Usando essa abordagem, garantimos que as características únicas do falante alvo sejam preservadas enquanto adaptamos a fala para soar mais como alguém com disartria.
Detalhes do Método
Fase de Treinamento
Na fase de treinamento, nosso objetivo é pegar a voz de um falante típico e convertê-la em uma forma mais atípica. Usamos um conjunto de dados chamado UASpeech, que contém gravações de falantes típicos e disartricos. Cada falante é categorizado com base na clareza, de muito baixa a alta. Os dados de treinamento devem ser diversos porque cada falante tem traços de fala únicos.
Também usamos outro conjunto de dados chamado LibriTTs, que contém gravações de muitos falantes típicos. Esses dados nos ajudam a pré-treinar nosso modelo antes de ajustá-lo com o conjunto de dados UASpeech. Durante o treinamento, alinhamos os quadros de fala com as palavras que representam para obter durações precisas dos fonemas.
O trabalho do codificador é gerar um formato independente do falante que preserva o significado do que está sendo dito, mas remove detalhes específicos do falante. O codificador trabalha junto com um preditor de fonemas e um preditor de duração que ajuda a modificar o tempo de fala para o falante alvo.
Fase de Inferência
Na fase de inferência, avaliamos o quão bem o método funciona. Usando o modelo, prevêmos os fonemas e suas durações para a voz original. Um módulo de modificação então ajusta o tempo dessa fala antes do codificador processar a voz modificada. Depois que o codificador termina seu trabalho, o decodificador assume para reconstruir a voz alvo.
Experimentos e Avaliações
Realizamos testes usando o UASpeech para ver como nosso método se sai. Observamos tanto medidas objetivas, como taxas de erro de palavras, quanto avaliações subjetivas para entender como fonoaudiólogos percebem as vozes sintetizadas.
Resultados
Os resultados mostram que nosso método melhora significativamente o reconhecimento da fala disártrica. Quando testado contra métodos anteriores, nossa abordagem teve um desempenho consistentemente melhor em todos os grupos de inteligibilidade do falante. As vozes sintetizadas também foram avaliadas por fonoaudiólogos especialistas, que acharam que nossas vozes preservavam bem as características da fala disártrica natural.
Em comparação com sistemas de ASR de controle, aqueles treinados com nossa fala sintetizada mostraram melhorias marcantes. Esses sistemas foram treinados com uma mistura de fala típica e disártrica, além das vozes sintéticas geradas pelo DuTa-VC.
As avaliações subjetivas revelaram que as vozes sintetizadas se saíram bem em representar várias características disártricas. Embora as vozes sintéticas fossem percebidas como ligeiramente menos naturais em comparação com vozes reais, ainda capturaram elementos importantes da disartria de forma próxima.
Conclusão
Em resumo, nosso novo método de conversão de voz pode transformar efetivamente a fala típica em fala atípica, tornando-se uma ferramenta valiosa tanto para o Reconhecimento de Fala quanto para o treinamento de cuidadores. A capacidade de manter a identidade do falante enquanto altera as características da fala pode ajudar a criar um melhor suporte para indivíduos com dificuldades na fala.
Em trabalhos futuros, pretendemos melhorar nossa abordagem para lidar melhor com frases inteiras, em vez de apenas palavras. Também planejamos investigar métodos mais precisos para ajustar a duração de cada fonema. Ao aprimorar nosso modelo, esperamos criar uma fala ainda mais precisa e natural para aqueles com padrões de fala atípicos.
No geral, o DuTa-VC representa um avanço significativo nas técnicas de conversão de voz, especialmente ao abordar os desafios associados à fala atípica.
Título: DuTa-VC: A Duration-aware Typical-to-atypical Voice Conversion Approach with Diffusion Probabilistic Model
Resumo: We present a novel typical-to-atypical voice conversion approach (DuTa-VC), which (i) can be trained with nonparallel data (ii) first introduces diffusion probabilistic model (iii) preserves the target speaker identity (iv) is aware of the phoneme duration of the target speaker. DuTa-VC consists of three parts: an encoder transforms the source mel-spectrogram into a duration-modified speaker-independent mel-spectrogram, a decoder performs the reverse diffusion to generate the target mel-spectrogram, and a vocoder is applied to reconstruct the waveform. Objective evaluations conducted on the UASpeech show that DuTa-VC is able to capture severity characteristics of dysarthric speech, reserves speaker identity, and significantly improves dysarthric speech recognition as a data augmentation. Subjective evaluations by two expert speech pathologists validate that DuTa-VC can preserve the severity and type of dysarthria of the target speakers in the synthesized speech.
Autores: Helin Wang, Thomas Thebaud, Jesus Villalba, Myra Sydnor, Becky Lammers, Najim Dehak, Laureano Moro-Velazquez
Última atualização: 2023-06-18 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.10588
Fonte PDF: https://arxiv.org/pdf/2306.10588
Licença: https://creativecommons.org/publicdomain/zero/1.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://anonymous.4open.science/w/DuTa-VC-Demo-3D4F/
- https://github.com/CorentinJ/Real-Time-Voice-Cloning
- https://github.com/jik876/hifi-gan
- https://github.com/jaywalnut310/glow-tts
- https://github.com/lucidrains/denoising-diffusion-pytorch
- https://github.com/espnet/espnet/tree/master/egs2/TEMPLATE/asr1
- https://wanghelin1997.github.io/DuTa-VC-Demo/
- https://github.com/WangHelin1997/DuTa-VC