Apresentando um método mais rápido para síntese de fala de alta qualidade usando modelos de difusão.
― 7 min ler
Ciência de ponta explicada de forma simples
Apresentando um método mais rápido para síntese de fala de alta qualidade usando modelos de difusão.
― 7 min ler
HiFTNet oferece uma síntese de fala mais rápida e de alta qualidade usando técnicas inovadoras e eficientes.
― 6 min ler
Explore como o TTT melhora o reconhecimento de fala se adaptando a mudanças na distribuição.
― 8 min ler
Um novo modelo melhora a eficiência e o desempenho na separação de fala.
― 6 min ler
Estudo mostra que a augmentação de áudio pode melhorar o reconhecimento de fala em línguas de baixo recurso.
― 6 min ler
Este estudo transforma dados de ressonância magnética da língua em áudio de fala real.
― 5 min ler
Um novo método melhora a eficiência do reconhecimento de fala usando adaptação de baixo rank.
― 6 min ler
Um novo padrão pra melhorar a precisão do ASR usando modelos de linguagem.
― 7 min ler
Uma nova abordagem para a geração de fala pequena, eficiente e com som natural.
― 10 min ler
Um novo método integra informações acústicas nos modelos de linguagem pra melhorar o reconhecimento de fala.
― 10 min ler
Uma nova abordagem pra sintetizar vozes com precisão rítmica melhorada.
― 10 min ler
Técnicas inovadoras para melhorar modelos de TTS e reduzir a perda de conhecimento.
― 7 min ler
Esse estudo revisa como o tamanho do lote influencia o desempenho e o treinamento do modelo de fala.
― 8 min ler
Um novo método melhora a performance e a eficiência do modelo de fala em ambientes barulhentos.
― 6 min ler
Um estudo sobre como melhorar sistemas de TTS com amostras de voz diversas.
― 5 min ler
A pesquisa identifica e classifica os dialetos curdos sorani usando gravações de áudio extensivas.
― 7 min ler
RALL-E melhora a síntese de texto para fala pra deixar a fala mais clara e natural.
― 6 min ler
Novos métodos melhoram a representação de áudio através de técnicas de aprendizado auto-supervisionado.
― 7 min ler
Novo modelo permite controle preciso das qualidades da voz enquanto mantém o conteúdo.
― 5 min ler
Um novo modelo pra avaliar modelos de fundação em tarefas de fala.
― 9 min ler
Estudo revela que usuários preferem agentes de fala estáticos em vez de adaptativos.
― 9 min ler
A FlashSpeech oferece soluções de síntese de fala rápidas e de alta qualidade.
― 8 min ler
O SEANet melhora a isolação do falante reduzindo o ruído no processamento de áudio.
― 8 min ler
Um método de aprendizado ativo em duas etapas melhora a precisão do reconhecimento de voz com menos dados.
― 6 min ler
Este estudo avalia o desempenho de sistemas de ASR com pessoas que gaguejam.
― 9 min ler
Esse artigo investiga vulnerabilidades em modelos de fala e maneiras de aumentar a segurança deles.
― 6 min ler
Novos métodos melhoram como as máquinas reconhecem emoções na fala.
― 6 min ler
Seed-TTS cria uma fala realista a partir de texto para várias aplicações.
― 5 min ler
Novo modelo ARDiT melhora a síntese de texto para fala e a edição de fala.
― 7 min ler
mHuBERT-147 processa fala em várias línguas de forma eficiente.
― 5 min ler
Novos métodos melhoram o reconhecimento de fala em ambientes barulhentos usando técnicas adaptativas.
― 8 min ler
Um método novo que otimiza a análise e a síntese de fala usando os movimentos do trato vocal.
― 8 min ler
Um estudo sobre como melhorar a segmentação de áudio integrando embeddings de falantes.
― 6 min ler
Novos esforços visam apoiar os dialetos iorubás na tecnologia de linguagem.
― 6 min ler
Este artigo fala sobre como o Wav2Vec2.0 processa os sons da fala usando fonologia.
― 6 min ler
Esse estudo avalia a tecnologia de fala em línguas com poucos recursos, tipo o árabe tunisiano.
― 6 min ler
Melhorando a síntese de fala pra gerar vozes mais naturais e expressivas.
― 6 min ler
Apresentando um método pra ter mais controle na edição de fala.
― 6 min ler
A Emilia oferece um conjunto de dados bem variado pra melhorar os modelos de geração de fala.
― 7 min ler
Mamba mostra potencial contra transformers em tarefas de fala, especialmente para entradas longas.
― 5 min ler