Um novo modelo melhora a difração de som em ambientes virtuais.
― 8 min ler
Ciência de ponta explicada de forma simples
Um novo modelo melhora a difração de som em ambientes virtuais.
― 8 min ler
O viés contextual melhora os sistemas de reconhecimento de fala, aumentando a precisão em tarefas específicas.
― 6 min ler
Uma nova forma de mudar as emoções na fala em meio ao barulho do dia a dia.
― 7 min ler
Esse estudo apresenta um novo sistema pra detectar erros de pronúncia em quem tá aprendendo língua.
― 7 min ler
O sistema de Q A usa aprendizado auto-supervisionado pra rearranjar músicas de um jeito inovador.
― 6 min ler
Um novo método melhora a qualidade da conversão de texto em fala e a expressão emocional.
― 5 min ler
Pesquisadores juntam dados de áudio e vídeo pra melhorar a compreensão da fala em lugares barulhentos.
― 5 min ler
Descubra como a tecnologia de controle ativo de ruído tá mudando nossa experiência sonora.
― 6 min ler
Técnicas pra diminuir o tamanho do modelo sem perder desempenho tão estão surgindo.
― 5 min ler
Novo modelo imita efeitos de fase analógicos com técnicas de aprendizado melhoradas.
― 6 min ler
Um novo modelo reduz o tamanho enquanto melhora o reconhecimento de fala em várias línguas.
― 6 min ler
Um novo método melhora a precisão do reconhecimento de fala para sotaques africanos.
― 5 min ler
Analisando o impacto de avaliações detalhadas em sistemas de síntese de fala.
― 6 min ler
Melhorando a clareza da voz com técnicas eficazes de cancelamento de eco e aprendizado de máquina.
― 8 min ler
O SingNet melhora o acompanhamento de batidas em vozes cantando usando dados anteriores.
― 7 min ler
Um novo sistema melhora o reconhecimento de fala em ambientes com várias pessoas falando.
― 7 min ler
O LipVoicer gera fala clara a partir de vídeos silenciosos usando métodos avançados de leitura labial.
― 6 min ler
Novos métodos visam melhorar a comunicação de pessoas com disartria.
― 7 min ler
Esse estudo analisa os benefícios de juntar o processamento de fala com dados visuais.
― 7 min ler
Novo método melhora previsões ao considerar múltiplas pontuações de especialistas.
― 6 min ler
Uma nova perspectiva sobre a anonimização de falantes e o papel crucial dos vocoders.
― 6 min ler
Uma olhada em como o Whisper lida com vários dialetos e sotaques árabes.
― 5 min ler
Um programa que combina dados visuais e de áudio pra melhorar a compreensão de vídeos.
― 6 min ler
Um novo método melhora o reconhecimento de atos de fala em bengali usando análise de áudio e texto.
― 6 min ler
Estudar a risada pode melhorar a forma como as máquinas interagem com as pessoas.
― 5 min ler
A pesquisa explora o potencial do BERT na análise musical em nível de bares.
― 6 min ler
Um novo sistema melhora o aprendizado de matemática em casa através de interações divertidas.
― 7 min ler
Um novo método melhora os modelos de reconhecimento de fala usando só dados de texto para adaptação.
― 6 min ler
Um novo modelo melhora a harmonização de melodias levando em conta fatores emocionais.
― 7 min ler
Novos métodos usam onomatopeias pra inspirar movimentos de dança únicos.
― 6 min ler
Pesquisadores melhoram a detecção de fala gerada por máquinas usando ajustes nas informações de fase.
― 6 min ler
Uma olhada nos problemas de reprodutibilidade na pesquisa de processamento de fala.
― 8 min ler
Uma nova abordagem melhora a identificação de linguagem falada usando aprendizado auto-supervisionado e rótulos.
― 7 min ler
Um novo método melhora o reconhecimento de fala para falantes árabes com disartria.
― 6 min ler
Allophant melhora o reconhecimento de fonemas para línguas com poucos dados.
― 6 min ler
Apresentando SANGEET, um dataset super detalhado sobre Música Clássica Hindustani.
― 5 min ler
Melhorando como os sistemas de reconhecimento de fala estimam o tempo das palavras pra ter mais precisão.
― 5 min ler
Novos métodos melhoram o processamento de fala em modelos de linguagem.
― 6 min ler
Um novo método busca melhorar a detecção de áudio falso sem perder o conhecimento anterior.
― 7 min ler
Um novo framework melhora o estudo de sistemas de reconhecimento de fala não supervisionados.
― 8 min ler