Esse artigo apresenta um sistema TTS mais eficiente que se adapta aos falantes.
― 6 min ler
Ciência de ponta explicada de forma simples
Esse artigo apresenta um sistema TTS mais eficiente que se adapta aos falantes.
― 6 min ler
Novos métodos melhoram modelos de fala para línguas com poucos dados.
― 6 min ler
Entender a incerteza aumenta a precisão do reconhecimento de emoções em situações do dia a dia.
― 7 min ler
Um novo método melhora a precisão do alinhamento de fonemas para várias aplicações de fala.
― 6 min ler
Um estudo sobre como traduzir o inglês nigeriano para melhorar a acessibilidade em filmes de Nollywood.
― 7 min ler
Este artigo apresenta um sistema de codificador duplo para um aprendizado eficaz de representação de fala.
― 7 min ler
Um sistema pra reconhecimento de falantes em áudio multilíngue sem precisar de muitos dados.
― 6 min ler
MelodyT5 oferece uma nova maneira de criar e analisar música usando notação simbólica.
― 7 min ler
O dataset GTZAN-synth usa música sintética pra melhorar os sistemas de tagueamento de música.
― 6 min ler
MelodyLM facilita a criação de música usando textos e comandos de voz.
― 7 min ler
O modelo SAVE melhora a segmentação áudio-visual com eficiência e precisão.
― 7 min ler
Novo modelo melhora a tradução de fala para texto usando grandes modelos de linguagem.
― 7 min ler
Pesquisas mostram um modelo que liga gravações de áudio aos movimentos da boca na fala.
― 7 min ler
Este artigo fala sobre como o Wav2Vec2.0 processa os sons da fala usando fonologia.
― 6 min ler
Melhorando a tecnologia de anonimização de falantes em nove idiomas pra garantir a privacidade.
― 6 min ler
Explorando o papel da tecnologia em melhorar a eficiência e o bem-estar da aquicultura.
― 6 min ler
Pesquisas mostram como o vídeo ajuda a melhorar o reconhecimento de fala em ambientes barulhentos.
― 6 min ler
Uma nova abordagem combina análise de voz com proteção de privacidade para detecção de demência.
― 7 min ler
Novos métodos melhoram a precisão na identificação dos sons dos animais para monitoramento da vida selvagem.
― 5 min ler
Novos métodos melhoram a segurança contra spoofing de voz em sistemas ASV.
― 8 min ler
Avanços na classificação de sons melhoram a precisão do reconhecimento de áudio.
― 6 min ler
Um novo método melhora a precisão em reconhecer fala de vários falantes.
― 6 min ler
O BPE acústico melhora a inteligibilidade e a qualidade da fala em sistemas TTS.
― 7 min ler
Um novo método melhora a clareza da fala em ambientes barulhentos usando redes neurais duplas.
― 5 min ler
Novo método melhora o desempenho dos sistemas de ASR com diferentes sotaques através de dicionários especializados.
― 6 min ler
Novos métodos melhoram a precisão e a eficiência nos sistemas de reconhecimento de fala.
― 7 min ler
Um novo método melhora a localização sonora em ambientes variados ao focar na aprendizagem contínua.
― 6 min ler
Um novo método melhora a detecção de eventos sonoros ao integrar novas classes de áudio de forma eficaz.
― 7 min ler
O WildDESED melhora os sistemas de detecção de som em casas barulhentas.
― 7 min ler
Um estudo revela como diferentes gêneros musicais ativam áreas distintas do cérebro.
― 7 min ler
Regras essenciais para enviar trabalhos para o NeurIPS 2024.
― 4 min ler
Este estudo avalia performances solo de piano usando métodos de análise de áudio.
― 6 min ler
O modelo XLSR-Transducer manda bem na transcrição em tempo real com pouquíssimos dados.
― 6 min ler
Esse artigo fala sobre como melhorar o MUSIC com computação aproximada pra ter um desempenho melhor.
― 7 min ler
Um novo sistema melhora a precisão e eficiência da transcrição musical com múltiplos instrumentos.
― 6 min ler
Um novo modelo melhora a precisão nas capacidades de fala para texto em várias línguas.
― 6 min ler
Avanços em prever a qualidade da fala usando métodos eficientes para dispositivos móveis.
― 6 min ler
Um jeito de melhorar o timbre na produção musical usando sintetizadores.
― 7 min ler
Esse estudo avalia a tecnologia de fala em línguas com poucos recursos, tipo o árabe tunisiano.
― 6 min ler
Pesquisas mostram riscos em modelos de fala multitarefa como o Whisper.
― 5 min ler