Este estudo avalia performances solo de piano usando métodos de análise de áudio.
― 6 min ler
Ciência de ponta explicada de forma simples
Este estudo avalia performances solo de piano usando métodos de análise de áudio.
― 6 min ler
O modelo XLSR-Transducer manda bem na transcrição em tempo real com pouquíssimos dados.
― 6 min ler
Esse artigo fala sobre como melhorar o MUSIC com computação aproximada pra ter um desempenho melhor.
― 7 min ler
Um novo sistema melhora a precisão e eficiência da transcrição musical com múltiplos instrumentos.
― 6 min ler
Um novo modelo melhora a precisão nas capacidades de fala para texto em várias línguas.
― 6 min ler
Avanços em prever a qualidade da fala usando métodos eficientes para dispositivos móveis.
― 6 min ler
Um jeito de melhorar o timbre na produção musical usando sintetizadores.
― 7 min ler
Esse estudo avalia a tecnologia de fala em línguas com poucos recursos, tipo o árabe tunisiano.
― 6 min ler
Pesquisas mostram riscos em modelos de fala multitarefa como o Whisper.
― 5 min ler
TokenVerse simplifica a análise de conversas faladas ao integrar várias tarefas em um único modelo.
― 7 min ler
Novo conjunto de dados melhora a geração de áudio a partir de descrições textuais detalhadas.
― 5 min ler
Uma nova forma de os artistas ligarem a criatividade com a geração de áudio AI.
― 6 min ler
Explorando o impacto dos modelos TTM na criação musical e nas experiências dos usuários.
― 7 min ler
Esse artigo analisa a latência de vários sistemas de diarização de falantes no processamento de áudio.
― 7 min ler
Melhorando a síntese de fala pra gerar vozes mais naturais e expressivas.
― 6 min ler
Novo conjunto de dados visa melhorar o reconhecimento de voz para falantes não nativos de inglês.
― 7 min ler
Um novo framework, o BiosERC, melhora o reconhecimento de emoções ao considerar as características do falante.
― 7 min ler
Esse estudo analisa como as preferências de voz variam entre diferentes ouvintes.
― 5 min ler
Um novo modelo enfrenta preconceitos e melhora as previsões de preço das ações usando dados diversos.
― 6 min ler
Este artigo apresenta um método para gerar som preciso a partir de vídeos e texto.
― 8 min ler
Um modelo novo melhora a simulação de instrumentos de corda pra um som mais realista.
― 7 min ler
Apresentando um método pra ter mais controle na edição de fala.
― 6 min ler
Um estudo sobre como classificar músicas pela sua época usando características sonoras e opiniões de artistas.
― 7 min ler
Um novo modelo melhora o estudo da comunicação animal usando dados de áudio brutos.
― 6 min ler
A Emilia oferece um conjunto de dados bem variado pra melhorar os modelos de geração de fala.
― 7 min ler
Um novo sistema melhora a eficiência do processamento de sinal por meio de métodos de codificação inovadores.
― 6 min ler
Uma equipe enfrenta desafios de identificação de cantos de pássaros na competição BirdCLEF 2024.
― 7 min ler
Apresentando os conjuntos de dados MERGE pra melhorar a classificação de emoções na música.
― 7 min ler
Um novo método ajuda modelos menores a se saírem melhor usando dicas de modelos maiores.
― 7 min ler
Explore as novidades na versão 3 do dataset Divide and Remaster.
― 7 min ler
Um resumo completo dos conjuntos de dados usados em modelos de áudio-linguagem e a importância deles.
― 12 min ler
Um sistema confiável de fones de ouvido monitora as taxas de respiração durante várias atividades do dia a dia.
― 7 min ler
Melhorando sistemas de reconhecimento de fala para línguas com dados online limitados.
― 6 min ler
Este estudo analisa como redes neurais interpretam a fala usando espectrogramas.
― 7 min ler
Combinando som e imagens pra sistemas de reconhecimento mais inteligentes.
― 8 min ler
Um método pra melhorar a detecção de deepfake de áudio através de aumento de dados.
― 6 min ler
Beat-It gera movimentos de dança sincronizados pra deixar a coreografia top sem esforço.
― 6 min ler
Pesquisadores querem criar sons que combinem com vídeos silenciosos, melhorando a experiência dos espectadores.
― 6 min ler
Este estudo fala sobre os problemas dos sistemas de SLU e a capacidade deles de generalizar.
― 7 min ler
Uma ferramenta auto-supervisionada pra estimar assinaturas de chave musical, reduzindo anotações de especialistas.
― 6 min ler