Um novo modelo melhora a tecnologia de texto pra fala com eficiência e adaptação.
― 7 min ler
Ciência de ponta explicada de forma simples
Um novo modelo melhora a tecnologia de texto pra fala com eficiência e adaptação.
― 7 min ler
Um método novo que otimiza a análise e a síntese de fala usando os movimentos do trato vocal.
― 8 min ler
Esse estudo analisa como os gestos afetam o aprendizado com agentes virtuais.
― 8 min ler
Aprenda sobre diarização de falantes online e sua importância em várias aplicações.
― 7 min ler
Nova ferramenta de referência avalia tokens de áudio discretos para várias tarefas de processamento de fala.
― 10 min ler
Um novo método pra geração de música usando matrizes de auto-similaridade e sistemas de atenção.
― 8 min ler
Novas técnicas melhoram a modelagem de amplificadores de guitarra usando dados não emparelhados e GANs.
― 8 min ler
Um novo método pra entender como modelos de áudio fazem previsões.
― 6 min ler
Apresentando a conversão de voz espacial para melhorar o realismo e a imersão do áudio.
― 7 min ler
Pesquisas exploram como a análise da fala pode prever o risco de suicídio, levando em conta as diferenças de gênero.
― 6 min ler
Este artigo apresenta um sistema para criar visuais que respondem à música.
― 8 min ler
Um novo sistema ajuda robôs a aprender tarefas usando áudio de demonstrações da vida real.
― 8 min ler
Novos métodos melhoram a precisão em reconhecer sons sobrepostos de diferentes fontes de áudio.
― 7 min ler
Um novo método combina recursos acústicos e pontuações de confiança pra melhorar a correção de erros.
― 6 min ler
A SecureSpectra oferece uma nova maneira de proteger a identidade auditiva contra ameaças de deepfake.
― 6 min ler
Combinando física e geometria pra melhorar as previsões de dispersão acústica.
― 6 min ler
Um novo sistema pra tradução de fala precisa e rápida em várias línguas.
― 7 min ler
Um método simples pra criar vozes e controlar emoções na síntese de fala.
― 6 min ler
Melhorando o MMDenseNet pra separar música de forma rápida e eficiente.
― 6 min ler
Um novo método melhora o diálogo da máquina através de dados pseudo-estéreo.
― 7 min ler
Este estudo apresenta um conjunto de dados e um método pra melhorar a precisão do ASR chinês usando Pinyin.
― 8 min ler
Técnicas inovadoras melhoram o design de alto-falantes e a direção do som.
― 5 min ler
Este estudo foca em melhorar a detecção de áudio deepfake usando métodos avançados.
― 5 min ler
Usando interfaces visuais e modelos pra melhorar a geração de música.
― 6 min ler
Um novo esquema pra criar efeitos sonoros sincronizados em vídeos.
― 7 min ler
Um estudo sobre como melhorar a segmentação de áudio integrando embeddings de falantes.
― 6 min ler
Esse artigo apresenta um sistema TTS mais eficiente que se adapta aos falantes.
― 6 min ler
Novos métodos melhoram modelos de fala para línguas com poucos dados.
― 6 min ler
Entender a incerteza aumenta a precisão do reconhecimento de emoções em situações do dia a dia.
― 7 min ler
Um novo método melhora a precisão do alinhamento de fonemas para várias aplicações de fala.
― 6 min ler
Um estudo sobre como traduzir o inglês nigeriano para melhorar a acessibilidade em filmes de Nollywood.
― 7 min ler
Este artigo apresenta um sistema de codificador duplo para um aprendizado eficaz de representação de fala.
― 7 min ler
MelodyT5 oferece uma nova maneira de criar e analisar música usando notação simbólica.
― 7 min ler
O dataset GTZAN-synth usa música sintética pra melhorar os sistemas de tagueamento de música.
― 6 min ler
MelodyLM facilita a criação de música usando textos e comandos de voz.
― 7 min ler
O modelo SAVE melhora a segmentação áudio-visual com eficiência e precisão.
― 7 min ler
Novo modelo melhora a tradução de fala para texto usando grandes modelos de linguagem.
― 7 min ler
Pesquisas mostram um modelo que liga gravações de áudio aos movimentos da boca na fala.
― 7 min ler
Este artigo fala sobre como o Wav2Vec2.0 processa os sons da fala usando fonologia.
― 6 min ler
Melhorando a tecnologia de anonimização de falantes em nove idiomas pra garantir a privacidade.
― 6 min ler