Novos métodos melhoram a simulação de som em vários ambientes.
― 7 min ler
Ciência de ponta explicada de forma simples
Novos métodos melhoram a simulação de som em vários ambientes.
― 7 min ler
A pesquisa identifica e classifica os dialetos curdos sorani usando gravações de áudio extensivas.
― 7 min ler
Um novo método melhora o processamento de som através da afinação automática de Redes de Atraso com Feedback.
― 7 min ler
Um novo método melhora a avaliação da fala usando gravações inteiras.
― 8 min ler
Novos métodos melhoram a detecção de falantes áudio-visuais em ambientes desafiadores.
― 8 min ler
Este estudo investiga a eficácia de modelos multilíngues na detecção de deepfakes em áudio.
― 6 min ler
Uma nova forma de avaliar como a música segue os comandos de áudio.
― 10 min ler
Um novo conjunto de dados melhora a forma como os robôs interpretam ambientes do mundo real.
― 8 min ler
Esse método melhora a separação de áudio juntando descrições de linguagem com a análise de som.
― 6 min ler
UniAV combina localização de ações, detecção de som e localização de eventos audiovisuais pra uma melhor compreensão de vídeos.
― 9 min ler
O CLaM-TTS melhora a síntese de fala usando técnicas avançadas pra mais eficiência e qualidade.
― 7 min ler
Gráficos permitem novas ideias sobre a estrutura da música e suas relações.
― 6 min ler
RALL-E melhora a síntese de texto para fala pra deixar a fala mais clara e natural.
― 6 min ler
MuPT usa a notação ABC pra gerar música com IA de jeito eficaz.
― 6 min ler
Novos métodos melhoram a representação de áudio através de técnicas de aprendizado auto-supervisionado.
― 7 min ler
PEAVS analisa como o áudio e o vídeo funcionam juntos pra melhorar a experiência do espectador.
― 8 min ler
Um método que usa IA melhora a representação sonora em vários ambientes.
― 8 min ler
Explore o papel dos momentos espectrais em testes de câmara de reverberação e o impacto do ruído.
― 6 min ler
Um novo sistema para transcrição de piano em tempo real, leve e precisa.
― 6 min ler
Uma nova estrutura melhora a compreensão da IA em espaços 3D.
― 8 min ler
Novo modelo permite controle preciso das qualidades da voz enquanto mantém o conteúdo.
― 5 min ler
Um novo modelo pra avaliar modelos de fundação em tarefas de fala.
― 9 min ler
Um estudo sobre como melhorar as saídas de áudio a partir de comandos de texto usando otimização de preferências.
― 8 min ler
Explorando os desenvolvimentos recentes em ferramentas de IA para criação musical.
― 6 min ler
A pesquisa explora a fusão de técnicas sonoras pra melhorar a navegação e o mapeamento de robôs.
― 9 min ler
Uma nova abordagem melhora a marcação e recuperação de músicas ao combinar termos de linguagem geral e termos musicais.
― 12 min ler
A FlashSpeech oferece soluções de síntese de fala rápidas e de alta qualidade.
― 8 min ler
Um novo método melhora a detecção de deepfakes de áudio usando referências de amostras similares.
― 7 min ler
Esse estudo analisa sinais sonoros pra medir a virtuosidade entre guitarristas elétricos.
― 5 min ler
Esse estudo analisa as fraquezas dos modelos SER em relação a ataques adversariais em diferentes línguas.
― 6 min ler
O SEANet melhora a isolação do falante reduzindo o ruído no processamento de áudio.
― 8 min ler
Um novo codec de áudio que oferece compressão de alta qualidade e conteúdo semântico rico.
― 7 min ler
Uma ferramenta que combina análise de áudio e vídeo pra identificar eventos.
― 6 min ler
Um método para medir como os materiais absorvem som de forma eficaz.
― 6 min ler
Um método de aprendizado ativo em duas etapas melhora a precisão do reconhecimento de voz com menos dados.
― 6 min ler
Novos métodos melhoram a clareza da fala em aparelhos auditivos usando técnicas de deep learning.
― 7 min ler
Aprenda sobre técnicas de localização de som e suas aplicações em várias áreas.
― 5 min ler
Novo conjunto de dados e métodos melhoram a detecção de deepfakes de áudio gerados por ALM.
― 7 min ler
Este estudo avalia o desempenho de sistemas de ASR com pessoas que gaguejam.
― 9 min ler
Um clipe de áudio universal pode silenciar modelos avançados de ASR como o Whisper.
― 7 min ler