Cleancoder melhora os sistemas de ASR reduzindo o barulho de fundo pra entender a fala melhor.
― 5 min ler
Ciência de ponta explicada de forma simples
Cleancoder melhora os sistemas de ASR reduzindo o barulho de fundo pra entender a fala melhor.
― 5 min ler
RADIO cria rostos falantes realistas usando só uma imagem de referência.
― 7 min ler
RoDia oferece amostras de áudio essenciais pra identificar dialetos romenos.
― 6 min ler
Explorando como gestos e expressões melhoram nossa compreensão da linguagem falada.
― 8 min ler
Explorando novos métodos de detecção e localização de som usando dados sintéticos.
― 6 min ler
Um novo sistema ajuda músicos a vivenciar o som em um palco virtual.
― 7 min ler
Novo método melhora a detecção de trechos de áudio falsos em gravações.
― 6 min ler
Os computadores estão aprendendo a separar ritmo e harmonia na música para aplicações criativas.
― 4 min ler
O MuLanTTS da Microsoft oferece capacidades de texto-para-fala em francês de forma natural e expressiva.
― 5 min ler
Novos conjuntos de dados e métodos melhoram a classificação de veículos para uma gestão de trânsito melhor.
― 7 min ler
Novos métodos melhoram a precisão e a velocidade na tecnologia de reconhecimento de fala.
― 7 min ler
Um novo sintetizador melhora a geração de efeitos sonoros realistas para a mídia.
― 6 min ler
Uma nova abordagem melhora a estimativa de confiança em sistemas de ASR para uma precisão melhor.
― 5 min ler
Apresentando uma estrutura para uma síntese de fala mais natural e expressiva.
― 7 min ler
Aprenda como a tecnologia ajuda a categorizar gêneros musicais de forma eficiente.
― 7 min ler
Uma abordagem unificada pra avaliar a alimentação dos peixes usando dados de áudio e vídeo.
― 6 min ler
Um novo método melhora a criação de vídeos de talking-head que expressam emoções.
― 8 min ler
Este estudo explora problemas com o uso de convnets para a criação de filtro de áudio.
― 6 min ler
O modelo CLAP conecta o processamento de áudio e texto pra várias aplicações.
― 5 min ler
Um projeto tem como objetivo melhorar o processamento de fala em francês usando aprendizado auto-supervisionado.
― 6 min ler
Novos métodos melhoram como as máquinas reconhecem o ritmo da fala e a emoção.
― 7 min ler
Uma nova abordagem melhora a estimativa de som em espaços com objetos que refletem.
― 6 min ler
Analisa como a indecidibilidade influencia a composição musical e a produção hoje em dia.
― 5 min ler
Esse artigo explora avanços na diarização de falantes usando modelos de linguagem pra ter mais precisão.
― 5 min ler
Esse estudo melhora a capacidade dos sistemas de ASR em reconhecer a fala das crianças.
― 7 min ler
Pesquisadores estão explorando a tecnologia de detecção de áudio para melhorar a identificação de pedestres em áreas urbanas.
― 6 min ler
Novo método melhora a localização de fonte sonora e separação de campo.
― 7 min ler
Um novo método melhora a síntese do som de bateria focando em elementos transientes agudos.
― 6 min ler
Pesquisadores estão criando dados de voz sintética pra proteger a privacidade no reconhecimento de voz.
― 7 min ler
VoxtLM combina reconhecimento de fala, síntese, geração de texto e continuação em um só modelo.
― 5 min ler
Novo sistema melhora o reconhecimento de fala usando prompts que levam em conta o contexto.
― 5 min ler
EnCodecMAE combina aprendizado auto-supervisionado e codecs de áudio pra melhorar o desempenho em tarefas de áudio.
― 6 min ler
Um estudo sobre como usar aprendizado de máquina pra identificar os sons das crianças na avaliação do TEA.
― 6 min ler
Apresentando um método flexível para reconhecer palavras-chave na fala em diferentes idiomas.
― 7 min ler
Um olhar sobre como a qualidade da fala é testada usando crowdsourcing.
― 6 min ler
Técnicas avançadas pra garantir a autenticidade do áudio na era da clonagem de voz.
― 6 min ler
Um novo método treina sistemas de legendagem de áudio usando só descrições em texto.
― 7 min ler
Um guia pra fazer trabalhos acadêmicos claros e eficazes.
― 4 min ler
A Erie facilita transformar dados em som pra ter uma acessibilidade melhor.
― 8 min ler
Examinando os riscos de ataques via backdoor em sistemas de verificação de voz.
― 8 min ler