Novas técnicas melhoram a clareza do áudio em ambientes barulhentos.
― 7 min ler
Ciência de ponta explicada de forma simples
Novas técnicas melhoram a clareza do áudio em ambientes barulhentos.
― 7 min ler
Novos métodos melhoram a identificação de palavras-chave usando dados de fala disponíveis.
― 5 min ler
Um olhar sobre métodos de extração de som personalizáveis por região para um áudio mais claro.
― 6 min ler
Novos métodos de um único passo melhoram a precisão no acompanhamento de formantes para sons de fala.
― 5 min ler
Uma nova perspectiva sobre os avanços nos métodos e aplicações da ciência da linguagem falada.
― 7 min ler
Esse estudo analisa as dificuldades de usar aprendizado contrastivo pra entender vídeo musical.
― 7 min ler
Uma nova abordagem melhora a integração da fala com modelos de linguagem.
― 7 min ler
Usando aprendizado autossupervisionado pra melhorar previsões dos movimentos de fala na disartria.
― 6 min ler
Uma nova métrica pra avaliar como os estilos de dança combinam com a música.
― 9 min ler
Analisando como modelos de linguagem pré-treinados melhoram a qualidade do texto-para-fala.
― 6 min ler
Um novo modelo avalia a percepção auditiva através do feedback humano usando a Escala de Melhor-Pior.
― 6 min ler
Novos métodos melhoram a clareza dos componentes de áudio nas faixas musicais.
― 7 min ler
O BandIt melhora a separação de fontes de áudio com técnicas inovadoras de deep learning.
― 6 min ler
Ajustar a tecnologia de reconhecimento de emoções melhora a precisão para diferentes falantes.
― 7 min ler
Estudo revela ameaças sérias no reconhecimento de voz usando amostras de morph.
― 6 min ler
Um conjunto de dados detalhado que combina as sonatas do Mozart com performances de piano e anotações de especialistas.
― 6 min ler
Um novo modelo leve melhora a estimativa de pitch usando técnicas de aprendizado auto-supervisionado.
― 8 min ler
Uma nova abordagem pra melhorar a identificação e análise de segmentos musicais.
― 6 min ler
Novos métodos criados pra identificar músicas falsas diante das crescentes preocupações.
― 6 min ler
Cleancoder melhora os sistemas de ASR reduzindo o barulho de fundo pra entender a fala melhor.
― 5 min ler
RADIO cria rostos falantes realistas usando só uma imagem de referência.
― 7 min ler
RoDia oferece amostras de áudio essenciais pra identificar dialetos romenos.
― 6 min ler
Explorando como gestos e expressões melhoram nossa compreensão da linguagem falada.
― 8 min ler
Explorando novos métodos de detecção e localização de som usando dados sintéticos.
― 6 min ler
Um novo sistema ajuda músicos a vivenciar o som em um palco virtual.
― 7 min ler
Novo método melhora a detecção de trechos de áudio falsos em gravações.
― 6 min ler
Os computadores estão aprendendo a separar ritmo e harmonia na música para aplicações criativas.
― 4 min ler
O MuLanTTS da Microsoft oferece capacidades de texto-para-fala em francês de forma natural e expressiva.
― 5 min ler
Novos conjuntos de dados e métodos melhoram a classificação de veículos para uma gestão de trânsito melhor.
― 7 min ler
Novos métodos melhoram a precisão e a velocidade na tecnologia de reconhecimento de fala.
― 7 min ler
Um novo sintetizador melhora a geração de efeitos sonoros realistas para a mídia.
― 6 min ler
Uma nova abordagem melhora a estimativa de confiança em sistemas de ASR para uma precisão melhor.
― 5 min ler
Apresentando uma estrutura para uma síntese de fala mais natural e expressiva.
― 7 min ler
Aprenda como a tecnologia ajuda a categorizar gêneros musicais de forma eficiente.
― 7 min ler
Uma abordagem unificada pra avaliar a alimentação dos peixes usando dados de áudio e vídeo.
― 6 min ler
Um novo método melhora a criação de vídeos de talking-head que expressam emoções.
― 8 min ler
Este estudo explora problemas com o uso de convnets para a criação de filtro de áudio.
― 6 min ler
O modelo CLAP conecta o processamento de áudio e texto pra várias aplicações.
― 5 min ler
Um projeto tem como objetivo melhorar o processamento de fala em francês usando aprendizado auto-supervisionado.
― 6 min ler
Novos métodos melhoram como as máquinas reconhecem o ritmo da fala e a emoção.
― 7 min ler