Aprenda como a tecnologia ajuda a categorizar gêneros musicais de forma eficiente.
― 7 min ler
Ciência de ponta explicada de forma simples
Aprenda como a tecnologia ajuda a categorizar gêneros musicais de forma eficiente.
― 7 min ler
Uma abordagem unificada pra avaliar a alimentação dos peixes usando dados de áudio e vídeo.
― 6 min ler
Um novo método melhora a criação de vídeos de talking-head que expressam emoções.
― 8 min ler
Este estudo explora problemas com o uso de convnets para a criação de filtro de áudio.
― 6 min ler
O modelo CLAP conecta o processamento de áudio e texto pra várias aplicações.
― 5 min ler
Um projeto tem como objetivo melhorar o processamento de fala em francês usando aprendizado auto-supervisionado.
― 6 min ler
Novos métodos melhoram como as máquinas reconhecem o ritmo da fala e a emoção.
― 7 min ler
Uma nova abordagem melhora a estimativa de som em espaços com objetos que refletem.
― 6 min ler
Analisa como a indecidibilidade influencia a composição musical e a produção hoje em dia.
― 5 min ler
Esse artigo explora avanços na diarização de falantes usando modelos de linguagem pra ter mais precisão.
― 5 min ler
Esse estudo melhora a capacidade dos sistemas de ASR em reconhecer a fala das crianças.
― 7 min ler
Pesquisadores estão explorando a tecnologia de detecção de áudio para melhorar a identificação de pedestres em áreas urbanas.
― 6 min ler
Novo método melhora a localização de fonte sonora e separação de campo.
― 7 min ler
Um novo método melhora a síntese do som de bateria focando em elementos transientes agudos.
― 6 min ler
Pesquisadores estão criando dados de voz sintética pra proteger a privacidade no reconhecimento de voz.
― 7 min ler
VoxtLM combina reconhecimento de fala, síntese, geração de texto e continuação em um só modelo.
― 5 min ler
Novo sistema melhora o reconhecimento de fala usando prompts que levam em conta o contexto.
― 5 min ler
EnCodecMAE combina aprendizado auto-supervisionado e codecs de áudio pra melhorar o desempenho em tarefas de áudio.
― 6 min ler
Um estudo sobre como usar aprendizado de máquina pra identificar os sons das crianças na avaliação do TEA.
― 6 min ler
Apresentando um método flexível para reconhecer palavras-chave na fala em diferentes idiomas.
― 7 min ler
Um olhar sobre como a qualidade da fala é testada usando crowdsourcing.
― 6 min ler
Um novo método treina sistemas de legendagem de áudio usando só descrições em texto.
― 7 min ler
Um guia pra fazer trabalhos acadêmicos claros e eficazes.
― 4 min ler
Examinando os riscos de ataques via backdoor em sistemas de verificação de voz.
― 8 min ler
Um novo método melhora a segmentação áudio-visual sem precisar de rótulos detalhados.
― 6 min ler
A PIAVE ajuda máquinas a captar vozes com clareza, mesmo quando as pessoas viram a cabeça.
― 7 min ler
A Libriheavy oferece 50.000 horas de inglês falado pra melhorar a tecnologia de reconhecimento de fala.
― 6 min ler
O AV2Wav melhora a qualidade da fala usando dicas sonoras e visuais.
― 6 min ler
Um jeito novo de as máquinas mudarem emoções na fala de forma natural.
― 6 min ler
Novos métodos estão sendo desenvolvidos pra identificar vozes cantando deepfake na indústria da música.
― 7 min ler
A seleção de core-set melhora os modelos de texto-para-fala ao focar em dados diversos.
― 6 min ler
Novos modelos estão mudando a forma como analisamos emoções na fala.
― 7 min ler
Um novo método usa ultrassom para reconhecer ações enquanto protege a privacidade.
― 6 min ler
Apresentando uma estrutura flexível para aprimorar a pesquisa em privacidade de voz.
― 8 min ler
CiwaGAN combina o controle dos movimentos da fala e o compartilhamento de informações pra aprender a falar melhor.
― 7 min ler
Uma estrutura que mistura pistas verbais e não verbais pra melhorar o aprendizado de línguas.
― 7 min ler
Um novo método facilita a compreensão dos modelos de classificação de fala.
― 7 min ler
Um novo sistema melhora as habilidades de pronúncia levando em conta as influências da língua materna.
― 6 min ler
Descubra como ferramentas quânticas mudam a criação e a performance musical.
― 7 min ler
Novo método melhora a preservação de emoções em processos de conversão de voz.
― 6 min ler