Essa pesquisa mostra como LLMs melhoram a compreensão da fala em vídeos longos.
― 5 min ler
Ciência de ponta explicada de forma simples
Essa pesquisa mostra como LLMs melhoram a compreensão da fala em vídeos longos.
― 5 min ler
Um novo método otimiza modelos de fala pra melhor desempenho com menos recursos.
― 6 min ler
Uma nova abordagem melhora como avaliamos a qualidade do áudio espacial.
― 6 min ler
Um estudo sobre como diferenciar fala lida e fala espontânea.
― 6 min ler
Um novo modelo aumenta o realismo da fala sintética.
― 9 min ler
Malafide apresenta técnicas de spoofing sofisticadas, complicando as contramedidas no reconhecimento de voz.
― 6 min ler
Um novo modelo melhora a precisão e a eficiência no rastreamento de fontes sonoras.
― 6 min ler
Um novo conjunto de dados melhora a compreensão da linguagem falada em italiano.
― 7 min ler
O MCR-Data2vec 2.0 melhora o reconhecimento de fala ao deixar o modelo mais consistente.
― 5 min ler
O EM-Network melhora o aprendizado de sequências em tarefas de processamento de fala e língua.
― 6 min ler
Novos métodos melhoram o reconhecimento de fala multilíngue usando fontes de dados existentes.
― 8 min ler
A pesquisa foca em melhorar a tecnologia de fala para idiomas que não têm dados suficientes.
― 7 min ler
Um olhar sobre os desenvolvimentos recentes em melhorar a clareza do áudio usando modelos avançados.
― 6 min ler
Um novo conjunto de dados tem como objetivo classificar partituras de piano por nível de dificuldade.
― 8 min ler
O framework Gesper melhora a clareza da fala em ambientes barulhentos.
― 5 min ler
Este estudo apresenta um novo método para melhorar a qualidade do áudio usando modelos pré-treinados.
― 6 min ler
Combinar áudio, vídeo e texto melhora a detecção de discurso de ódio.
― 6 min ler
Esse artigo fala sobre um novo método pra construir sistemas de ASR eficientes.
― 5 min ler
Uma nova abordagem melhora o reconhecimento de voz direto nos smartphones, garantindo a privacidade do usuário.
― 7 min ler
Um novo método melhora a precisão na identificação de falantes durante conversas.
― 6 min ler
Equipes melhoram a identificação de sons de animais com poucos exemplos no desafio DCASE.
― 6 min ler
Saiba mais sobre sistemas de etiquetagem de áudio e como usá-los no Raspberry Pi.
― 5 min ler
Novas técnicas melhoram a precisão e a eficiência na identificação de músicas cover.
― 6 min ler
Novo método melhora o controle de ruído em espaços 3D.
― 5 min ler
CML-TTS permite sistemas de texto-para-fala melhores em sete idiomas.
― 6 min ler
Este estudo avalia vários modelos para prever a qualidade da fala sintetizada.
― 6 min ler
Pesquisadores automatizam a classificação de sons de pássaros, melhorando a precisão no monitoramento das espécies.
― 6 min ler
FALL-E cria efeitos sonoros de alta qualidade a partir de descrições em texto.
― 5 min ler
Um novo método melhora a conversão de voz para pessoas com fala atípica.
― 5 min ler
O SURT 2.0 melhora o reconhecimento de fala para várias pessoas em situações em tempo real.
― 7 min ler
MARBLE estabelece um padrão para avaliar modelos de IA musical em várias tarefas.
― 8 min ler
Um novo método melhora a precisão na identificação de cantos de pássaros.
― 7 min ler
Novos algoritmos melhoram o desempenho do processamento de áudio em diferentes taxas de amostragem.
― 6 min ler
Pesquisas exploram a análise de som pra melhorar a triagem de mosquitos no controle de doenças.
― 6 min ler
Explore dois métodos inovadores para alterar o timbre vocal usando Processamento Digital de Sinais.
― 5 min ler
Um novo método melhora a tecnologia de reconhecimento de fala sem perder o conhecimento que já foi aprendido.
― 7 min ler
Um novo modelo melhora a precisão da transcrição musical para vários instrumentos.
― 6 min ler
Um novo método combina aprendizado tradicional e profundo para uma imagem sonora eficiente.
― 6 min ler
Novos métodos melhoram o realismo nas tecnologias de áudio usando técnicas informadas pela física.
― 7 min ler
Um novo modelo melhora o aprendizado de palavras usando áudio e imagens.
― 6 min ler