O Sortformer integra diarização de falantes e ASR pra melhorar o processamento de áudio.
― 6 min ler
Ciência de ponta explicada de forma simples
O Sortformer integra diarização de falantes e ASR pra melhorar o processamento de áudio.
― 6 min ler
Uma nova maneira de criar sons de piano realistas usando separação de componentes sonoros.
― 9 min ler
ParaEVITS melhora a expressão emocional em TTS através de orientações em linguagem natural.
― 6 min ler
Aprenda como a inpainting de áudio restaura partes faltando dos sinais.
― 6 min ler
Novos métodos melhoram a compreensão da linguagem falada através de um conjunto de dados inovador.
― 5 min ler
Novos métodos melhoram a conversa entre humanos e robôs ao deixar a fala mais clara.
― 5 min ler
Novos métodos melhoram o acesso às notícias faladas segmentando os tópicos de forma mais eficaz.
― 7 min ler
Essa pesquisa analisa o desempenho do Mamba em tarefas de fala, destacando a reconstrução e reconhecimento de sons.
― 6 min ler
Um novo método para etiquetar músicas usando aprendizado com poucos exemplos tá mostrando resultados promissores.
― 7 min ler
A FlowSep tá trazendo um jeito novo de extrair sons usando perguntas em linguagem.
― 6 min ler
SSR-Speech oferece novas soluções para geração e edição de fala.
― 5 min ler
Os avanços em IA tornam áudios falsos comuns, o que gera a necessidade de detecção.
― 7 min ler
Novo modelo melhora a geração de fala em diversos dialetos de línguas com acento tonal.
― 6 min ler
Um novo método melhora a precisão na localização sonora enquanto garante a privacidade dos dados.
― 5 min ler
Um novo método pra criar música pop estruturada usando técnicas baseadas em grafo.
― 6 min ler
Um novo método pra melhorar a identificação de palavras-chave sem perder o que já foi aprendido.
― 6 min ler
Pesquisadores criam um conjunto de dados pra melhorar as técnicas de reconhecimento e análise de fala.
― 7 min ler
O SoloAudio melhora a extração de som usando técnicas avançadas e dados sintéticos.
― 6 min ler
O OpenACE oferece um bom padrão para avaliar codecs de áudio em várias condições.
― 6 min ler
Um método pra identificar falhas em motores elétricos através da análise de som e redes neurais bayesianas.
― 6 min ler
Modelos de reconhecimento de fala estão evoluindo com previsão de múltiplos tokens para respostas mais rápidas.
― 6 min ler
Esforços pra melhorar a tecnologia de fala pro idioma Faetar, que é pouco recursos.
― 6 min ler
Um novo método zero-shot melhora a precisão da conversão de voz e minimiza o vazamento de som.
― 6 min ler
Estudo revela como os tons mudam na fala do mandarim taiwanês do dia a dia.
― 5 min ler
Novo método melhora a detecção da Doença de Parkinson através da análise da fala com tecnologia avançada.
― 6 min ler
Nova abordagem melhora a isolação de voz em configurações de áudio misto usando tokens discretos.
― 6 min ler
Pesquisa liga pinturas à música interpretando emoções.
― 7 min ler
Um estudo sobre usar modelos de linguagem pra corrigir erros em sistemas de reconhecimento de fala.
― 6 min ler
FLAMO simplifica o processamento de áudio com técnicas diferenciáveis e amostragem de frequência.
― 7 min ler
Um novo método melhora a detecção automática de problemas de fala relacionados à doença de Parkinson.
― 5 min ler
Uma nova abordagem melhora os sistemas de ASR pra uma comunicação melhor na sala de aula.
― 6 min ler
Este artigo explora como entradas variadas podem aumentar a precisão do reconhecimento de fala.
― 6 min ler
Um sistema que facilita a criação de música e deixa todo mundo, independentemente do nível de habilidade, conseguir fazer.
― 8 min ler
O ReCLAP melhora a classificação de áudio com prompts detalhados pra uma precisão melhor.
― 6 min ler
Um projeto tem como objetivo melhorar a tecnologia de fala para quem tem dificuldades de comunicação.
― 6 min ler
MambaFoley revoluciona a síntese de som Foley com um tempo e realismo melhorados.
― 6 min ler
Um novo sistema melhora a precisão do sotaque em TTS pra uma comunicação melhor.
― 6 min ler
Usar embeddings CLAP melhora muito os sistemas de recomendação de música.
― 8 min ler
Estudo explora o desenvolvimento de ASR para Amis e Seediq, focando no uso de dados.
― 8 min ler
O LLaQo oferece um feedback detalhado para a avaliação de performances musicais, melhorando o aprendizado dos alunos.
― 6 min ler