Uma olhada no novo sistema TTS de estágio único que tá melhorando a geração de fala.
― 7 min ler
Ciência de ponta explicada de forma simples
Uma olhada no novo sistema TTS de estágio único que tá melhorando a geração de fala.
― 7 min ler
Este estudo fala sobre os desafios em modelos de linguagem áudio para línguas com poucos recursos.
― 6 min ler
Este estudo melhora os sistemas de reconhecimento de emoções para línguas menos comuns usando dados de alta qualidade.
― 7 min ler
Um modelo melhora tarefas de fala em ambientes multilíngues, enfrentando os desafios da troca de códigos.
― 6 min ler
DeFT-Mamba melhora a separação e classificação de sons em ambientes barulhentos.
― 6 min ler
CADA-GAN melhora o desempenho dos sistemas de ASR em vários ambientes de gravação.
― 7 min ler
A EVA combina sinais de áudio e visuais pra melhorar a precisão do reconhecimento de fala.
― 5 min ler
Um novo framework simplifica o reconhecimento de fala em ambientes movimentados.
― 6 min ler
Llama-AVSR junta áudio e vídeo pra melhorar a precisão do reconhecimento de fala.
― 8 min ler
WMCodec melhora a marca d'água de áudio pra mais segurança e autenticidade.
― 6 min ler
Novos modelos enfrentam a classificação de som com dados de treinamento limitados.
― 6 min ler
Uma nova abordagem melhora a detecção de áudio falso usando modelos pré-treinados.
― 6 min ler
Novo método melhora a qualidade e a eficiência da geração de fala.
― 5 min ler
Um método que combina dados rotulados e não rotulados melhora a detecção de fontes sonoras.
― 6 min ler
Descubra como os sons ajudam os jogadores no pingue-pongue.
― 7 min ler
Um sistema que prioriza melodia enquanto oferece controle sobre a geração de música orquestral.
― 6 min ler
Um novo método usa sombreamento virtual pra melhorar o feedback de pronúncia dos aprendizes de línguas.
― 7 min ler
Novos métodos melhoram a qualidade do áudio binaural em ambientes sonoros desafiadores.
― 10 min ler
Um novo método de ASR ajuda a tecnologia a entender melhor a fala das crianças.
― 6 min ler
O compositor usa comandos de texto pra criar composições musicais complexas em formato MIDI.
― 7 min ler
Um recurso pra estudar os padrões de canto na música de ídolos japoneses.
― 7 min ler
ViolinDiff melhora o realismo da música de violino gerada por computador.
― 6 min ler
Combinar recursos melhora a precisão na classificação de sons subaquáticos.
― 7 min ler
Transfer learning melhora a classificação de áudio para detecção de som subaquático.
― 7 min ler
Um novo modelo cria áudio que combina com o vídeo, melhorando as experiências de mídia.
― 5 min ler
Um método pra melhorar o reconhecimento automático de fala misturando listas de palavras-chave com modelos de linguagem.
― 5 min ler
Um estudo sobre técnicas de imitação vocal usando tecnologia pra melhorar a comunicação.
― 6 min ler
Aprenda a treinar modelos de fala de forma eficaz com menos recursos rotulados.
― 8 min ler
Uma análise da terminologia de gênero na tecnologia de fala e suas implicações sociais.
― 8 min ler
Uma nova estrutura melhora a detecção de eventos sonoros sobrepostos em ambientes de áudio complexos.
― 7 min ler
Pesquisas sobre como melhorar a identificação de sons de pássaros usando técnicas de aprendizado de máquina.
― 8 min ler
Um novo método melhora a criação automática de capas de piano usando a tecnologia de transcrição musical existente.
― 7 min ler
Um olhar sobre os resultados do desafio Codec-SUPERB e as métricas de desempenho do codec.
― 6 min ler
O projeto MultiMed melhora o reconhecimento de fala automático para uma comunicação na saúde mais eficiente.
― 7 min ler
Uma nova abordagem para avaliar a qualidade do áudio sem precisar de referências limpas.
― 7 min ler
O framework ECHO melhora a precisão da classificação de sons usando rótulos estruturados e um processo de aprendizado em duas etapas.
― 6 min ler
Novo método melhora a clareza da fala integrando informações visuais.
― 6 min ler
Uma nova abordagem melhora a estimativa de direção do som para falantes em movimento em ambientes desafiadores.
― 10 min ler
A Recuperação de Momentos de Áudio permite localizar momentos específicos em gravações longas.
― 6 min ler
O Safe Guard detecta discurso de ódio em tempo real durante interações de voz na VR social.
― 7 min ler