O modelo Frieren melhora a qualidade do áudio e a sincronização para vídeos.
― 7 min ler
Ciência de ponta explicada de forma simples
O modelo Frieren melhora a qualidade do áudio e a sincronização para vídeos.
― 7 min ler
Um novo método gera sons únicos a partir de texto usando um sintetizador simples.
― 9 min ler
Novo método melhora a tradução de fala em ambientes barulhentos mantendo a expressividade.
― 5 min ler
Um novo conjunto de dados melhora o estudo da identificação de Raga na música indiana.
― 6 min ler
Seed-TTS cria uma fala realista a partir de texto para várias aplicações.
― 5 min ler
Novo método melhora a conversão de fala em canto usando aprendizado auto-supervisionado.
― 8 min ler
StreamSpeech melhora a tradução de fala em tempo real com eficiência e qualidade.
― 5 min ler
Um novo modelo melhora o reconhecimento de fala usando vários métodos de decodificação.
― 8 min ler
Um estudo sobre como melhorar a ASR para dialetos árabes usando técnicas de modelagem eficientes.
― 6 min ler
Apresentando o BLSP-Emo, um modelo que entende fala e emoções pra interações melhores.
― 6 min ler
Um estudo recente replica descobertas importantes sobre interpretação de dados usando som e visuais.
― 7 min ler
Novo modelo gera música usando tanto informações de texto quanto visuais.
― 8 min ler
Um sistema que conecta sons com visuais, melhorando a compreensão das máquinas.
― 7 min ler
Novo modelo ARDiT melhora a síntese de texto para fala e a edição de fala.
― 7 min ler
Novos métodos melhoram a clareza na separação de vozes de misturas de áudio.
― 5 min ler
Apresentando o SPICE, uma tarefa pra melhorar as interações da IA usando informação contextual.
― 9 min ler
A pesquisa apresenta o conjunto de dados MOSA, melhorando a compreensão dos aspectos visuais e auditivos da música.
― 8 min ler
mHuBERT-147 processa fala em várias línguas de forma eficiente.
― 5 min ler
Uma nova abordagem para legendagem de áudio reduz a dependência de dados pareados.
― 6 min ler
Novos métodos melhoram a forma como as máquinas reconhecem emoções na fala humana.
― 6 min ler
Um olhar sobre novos métodos para entender a fala sobreposta durante as conversas.
― 9 min ler
Investigando vulnerabilidades em métodos de marca d'água de áudio contra ameaças do mundo real.
― 9 min ler
PianoMotion10M oferece movimentos de mãos detalhados pra ajudar quem tá aprendendo piano.
― 7 min ler
Um novo modelo melhora a correspondência do som com as ações visuais em vídeos.
― 13 min ler
Novo modelo melhora experiências de áudio realista em ambientes virtuais.
― 8 min ler
Este estudo analisa métodos de áudio para rastrear o movimento de pedestres em áreas urbanas.
― 8 min ler
Um novo conjunto de dados melhora a criação de áudio foley para conteúdo multimídia.
― 7 min ler
Novos métodos melhoram o reconhecimento de fala em ambientes barulhentos usando técnicas adaptativas.
― 8 min ler
O SPEAR prevê o comportamento do som em espaços 3D usando uma coleta mínima de dados.
― 6 min ler
Um novo método melhora a tradução de fala em línguas misturadas para o inglês.
― 6 min ler
Um novo método melhora a precisão da verificação de falantes em ambientes de rádio difíceis.
― 8 min ler
Novo método foca em mudanças de ritmo para ataques de fala discretos.
― 6 min ler
A GAMA melhora o processamento de áudio juntando informações de som e linguagem.
― 7 min ler
Um novo sistema ajuda a separar a fala do barulho pra uma comunicação mais clara.
― 7 min ler
O GigaSpeech 2 oferece um montão de dados pra línguas de baixo recurso pra melhorar o reconhecimento de fala.
― 6 min ler
Um novo modelo melhora a tecnologia de texto pra fala com eficiência e adaptação.
― 7 min ler
Um método novo que otimiza a análise e a síntese de fala usando os movimentos do trato vocal.
― 8 min ler
Esse estudo analisa como os gestos afetam o aprendizado com agentes virtuais.
― 8 min ler
DExter usa IA pra criar músicas de piano expressivas a partir de partituras escritas.
― 6 min ler
Aprenda sobre diarização de falantes online e sua importância em várias aplicações.
― 7 min ler