Explore como os modelos de linguagem grande aumentam a criatividade através da geração de multimídia.
― 9 min ler
Ciência de ponta explicada de forma simples
Explore como os modelos de linguagem grande aumentam a criatividade através da geração de multimídia.
― 9 min ler
Apresentando um modelo que gera áudio e vídeo sincronizados com níveis de ruído mistos.
― 7 min ler
Um novo sistema melhora as interações com robôs filtrando a fala que se sobrepõe.
― 7 min ler
Esse artigo fala sobre um novo modelo simples pra gerar áudio a partir de imagens e vice-versa.
― 5 min ler
Modelos de linguagem de desruído melhoram a correção de erros em sistemas de reconhecimento de fala usando dados sintéticos.
― 9 min ler
NeRAF cria som e visuais sincronizados para experiências imersivas em várias áreas.
― 7 min ler
Um novo método melhora o alinhamento de áudio e vídeo usando modelos pré-treinados.
― 7 min ler
Usando deep learning pra melhorar o monitoramento de emissão acústica de juntas parafusadas.
― 8 min ler
Uma nova abordagem pra combinar canto e dança usando técnicas avançadas de computador.
― 6 min ler
Descubra um jeito novo de entender a mixagem de música através da análise de áudio.
― 7 min ler
Saiba como a pintura de fala tá restaurando a qualidade do áudio em várias áreas.
― 8 min ler
Um novo sistema melhora a clareza da fala em ambientes com várias pessoas falando.
― 6 min ler
Novos métodos melhoram como as máquinas reconhecem emoções na fala.
― 6 min ler
O modelo Frieren melhora a qualidade do áudio e a sincronização para vídeos.
― 7 min ler
Um novo método gera sons únicos a partir de texto usando um sintetizador simples.
― 9 min ler
Novo método melhora a tradução de fala em ambientes barulhentos mantendo a expressividade.
― 5 min ler
Um novo método pra criar músicas que se encaixam bem no conteúdo de vídeo.
― 9 min ler
Seed-TTS cria uma fala realista a partir de texto para várias aplicações.
― 5 min ler
Novo método melhora a conversão de fala em canto usando aprendizado auto-supervisionado.
― 8 min ler
StreamSpeech melhora a tradução de fala em tempo real com eficiência e qualidade.
― 5 min ler
Um novo modelo melhora o reconhecimento de fala usando vários métodos de decodificação.
― 8 min ler
Um estudo sobre como melhorar a ASR para dialetos árabes usando técnicas de modelagem eficientes.
― 6 min ler
Apresentando o BLSP-Emo, um modelo que entende fala e emoções pra interações melhores.
― 6 min ler
Um estudo recente replica descobertas importantes sobre interpretação de dados usando som e visuais.
― 7 min ler
Um sistema que conecta sons com visuais, melhorando a compreensão das máquinas.
― 7 min ler
Novo modelo ARDiT melhora a síntese de texto para fala e a edição de fala.
― 7 min ler
Apresentando o SPICE, uma tarefa pra melhorar as interações da IA usando informação contextual.
― 9 min ler
A pesquisa apresenta o conjunto de dados MOSA, melhorando a compreensão dos aspectos visuais e auditivos da música.
― 8 min ler
mHuBERT-147 processa fala em várias línguas de forma eficiente.
― 5 min ler
Uma nova abordagem para legendagem de áudio reduz a dependência de dados pareados.
― 6 min ler
Novos métodos melhoram a forma como as máquinas reconhecem emoções na fala humana.
― 6 min ler
Investigando vulnerabilidades em métodos de marca d'água de áudio contra ameaças do mundo real.
― 9 min ler
PianoMotion10M oferece movimentos de mãos detalhados pra ajudar quem tá aprendendo piano.
― 7 min ler
Um novo modelo melhora a correspondência do som com as ações visuais em vídeos.
― 13 min ler
Novo modelo melhora experiências de áudio realista em ambientes virtuais.
― 8 min ler
Este estudo analisa métodos de áudio para rastrear o movimento de pedestres em áreas urbanas.
― 8 min ler
Um novo conjunto de dados melhora a criação de áudio foley para conteúdo multimídia.
― 7 min ler
Novos métodos melhoram o reconhecimento de fala em ambientes barulhentos usando técnicas adaptativas.
― 8 min ler
O SPEAR prevê o comportamento do som em espaços 3D usando uma coleta mínima de dados.
― 6 min ler
Um novo método melhora a tradução de fala em línguas misturadas para o inglês.
― 6 min ler