Novo conjunto de dados melhora a geração de áudio a partir de descrições textuais detalhadas.
― 5 min ler
Ciência de ponta explicada de forma simples
Novo conjunto de dados melhora a geração de áudio a partir de descrições textuais detalhadas.
― 5 min ler
Apresentando os conjuntos de dados MERGE pra melhorar a classificação de emoções na música.
― 7 min ler
Uma olhada nos métodos de criação e detecção de deepfakes.
― 8 min ler
Analisando como o feedback durante colisões molda a experiência do usuário em espaços VR lotados.
― 7 min ler
Uma nova abordagem melhora a detecção de deepfakes usando análise áudio-visual.
― 7 min ler
Um novo método melhora a criação de som para modelos humanos 3D realistas.
― 8 min ler
Um novo método combina texto, emoções e áudio para uma melhor detecção da saúde mental.
― 8 min ler
Um projeto que oferece apoio emocional por meio de respostas em áudio para quem precisa.
― 6 min ler
Um novo modelo de texto pra áudio usando só dados públicos.
― 6 min ler
OmniBind integra vários tipos de dados pra melhorar a compreensão e geração de conteúdo.
― 6 min ler
Analisando como os codecs mantêm os tons emocionais nos dados de voz.
― 6 min ler
Um estudo sobre como melhorar os métodos para detectar compressão de áudio com perdas e melhorar a qualidade do som.
― 7 min ler
Um novo modelo que sincroniza anotações de acordes com o áudio da música de forma perfeita.
― 7 min ler
Uma ferramenta que identifica de forma eficaz conteúdo deepfake através da análise combinada de áudio e visual.
― 6 min ler
Uma nova abordagem junta dados de áudio, vídeo e texto pra um diagnóstico de depressão mais eficaz.
― 9 min ler
O VAT-CMR permite que robôs busquem itens usando dados visuais, de áudio e táteis.
― 7 min ler
A UniTalker junta conjuntos de dados pra melhorar a precisão da animação facial.
― 8 min ler
O Style-Talker melhora as conversas entre humanos e máquinas com uma pegada emocional.
― 10 min ler
Uma nova abordagem foca em inconsistências sutis na detecção de deepfakes.
― 7 min ler
Um novo método junta EEG, áudio e expressões faciais pra avaliar a saúde mental.
― 7 min ler
Um olhar sobre as complicações de identificar faixas de áudio misturadas.
― 7 min ler
Um novo modelo separa timbre e estrutura pra criar áudio melhor.
― 8 min ler
RoboMNIST ajuda robôs a reconhecer várias atividades usando WiFi, vídeo e áudio.
― 7 min ler
X-Codec melhora a geração de áudio ao integrar compreensão semântica no processamento.
― 6 min ler
Novos métodos melhoram a separação de vozes em ambientes barulhentos.
― 5 min ler
Um novo sistema gera fala a partir de texto usando dados mínimos.
― 5 min ler
Novos métodos de marca d'água protegem os criadores em modelos de áudio generativos.
― 5 min ler
Um novo sistema melhora a geração de movimento para animações e experiências virtuais.
― 7 min ler
Um novo modelo simplifica a produção de áudio eliminando automaticamente os sons da respiração.
― 6 min ler
Um método novo melhora a transformação de áudio mantendo a melodia e a qualidade do som.
― 7 min ler
Esse estudo avalia redes neurais para replicar as características de reverb de mola.
― 9 min ler
ParaEVITS melhora a expressão emocional em TTS através de orientações em linguagem natural.
― 6 min ler
Novos métodos melhoram o acesso às notícias faladas segmentando os tópicos de forma mais eficaz.
― 7 min ler
O SoloAudio melhora a extração de som usando técnicas avançadas e dados sintéticos.
― 6 min ler
Novo modelo melhora a detecção de falantes em tempo real e a eficiência na comunicação.
― 6 min ler
Um novo modelo melhora a geração de áudio usando textos e sons detalhados.
― 7 min ler
O MusicLIME ajuda a explicar como a IA analisa música através do áudio e das letras.
― 7 min ler
Um novo modelo cria áudio que combina com o vídeo, melhorando as experiências de mídia.
― 5 min ler
Uma nova abordagem junta vídeos de aula e slides pra melhorar o engajamento dos alunos.
― 7 min ler
Esse estudo analisa como áudio, vídeo e texto trabalham juntos no reconhecimento de fala.
― 8 min ler