Nova abordagem melhora a isolação de voz em configurações de áudio misto usando tokens discretos.
Beilong Tang, Bang Zeng, Ming Li
― 6 min ler
Ciência de ponta explicada de forma simples
Nova abordagem melhora a isolação de voz em configurações de áudio misto usando tokens discretos.
Beilong Tang, Bang Zeng, Ming Li
― 6 min ler
Artigos mais recentes
Tanisha Hisariya, Huan Zhang, Jinhua Liang
― 7 min ler
Yacouba Kaloga, Shakeel A. Sheikh, Ina Kodrasi
― 5 min ler
Ahmed Adel Attia, Dorottya Demszky, Tolulope Ogunremi
― 6 min ler
Yiwen Guan, Viet Anh Trinh, Vivek Voleti
― 6 min ler
Ye Bai, Haonan Chen, Jitong Chen
― 8 min ler
O ReCLAP melhora a classificação de áudio com prompts detalhados pra uma precisão melhor.
Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru
― 6 min ler
Um projeto tem como objetivo melhorar a tecnologia de fala para quem tem dificuldades de comunicação.
Pan-Pan Jiang, Jimmy Tobin, Katrin Tomanek
― 6 min ler
MambaFoley revoluciona a síntese de som Foley com um tempo e realismo melhorados.
Marco Furio Colombo, Francesca Ronchini, Luca Comanducci
― 6 min ler
Um novo sistema melhora a precisão do sotaque em TTS pra uma comunicação melhor.
Jinzuomu Zhong, Korin Richmond, Zhiba Su
― 6 min ler
Usar embeddings CLAP melhora muito os sistemas de recomendação de música.
Florian Grötschla, Luca Strässle, Luca A. Lanzendörfer
― 8 min ler
Estudo explora o desenvolvimento de ASR para Amis e Seediq, focando no uso de dados.
Yao-Fei Cheng, Li-Wei Chen, Hung-Shin Lee
― 8 min ler
Pesquisadores desenvolvem novas estratégias pra distinguir animais individuais usando os sons únicos deles.
Ines Nolasco, Ilyass Moummad, Dan Stowell
― 6 min ler
Um novo método simplifica a detecção de sirenes pra aumentar a segurança dos veículos.
Stefano Damiano, Thomas Dietzen, Toon van Waterschoot
― 6 min ler
Uma nova abordagem combina a detecção de eventos sonoros e a diarização de fala pra uma melhor compreensão do áudio.
Yidi Jiang, Ruijie Tao, Wen Huang
― 6 min ler
Uma nova abordagem melhora a ASR ao focar em detalhes específicos do falante.
Alexander Polok, Dominik Klement, Matthew Wiesner
― 6 min ler
Um estudo mostrando como modelos de deep learning reconhecem emoções na fala.
Satvik Dixit, Daniel M. Low, Gasser Elbanna
― 5 min ler
Uma ferramenta fácil de usar pra ajustar modelos de fala sem precisar de código complicado.
Masao Someki, Kwanghee Choi, Siddhant Arora
― 7 min ler
Novos métodos melhoram o isolamento acústico de ambientes barulhentos sem precisar de dados rotulados.
Hao Ma, Zhiyuan Peng, Xu Li
― 6 min ler
Uma nova abordagem enfrenta a variação de canal em sistemas de reconhecimento de voz.
Wenhao Yang, Jianguo Wei, Wenhuan Lu
― 6 min ler
Um novo método melhora o reconhecimento de voz de máquinas para verificação de falantes.
Wenhao Yang, Jianguo Wei, Wenhuan Lu
― 7 min ler
Um novo modelo melhora a geração de áudio usando textos e sons detalhados.
Chenxu Xiong, Ruibo Fu, Shuchen Shi
― 7 min ler
A inteligência artificial tá mudando a música com novas ferramentas e jeitos de fazer.
Megan Wei, Mateusz Modrzejewski, Aswin Sivaraman
― 7 min ler
MaskSR2 melhora a clareza e a qualidade do áudio usando técnicas inovadoras.
Xiaoyu Liu, Xu Li, Joan Serrà
― 6 min ler
Um novo método para gerar fala com acento usando transliteração de texto.
Sho Inoue, Shuai Wang, Wanxing Wang
― 7 min ler
E1 TTS transforma texto em fala natural de forma mais rápida e eficiente.
Zhijun Liu, Shuai Wang, Pengcheng Zhu
― 6 min ler
Wave-U-Mamba melhora gravações de fala de baixa qualidade pra uma comunicação mais clara.
Yongjoon Lee, Chanwoo Kim
― 5 min ler
Um novo sistema prevê notas de naturalidade para a fala sintética usando métodos inovadores.
Kaito Baba, Wataru Nakata, Yuki Saito
― 7 min ler
Um novo método usa áudio pra melhorar a precisão na pronúncia das máquinas.
Siqi Sun, Korin Richmond
― 6 min ler
Novos métodos melhoram a sincronização de áudio com cenas de vídeo que mudam.
Mingjing Yi, Ming Li
― 5 min ler
Explorando o desafio GenSEC pra melhorar a precisão da transcrição de voz.
Chao-Han Huck Yang, Taejin Park, Yuan Gong
― 5 min ler
Um novo método de avaliação para esquizofrenia usando dados multimodais.
Gowtham Premananth, Carol Espy-Wilson
― 6 min ler
Novos métodos estão ajudando as máquinas a interpretar melhor sons individuais.
Sripathi Sridhar, Mark Cartwright
― 7 min ler
Uma visão geral das tecnologias de reconhecimento de palavras-chave e seus desafios com a língua urdu.
Syed Muhammad Aqdas Rizvi
― 7 min ler
Pesquisas mostram as dificuldades no reconhecimento de fala das transmissões de rádio da polícia.
Tejes Srivastava, Ju-Chieh Chou, Priyank Shroff
― 9 min ler
A PDMX oferece uma coleção enorme de músicas simbólicas de domínio público pra desenvolvimento de IA.
Phillip Long, Zachary Novack, Taylor Berg-Kirkpatrick
― 7 min ler
Um estudo mostra que i-vectors podem competir com modelos complexos em reconhecimento de fala.
Zakaria Aldeneh, Takuya Higuchi, Jee-weon Jung
― 5 min ler
Um estudo sobre como as escolhas de design afetam os modelos de fala.
Li-Wei Chen, Takuya Higuchi, He Bai
― 8 min ler
Um novo método avalia modelos de fala auto-supervisionados usando medida de ranking.
Zakaria Aldeneh, Vimal Thilak, Takuya Higuchi
― 6 min ler
Estudo destaca avanços no reconhecimento de emoções por robôs usando Transformadores de Visão.
Ruchik Mishra, Andrew Frye, Madan Mohan Rayguru
― 7 min ler
Pesquisas mostram como é importante ter um diagnóstico justo em doenças respiratórias.
Rachel Pfeifer, Sudip Vhaduri, James Eric Dietz
― 8 min ler
O MusicLIME ajuda a explicar como a IA analisa música através do áudio e das letras.
Theodoros Sotirou, Vassilis Lyberatos, Orfeas Menis Mastromichalakis
― 7 min ler
Descubra como a Computação Quântica tá mudando a criatividade musical com o Harmonizador Quântico Variacional.
Paulo Vitor Itaboraí, Peter Thomas, Arianna Crippa
― 14 min ler
O modelo MCMamba melhora a qualidade do som em ambientes barulhentos usando informações espaciais e espectrais.
Wenze Ren, Haibin Wu, Yi-Cheng Lin
― 5 min ler
Este estudo avalia métodos de baixa latência para melhorar a qualidade do áudio em condições barulhentas.
Haibin Wu, Sebastian Braun
― 8 min ler
Analisando como gestos 2D e 3D afetam a comunicação de personagens virtuais.
Téo Guichoux, Laure Soulier, Nicolas Obin
― 8 min ler