Novo modelo melhora a geração de fala em diversos dialetos de línguas com acento tonal.
Kazuki Yamauchi, Yuki Saito, Hiroshi Saruwatari
― 6 min ler
Ciência de ponta explicada de forma simples
Novo modelo melhora a geração de fala em diversos dialetos de línguas com acento tonal.
Kazuki Yamauchi, Yuki Saito, Hiroshi Saruwatari
― 6 min ler
Um novo método melhora a precisão na localização sonora enquanto garante a privacidade dos dados.
Xinyuan Qian, Xianghu Yue, Jiadong Wang
― 5 min ler
O SoloAudio melhora a extração de som usando técnicas avançadas e dados sintéticos.
Helin Wang, Jiarui Hai, Yen-Ju Lu
― 6 min ler
O OpenACE oferece um bom padrão para avaliar codecs de áudio em várias condições.
Jozef Coldenhoff, Niclas Granqvist, Milos Cernak
― 6 min ler
Um método pra identificar falhas em motores elétricos através da análise de som e redes neurais bayesianas.
Waldemar Bauer, Marta Zagorowska, Jerzy Baranowski
― 6 min ler
Modelos de reconhecimento de fala estão evoluindo com previsão de múltiplos tokens para respostas mais rápidas.
Desh Raj, Gil Keren, Junteng Jia
― 6 min ler
Esforços pra melhorar a tecnologia de fala pro idioma Faetar, que é pouco recursos.
Michael Ong, Sean Robertson, Leo Peckham
― 6 min ler
Um novo método zero-shot melhora a precisão da conversão de voz e minimiza o vazamento de som.
Wangjin Zhou, Fengrun Zhang, Yiming Liu
― 6 min ler
Estudo revela como os tons mudam na fala do mandarim taiwanês do dia a dia.
Xiaoyun Jin, Mirjam Ernestus, R. Harald Baayen
― 5 min ler
Nova abordagem melhora a isolação de voz em configurações de áudio misto usando tokens discretos.
Beilong Tang, Bang Zeng, Ming Li
― 6 min ler
Pesquisa liga pinturas à música interpretando emoções.
Tanisha Hisariya, Huan Zhang, Jinhua Liang
― 7 min ler
Um novo método melhora a detecção automática de problemas de fala relacionados à doença de Parkinson.
Yacouba Kaloga, Shakeel A. Sheikh, Ina Kodrasi
― 5 min ler
Uma nova abordagem melhora os sistemas de ASR pra uma comunicação melhor na sala de aula.
Ahmed Adel Attia, Dorottya Demszky, Tolulope Ogunremi
― 6 min ler
Este artigo explora como entradas variadas podem aumentar a precisão do reconhecimento de fala.
Yiwen Guan, Viet Anh Trinh, Vivek Voleti
― 6 min ler
Um sistema que facilita a criação de música e deixa todo mundo, independentemente do nível de habilidade, conseguir fazer.
Ye Bai, Haonan Chen, Jitong Chen
― 8 min ler
O ReCLAP melhora a classificação de áudio com prompts detalhados pra uma precisão melhor.
Sreyan Ghosh, Sonal Kumar, Chandra Kiran Reddy Evuru
― 6 min ler
Um projeto tem como objetivo melhorar a tecnologia de fala para quem tem dificuldades de comunicação.
Pan-Pan Jiang, Jimmy Tobin, Katrin Tomanek
― 6 min ler
MambaFoley revoluciona a síntese de som Foley com um tempo e realismo melhorados.
Marco Furio Colombo, Francesca Ronchini, Luca Comanducci
― 6 min ler
Um novo sistema melhora a precisão do sotaque em TTS pra uma comunicação melhor.
Jinzuomu Zhong, Korin Richmond, Zhiba Su
― 6 min ler
Usar embeddings CLAP melhora muito os sistemas de recomendação de música.
Florian Grötschla, Luca Strässle, Luca A. Lanzendörfer
― 8 min ler
Estudo explora o desenvolvimento de ASR para Amis e Seediq, focando no uso de dados.
Yao-Fei Cheng, Li-Wei Chen, Hung-Shin Lee
― 8 min ler
Pesquisadores desenvolvem novas estratégias pra distinguir animais individuais usando os sons únicos deles.
Ines Nolasco, Ilyass Moummad, Dan Stowell
― 6 min ler
Um novo método simplifica a detecção de sirenes pra aumentar a segurança dos veículos.
Stefano Damiano, Thomas Dietzen, Toon van Waterschoot
― 6 min ler
Uma nova abordagem combina a detecção de eventos sonoros e a diarização de fala pra uma melhor compreensão do áudio.
Yidi Jiang, Ruijie Tao, Wen Huang
― 6 min ler
Uma nova abordagem melhora a ASR ao focar em detalhes específicos do falante.
Alexander Polok, Dominik Klement, Matthew Wiesner
― 6 min ler
Um estudo mostrando como modelos de deep learning reconhecem emoções na fala.
Satvik Dixit, Daniel M. Low, Gasser Elbanna
― 5 min ler
Uma ferramenta fácil de usar pra ajustar modelos de fala sem precisar de código complicado.
Masao Someki, Kwanghee Choi, Siddhant Arora
― 7 min ler
Novos métodos melhoram o isolamento acústico de ambientes barulhentos sem precisar de dados rotulados.
Hao Ma, Zhiyuan Peng, Xu Li
― 6 min ler
Uma nova abordagem enfrenta a variação de canal em sistemas de reconhecimento de voz.
Wenhao Yang, Jianguo Wei, Wenhuan Lu
― 6 min ler
Um novo método melhora o reconhecimento de voz de máquinas para verificação de falantes.
Wenhao Yang, Jianguo Wei, Wenhuan Lu
― 7 min ler
Um novo modelo melhora a geração de áudio usando textos e sons detalhados.
Chenxu Xiong, Ruibo Fu, Shuchen Shi
― 7 min ler
A inteligência artificial tá mudando a música com novas ferramentas e jeitos de fazer.
Megan Wei, Mateusz Modrzejewski, Aswin Sivaraman
― 7 min ler
MaskSR2 melhora a clareza e a qualidade do áudio usando técnicas inovadoras.
Xiaoyu Liu, Xu Li, Joan Serrà
― 6 min ler
Um novo método para gerar fala com acento usando transliteração de texto.
Sho Inoue, Shuai Wang, Wanxing Wang
― 7 min ler
E1 TTS transforma texto em fala natural de forma mais rápida e eficiente.
Zhijun Liu, Shuai Wang, Pengcheng Zhu
― 6 min ler
Wave-U-Mamba melhora gravações de fala de baixa qualidade pra uma comunicação mais clara.
Yongjoon Lee, Chanwoo Kim
― 5 min ler
Um novo sistema prevê notas de naturalidade para a fala sintética usando métodos inovadores.
Kaito Baba, Wataru Nakata, Yuki Saito
― 7 min ler
Um novo método usa áudio pra melhorar a precisão na pronúncia das máquinas.
Siqi Sun, Korin Richmond
― 6 min ler
Novos métodos melhoram a sincronização de áudio com cenas de vídeo que mudam.
Mingjing Yi, Ming Li
― 5 min ler
Explorando o desafio GenSEC pra melhorar a precisão da transcrição de voz.
Chao-Han Huck Yang, Taejin Park, Yuan Gong
― 5 min ler