Aprenda sobre a Distância de Frechet na Música e seu papel na avaliação de música gerada por IA.
Jan Retkowski, Jakub Stępniak, Mateusz Modrzejewski
― 10 min ler
New Science Research Articles Everyday
Aprenda sobre a Distância de Frechet na Música e seu papel na avaliação de música gerada por IA.
Jan Retkowski, Jakub Stępniak, Mateusz Modrzejewski
― 10 min ler
Artigos mais recentes
Sudha Krishnamurthy
― 6 min ler
Jianwei Cui, Yu Gu, Shihao Chen
― 6 min ler
Evangelia Gkritzali, Panagiotis Kaliosis, Sofia Galanaki
― 6 min ler
Quang-Anh N. D., Manh-Hung Ha, Thai Kim Dinh
― 6 min ler
Hugo Flores García, Oriol Nieto, Justin Salamon
― 8 min ler
Técnicas de marca d'água protegem os direitos dos artistas na geração de música com IA.
Pascal Epple, Igor Shilov, Bozhidar Stevanoski
― 8 min ler
Transformando áudio mono em experiências binaurais imersivas com técnicas inovadoras.
Alon Levkovitch, Julian Salazar, Soroosh Mariooryad
― 8 min ler
Pesquisas investigam como modelos de melhoria de fala mantêm a ênfase nas sílabas em meio ao barulho.
Rangavajjala Sankara Bharadwaj, Jhansi Mallela, Sai Harshitha Aluru
― 7 min ler
Um novo framework melhora o alinhamento de sons e visuais em vídeos.
Kexin Li, Zongxin Yang, Yi Yang
― 7 min ler
Revolucionando o texto-para-fala com vozes mais naturais e eficiência melhorada.
Haowei Lou, Helen Paik, Pari Delir Haghighi
― 7 min ler
Descubra como os sistemas de TTS estão evoluindo pra soar mais como humanos.
Haowei Lou, Helen Paik, Wen Hu
― 8 min ler
Novo sistema transforma o controle de áudio através de descrições textuais detalhadas.
Sonal Kumar, Prem Seetharaman, Justin Salamon
― 8 min ler
Juntando vídeo e áudio pra detectar emoções melhor.
Antonio Fernandez, Suzan Awinat
― 10 min ler
YingSound transforma a produção de vídeo ao automatizar a geração de efeitos sonoros.
Zihao Chen, Haomin Zhang, Xinhan Di
― 7 min ler
Pesquisadores usam ecos pra marcar áudio, garantindo que os direitos dos criadores sejam protegidos.
Christopher J. Tralie, Matt Amery, Benjamin Douglas
― 8 min ler
Os robôs agora conseguem navegar em ambientes complicados usando som, graças ao SonicBoom.
Moonyoung Lee, Uksang Yoo, Jean Oh
― 6 min ler
O modelo MASV melhora a verificação de voz, garantindo segurança e eficiência.
Yang Liu, Li Wan, Yiteng Huang
― 6 min ler
Explorando o impacto das ferramentas de IA na criação musical e nas perspectivas dos compositores.
Eleanor Row, György Fazekas
― 8 min ler
A tecnologia de reconhecimento de fala melhora o reconhecimento de dígitos, especialmente em ambientes barulhentos.
Ali Nasr-Esfahani, Mehdi Bekrani, Roozbeh Rajabi
― 6 min ler
Melhorando o desempenho do ASR multilíngue para japonês através de ajustes específicos.
Mark Bajo, Haruka Fukukawa, Ryuji Morita
― 6 min ler
Explorando como os BCIs decifram a fala imaginada pra melhorar a comunicação.
Byung-Kwan Ko, Jun-Young Kim, Seo-Hyun Lee
― 8 min ler
O SonicMesh usa som pra melhorar a modelagem 3D do corpo humano a partir de imagens.
Xiaoxuan Liang, Wuyang Zhang, Hong Zhou
― 6 min ler
Descubra as últimas inovações em reconhecimento de voz em tempo real e como elas melhoram nossas interações.
Rongxiang Wang, Zhiming Xu, Felix Xiaozhu Lin
― 6 min ler
Pesquisadores melhoram o processamento de fala usando técnicas do Libri2Vox e dados sintéticos.
Yun Liu, Xuechen Liu, Xiaoxiao Miao
― 7 min ler
Descubra como o TTS emocional muda a comunicação com as máquinas, tornando elas mais fáceis de se relacionar.
Sho Inoue, Kun Zhou, Shuai Wang
― 7 min ler
Aprenda como os sons dos insetos podem ajudar a monitorar ecossistemas e controlar pragas.
Yinxuan Wang, Sudip Vhaduri
― 8 min ler
Novos métodos ajudam as máquinas a encontrar informações importantes a partir de conteúdo falado.
Yueqian Lin, Yuzhe Fu, Jingyang Zhang
― 6 min ler
Descubra como a IA facilita a coleta de dados de fala por meio de crowdsourcing.
Beomseok Lee, Marco Gaido, Ioan Calapodescu
― 6 min ler
Explore as diferenças entre fala espontânea e fala roteirizada no processamento de áudio.
Shahar Elisha, Andrew McDowell, Mariano Beguerisse-Díaz
― 7 min ler
DAAN melhora como as máquinas aprendem com dados áudio-visuais em cenários zero-shot.
RunLin Yu, Yipu Gong, Wenrui Li
― 6 min ler
Novo método melhora a detecção de deepfakes de áudio usando técnicas de aprendizado inovadoras.
Yujie Chen, Jiangyan Yi, Cunhang Fan
― 7 min ler
Um novo modelo de Cingapura melhora a compreensão da fala por máquinas.
Muhammad Huzaifah, Geyu Lin, Tianchi Liu
― 8 min ler
À medida que as máquinas produzem música, precisamos proteger a criatividade humana com métodos de detecção eficazes.
Yupei Li, Qiyang Sun, Hanqian Li
― 10 min ler
Novos modelos identificam fala sintética e combatem o uso indevido da tecnologia de voz.
Mahieyin Rahmun, Rafat Hasan Khan, Tanjim Taharat Aurpa
― 6 min ler
O TAME usa som pra detectar drones, melhorando a segurança e a monitoramento.
Zhenyuan Xiao, Huanran Hu, Guili Xu
― 7 min ler
Descubra como o CAMEL melhora a compreensão de conversas em línguas misturadas.
He Wang, Xucheng Wan, Naijun Zheng
― 7 min ler
Pesquisas mostram que a atividade cerebral pode ajudar as máquinas a reconhecer música de forma eficaz.
Taketo Akama, Zhuohao Zhang, Pengcheng Li
― 7 min ler
A tecnologia de áudio oferece uma maneira econômica de rastrear UAVs de forma segura.
Allen Lei, Tianchen Deng, Han Wang
― 7 min ler
Um novo método de IA analisa vozes pra detectar risco de câncer de laringe.
Mary Paterson, James Moor, Luisa Cutillo
― 8 min ler
Descubra como a síntese de vídeo para áudio tá mudando as experiências de mídia com um alinhamento de som perfeito.
Ho Kei Cheng, Masato Ishii, Akio Hayakawa
― 8 min ler
Um novo sistema tá revolucionando como os designers de som criam áudio pra vídeos.
Riccardo Fosco Gramaccioni, Christian Marinoni, Emilian Postolache
― 9 min ler
Uma olhada em como o aprimoramento da fala melhora a comunicação através das características dos dados.
Leying Zhang, Wangyou Zhang, Chenda Li
― 9 min ler
Novos métodos melhoram os sistemas de ASR para línguas que eles nunca tinham encontrado antes.
Shao-Syuan Huang, Kuan-Po Huang, Andy T. Liu
― 8 min ler
Descubra como a tecnologia TTA junta palavras e sons pra experiências de áudio mais ricas.
Yuhang He, Yash Jain, Xubo Liu
― 8 min ler
Pesquisadores melhoram o reconhecimento de fala em suíço-alemão com uma geração de dados inovadora.
Vincenzo Timmel, Claudio Paonessa, Reza Kakooee
― 7 min ler
Um novo método melhora a sincronia labial em vídeos dublados pra uma experiência de assistir mais natural.
Lucas Goncalves, Prashant Mathur, Xing Niu
― 8 min ler
Descubra como o Whisper melhora o reconhecimento de fala em conversas multilíngues.
Jiahui Zhao, Hao Shi, Chenrui Cui
― 5 min ler
Saiba como o SpeechRAG melhora a resposta a perguntas em áudio sem erros de ASR.
Do June Min, Karel Mundnich, Andy Lapastora
― 6 min ler
Uma abordagem nova torna o reconhecimento de sons mais acessível e eficiente.
Noriyuki Tonami, Wataru Kohno, Keisuke Imoto
― 8 min ler
Saiba como a anonimização de voz protege informações pessoais em um mundo movido pela tecnologia.
Natalia Tomashenko, Emmanuel Vincent, Marc Tommasi
― 7 min ler
Unindo pistas de áudio e visuais pra melhorar o reconhecimento de fala em ambientes barulhentos.
Zhaofeng Lin, Naomi Harte
― 6 min ler
A tecnologia de melhoria de áudio se adapta pra reduzir barulho e melhorar a comunicação.
Riccardo Miccini, Clement Laroche, Tobias Piechowiak
― 5 min ler
Nova tecnologia combina som e imagens para melhorar a detecção de drones.
Zhenyuan Xiao, Yizhuo Yang, Guili Xu
― 7 min ler
Uma nova abordagem combina fala e texto para fazer avaliações de disartria de forma mais eficaz.
Anuprabha M, Krishna Gurugubelli, Kesavaraj V
― 6 min ler
Explorando novas tecnologias que detectam sons de fontes invisíveis.
Yuhang He, Sangyun Shin, Anoop Cherian
― 6 min ler
Descubra como o Smooth-Foley aprimora a geração de áudio em vídeos.
Yaoyun Zhang, Xuenan Xu, Mengyue Wu
― 6 min ler
Técnica inovadora conecta letras e melodias pra criar músicas melhores.
Jiaxing Yu, Xinda Wu, Yunfei Xu
― 8 min ler
Aprimorando a compreensão das máquinas sobre a dinâmica de turnos de fala em diálogos humanos.
Hyunbae Jeon, Frederic Guintu, Rayvant Sahni
― 9 min ler
Explorando como a língua afeta a precisão na detecção de DeepFake em várias línguas.
Bartłomiej Marek, Piotr Kawa, Piotr Syga
― 7 min ler
A VERSA avalia a qualidade de fala, áudio e música de forma eficaz.
Jiatong Shi, Hye-jin Shim, Jinchuan Tian
― 10 min ler
Descubra como os modelos de áudio-linguagem estão mudando a tecnologia de reconhecimento de som.
Gongyu Chen, Haomin Zhang, Chaofan Ding
― 7 min ler
Novos métodos melhoram o diálogo natural na tecnologia de fala.
Zhenqi Jia, Rui Liu
― 6 min ler
Descubra como o SpeechSSM transforma a geração de fala longa para interações melhores.
Se Jin Park, Julian Salazar, Aren Jansen
― 5 min ler
Descubra como a tradução em tempo real transforma a comunicação entre idiomas.
Sara Papi, Peter Polak, Ondřej Bojar
― 7 min ler
Um modelo leve projetado pra separar fala misturada em ambientes barulhentos.
Shaoxiang Dang, Tetsuya Matsumoto, Yoshinori Takeuchi
― 6 min ler
Pesquisadores enfrentam a falsificação de áudio pra melhorar a segurança do reconhecimento de voz.
Xuechen Liu, Junichi Yamagishi, Md Sahidullah
― 10 min ler
Descubra como o AV-ASR combina áudio e visuais pra melhorar o reconhecimento de fala.
Yihan Wu, Yichen Lu, Yifan Peng
― 7 min ler
Um novo método tá transformando como as máquinas aprendem com música.
Julien Guinot, Elio Quinton, György Fazekas
― 7 min ler
Nova tecnologia transforma murmurinhos silenciosos em comunicação audível para quem precisa.
Neil Shah, Shirish Karande, Vineet Gandhi
― 7 min ler
Novos métodos em síntese de voz melhoram a clareza e a adaptabilidade para várias aplicações.
Neil Shah, Ayan Kashyap, Shirish Karande
― 9 min ler
Descubra a rica tradição dos cânticos da Igreja Ortodoxa Etíope Tewahedo.
Mequanent Argaw Muluneh, Yan-Tsung Peng, Li Su
― 8 min ler
Um novo conjunto de dados destaca a beleza dos cantos ortodoxos etíopes.
Mequanent Argaw Muluneh, Yan-Tsung Peng, Worku Abebe Degife
― 8 min ler
Novos avanços ajudam a tecnologia de reconhecimento de voz a atender melhor pessoas com distúrbios na fala.
Jimmy Tobin, Katrin Tomanek, Subhashini Venugopalan
― 7 min ler
Descubra como a ETTA transforma palavras em experiências sonoras criativas.
Sang-gil Lee, Zhifeng Kong, Arushi Goel
― 6 min ler
Uma nova perspectiva sobre como a música afeta nossas emoções.
Dengming Zhang, Weitao You, Ziheng Liu
― 8 min ler
Um novo modelo pra gerar danças em grupo sincronizadas e naturais.
Kaixing Yang, Xulong Tang, Haoyu Wu
― 10 min ler
Nova abordagem em reconhecimento de emoções foca nos movimentos da boca em vez dos sons.
Shreya G. Upadhyay, Ali N. Salman, Carlos Busso
― 7 min ler
Descubra como o Stable-TTS melhora a tecnologia de texto para fala, proporcionando uma experiência mais parecida com a humana.
Wooseok Han, Minki Kang, Changhun Kim
― 8 min ler
Tecnologia inovadora de ondas sonoras traz novas perspectivas sobre a velocidade de caminhada indoor.
Sheng Lyu, Chenshu Wu
― 7 min ler
Os assistentes de áudio estão ficando mais espertos com o AQA-K, melhorando as respostas através do conhecimento.
Abhirama Subramanyam Penamakuri, Kiran Chhatre, Akshat Jain
― 7 min ler
Pesquisadores estudam como nosso cérebro controla a fala e as implicações disso para a recuperação.
Eric Easthope
― 7 min ler
Descubra como o texto pode se transformar em áudio com modelos de ponta.
Chia-Yu Hung, Navonil Majumder, Zhifeng Kong
― 4 min ler