Apresentando o NanoVoice, um modelo de texto para fala rápido e eficiente para áudio personalizado.
Nohil Park, Heeseung Kim, Che Hyun Lee
― 6 min ler
Ciência de ponta explicada de forma simples
Apresentando o NanoVoice, um modelo de texto para fala rápido e eficiente para áudio personalizado.
Nohil Park, Heeseung Kim, Che Hyun Lee
― 6 min ler
Novo modelo VoiceGuider melhora TTS para diferentes falantes.
Jiheum Yeom, Heeseung Kim, Jooyoung Choi
― 7 min ler
Um novo método pra converter vozes entre idiomas, mantendo as características únicas.
Giuseppe Ruggiero, Matteo Testa, Jurgen Van de Walle
― 6 min ler
Novas técnicas melhoram a qualidade da fala expressiva entre diferentes falantes.
Lucas H. Ueda, Leonardo B. de M. M. Marques, Flávio O. Simões
― 6 min ler
Esse artigo explora o papel das métricas perceptuais na classificação de gêneros musicais.
Tashi Namgyal, Alexander Hepburn, Raul Santos-Rodriguez
― 5 min ler
Um novo método melhora o processamento de fala e áudio em várias tarefas.
Xiaoyu Yang, Qiujia Li, Chao Zhang
― 6 min ler
Um novo sistema melhora a identificação dos falantes durante discussões com vários participantes.
Ruoyu Wang, Shutong Niu, Gaobin Yang
― 6 min ler
Um novo framework melhora a expressão emocional em sistemas TTS.
Kun Zhou, You Zhang, Shengkui Zhao
― 6 min ler
Descobertas recentes mostram que sensores de pressão podem ser usados para espionagem.
Yonatan Gizachew Achamyeleh, Mohamad Habib Fakih, Gabriel Garcia
― 5 min ler
Um novo algoritmo melhora a detecção de eventos sonoros usando aprendizado auto-supervisionado.
Pengfei Cai, Yan Song, Nan Jiang
― 6 min ler
A pesquisa foca em melhorar os métodos pra detectar fala falsa realista.
Davide Salvi, Viola Negroni, Luca Bondi
― 5 min ler
Um novo método simplifica a criação de áudio e vídeo pra melhorar a sincronização.
Masato Ishii, Akio Hayakawa, Takashi Shibuya
― 6 min ler
Controle os efeitos de áudio usando descrições simples pra facilitar os ajustes de som.
Annie Chu, Patrick O'Reilly, Julia Barnett
― 6 min ler
Apresentando um novo modelo e referência para avaliar tarefas de áudio múltiplo.
Yiming Chen, Xianghu Yue, Xiaoxue Gao
― 7 min ler
Um novo sistema modela a intensidade emocional em personagens animados pra deixar tudo mais realista.
Jingyi Xu, Hieu Le, Zhixin Shu
― 7 min ler
OpenSep automatiza a separação de áudio para experiências sonoras mais claras sem precisar de intervenção manual.
Tanvir Mahmud, Diana Marculescu
― 7 min ler
O PALM melhora o reconhecimento de áudio otimizando a representação dos prompts e a eficiência.
Asif Hanif, Maha Tufail Agro, Mohammad Areeb Qazi
― 5 min ler
Descubra como as voltas e a espessura do fio afetam o som dos captadores de guitarra.
Charles Batchelor, Jack Gooding, William Marriott
― 8 min ler
Um novo método melhora o reconhecimento de fala para gravações longas.
Hao Yen, Shaoshi Ling, Guoli Ye
― 6 min ler
Esse estudo analisa como áudio, vídeo e texto trabalham juntos no reconhecimento de fala.
Chen Chen, Xiaolou Li, Zehua Liu
― 8 min ler
Um novo modelo melhora a naturalidade em sistemas de texto-para-fala analisando padrões de entonação.
Tomilov A. A., Gromova A. Y., Svischev A. N
― 5 min ler
Um novo modelo melhora a representação da fala para línguas africanas, aumentando a inclusão na tecnologia.
Jesujoba O. Alabi, Xuechen Liu, Dietrich Klakow
― 5 min ler
Um novo modelo melhora a criação de música usando melodias e descrições de texto.
Shaopeng Wei, Manzhen Wei, Haoyu Wang
― 5 min ler
Novo método para modelos de linguagem falada reduz a necessidade de dados extensivos.
Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu
― 7 min ler
Aprenda como funciona a conversão de voz e suas aplicações incríveis.
Arip Asadulaev, Rostislav Korst, Vitalii Shutov
― 5 min ler
Descubra como o CCI melhora as avaliações de qualidade em multimídia.
Alessandro Ragano, Helard Becerra Martinez, Andrew Hines
― 7 min ler
Pesquisadores juntam sinais de áudio e visuais pra detectar mentiras com mais precisão.
Abdelrahman Abdelwahab, Akshaj Vishnubhatla, Ayaan Vaswani
― 7 min ler
Uma nova rede baseada em voz preenche lacunas linguísticas em emergências.
Majid Behravan, Elham Mohammadrezaei, Mohamed Azab
― 6 min ler
Saiba como assistentes virtuais entendem melhor os comandos dos usuários.
Ognjen, Rudovic, Pranay Dighe
― 7 min ler
MACE melhora a legendagem de áudio conectando sons a descrições textuais precisas.
Satvik Dixit, Soham Deshmukh, Bhiksha Raj
― 5 min ler
Usando aprendizado de máquina pra prever a reação da galera a covers de músicas.
Aris J. Aristorenas
― 7 min ler
Uma nova abordagem para melhorar a classificação através da Perda de Distribuição de Distância Angular.
Antonio Almudévar, Romain Serizel, Alfonso Ortega
― 7 min ler
Novos métodos melhoram ferramentas de comunicação para pessoas com dificuldades de fala.
Macarious Hui, Jinda Zhang, Aanchan Mohan
― 7 min ler
Pesquisadores usam ondas sonoras pra estimar poses humanas sem câmeras.
Yusuke Oumi, Yuto Shibata, Go Irie
― 8 min ler
Novos métodos usando modelos de linguagem melhoram a detecção de som em meio ao barulho de fundo.
Han Yin, Yang Xiao, Jisheng Bai
― 7 min ler
O Fish-Speech melhora a tecnologia de voz pra ter uma experiência de comunicação mais natural.
Shijia Liao, Yuxuan Wang, Tianyu Li
― 6 min ler
EmoSphere++ permite que as máquinas expressem emoções como os humanos, melhorando as interações.
Deok-Hyeon Cho, Hyung-Seok Oh, Seung-Bin Kim
― 7 min ler
U-COTANS melhora a detecção de limites subaquáticos usando técnicas de aprendizado profundo.
Toros Arikan, Luca M. Chackalackal, Fatima Ahsan
― 7 min ler
A PIAST tem uma coleção única de música de piano para os pesquisadores.
Hayeon Bang, Eunjin Choi, Megan Finch
― 6 min ler
Máquinas aprendem a conectar som e visuais em espaços 3D.
Artem Sokolov, Swapnil Bhosale, Xiatian Zhu
― 8 min ler