Aprenda a treinar modelos de fala de forma eficaz com menos recursos rotulados.
Iuliia Thorbecke, Juan Zuluaga-Gomez, Esaú Villatoro-Tello
― 8 min ler
Ciência de ponta explicada de forma simples
Aprenda a treinar modelos de fala de forma eficaz com menos recursos rotulados.
Iuliia Thorbecke, Juan Zuluaga-Gomez, Esaú Villatoro-Tello
― 8 min ler
Uma análise da terminologia de gênero na tecnologia de fala e suas implicações sociais.
Ariadna Sanchez, Alice Ross, Nina Markl
― 8 min ler
Uma nova estrutura melhora a detecção de eventos sonoros sobrepostos em ambientes de áudio complexos.
Han Yin, Jisheng Bai, Yang Xiao
― 7 min ler
Pesquisas sobre como melhorar a identificação de sons de pássaros usando técnicas de aprendizado de máquina.
Burooj Ghani, Vincent J. Kalkman, Bob Planqué
― 8 min ler
Um novo método melhora a criação automática de capas de piano usando a tecnologia de transcrição musical existente.
Kazuma Komiya, Yoshihisa Fukuhara
― 7 min ler
Um olhar sobre os resultados do desafio Codec-SUPERB e as métricas de desempenho do codec.
Haibin Wu, Xuanjun Chen, Yi-Cheng Lin
― 6 min ler
O projeto MultiMed melhora o reconhecimento de fala automático para uma comunicação na saúde mais eficiente.
Khai Le-Duc, Phuc Phan, Tan-Hanh Pham
― 7 min ler
Uma nova abordagem para avaliar a qualidade do áudio sem precisar de referências limpas.
Jozef Coldenhoff, Milos Cernak
― 7 min ler
O framework ECHO melhora a precisão da classificação de sons usando rótulos estruturados e um processo de aprendizado em duas etapas.
Pranav Gupta, Raunak Sharma, Rashmi Kumari
― 6 min ler
Novo método melhora a clareza da fala integrando informações visuais.
Wenze Ren, Kuo-Hsuan Hung, Rong Chao
― 6 min ler
Uma nova abordagem melhora a estimativa de direção do som para falantes em movimento em ambientes desafiadores.
Daniel A. Mitchell, Boaz Rafaely, Anurag Kumar
― 10 min ler
A Recuperação de Momentos de Áudio permite localizar momentos específicos em gravações longas.
Hokuto Munakata, Taichi Nishimura, Shota Nakada
― 6 min ler
O Safe Guard detecta discurso de ódio em tempo real durante interações de voz na VR social.
Yiwen Xu, Qinyang Hou, Hongyu Wan
― 7 min ler
A IA tá evoluindo pra ter conversas mais naturais.
Bandhav Veluri, Benjamin N Peloquin, Bokai Yu
― 6 min ler
Uma nova abordagem usa ressonância magnética em tempo real pra visualizar os movimentos da produção da fala.
Hong Nguyen, Sean Foley, Kevin Huang
― 6 min ler
Um novo método pra detectar reflexões de som no ambiente melhora a experiência auditiva.
Yogev Hadadi, Vladimir Tourbabin, Zamir Ben-Hur
― 8 min ler
Um projeto que tá desenvolvendo conjuntos de dados de fala e texto pra línguas com poucos recursos.
Nikola Ljubešić, Peter Rupnik, Danijel Koržinek
― 6 min ler
Um novo modelo melhora o reconhecimento de voz e se adapta a várias tarefas de fala.
Junyi Peng, Ladislav Mošner, Lin Zhang
― 5 min ler
Novos métodos são necessários pra detectar tecnologias avançadas de fala deepfake.
Lam Pham, Phat Lam, Dat Tran
― 7 min ler
Novos métodos aumentam a precisão na identificação de sons de animais com dados limitados.
Yaxiong Chen, Xueping Zhang, Yunfei Zi
― 6 min ler
Novo método melhora a integração do som virtual em ambientes de AR.
Francesc Lluís, Nils Meyer-Kahlen
― 7 min ler
Um novo método pretende preservar a privacidade da voz enquanto permite uma comunicação eficaz.
Jacob J Webber, Oliver Watts, Gustav Eje Henter
― 5 min ler
Novos métodos melhoram o reconhecimento de fala para línguas de baixo recurso sem texto.
Krithiga Ramadass, Abrit Pal Singh, Srihari J
― 5 min ler
Novos métodos melhoram a precisão em sistemas de reconhecimento de fala usando entendimento fonético.
Leonid Velikovich, Christopher Li, Diamantino Caseiro
― 6 min ler
Esse framework melhora as animações em tempo real ao sincronizar fala e gestos de forma suave.
Zixin Guo, Jian Zhang
― 5 min ler
Novas características acústicas melhoram o desempenho dos sistemas de ASR em ambientes barulhentos.
Muhammad A. Shah, Bhiksha Raj
― 5 min ler
Uma nova função de perda melhora a qualidade do áudio ao alinhar fase e magnitude.
Pin-Jui Ku, Chun-Wei Ho, Hao Yen
― 7 min ler
Um novo modelo de TTS adiciona profundidade emocional à fala gerada por computador.
Yunji Chu, Yunseob Shim, Unsang Park
― 6 min ler
Avaliando modelos de reconhecimento de fala para sessões de diagnóstico de autismo.
Aditya Ashvin, Rimita Lahiri, Aditya Kommineni
― 7 min ler
Métodos recentes melhoram a clareza e qualidade do áudio usando modelos avançados.
Pin-Jui Ku, Alexander H. Liu, Roman Korostik
― 7 min ler
Uma nova abordagem melhora a detecção de gravações de áudio falsas.
Viola Negroni, Davide Salvi, Alessandro Ilic Mezza
― 6 min ler
O ESPnet-Codec melhora o treinamento e a avaliação de codecs neurais para áudio e fala.
Jiatong Shi, Jinchuan Tian, Yihan Wu
― 8 min ler
Explorando métodos pra adaptar RNNs a diferentes taxas de amostragem de áudio.
Alistair Carson, Alec Wright, Stefan Bilbao
― 6 min ler
Novo modelo consegue transcrever fala mais rápido sem perder precisão.
Yael Segal-Feldman, Aviv Shamsian, Aviv Navon
― 5 min ler
Descubra como as embeddings Matryoshka melhoram a eficiência e flexibilidade do reconhecimento de falantes.
Shuai Wang, Pengcheng Zhu, Haizhou Li
― 6 min ler
Apresentando o NanoVoice, um modelo de texto para fala rápido e eficiente para áudio personalizado.
Nohil Park, Heeseung Kim, Che Hyun Lee
― 6 min ler
Novo modelo VoiceGuider melhora TTS para diferentes falantes.
Jiheum Yeom, Heeseung Kim, Jooyoung Choi
― 7 min ler
Um novo método pra converter vozes entre idiomas, mantendo as características únicas.
Giuseppe Ruggiero, Matteo Testa, Jurgen Van de Walle
― 6 min ler
Novas técnicas melhoram a qualidade da fala expressiva entre diferentes falantes.
Lucas H. Ueda, Leonardo B. de M. M. Marques, Flávio O. Simões
― 6 min ler
Esse artigo explora o papel das métricas perceptuais na classificação de gêneros musicais.
Tashi Namgyal, Alexander Hepburn, Raul Santos-Rodriguez
― 5 min ler