Un estudio muestra que los i-vectores pueden competir con modelos complejos en el reconocimiento de hablantes.
Zakaria Aldeneh, Takuya Higuchi, Jee-weon Jung
― 6 minilectura
Ciencia de vanguardia explicada de forma sencilla
Un estudio muestra que los i-vectores pueden competir con modelos complejos en el reconocimiento de hablantes.
Zakaria Aldeneh, Takuya Higuchi, Jee-weon Jung
― 6 minilectura
Últimos artículos
Li-Wei Chen, Takuya Higuchi, He Bai
― 8 minilectura
Zakaria Aldeneh, Vimal Thilak, Takuya Higuchi
― 6 minilectura
Ruchik Mishra, Andrew Frye, Madan Mohan Rayguru
― 7 minilectura
Rachel Pfeifer, Sudip Vhaduri, James Eric Dietz
― 8 minilectura
Theodoros Sotirou, Vassilis Lyberatos, Orfeas Menis Mastromichalakis
― 7 minilectura
Descubre cómo la Computación Cuántica está transformando la creatividad musical con el Harmonizador Cuántico Variacional.
Paulo Vitor Itaboraí, Peter Thomas, Arianna Crippa
― 14 minilectura
El modelo MCMamba mejora la calidad del habla en entornos ruidosos usando información espacial y espectral.
Wenze Ren, Haibin Wu, Yi-Cheng Lin
― 5 minilectura
Este estudio evalúa métodos de baja latencia para mejorar la calidad del habla en condiciones ruidosas.
Haibin Wu, Sebastian Braun
― 8 minilectura
Examinando cómo los gestos 2D y 3D afectan la comunicación de personajes virtuales.
Téo Guichoux, Laure Soulier, Nicolas Obin
― 8 minilectura
Un estudio sobre cómo mejorar los sistemas de reconocimiento de voz en ambientes ruidosos.
Muhammad Sudipto Siam Dip, Md Anik Hasan, Sapnil Sarker Bipro
― 7 minilectura
Los investigadores usan el habla para identificar y monitorear varias condiciones de salud.
Catarina Botelho, Alberto Abad, Tanja Schultz
― 10 minilectura
RF-GML mide la calidad del audio sin necesidad de una señal de referencia.
Arijit Biswas, Guanxin Jiang
― 6 minilectura
Aprende cómo la ecualización de salas mejora las experiencias de audio en diferentes ambientes.
James Brooks-Park, Martin Bo Møller, Jan Østergaard
― 7 minilectura
StyleTTS-ZS ofrece una síntesis de voz eficiente y de alta calidad sin necesidad de un entrenamiento extenso del hablante.
Yinghao Aaron Li, Xilin Jiang, Cong Han
― 6 minilectura
Un nuevo método mejora el canto en conjunto sintetizado al modelar las interacciones entre los cantantes.
Hiroaki Hyodo, Shinnosuke Takamichi, Tomohiko Nakamura
― 6 minilectura
Un nuevo marco mejora el reconocimiento de voz al modelar las relaciones de sonido de manera efectiva.
Zheng Nan, Ting Dang, Vidhyasaharan Sethu
― 6 minilectura
Un nuevo método de enmascaramiento mejora la conversión de voz al separar la identidad del hablante de la fonética.
Philip H. Lee, Ismail Rasim Ulgen, Berrak Sisman
― 7 minilectura
Técnicas innovadoras mejoran el entrenamiento de modelos de música-texto con recursos limitados.
Ilaria Manco, Justin Salamon, Oriol Nieto
― 8 minilectura
Nuevos métodos mejoran el etiquetado de audio para estilos musicales diversos y la preservación cultural.
Charilaos Papaioannou, Emmanouil Benetos, Alexandros Potamianos
― 8 minilectura
Un conjunto de datos de sonidos del hogar promueve la seguridad y la comodidad para los adultos mayores.
Gabriel Bibbó, Thomas Deacon, Arshdeep Singh
― 6 minilectura
SD-Codec mejora el procesamiento de audio al separar diferentes tipos de sonido de manera efectiva.
Xiaoyu Bie, Xubo Liu, Gaël Richard
― 6 minilectura
Este artículo habla sobre métodos para mejorar el reconocimiento de voz en el habla con acento.
Francesco Nespoli, Daniel Barreda, Patrick A. Naylor
― 7 minilectura
Un nuevo enfoque mejora la interpretabilidad de la detección de voz falsa.
Manasi Chhibber, Jagabandhu Mishra, Hyejin Shim
― 6 minilectura
Una mirada al nuevo sistema TTS de un solo paso que mejora la generación de voz.
Gerard I. Gállego, Roy Fejgin, Chunghsin Yeh
― 7 minilectura
Este estudio aborda los desafíos en modelos de lenguaje de audio para lenguas de pocos recursos.
Potsawee Manakul, Guangzhi Sun, Warit Sirichotedumrong
― 7 minilectura
Este estudio mejora los sistemas de reconocimiento de emociones para idiomas menos comunes usando datos de alto recurso.
Hsi-Che Lin, Yi-Cheng Lin, Huang-Cheng Chou
― 8 minilectura
Un modelo mejora las tareas de habla en entornos multilingües, abordando los desafíos del cambio de código.
Jing Xu, Daxin Tan, Jiaqi Wang
― 6 minilectura
DeFT-Mamba mejora la separación y clasificación de sonido en ambientes ruidosos.
Dongheon Lee, Jung-Woo Choi
― 6 minilectura
CADA-GAN mejora el rendimiento de los sistemas de ASR en diferentes entornos de grabación.
Chien-Chun Wang, Li-Wei Chen, Cheng-Kang Chou
― 7 minilectura
EVA combina señales de audio y visuales para mejorar la precisión del reconocimiento de voz.
Yihan Wu, Yifan Peng, Yichen Lu
― 5 minilectura
Un nuevo marco simplifica el reconocimiento de voz en entornos ruidosos.
Jinhan Wang, Weiqing Wang, Kunal Dhawan
― 6 minilectura
Llama-AVSR combina entradas de audio y visuales para mejorar la precisión del reconocimiento de voz.
Umberto Cappellazzo, Minsu Kim, Honglie Chen
― 7 minilectura
WMCodec mejora la marca de agua de audio para más seguridad y autenticidad.
Junzuo Zhou, Jiangyan Yi, Yong Ren
― 6 minilectura
Nuevos modelos abordan la clasificación de sonido con datos de entrenamiento limitados.
Jin Jie Sean Yeo, Ee-Leng Tan, Jisheng Bai
― 6 minilectura
Un nuevo enfoque mejora la detección de audio falso utilizando modelos preentrenados.
Zhiyong Wang, Ruibo Fu, Zhengqi Wen
― 6 minilectura
Nuevo método mejora la calidad y eficiencia de la generación de voz.
Xin Qi, Ruibo Fu, Zhengqi Wen
― 5 minilectura
Un método que combina datos etiquetados y no etiquetados mejora la detección de fuentes de sonido.
Vadim Rozenfeld, Bracha Laufer Goldshtein
― 6 minilectura
Descubre cómo las señales de audio ayudan a los jugadores en el tenis de mesa.
Thomas Gossard, Julian Schmalzl, Andreas Ziegler
― 7 minilectura
Un sistema que prioriza la melodía mientras ofrece control sobre la generación de música orquestal.
Dinh-Viet-Toan Le, Yi-Hsuan Yang
― 7 minilectura
Un nuevo método usa sombras virtuales para mejorar el feedback de pronunciación de los que aprenden idiomas.
Haopeng Geng, Daisuke Saito, Nobuaki Minematsu
― 7 minilectura
Nuevos métodos mejoran la calidad de audio binaural en entornos de sonido difíciles.
Ami Berger, Vladimir Tourbabin, Jacob Donley
― 10 minilectura
Un nuevo método de ASR ayuda a la tecnología a entender mejor el habla de los niños.
Zhonghao Shi, Harshvardhan Srivastava, Xuan Shi
― 7 minilectura
El compositor usa textos como indicaciones para crear composiciones musicales complejas en formato MIDI.
Jakub Poćwiardowski, Mateusz Modrzejewski, Marek S. Tatara
― 7 minilectura
Un recurso para estudiar patrones de canto en la música de idols japoneses.
Hitoshi Suda, Shunsuke Yoshida, Tomohiko Nakamura
― 7 minilectura
ViolinDiff mejora el realismo de la música de violín generada por computadora.
Daewoong Kim, Hao-Wen Dong, Dasaem Jeong
― 6 minilectura