PDMX ofrece una gran colección de música simbólica de dominio público para el desarrollo de IA.
Phillip Long, Zachary Novack, Taylor Berg-Kirkpatrick
― 7 minilectura
Ciencia de vanguardia explicada de forma sencilla
PDMX ofrece una gran colección de música simbólica de dominio público para el desarrollo de IA.
Phillip Long, Zachary Novack, Taylor Berg-Kirkpatrick
― 7 minilectura
Un estudio muestra que los i-vectores pueden competir con modelos complejos en el reconocimiento de hablantes.
Zakaria Aldeneh, Takuya Higuchi, Jee-weon Jung
― 6 minilectura
Un estudio sobre cómo las elecciones de diseño afectan los modelos de lenguaje de base.
Li-Wei Chen, Takuya Higuchi, He Bai
― 8 minilectura
Un nuevo método evalúa modelos de habla auto-supervisados usando medidas de rango.
Zakaria Aldeneh, Vimal Thilak, Takuya Higuchi
― 6 minilectura
El estudio resalta los avances en el reconocimiento de emociones en robots usando Transformadores de Visión.
Ruchik Mishra, Andrew Frye, Madan Mohan Rayguru
― 7 minilectura
La investigación resalta la importancia de un diagnóstico justo en enfermedades respiratorias.
Rachel Pfeifer, Sudip Vhaduri, James Eric Dietz
― 8 minilectura
MusicLIME ayuda a explicar el enfoque de la IA para analizar música a través de audio y letras.
Theodoros Sotirou, Vassilis Lyberatos, Orfeas Menis Mastromichalakis
― 7 minilectura
Descubre cómo la Computación Cuántica está transformando la creatividad musical con el Harmonizador Cuántico Variacional.
Paulo Vitor Itaboraí, Peter Thomas, Arianna Crippa
― 14 minilectura
El modelo MCMamba mejora la calidad del habla en entornos ruidosos usando información espacial y espectral.
Wenze Ren, Haibin Wu, Yi-Cheng Lin
― 5 minilectura
Este estudio evalúa métodos de baja latencia para mejorar la calidad del habla en condiciones ruidosas.
Haibin Wu, Sebastian Braun
― 8 minilectura
Examinando cómo los gestos 2D y 3D afectan la comunicación de personajes virtuales.
Téo Guichoux, Laure Soulier, Nicolas Obin
― 8 minilectura
Un estudio sobre cómo mejorar los sistemas de reconocimiento de voz en ambientes ruidosos.
Muhammad Sudipto Siam Dip, Md Anik Hasan, Sapnil Sarker Bipro
― 7 minilectura
Los investigadores usan el habla para identificar y monitorear varias condiciones de salud.
Catarina Botelho, Alberto Abad, Tanja Schultz
― 10 minilectura
RF-GML mide la calidad del audio sin necesidad de una señal de referencia.
Arijit Biswas, Guanxin Jiang
― 6 minilectura
Aprende cómo la ecualización de salas mejora las experiencias de audio en diferentes ambientes.
James Brooks-Park, Martin Bo Møller, Jan Østergaard
― 7 minilectura
StyleTTS-ZS ofrece una síntesis de voz eficiente y de alta calidad sin necesidad de un entrenamiento extenso del hablante.
Yinghao Aaron Li, Xilin Jiang, Cong Han
― 6 minilectura
Un nuevo método mejora el canto en conjunto sintetizado al modelar las interacciones entre los cantantes.
Hiroaki Hyodo, Shinnosuke Takamichi, Tomohiko Nakamura
― 6 minilectura
Un nuevo marco mejora el reconocimiento de voz al modelar las relaciones de sonido de manera efectiva.
Zheng Nan, Ting Dang, Vidhyasaharan Sethu
― 6 minilectura
Aprende cómo el ajuste de preferencias alinea modelos con feedback humano.
Genta Indra Winata, Hanyang Zhao, Anirban Das
― 5 minilectura
Un nuevo método de enmascaramiento mejora la conversión de voz al separar la identidad del hablante de la fonética.
Philip H. Lee, Ismail Rasim Ulgen, Berrak Sisman
― 7 minilectura
Técnicas innovadoras mejoran el entrenamiento de modelos de música-texto con recursos limitados.
Ilaria Manco, Justin Salamon, Oriol Nieto
― 8 minilectura
Nuevos métodos mejoran el etiquetado de audio para estilos musicales diversos y la preservación cultural.
Charilaos Papaioannou, Emmanouil Benetos, Alexandros Potamianos
― 8 minilectura
Un conjunto de datos de sonidos del hogar promueve la seguridad y la comodidad para los adultos mayores.
Gabriel Bibbó, Thomas Deacon, Arshdeep Singh
― 6 minilectura
SD-Codec mejora el procesamiento de audio al separar diferentes tipos de sonido de manera efectiva.
Xiaoyu Bie, Xubo Liu, Gaël Richard
― 6 minilectura
Este artículo habla sobre métodos para mejorar el reconocimiento de voz en el habla con acento.
Francesco Nespoli, Daniel Barreda, Patrick A. Naylor
― 7 minilectura
Un nuevo enfoque mejora la interpretabilidad de la detección de voz falsa.
Manasi Chhibber, Jagabandhu Mishra, Hyejin Shim
― 6 minilectura
Una mirada al nuevo sistema TTS de un solo paso que mejora la generación de voz.
Gerard I. Gállego, Roy Fejgin, Chunghsin Yeh
― 7 minilectura
Este estudio aborda los desafíos en modelos de lenguaje de audio para lenguas de pocos recursos.
Potsawee Manakul, Guangzhi Sun, Warit Sirichotedumrong
― 7 minilectura
Este estudio mejora los sistemas de reconocimiento de emociones para idiomas menos comunes usando datos de alto recurso.
Hsi-Che Lin, Yi-Cheng Lin, Huang-Cheng Chou
― 8 minilectura
Un modelo mejora las tareas de habla en entornos multilingües, abordando los desafíos del cambio de código.
Jing Xu, Daxin Tan, Jiaqi Wang
― 6 minilectura
Mejorando la síntesis de voz en lenguas indias usando unidades inter-pauss.
Anusha Prakash, Hema A Murthy
― 8 minilectura
DeFT-Mamba mejora la separación y clasificación de sonido en ambientes ruidosos.
Dongheon Lee, Jung-Woo Choi
― 6 minilectura
CADA-GAN mejora el rendimiento de los sistemas de ASR en diferentes entornos de grabación.
Chien-Chun Wang, Li-Wei Chen, Cheng-Kang Chou
― 7 minilectura
EVA combina señales de audio y visuales para mejorar la precisión del reconocimiento de voz.
Yihan Wu, Yifan Peng, Yichen Lu
― 5 minilectura
Un nuevo marco simplifica el reconocimiento de voz en entornos ruidosos.
Jinhan Wang, Weiqing Wang, Kunal Dhawan
― 6 minilectura
Llama-AVSR combina entradas de audio y visuales para mejorar la precisión del reconocimiento de voz.
Umberto Cappellazzo, Minsu Kim, Honglie Chen
― 7 minilectura
WMCodec mejora la marca de agua de audio para más seguridad y autenticidad.
Junzuo Zhou, Jiangyan Yi, Yong Ren
― 6 minilectura
Nuevos modelos abordan la clasificación de sonido con datos de entrenamiento limitados.
Jin Jie Sean Yeo, Ee-Leng Tan, Jisheng Bai
― 6 minilectura
Un nuevo enfoque mejora la detección de audio falso utilizando modelos preentrenados.
Zhiyong Wang, Ruibo Fu, Zhengqi Wen
― 6 minilectura
Nuevo método mejora la calidad y eficiencia de la generación de voz.
Xin Qi, Ruibo Fu, Zhengqi Wen
― 5 minilectura