Aprende a entrenar modelos de voz de manera efectiva con menos recursos etiquetados.
Iuliia Thorbecke, Juan Zuluaga-Gomez, Esaú Villatoro-Tello
― 8 minilectura
Ciencia de vanguardia explicada de forma sencilla
Aprende a entrenar modelos de voz de manera efectiva con menos recursos etiquetados.
Iuliia Thorbecke, Juan Zuluaga-Gomez, Esaú Villatoro-Tello
― 8 minilectura
Un análisis de la terminología de género en la tecnología del habla y sus implicaciones sociales.
Ariadna Sanchez, Alice Ross, Nina Markl
― 8 minilectura
Un nuevo marco mejora la detección de eventos sonoros que se superponen en entornos de audio complejos.
Han Yin, Jisheng Bai, Yang Xiao
― 7 minilectura
Investigación sobre cómo mejorar la identificación de sonidos de aves usando técnicas de aprendizaje automático.
Burooj Ghani, Vincent J. Kalkman, Bob Planqué
― 8 minilectura
Un nuevo método mejora la creación automática de versiones de piano usando la tecnología de transcripción musical existente.
Kazuma Komiya, Yoshihisa Fukuhara
― 7 minilectura
Una mirada a los resultados del desafío Codec-SUPERB y las métricas de rendimiento del codec.
Haibin Wu, Xuanjun Chen, Yi-Cheng Lin
― 6 minilectura
El proyecto MultiMed mejora el reconocimiento de voz automático para una mejor comunicación en el cuidado de la salud.
Khai Le-Duc, Phuc Phan, Tan-Hanh Pham
― 7 minilectura
Un enfoque nuevo para la evaluación de la calidad de audio sin necesitar referencias limpias.
Jozef Coldenhoff, Milos Cernak
― 7 minilectura
El marco ECHO mejora la precisión en la clasificación de sonidos usando etiquetas estructuradas y un proceso de aprendizaje en dos etapas.
Pranav Gupta, Raunak Sharma, Rashmi Kumari
― 6 minilectura
Un nuevo método mejora la claridad del habla al integrar información visual.
Wenze Ren, Kuo-Hsuan Hung, Rong Chao
― 6 minilectura
Un nuevo enfoque mejora la estimación de la dirección del sonido para altavoces en movimiento en entornos difíciles.
Daniel A. Mitchell, Boaz Rafaely, Anurag Kumar
― 10 minilectura
La Recuperación de Momentos de Audio permite localizar momentos específicos en grabaciones largas.
Hokuto Munakata, Taichi Nishimura, Shota Nakada
― 6 minilectura
Safe Guard detecta discurso de odio en tiempo real durante interacciones de voz en VR social.
Yiwen Xu, Qinyang Hou, Hongyu Wan
― 7 minilectura
La IA está evolucionando para tener conversaciones más naturales.
Bandhav Veluri, Benjamin N Peloquin, Bokai Yu
― 6 minilectura
Un enfoque novedoso utiliza MRI en tiempo real para visualizar los movimientos de producción del habla.
Hong Nguyen, Sean Foley, Kevin Huang
― 6 minilectura
Un nuevo método para detectar reflejos tempranos en la sala mejora las experiencias de audio.
Yogev Hadadi, Vladimir Tourbabin, Zamir Ben-Hur
― 8 minilectura
Un proyecto que desarrolla conjuntos de datos de voz y texto para idiomas con recursos limitados.
Nikola Ljubešić, Peter Rupnik, Danijel Koržinek
― 6 minilectura
Un nuevo marco mejora el reconocimiento de voz y se adapta a varias tareas de habla.
Junyi Peng, Ladislav Mošner, Lin Zhang
― 5 minilectura
Se necesitan nuevos métodos para detectar tecnologías avanzadas de voz deepfake.
Lam Pham, Phat Lam, Dat Tran
― 7 minilectura
Nuevos métodos aumentan la precisión para identificar sonidos de animales con datos limitados.
Yaxiong Chen, Xueping Zhang, Yunfei Zi
― 6 minilectura
Nuevo método mejora la integración del sonido virtual en entornos de AR.
Francesc Lluís, Nils Meyer-Kahlen
― 8 minilectura
Un nuevo método busca preservar la privacidad de la voz mientras permite una comunicación efectiva.
Jacob J Webber, Oliver Watts, Gustav Eje Henter
― 5 minilectura
Nuevos métodos mejoran el reconocimiento de voz para lenguas de pocos recursos sin texto.
Krithiga Ramadass, Abrit Pal Singh, Srihari J
― 5 minilectura
Nuevos métodos mejoran la precisión en los sistemas de reconocimiento de voz usando comprensión fonética.
Leonid Velikovich, Christopher Li, Diamantino Caseiro
― 6 minilectura
Este marco mejora las animaciones en tiempo real al sincronizar el habla y los gestos de manera fluida.
Zixin Guo, Jian Zhang
― 5 minilectura
Nuevas características acústicas mejoran el rendimiento de los sistemas ASR en entornos ruidosos.
Muhammad A. Shah, Bhiksha Raj
― 5 minilectura
Una nueva función de pérdida mejora la calidad del audio al alinear fase y magnitud.
Pin-Jui Ku, Chun-Wei Ho, Hao Yen
― 7 minilectura
Un nuevo modelo de TTS agrega profundidad emocional al habla generada por computadora.
Yunji Chu, Yunseob Shim, Unsang Park
― 6 minilectura
Evaluando modelos de reconocimiento de voz para sesiones de diagnóstico de autismo.
Aditya Ashvin, Rimita Lahiri, Aditya Kommineni
― 7 minilectura
Los métodos recientes mejoran la claridad y calidad del audio usando modelos avanzados.
Pin-Jui Ku, Alexander H. Liu, Roman Korostik
― 7 minilectura
Un enfoque nuevo mejora la detección de grabaciones de audio falsas.
Viola Negroni, Davide Salvi, Alessandro Ilic Mezza
― 6 minilectura
ESPnet-Codec mejora el entrenamiento y la evaluación de códecs neuronales para audio y voz.
Jiatong Shi, Jinchuan Tian, Yihan Wu
― 8 minilectura
Explorando métodos para adaptar RNNs a diferentes tasas de muestreo de audio.
Alistair Carson, Alec Wright, Stefan Bilbao
― 7 minilectura
Nuevo modelo consigue una transcripción de voz más rápida sin sacrificar la precisión.
Yael Segal-Feldman, Aviv Shamsian, Aviv Navon
― 5 minilectura
Descubre cómo los embeddings Matryoshka mejoran la eficiencia y flexibilidad del reconocimiento de hablantes.
Shuai Wang, Pengcheng Zhu, Haizhou Li
― 6 minilectura
Te presentamos NanoVoice, un modelo de texto a voz rápido y eficiente para audio personalizado.
Nohil Park, Heeseung Kim, Che Hyun Lee
― 6 minilectura
El nuevo modelo VoiceGuider mejora el TTS para diferentes hablantes.
Jiheum Yeom, Heeseung Kim, Jooyoung Choi
― 7 minilectura
Un nuevo método para convertir voces entre idiomas manteniendo las características únicas.
Giuseppe Ruggiero, Matteo Testa, Jurgen Van de Walle
― 6 minilectura
Nuevas técnicas mejoran la calidad del habla expresiva entre diferentes hablantes.
Lucas H. Ueda, Leonardo B. de M. M. Marques, Flávio O. Simões
― 6 minilectura
Este artículo explora el papel de las métricas perceptuales en la clasificación de géneros musicales.
Tashi Namgyal, Alexander Hepburn, Raul Santos-Rodriguez
― 6 minilectura