Una visión general de las tecnologías de detección de palabras clave y sus desafíos con el idioma urdu.
Syed Muhammad Aqdas Rizvi
― 7 minilectura
Ciencia de vanguardia explicada de forma sencilla
Una visión general de las tecnologías de detección de palabras clave y sus desafíos con el idioma urdu.
Syed Muhammad Aqdas Rizvi
― 7 minilectura
Un estudio sobre cómo las elecciones de diseño afectan los modelos de lenguaje de base.
Li-Wei Chen, Takuya Higuchi, He Bai
― 8 minilectura
Este artículo habla sobre métodos para mejorar el reconocimiento de voz en el habla con acento.
Francesco Nespoli, Daniel Barreda, Patrick A. Naylor
― 7 minilectura
Este estudio aborda los desafíos en modelos de lenguaje de audio para lenguas de pocos recursos.
Potsawee Manakul, Guangzhi Sun, Warit Sirichotedumrong
― 7 minilectura
Mejorando la síntesis de voz en lenguas indias usando unidades inter-pauss.
Anusha Prakash, Hema A Murthy
― 8 minilectura
CADA-GAN mejora el rendimiento de los sistemas de ASR en diferentes entornos de grabación.
Chien-Chun Wang, Li-Wei Chen, Cheng-Kang Chou
― 7 minilectura
Llama-AVSR combina entradas de audio y visuales para mejorar la precisión del reconocimiento de voz.
Umberto Cappellazzo, Minsu Kim, Honglie Chen
― 7 minilectura
Un nuevo método usa sombras virtuales para mejorar el feedback de pronunciación de los que aprenden idiomas.
Haopeng Geng, Daisuke Saito, Nobuaki Minematsu
― 7 minilectura
Un nuevo método de ASR ayuda a la tecnología a entender mejor el habla de los niños.
Zhonghao Shi, Harshvardhan Srivastava, Xuan Shi
― 7 minilectura
YOSS usa audio para mejorar la identificación de objetos en imágenes.
Wenhao Yang, Jianguo Wei, Wenhuan Lu
― 5 minilectura
Un proyecto que desarrolla conjuntos de datos de voz y texto para idiomas con recursos limitados.
Nikola Ljubešić, Peter Rupnik, Danijel Koržinek
― 6 minilectura
Un nuevo marco mejora el reconocimiento de voz y se adapta a varias tareas de habla.
Junyi Peng, Ladislav Mošner, Lin Zhang
― 5 minilectura
Nuevos métodos mejoran el reconocimiento de voz para lenguas de pocos recursos sin texto.
Krithiga Ramadass, Abrit Pal Singh, Srihari J
― 5 minilectura
Nuevos métodos mejoran la precisión en los sistemas de reconocimiento de voz usando comprensión fonética.
Leonid Velikovich, Christopher Li, Diamantino Caseiro
― 6 minilectura
Nuevas características acústicas mejoran el rendimiento de los sistemas ASR en entornos ruidosos.
Muhammad A. Shah, Bhiksha Raj
― 5 minilectura
Nuevo modelo consigue una transcripción de voz más rápida sin sacrificar la precisión.
Yael Segal-Feldman, Aviv Shamsian, Aviv Navon
― 5 minilectura
Descubre cómo los embeddings Matryoshka mejoran la eficiencia y flexibilidad del reconocimiento de hablantes.
Shuai Wang, Pengcheng Zhu, Haizhou Li
― 6 minilectura
El nuevo modelo VoiceGuider mejora el TTS para diferentes hablantes.
Jiheum Yeom, Heeseung Kim, Jooyoung Choi
― 7 minilectura
Un nuevo método mejora el reconocimiento de voz para grabaciones largas.
Hao Yen, Shaoshi Ling, Guoli Ye
― 6 minilectura
Nuevo método para modelos de lenguaje de voz reduce la necesidad de grandes cantidades de datos.
Ke-Han Lu, Zhehuai Chen, Szu-Wei Fu
― 7 minilectura
Cómo los nuevos métodos están transformando la identificación de hablantes en grabaciones de audio.
Petr Pálka, Federico Landini, Dominik Klement
― 7 minilectura
Descubre cómo TSE mejora el reconocimiento de voz en entornos ruidosos usando señales de texto.
Ziyang Jiang, Xinyuan Qian, Jiahe Lei
― 6 minilectura
Los asistentes de voz ayudan a identificar los primeros signos de problemas de memoria en personas mayores.
Nana Lin, Youxiang Zhu, Xiaohui Liang
― 8 minilectura
Mamba mejora el reconocimiento de voz con rapidez y precisión, transformando cómo interactuamos con los dispositivos.
Yoshiki Masuyama, Koichi Miyazaki, Masato Murata
― 5 minilectura
Nuevo método mejora la claridad del habla usando información visual del entorno.
Xinyuan Qian, Jiaran Gao, Yaodan Zhang
― 6 minilectura
SAMOS ofrece una nueva forma de medir la calidad del habla, mejorando la naturalidad.
Yu-Fei Shi, Yang Ai, Ye-Xin Lu
― 7 minilectura
Tiny-Align mejora los asistentes de voz para una mejor interacción personal en dispositivos pequeños.
Ruiyang Qin, Dancheng Liu, Gelei Xu
― 7 minilectura
Presentamos VQalAttent, un modelo más sencillo para generar un habla máquina realista.
Armani Rodriguez, Silvija Kokalj-Filipovic
― 6 minilectura
Un nuevo sistema de ASR mejora el reconocimiento de voz médica para una atención al paciente precisa.
Sourav Banerjee, Ayushi Agarwal, Promila Ghosh
― 7 minilectura
Explorando cómo los modelos de ASR ayudan a identificar deepfakes de voz de manera efectiva.
Davide Salvi, Amit Kumar Singh Yadav, Kratika Bhagtani
― 8 minilectura
Realiza un seguimiento eficiente de los hablantes en entornos multilingües usando reconocimiento automático de voz.
Thai-Binh Nguyen, Alexander Waibel
― 7 minilectura
Mejorando la transcripción automática para entender mejor los trastornos del habla.
Jiachen Lian, Xuanru Zhou, Zoe Ezzes
― 7 minilectura
Un nuevo modelo mejora significativamente la precisión del reconocimiento de voz en chino.
Junhong Liang
― 7 minilectura
Noro mejora la conversión de voz, haciéndola efectiva incluso en ambientes ruidosos.
Haorui He, Yuchen Song, Yuancheng Wang
― 7 minilectura
Un nuevo chatbot que ofrece conversaciones como las de humanos con conciencia emocional.
Aohan Zeng, Zhengxiao Du, Mingdao Liu
― 3 minilectura
Descubre cómo la evaluación independiente del estilo mejora los sistemas de Reconocimiento Automático de Voz.
Quinten McNamara, Miguel Ángel del Río Fernández, Nishchal Bhandari
― 8 minilectura
Descubre cómo el dropout adaptativo mejora la eficiencia en los sistemas de reconocimiento de voz.
Yotaro Kubo, Xingyu Cai, Michiel Bacchiani
― 8 minilectura
La investigación prueba la capacidad de la IA para comunicarse con los niños como lo hacen los cuidadores.
Jing Liu, Abdellah Fourtassi
― 7 minilectura
Una herramienta de reconocimiento de voz convierte matemáticas habladas en LaTeX sin esfuerzo.
Evangelia Gkritzali, Panagiotis Kaliosis, Sofia Galanaki
― 6 minilectura
Revolucionando el texto a voz con mayor eficiencia y voces que suenan más naturales.
Haowei Lou, Helen Paik, Pari Delir Haghighi
― 7 minilectura