Últimos artículos para Tecnología de voz

Sonido Mejorando la detección de tartamudez con MMSD-Net

Un nuevo método mejora la detección de tartamudeo combinando datos de audio, video y texto.

2025-07-15T07:18:40+00:00 ― 7 minilectura

Procesado de Audio y Voz Mejorando el reconocimiento de voz para el idioma polaco

La investigación presenta nuevos métodos para evaluar sistemas de reconocimiento de voz en polaco.

2025-07-14T16:44:10+00:00 ― 7 minilectura

Procesado de Audio y Voz MSceneSpeech: Avanzando la Síntesis de Voz en Mandarín

Un nuevo conjunto de datos mejora el habla de máquina para el mandarín, buscando una expresión más natural.

2025-07-14T09:26:55+00:00 ― 7 minilectura

Sonido El Auge de la Edición de Voz en los Medios Digitales

Explora la creciente importancia de la edición de audio para creadores de contenido.

2025-07-11T00:28:35+00:00 ― 7 minilectura

Computación y lenguaje Avances en el Reconocimiento de Voz para Lenguas con Pocos Recursos

Nuevos métodos mejoran los sistemas de voz para lenguas poco representadas.

2025-07-10T04:14:00+00:00 ― 6 minilectura

Sonido Avances en Tecnologías de Detección de Voz

La investigación combina la mejora del habla y el aprendizaje por transferencia para mejores sistemas anti-spoofing.

2025-07-08T23:53:35+00:00 ― 9 minilectura

Procesado de Audio y Voz Avances en la Generación de Discurso Emocional

Nuevos métodos mejoran la expresión emocional en la síntesis de voz de máquinas.

2025-07-05T22:12:30+00:00 ― 8 minilectura

Computación y lenguaje Presentamos Speech-MASSIVE: Un nuevo conjunto de datos para la comprensión del lenguaje hablado multilingüe

Speech-MASSIVE busca mejorar la comprensión del lenguaje hablado en varios idiomas.

2025-07-04T01:40:25+00:00 ― 7 minilectura

Procesado de Audio y Voz Asegurando la privacidad de los datos de voz con nuevos métodos

Técnicas innovadoras protegen datos de voz sensibles mientras mantienen la precisión del procesamiento.

2025-07-04T00:51:50+00:00 ― 8 minilectura

Interacción Persona-Ordenador OpenOmni: Avanzando Agentes de Conversación Multimodales

OpenOmni crea herramientas flexibles para hacer y probar agentes de conversación.

2025-07-01T09:40:42+00:00 ― 9 minilectura

Procesado de Audio y Voz Avances en tecnología de texto a voz con SSL-TTS

SSL-TTS simplifica la síntesis de voz usando pocos datos de entrenamiento para obtener resultados de alta calidad.

2025-06-27T15:49:35+00:00 ― 7 minilectura

Procesado de Audio y Voz Avances en la tecnología de reconocimiento de voz susurrada

Nuevos métodos mejoran el reconocimiento de voz para la comunicación susurrada.

2025-06-25T05:31:35+00:00 ― 7 minilectura

Sonido StyleSpeech: El Futuro de la Tecnología de Texto a Voz

StyleSpeech mejora los sistemas de TTS al captar los matices del habla natural.

2025-06-24T14:08:30+00:00 ― 7 minilectura

Sonido EmoAttack: Una nueva amenaza en la tecnología del habla

EmoAttack usa conversión de voz emocional para aprovechar vulnerabilidades en sistemas de habla.

2025-06-24T01:59:45+00:00 ― 6 minilectura

Procesado de Audio y Voz Avanzando la Conversión de Habla Susurrada con MaskCycleGAN

Un nuevo método mejora la conversión de susurros a habla normal usando técnicas avanzadas.

2025-06-23T09:48:05+00:00 ― 6 minilectura

Sonido VoxInstruct: Una Nueva Manera de Generar Voz

VoxInstruct combina contenido y estilo para una generación de habla más natural.

2025-06-22T23:16:30+00:00 ― 6 minilectura

Sonido Avances en la Verificación de Voces Usando Whisper

Un nuevo método mejora la precisión del reconocimiento de voz en varios idiomas.

2025-06-22T18:25:00+00:00 ― 6 minilectura

Procesado de Audio y Voz Avances en la Mejora de Voz con Ventanas de Contexto Temporal

Explorando un nuevo enfoque para mejorar la calidad del habla usando ventanas de contexto temporal.

2025-06-22T17:36:25+00:00 ― 7 minilectura

Sonido Avances en tecnología de texto a voz

Nuevos métodos mejoran la calidad de la síntesis de voz en sistemas TTS.

2025-06-22T05:27:40+00:00 ― 5 minilectura

Procesado de Audio y Voz Presentamos SelectTTS: Un método de texto a voz simplificado

SelectTTS simplifica la generación de voz para hablantes desconocidos con una selección de cuadros efectiva.

2025-06-21T18:07:30+00:00 ― 6 minilectura

Procesado de Audio y Voz Avances en Aprendizaje Auto-Supervisado para Procesamiento de Voz

Un nuevo método mejora el rendimiento del modelo de habla en varias tareas.

2025-06-21T02:44:25+00:00 ― 7 minilectura

Sonido Avanzando en la detección de palabras clave con datos no etiquetados

Un nuevo método mejora la precisión de la detección de palabras clave usando datos de audio sin etiquetar.

2025-06-21T01:55:50+00:00 ― 8 minilectura

Neuronas y cognición Detección automática de deterioro cognitivo leve a través del análisis del habla

Investigaciones muestran que el análisis del habla puede ayudar en la detección temprana del deterioro cognitivo leve.

2025-06-21T01:11:33+00:00 ― 6 minilectura

Sonido Nuevo conjunto de datos mejora la tecnología de reconocimiento de voz

Los investigadores crean LibriheavyMix para mejorar el reconocimiento de voz en entornos ruidosos.

2025-06-20T22:41:30+00:00 ― 6 minilectura

Computación y lenguaje Avances en la tokenización del habla: Un marco para la evaluación

Un nuevo punto de referencia ayuda a evaluar los tokenizadores de habla para un mejor rendimiento.

2025-06-20T00:01:10+00:00 ― 7 minilectura

Computación y lenguaje Usando datos de voz para el diagnóstico del autismo

Un nuevo método aprovecha datos de voz para mejorar las evaluaciones de autismo.

2025-06-19T19:12:12+00:00 ― 7 minilectura

Procesado de Audio y Voz Avances en la síntesis de voz usando DDSP

Descubre cómo DDSP mejora la eficiencia y calidad de la síntesis de voz.

2025-06-18T17:15:00+00:00 ― 7 minilectura

Computación y lenguaje Desafíos en el reconocimiento de hablantes para modelos de lenguaje hablado

Los modelos de lenguaje de habla tienen potencial, pero les cuesta identificar a los hablantes en las conversaciones.

2025-06-17T08:03:05+00:00 ― 5 minilectura

Procesado de Audio y Voz Entrenamiento Eficiente de Modelos de Voz con Recursos Limitados

Este artículo habla sobre métodos de entrenamiento eficientes para modelos de voz usando aprendizaje auto-supervisado.

2025-06-16T15:02:50+00:00 ― 5 minilectura

Computación y lenguaje Mejorando los sistemas de voz para idiomas indios

Un nuevo conjunto de datos mejora la tecnología de habla multilingüe en India.

2025-06-15T18:48:15+00:00 ― 7 minilectura

Sonido Avances en la tecnología de texto a voz emocional

ParaEVITS mejora la expresión emocional en TTS a través de la guía del lenguaje natural.

2025-06-15T05:50:55+00:00 ― 6 minilectura

Computación y lenguaje Avanzando el Reconocimiento de Habla para el Idioma Faetar

Esfuerzos para mejorar la tecnología de voz para el idioma Faetar, que tiene pocos recursos.

2025-06-13T09:18:50+00:00 ― 6 minilectura

Computación y lenguaje WhisperNER: Mezclando Reconocimiento de Voz y Detección de Entidades

Un nuevo modelo combina el reconocimiento de voz y el reconocimiento de entidades para obtener mejores resultados.

2025-06-13T03:29:30+00:00 ― 6 minilectura

Procesado de Audio y Voz Avanzando el Reconocimiento de Voz para Personas con Trastornos

Un proyecto busca mejorar la tecnología de voz para quienes tienen dificultades de comunicación.

2025-06-12T12:15:40+00:00 ― 6 minilectura

Sonido Mejorando acentos en la tecnología de texto a voz

Un nuevo sistema mejora la precisión del acento en TTS para una mejor comunicación.

2025-06-12T08:12:45+00:00 ― 6 minilectura

Sonido ESPnet-EZ: Simplificando el desarrollo de modelos de voz

Una herramienta fácil de usar para ajustar modelos de voz sin necesidad de código complicado.

2025-06-11T15:12:30+00:00 ― 7 minilectura

Física cuántica Avanzando el Reconocimiento de Voz con Computación Cuántica

Un nuevo método que mejora el reconocimiento de voz mientras asegura la privacidad de los datos.

2025-06-11T07:18:42+00:00 ― 6 minilectura

Sonido Avances en técnicas de conversión de acentos

Un nuevo método para generar habla acentuada usando transliteración de texto.

2025-06-11T06:18:05+00:00 ― 7 minilectura

Procesado de Audio y Voz Mejorando la calidad del habla con Wave-U-Mamba

Wave-U-Mamba mejora grabaciones de voz de baja calidad para una comunicación más clara.

2025-06-11T04:40:55+00:00 ― 6 minilectura

Sonido Avances en la Evaluación de la Calidad del Habla

Un nuevo sistema predice las puntuaciones de naturalidad para el habla sintética usando métodos innovadores.

2025-06-11T03:52:20+00:00 ― 7 minilectura