Últimos artículos para Tecnología de voz

Sonido DiCon: Un Nuevo Enfoque para la Síntesis de Voz

Presentamos un método más rápido para la síntesis de voz de alta calidad usando modelos de difusión.

2025-09-09T03:24:05+00:00 ― 7 minilectura

Procesado de Audio y Voz HiFTNet: Avanzando la tecnología de texto a voz

HiFTNet ofrece una síntesis de voz más rápida y de alta calidad usando técnicas innovadoras y eficientes.

2025-09-09T02:35:30+00:00 ― 6 minilectura

Sonido Mejorando el Reconocimiento de Voz con Entrenamiento en Tiempo de Prueba

Explora cómo TTT mejora el reconocimiento de voz al adaptarse a cambios en la distribución.

2025-09-08T14:26:45+00:00 ― 8 minilectura

Procesado de Audio y Voz Presentamos el modelo SPGM para separación de voz

Un nuevo modelo mejora la eficiencia y el rendimiento en la separación de voces.

2025-09-07T10:54:55+00:00 ― 6 minilectura

Procesado de Audio y Voz Mejorando el Reconocimiento de Voz con Técnicas de Aumento de Audio

Un estudio muestra que la augmentación de audio puede mejorar el reconocimiento de voz en lenguas con pocos recursos.

2025-09-06T09:48:50+00:00 ― 7 minilectura

Sonido Transformando los movimientos de la lengua en sonidos del habla

Este estudio convierte datos de MRI de la lengua en audio de voz real.

2025-09-04T22:11:10+00:00 ― 5 minilectura

Computación y lenguaje Mejorando el Reconocimiento de Voz con Adaptación de Bajo Rango

Un nuevo método mejora la eficiencia del reconocimiento de voz utilizando adaptación de bajo rango.

2025-09-04T00:19:25+00:00 ― 6 minilectura

Computación y lenguaje HyPoradise: Mejorando la Precisión del Reconocimiento Automático de Voz

Un nuevo estándar para mejorar la precisión del ASR usando modelos de lenguaje.

2025-09-02T23:13:20+00:00 ― 7 minilectura

Procesado de Audio y Voz Avances en modelos de texto a voz conversacional

Un nuevo enfoque para la generación de habla pequeña, eficiente y que suene natural.

2025-08-31T09:41:00+00:00 ― 11 minilectura

Computación y lenguaje Mejorando el reconocimiento de voz con datos acústicos

Un nuevo método integra información acústica en los modelos de lenguaje para mejorar el reconocimiento de voz.

2025-08-25T02:15:55+00:00 ― 10 minilectura

Sonido Capturando el Ritmo del Habla: Un Nuevo Método

Un nuevo enfoque para sintetizar voces con una mejor precisión rítmica.

2025-08-24T23:50:10+00:00 ― 10 minilectura

Procesado de Audio y Voz Avances en la tecnología de texto a voz

Técnicas innovadoras para mejorar los modelos de TTS y reducir la pérdida de conocimiento.

2025-08-23T08:09:35+00:00 ― 7 minilectura

Sonido Efectos del Tamaño del Lote en el Entrenamiento del Modelo de Voz

Este estudio revisa cómo el tamaño del lote influye en el rendimiento y entrenamiento del modelo de voz.

2025-08-22T20:00:50+00:00 ― 9 minilectura

Procesado de Audio y Voz Mejorando modelos de voz con RobustDistiller

Un nuevo método mejora el rendimiento y la eficiencia del modelo de voz en entornos ruidosos.

2025-08-18T05:53:30+00:00 ― 6 minilectura

Sonido Avances en las características de voz de texto a habla

Un estudio sobre cómo mejorar los sistemas de TTS con muestras de voz diversas.

2025-08-16T12:35:45+00:00 ― 5 minilectura

Computación y lenguaje Clasificando subdialectos del kurdo sorani a través de datos de audio

La investigación identifica y clasifica los dialectos kurdos sorani usando grabaciones de audio extensas.

2025-08-14T07:57:50+00:00 ― 7 minilectura

Procesado de Audio y Voz Mejorando el texto a voz con RALL-E

RALL-E mejora la síntesis de texto a voz para que suene más clara y natural.

2025-08-13T01:11:40+00:00 ― 6 minilectura

Procesado de Audio y Voz Avanzando el Aprendizaje de Audio con M2D y M2D-X

Nuevos métodos mejoran la representación de audio a través de técnicas de aprendizaje auto-supervisado.

2025-08-12T07:22:50+00:00 ― 7 minilectura

Sonido Avances en la tecnología de edición de atributos de voz

Nuevo modelo permite un control preciso de las cualidades de la voz mientras se mantiene el contenido.

2025-08-11T18:25:30+00:00 ― 5 minilectura

Procesado de Audio y Voz Evaluando Modelos de Procesamiento de Voz con SUPERB

Un nuevo marco para evaluar modelos base en tareas de habla.

2025-08-11T09:31:05+00:00 ― 9 minilectura

Interacción Persona-Ordenador Reacciones de los usuarios a los agentes de voz adaptativos

Un estudio revela que los usuarios prefieren agentes de voz estáticos en lugar de adaptativos.

2025-08-11T09:29:30+00:00 ― 10 minilectura

Procesado de Audio y Voz FlashSpeech: Un Salto en la Sintetización de Voz

FlashSpeech ofrece soluciones de síntesis de voz rápidas y de alta calidad.

2025-08-10T03:33:30+00:00 ― 8 minilectura

Procesado de Audio y Voz Avanzando en la extracción de hablantes objetivo de audio y video con SEANet

SEANet mejora el aislamiento del hablante al reducir el ruido en el procesamiento de audio.

2025-08-08T20:47:20+00:00 ― 8 minilectura

Procesado de Audio y Voz Avanzando en ASR: Un Nuevo Enfoque de Aprendizaje

Un método de aprendizaje activo en dos etapas mejora la precisión del reconocimiento de voz con menos datos.

2025-08-08T02:09:55+00:00 ― 6 minilectura

Computación y lenguaje Evaluando sistemas de ASR para habla tartamuda

Este estudio evalúa el rendimiento de los sistemas de ASR con personas que tartamudean.

2025-08-07T04:18:10+00:00 ― 10 minilectura

Computación y lenguaje Examinando la seguridad de los modelos de lenguaje

Este artículo investiga las vulnerabilidades en los modelos de voz y formas de mejorar su seguridad.

2025-08-05T23:09:10+00:00 ― 6 minilectura

Procesado de Audio y Voz Avances en la tecnología de reconocimiento de emociones en el habla

Nuevos métodos mejoran cómo las máquinas reconocen emociones en el habla.

2025-08-02T13:22:15+00:00 ― 7 minilectura

Procesado de Audio y Voz Avances en la tecnología de texto a voz

Seed-TTS crea habla realista a partir de texto para varias aplicaciones.

2025-08-01T10:39:00+00:00 ― 5 minilectura

Procesado de Audio y Voz Avances en la síntesis de voz con ARDiT

El nuevo modelo ARDiT mejora la síntesis de texto a voz y la edición de audio.

2025-07-31T07:55:45+00:00 ― 7 minilectura

Computación y lenguaje Presentando mHuBERT-147: Un Modelo de Voz Compacto

mHuBERT-147 procesa el habla en varios idiomas de manera eficiente.

2025-07-30T22:12:45+00:00 ― 5 minilectura

Procesado de Audio y Voz Avances en el Reconocimiento Automático de Voz con TTA Dinámico

Nuevos métodos mejoran el reconocimiento de voz en entornos ruidosos usando técnicas adaptativas.

2025-07-29T13:49:25+00:00 ― 8 minilectura

Procesado de Audio y Voz Nuevo Marco para la Producción de Habla Clara

Un nuevo método que optimiza el análisis y la síntesis del habla usando los movimientos del tracto vocal.

2025-07-28T20:49:10+00:00 ― 8 minilectura

Sonido Mejorando la Diarización de Hablantes con Embeddings de Hablante

Un estudio sobre cómo mejorar la segmentación de audio integrando incrustaciones de hablante.

2025-07-24T21:16:20+00:00 ― 6 minilectura

Computación y lenguaje Cerrando la brecha en los dialectos yoruba

Nuevos esfuerzos tienen como objetivo apoyar los dialectos yoruba en la tecnología del lenguaje.

2025-07-23T15:03:36+00:00 ― 6 minilectura

Computación y lenguaje Wav2Vec2.0 y el Sonido del Reconocimiento de Voz

Este artículo habla sobre cómo Wav2Vec2.0 procesa los sonidos del habla usando fonología.

2025-07-23T05:35:45+00:00 ― 6 minilectura

Computación y lenguaje Avanzando la tecnología de voz para el árabe tunecino

Este estudio evalúa la tecnología de voz en lenguas de bajos recursos como el árabe tunecino.

2025-07-21T12:18:00+00:00 ― 6 minilectura

Procesado de Audio y Voz Mejorando la Síntesis de Voz con Modelado Subcentro

Mejorando la síntesis de voz para generar voces más naturales y expresivas.

2025-07-21T03:23:35+00:00 ― 6 minilectura

Procesado de Audio y Voz Una nueva forma de editar sonidos de habla

Presentamos un método para tener mejor control en la edición de audio.

2025-07-20T12:49:05+00:00 ― 6 minilectura

Procesado de Audio y Voz Presentamos a Emilia: Un nuevo conjunto de datos para generación de habla

Emilia ofrece un conjunto de datos diverso para mejorar los modelos de generación de voz.

2025-07-20T09:34:45+00:00 ― 7 minilectura

Procesado de Audio y Voz Evaluando la eficiencia de Mamba en tecnología del habla

Mamba promete mucho contra transformers en tareas de habla, especialmente con entradas largas.

2025-07-17T13:33:45+00:00 ― 5 minilectura