Ingeniería Eléctrica y Ciencia de Sistemas - Procesado de Audio y Voz

RSS

Computación y lenguaje Mejorando el Aprendizaje de Pocas Ejemplos con Mecanismo de Atención

Un enfoque novedoso mejora el aprendizaje automático con menos ejemplos y datos multimodales.

2025-11-02T22:23:25+00:00 ― 7 minilectura

Sonido Estimando Respuestas de Impulso de Habitación con Múltiples Fuentes de Sonido

Un nuevo método para estimar las respuestas de las habitaciones en entornos sonoros complejos.

2025-11-02T21:34:50+00:00 ― 8 minilectura

Procesado de Audio y Voz Avances en la tecnología de conversión de voz

Un nuevo método para la conversión de voz mejora la claridad y la adaptación.

2025-11-02T19:57:40+00:00 ― 7 minilectura

Procesado de Audio y Voz Avanzando la conversión de texto a voz para lenguas túrquicas

Construyendo sistemas de TTS para lenguas turcas menos conocidas usando datos en kazajo.

2025-11-02T18:20:30+00:00 ― 6 minilectura

Sonido Presentamos MeLoDy: Generación de Música Rápida Revelada

MeLoDy genera rápidamente música de alta calidad a partir de textos.

2025-11-02T17:31:55+00:00 ― 6 minilectura

Sonido Abordando Amenazas de Seguridad en Sistemas de Reconocimiento de Voz

Emergen nuevos métodos para proteger el reconocimiento de voz de ataques adversarios.

2025-11-02T16:43:20+00:00 ― 6 minilectura

Procesado de Audio y Voz Presentamos AudioDec: Una Nueva Era en Streaming de Audio

AudioDec ofrece audio de alta calidad en tiempo real con bajo consumo de datos.

2025-11-02T15:06:10+00:00 ― 6 minilectura

Sonido Nuevo método revela riesgos de privacidad en modelos de difusión

Una nueva técnica verifica la exposición a datos de entrenamiento en modelos de difusión.

2025-11-02T13:29:00+00:00 ― 6 minilectura

Sonido Avances en la Separación de Voz con S4M

Un nuevo modelo mejora el aislamiento de voz en entornos ruidosos.

2025-11-02T10:14:40+00:00 ― 6 minilectura

Procesado de Audio y Voz Replicando el sonido de la cinta magnética con herramientas digitales

Este artículo habla de cómo recrear el sonido de la cinta magnética usando tecnología digital.

2025-11-02T09:26:05+00:00 ― 7 minilectura

Procesado de Audio y Voz Avances en la tecnología de síntesis de voz

Nuevo marco mejora la calidad de generación de voz en la síntesis de habla.

2025-11-02T06:11:45+00:00 ― 6 minilectura

Procesado de Audio y Voz Avances en Voces Sintéticas Personalizadas

Los investigadores desarrollan tecnología para recrear voces únicas para quienes tienen dificultades para hablar.

2025-11-01T23:43:05+00:00 ― 6 minilectura

Procesado de Audio y Voz Mejorando la Verificación de Hablantes con el Método OS-KDFT

Un nuevo método mejora la verificación de hablantes al combinar la destilación de conocimientos y el ajuste fino.

2025-11-01T22:05:55+00:00 ― 8 minilectura

Procesado de Audio y Voz DeCoR: Un Nuevo Método para Aprender Audio

DeCoR ayuda a las máquinas a aprender nuevos sonidos sin olvidar los viejos.

2025-11-01T21:17:20+00:00 ― 6 minilectura

Sonido Avances en el etiquetado de audio en tiempo real

Los transformadores de audio en streaming mejoran la velocidad y la eficiencia en los sistemas de etiquetado de audio.

2025-11-01T20:28:45+00:00 ― 7 minilectura

Computación y lenguaje Avances en Métodos de Transcripción de Voz

Nuevas técnicas mejoran la precisión y la velocidad en convertir voz a texto.

2025-11-01T16:25:50+00:00 ― 7 minilectura

Sonido Evaluando el habla disártica: Nuevos métodos para más claridad

Esta investigación presenta evaluaciones mejoradas para una comunicación más clara en personas con disartria.

2025-11-01T15:37:15+00:00 ― 6 minilectura

Sonido Abordando desafíos en el reconocimiento de voz con palabras enarmónicas

Un nuevo método mejora el reconocimiento de voz para nombres que suenan parecido.

2025-11-01T14:48:40+00:00 ― 6 minilectura

Procesado de Audio y Voz Mejorando la diversidad en la voz de los sistemas TTS

Un nuevo método mejora la naturalidad y variedad de la salida de texto a voz.

2025-11-01T13:11:30+00:00 ― 6 minilectura

Procesado de Audio y Voz Avances en Clasificación de Audio con Treff Adapter

El adaptador Treff mejora la clasificación de audio con datos etiquetados limitados.

2025-11-01T12:22:55+00:00 ― 6 minilectura

Aprendizaje automático Avances en Aprendizaje Auto-Supervisado Multitarea

Nuevos métodos mejoran la flexibilidad y el rendimiento del modelo en tareas de audio.

2025-11-01T08:20:00+00:00 ― 5 minilectura

Procesado de Audio y Voz Avances en el reconocimiento de emociones en el habla usando embebidos de hablante

La investigación destaca métodos efectivos para reconocer emociones en el habla utilizando embeddings.

2025-11-01T07:31:25+00:00 ― 7 minilectura

Sonido Etiquetado de audio eficiente con E-PANNs

Descubre cómo los E-PANNs mejoran la eficiencia en el reconocimiento de sonido.

2025-11-01T04:17:05+00:00 ― 6 minilectura

Computación y lenguaje Analizando dialectos a través del procesamiento de audio

Esta investigación analiza dialectos usando grabaciones de audio para revelar sus similitudes.

2025-11-01T02:39:55+00:00 ― 6 minilectura

Computación y lenguaje Avanzando en la comprensión del lenguaje hablado con unidades discretas

Un nuevo método mejora la comprensión del lenguaje hablado sin necesitar transcripciones escritas.

2025-11-01T00:14:10+00:00 ― 6 minilectura

Sonido Avances en técnicas de clasificación de audio

Un nuevo método mejora la clasificación de audio al aprender nuevos sonidos de manera eficiente.

2025-10-31T22:37:00+00:00 ― 5 minilectura

Sonido Avances en la tecnología de adaptación de texto a voz

Nuevo método mejora la adaptación de TTS con requisitos de datos mínimos.

2025-10-31T21:48:25+00:00 ― 7 minilectura

Computación y lenguaje Entendiendo la IA Explicable en Sistemas de Reconocimiento de Voz

Una visión general de los métodos de IA explicable en el reconocimiento automático de voz.

2025-10-31T20:11:15+00:00 ― 7 minilectura

Sonido Avanzando en la Pregunta y Respuesta de Audio con el Modelo MWAFM

Un nuevo modelo mejora la forma en que las máquinas entienden y responden a preguntas de audio.

2025-10-31T18:34:05+00:00 ― 7 minilectura

Procesado de Audio y Voz Evaluando el Turno de Habla en Sistemas de Texto a Voz

La investigación destaca la necesidad de mejorar el turno de palabra en la tecnología TTS.

2025-10-31T17:45:30+00:00 ― 7 minilectura

Computación y lenguaje Nuevo estándar para modelos de aprendizaje de voz

BabySLM evalúa qué tan bien las máquinas aprenden a entender el habla según el lenguaje de los niños.

2025-10-31T11:33:20+00:00 ― 8 minilectura

Procesado de Audio y Voz Optimizando el habla sintética para mejorar el entrenamiento de ASR

Un nuevo método mejora la selección de voz sintética para aumentar la precisión del sistema ASR.

2025-10-31T08:51:05+00:00 ― 7 minilectura

Procesado de Audio y Voz Mejorando la alineación de trastornos del habla con nuevas técnicas

Un nuevo método alinea el habla sin fluidez con el texto de manera eficiente.

2025-10-31T08:02:30+00:00 ― 6 minilectura

Sonido Avances en Interfaces de Habla Silenciosa

Mejorando sistemas para el reconocimiento de voz silenciosa con nuevas técnicas.

2025-10-31T07:13:55+00:00 ― 6 minilectura

Computación y lenguaje Mejorando la precisión del ASR con sesgo contextual

Nuevos métodos mejoran el reconocimiento automático de voz para palabras raras usando contexto.

2025-10-31T02:22:25+00:00 ― 7 minilectura

Sonido Avances en la detección de palabras clave debidamente supervisada

Un nuevo método para entrenar modelos de detección de palabras clave usando supervisión débil en entornos ruidosos.

2025-10-31T01:33:50+00:00 ― 7 minilectura

Computación y lenguaje Avanzando la traducción de voz para lenguas de bajo recurso

Métodos para mejorar los sistemas de traducción de habla para lenguas subrepresentadas.

2025-10-31T00:45:15+00:00 ― 5 minilectura

Sonido MERT: Un modelo autoguiado para entender la música

MERT aborda los desafíos del modelado musical a través de técnicas innovadoras de aprendizaje auto-supervisado.

2025-10-30T23:56:40+00:00 ― 7 minilectura

Sonido Mejorando los modelos RNN-T con aprendizaje por refuerzo

Un nuevo enfoque mejora el rendimiento de RNN-T en el reconocimiento automático del habla.

2025-10-30T19:53:45+00:00 ― 8 minilectura

Procesado de Audio y Voz AVLIT: Avanzando en la Separación de Voz en Ruido

El modelo AVLIT combina sonido y video para mejorar la claridad del habla en entornos ruidosos.

2025-10-30T18:16:35+00:00 ― 7 minilectura