Ingeniería Eléctrica y Ciencia de Sistemas - Procesado de Audio y Voz

RSS

Sonido Avances en la tecnología de adaptación de texto a voz

Nuevo método mejora la adaptación de TTS con requisitos de datos mínimos.

2025-10-31T21:48:25+00:00 ― 7 minilectura

Computación y lenguaje Entendiendo la IA Explicable en Sistemas de Reconocimiento de Voz

Una visión general de los métodos de IA explicable en el reconocimiento automático de voz.

2025-10-31T20:11:15+00:00 ― 7 minilectura

Sonido Avanzando en la Pregunta y Respuesta de Audio con el Modelo MWAFM

Un nuevo modelo mejora la forma en que las máquinas entienden y responden a preguntas de audio.

2025-10-31T18:34:05+00:00 ― 7 minilectura

Procesado de Audio y Voz Evaluando el Turno de Habla en Sistemas de Texto a Voz

La investigación destaca la necesidad de mejorar el turno de palabra en la tecnología TTS.

2025-10-31T17:45:30+00:00 ― 7 minilectura

Computación y lenguaje Nuevo estándar para modelos de aprendizaje de voz

BabySLM evalúa qué tan bien las máquinas aprenden a entender el habla según el lenguaje de los niños.

2025-10-31T11:33:20+00:00 ― 8 minilectura

Procesado de Audio y Voz Optimizando el habla sintética para mejorar el entrenamiento de ASR

Un nuevo método mejora la selección de voz sintética para aumentar la precisión del sistema ASR.

2025-10-31T08:51:05+00:00 ― 7 minilectura

Procesado de Audio y Voz Mejorando la alineación de trastornos del habla con nuevas técnicas

Un nuevo método alinea el habla sin fluidez con el texto de manera eficiente.

2025-10-31T08:02:30+00:00 ― 6 minilectura

Sonido Avances en Interfaces de Habla Silenciosa

Mejorando sistemas para el reconocimiento de voz silenciosa con nuevas técnicas.

2025-10-31T07:13:55+00:00 ― 6 minilectura

Computación y lenguaje Mejorando la precisión del ASR con sesgo contextual

Nuevos métodos mejoran el reconocimiento automático de voz para palabras raras usando contexto.

2025-10-31T02:22:25+00:00 ― 7 minilectura

Sonido Avances en la detección de palabras clave debidamente supervisada

Un nuevo método para entrenar modelos de detección de palabras clave usando supervisión débil en entornos ruidosos.

2025-10-31T01:33:50+00:00 ― 7 minilectura

Computación y lenguaje Avanzando la traducción de voz para lenguas de bajo recurso

Métodos para mejorar los sistemas de traducción de habla para lenguas subrepresentadas.

2025-10-31T00:45:15+00:00 ― 5 minilectura

Sonido MERT: Un modelo autoguiado para entender la música

MERT aborda los desafíos del modelado musical a través de técnicas innovadoras de aprendizaje auto-supervisado.

2025-10-30T23:56:40+00:00 ― 7 minilectura

Sonido Mejorando los modelos RNN-T con aprendizaje por refuerzo

Un nuevo enfoque mejora el rendimiento de RNN-T en el reconocimiento automático del habla.

2025-10-30T19:53:45+00:00 ― 8 minilectura

Procesado de Audio y Voz AVLIT: Avanzando en la Separación de Voz en Ruido

El modelo AVLIT combina sonido y video para mejorar la claridad del habla en entornos ruidosos.

2025-10-30T18:16:35+00:00 ― 7 minilectura

Aprendizaje automático Abordando el Aprendizaje Rápido en Sistemas de Reconocimiento de Voz

Examinando el impacto de los datos sesgados en las tecnologías de detección de audio.

2025-10-30T17:28:00+00:00 ― 7 minilectura

Sonido Mejorando la separación de voces con micrófonos múltiples

Un nuevo método mejora la separación de voces usando múltiples micrófonos sin datos etiquetados.

2025-10-30T15:50:50+00:00 ― 5 minilectura

Sonido Avanzando en técnicas de anti-sabotaje de audio

Un estudio mejora los modelos de verificación de voz para una mejor protección de identidad.

2025-10-30T15:02:15+00:00 ― 7 minilectura

Computación y lenguaje Avances en sistemas de preguntas y respuestas de audio

Nuevos modelos mejoran cómo las máquinas responden a preguntas basadas en audio.

2025-10-30T13:25:05+00:00 ― 5 minilectura

Computación y lenguaje Mejorando la identificación de idiomas en el habla de cambio de código

La investigación busca mejorar la detección de idiomas en conversaciones en inglés y mandarín.

2025-10-30T12:36:30+00:00 ― 9 minilectura

Computación y lenguaje Avances en la síntesis de voz en suizo alemán

Nuevos métodos mejoran la síntesis de voz para el suizo alemán a partir de texto en alemán estándar.

2025-10-30T10:59:20+00:00 ― 6 minilectura

Computación y lenguaje Avances en sistemas de reconocimiento de voz multilingües

Explorando métodos para mejorar el reconocimiento de voz multilingüe en idiomas indios.

2025-10-30T10:10:45+00:00 ― 7 minilectura

Sonido Avanzando en la Detección de Actividad de Voz con SVVAD

Descubre cómo SVVAD mejora la detección de actividad de voz para una mejor verificación del hablante.

2025-10-30T09:22:10+00:00 ― 6 minilectura

Sonido Avances en la Evaluación Automática de Pronunciación

Un nuevo método mejora la retroalimentación de pronunciación para los que aprenden idiomas.

2025-10-30T08:33:35+00:00 ― 7 minilectura

Computación y lenguaje Midiendo la Adaptabilidad en Modelos de Reconocimiento de Voz

Un nuevo marco evalúa qué tan bien los modelos de voz se adaptan a tareas específicas.

2025-10-30T06:56:25+00:00 ― 7 minilectura

Computación y lenguaje Avances en la traducción de voz multilingüe

La investigación mejora la traducción de voz multilingüe usando conocimiento semántico.

2025-10-30T06:07:50+00:00 ― 5 minilectura

Sonido Avanzando en el procesamiento de voz con HuBERT

Los modelos HuBERT mejoran las tareas de habla usando múltiples resoluciones para un mejor rendimiento.

2025-10-29T22:02:00+00:00 ― 6 minilectura

Procesado de Audio y Voz Avances en la tecnología de identificación de altavoces

Nuevas técnicas mejoran la precisión en reconocer voces y detectar impostores.

2025-10-29T20:24:50+00:00 ― 5 minilectura

Sonido Mejorando los efectos de audio analógicos virtuales con aprendizaje profundo

Un nuevo enfoque mejora la respuesta de fase en efectos de audio virtuales usando aprendizaje profundo.

2025-10-29T18:47:40+00:00 ― 6 minilectura

Sonido Desaceleración en el Reconocimiento de Voz: Una Mirada Más Cernida a SlothSpeech

SlothSpeech revela vulnerabilidades en sistemas de reconocimiento de voz, haciéndolos mucho más lentos.

2025-10-29T17:10:30+00:00 ― 5 minilectura

Sonido UnDiff: Un Nuevo Enfoque para la Claridad de Audio

UnDiff mejora la calidad del audio con técnicas innovadoras de restauración de voz.

2025-10-29T16:21:55+00:00 ― 7 minilectura

Computación y lenguaje Nuevas ideas sobre el modelado generativo del lenguaje hablado

Los investigadores analizan cómo el GSLM procesa el habla en entornos ruidosos.

2025-10-29T15:33:20+00:00 ― 7 minilectura

Sonido Avances en la tecnología de detección de tartamudeo

Nuevos métodos en el aprendizaje automático mejoran las capacidades de detección de tartamudeo.

2025-10-29T14:44:45+00:00 ― 6 minilectura

Sonido EmoMix: Avanzando en la Síntesis de Voz Emocional

EmoMix permite crear discursos que expresan emociones mixtas con una intensidad precisa.

2025-10-29T13:56:10+00:00 ― 6 minilectura

Sonido MW-MAE: Un Nuevo Enfoque para el Aprendizaje de Audio

Descubre el innovador método de Autoencoder Máscara de Ventana Múltiple para un mejor procesamiento de audio.

2025-10-29T11:30:25+00:00 ― 6 minilectura

Sonido Mejorando la restauración de audio con pistas visuales

Un nuevo método combina datos de audio y visuales para reparar el habla que falta.

2025-10-29T10:41:50+00:00 ― 7 minilectura

Computación y lenguaje Abordando el discurso de odio en idiomas de bajos recursos

Explorando métodos para detectar discurso de odio en transmisiones de audio de lenguas con pocos recursos.

2025-10-29T09:04:40+00:00 ― 5 minilectura

Procesado de Audio y Voz Reviviendo el Sonido: El Método BABE para la Restauración de Audio

Un nuevo método restaura las frecuencias altas perdidas en grabaciones históricas.

2025-10-29T06:38:55+00:00 ― 8 minilectura

Procesado de Audio y Voz Mejorando la tecnología ASR con minimización de entropía generalizada a nivel secuencial

Un nuevo método mejora los sistemas de reconocimiento de voz automático para una mejor precisión y adaptabilidad.

2025-10-29T02:36:00+00:00 ― 7 minilectura

Sonido Avanzando la simulación de sonido con BEDRF

Un nuevo modelo mejora la difracción del sonido en entornos virtuales.

2025-10-29T01:47:25+00:00 ― 8 minilectura

Computación y lenguaje Mejorando el Reconocimiento de Voz con Sesgo Contextual

El sesgo contextual mejora los sistemas de reconocimiento de voz, aumentando la precisión en tareas especializadas.

2025-10-29T00:58:50+00:00 ― 6 minilectura