Ingeniería Eléctrica y Ciencia de Sistemas - Procesado de Audio y Voz

RSS

Computación y lenguaje Mejorando el Reconocimiento de Voz en el Aula con un Preentrenamiento Continuo

El reconocimiento de voz mejorado para aulas usando técnicas de entrenamiento avanzadas mejora el aprendizaje.

2025-08-05T19:06:15+00:00 ― 8 minilectura

Aprendizaje automático Abordando la Alucinación en Modelos de IA

Entender y mitigar las alucinaciones en la IA para un rendimiento confiable.

2025-08-05T17:29:05+00:00 ― 9 minilectura

Sonido Nuevo método usa gráficos para el análisis de música

Un nuevo enfoque utiliza redes neuronales de convolución gráfica para un análisis eficiente de datos de música.

2025-08-05T15:51:55+00:00 ― 11 minilectura

Procesado de Audio y Voz Avances en técnicas de coincidencia audio-texto

Nuevos métodos mejoran las conexiones entre clips de audio y descripciones de texto.

2025-08-05T14:14:45+00:00 ― 7 minilectura

Procesado de Audio y Voz Mejorando la Transcripción de la Voz Cantada con el Modelo ROSVOT

ROSVOT mejora la precisión al transcribir voces cantando, incluso en ambientes ruidosos.

2025-08-05T10:11:50+00:00 ― 7 minilectura

Procesado de Audio y Voz Mejorando la Claridad de la Voz en Entornos Ruidosos

Nuevas técnicas mejoran la reconstrucción de voz en entornos difíciles usando datos limitados.

2025-08-05T02:06:00+00:00 ― 9 minilectura

Visión por Computador y Reconocimiento de Patrones Un Nuevo Enfoque para la Generación de Contenido Audiovisual

Presentando un modelo que genera audio y video sincronizados con niveles de ruido mezclados.

2025-08-04T14:45:50+00:00 ― 6 minilectura

Interacción Persona-Ordenador Avanzando en la Comunicación de Robots: Solución para el Hablar Simultáneo

Un nuevo sistema mejora las interacciones de los robots al filtrar el habla superpuesta.

2025-08-04T13:57:15+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Un Modelo Simple para la Generación Audio-Visual

Este artículo habla de un nuevo modelo sencillo para generar audio a partir de imágenes y viceversa.

2025-08-04T09:05:45+00:00 ― 6 minilectura

Aprendizaje automático Avances en el Reconocimiento Automático de Voz con Modelos de Lenguaje de Desruido

Los modelos de lenguaje de eliminación de ruido mejoran la corrección de errores en los sistemas de reconocimiento de voz usando datos sintéticos.

2025-08-03T22:34:10+00:00 ― 9 minilectura

Procesado de Audio y Voz Avances en Mejora de Voz con VPIDM

El nuevo modelo VPIDM mejora la claridad del habla en ambientes ruidosos.

2025-08-03T16:54:05+00:00 ― 7 minilectura

Sonido NeRAF: Fusionando sonido y visuales para realismo

NeRAF crea sonidos y visuales sincronizados para experiencias inmersivas en varios ámbitos.

2025-08-03T07:11:05+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Enfoque innovador para la generación conjunta de audio y video

Un nuevo método mejora la alineación de audio y video usando modelos preentrenados.

2025-08-03T04:45:20+00:00 ― 7 minilectura

Aprendizaje automático Zipper: Un Nuevo Enfoque para la IA Multimodal

Zipper combina de manera efectiva diferentes tipos de datos para tener modelos de IA más inteligentes.

2025-08-03T03:08:10+00:00 ― 7 minilectura

Sonido Mejorando el Monitoreo de Juntas Atornilladas con Aprendizaje Profundo

Usando deep learning para mejorar la monitorización de emisiones acústicas en uniones atornilladas.

2025-08-02T21:28:05+00:00 ― 9 minilectura

Visión por Computador y Reconocimiento de Patrones Uniendo Sonido y Movimiento en la Música

Un nuevo enfoque para combinar canto y baile a través de técnicas informáticas avanzadas.

2025-08-02T20:39:30+00:00 ― 7 minilectura

Sonido Avances en Técnicas de Relleno de Habla

Descubre cómo la pintura de voz está restaurando la calidad del audio en varios campos.

2025-08-02T18:13:45+00:00 ― 8 minilectura

Procesado de Audio y Voz Reduciendo la Interferencia para un Habla Más Clara

Un nuevo sistema mejora la claridad del habla en entornos con múltiples hablantes.

2025-08-02T14:10:50+00:00 ― 6 minilectura

Procesado de Audio y Voz Avances en la tecnología de reconocimiento de emociones en el habla

Nuevos métodos mejoran cómo las máquinas reconocen emociones en el habla.

2025-08-02T13:22:15+00:00 ― 7 minilectura

Sonido Avances en la generación de video a audio con Frieren

El modelo Frieren mejora la calidad de audio y la sincronización para videos.

2025-08-02T10:07:55+00:00 ― 7 minilectura

Sonido Síntesis de audio innovadora a partir de descripciones de texto

Un nuevo método genera sonidos únicos a partir de texto usando un sintetizador sencillo.

2025-08-02T08:30:45+00:00 ― 9 minilectura

Computación y lenguaje Avances en la tecnología de traducción de voz

Un nuevo método mejora la traducción de voz en entornos ruidosos y mantiene la expresividad.

2025-08-01T13:53:20+00:00 ― 5 minilectura

Procesado de Audio y Voz Avances en la Identificación de Ragas con un Nuevo Conjunto de Datos

Un nuevo conjunto de datos mejora el estudio de la identificación de Raga en la música india.

2025-08-01T12:16:10+00:00 ― 7 minilectura

Procesado de Audio y Voz Avances en la tecnología de texto a voz

Seed-TTS crea habla realista a partir de texto para varias aplicaciones.

2025-08-01T10:39:00+00:00 ― 5 minilectura

Procesado de Audio y Voz Avances en la tecnología de convertir habla en canto

Un nuevo método mejora la conversión de voz a canto usando aprendizaje auto-supervisado.

2025-08-01T09:50:25+00:00 ― 8 minilectura

Computación y lenguaje StreamSpeech: Una nueva forma de traducir el habla

StreamSpeech mejora la traducción de voz en tiempo real con eficiencia y calidad.

2025-08-01T03:21:45+00:00 ― 5 minilectura

Procesado de Audio y Voz Presentando el Modelo 4D en el Reconocimiento de Voz

Un nuevo modelo mejora el reconocimiento de voz usando múltiples métodos de decodificación.

2025-08-01T01:44:35+00:00 ― 8 minilectura

Computación y lenguaje Mejorando el reconocimiento de voz en árabe a través de la destilación de conocimiento

Un estudio sobre cómo mejorar el reconocimiento de voz automática (ASR) para dialectos árabes usando técnicas de modelos eficientes.

2025-07-31T23:18:50+00:00 ― 6 minilectura

Computación y lenguaje BLSP-Emo: Un Nuevo Paso en la IA Empática

Te presento BLSP-Emo, un modelo que entiende el habla y las emociones para tener mejores interacciones.

2025-07-31T21:41:40+00:00 ― 6 minilectura

Interacción Persona-Ordenador Revisando la Interpretación de Datos: Estudio de Sonido y Visuales

Un estudio reciente replica hallazgos clave sobre la interpretación de datos usando sonido y visuales.

2025-07-31T20:04:30+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Combinando texto e imágenes para la generación de música

Un nuevo modelo genera música usando tanto texto como información visual.

2025-07-31T12:47:15+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones DenseAV: Uniendo Sonidos e Imágenes

Un sistema que conecta sonidos con imágenes, mejorando la comprensión de las máquinas.

2025-07-31T10:21:30+00:00 ― 7 minilectura

Procesado de Audio y Voz Avances en la síntesis de voz con ARDiT

El nuevo modelo ARDiT mejora la síntesis de texto a voz y la edición de audio.

2025-07-31T07:55:45+00:00 ― 7 minilectura

Procesado de Audio y Voz Avances en técnicas de separación de voz

Nuevos métodos mejoran la claridad al aislar voces de mezclas de audio.

2025-07-31T04:41:25+00:00 ― 5 minilectura

Computación y lenguaje Mejorando la comprensión de la IA a través del análisis contextual

Te presento SPICE, una tarea para mejorar las interacciones de la IA usando información contextual.

2025-07-30T23:49:55+00:00 ― 9 minilectura

Sonido Avances en el procesamiento musical cross-modal

La investigación presenta el conjunto de datos MOSA, mejorando la comprensión de los aspectos visuales y auditivos de la música.

2025-07-30T23:01:20+00:00 ― 8 minilectura

Computación y lenguaje Presentando mHuBERT-147: Un Modelo de Voz Compacto

mHuBERT-147 procesa el habla en varios idiomas de manera eficiente.

2025-07-30T22:12:45+00:00 ― 5 minilectura

Sonido Transformando la subtitulación de audio a través de métodos innovadores

Un nuevo enfoque para la subtitulación de audio reduce la dependencia de datos emparejados.

2025-07-30T21:24:10+00:00 ― 7 minilectura

Sonido Avances en el reconocimiento de emociones a través del habla

Nuevos métodos mejoran cómo las máquinas reconocen emociones en el habla humana.

2025-07-30T18:09:50+00:00 ― 7 minilectura

Procesado de Audio y Voz Avances en la tecnología de diarización de habla objetivo

Una mirada a nuevos métodos para entender el habla entrecortada durante las conversaciones.

2025-07-30T14:06:55+00:00 ― 9 minilectura