Ingeniería Eléctrica y Ciencia de Sistemas - Procesado de Audio y Voz

RSS

Procesado de Audio y Voz Avances en el Reconocimiento Automático de Voz con TTA Dinámico

Nuevos métodos mejoran el reconocimiento de voz en entornos ruidosos usando técnicas adaptativas.

2025-07-29T13:49:25+00:00 ― 8 minilectura

Sonido SPEAR: Un Nuevo Enfoque para el Análisis de Sonido

SPEAR predice el comportamiento del sonido en espacios 3D usando una mínima recolección de datos.

2025-07-29T10:35:05+00:00 ― 7 minilectura

Computación y lenguaje Avances en la traducción de discurso con cambio de código

Un nuevo método mejora la traducción de habla en varios idiomas al inglés.

2025-07-29T09:46:30+00:00 ― 6 minilectura

Sonido Mejorando la Verificación de Habla en Comunicaciones de Radio

Un nuevo método mejora la precisión de verificación de hablantes en entornos de radio difíciles.

2025-07-29T08:57:55+00:00 ― 8 minilectura

Sonido Mejorando ataques de puerta trasera en el reconocimiento de voz

Nuevo método apunta a cambios de ritmo para ataques de habla sigilosos.

2025-07-29T08:09:20+00:00 ― 7 minilectura

Sonido GAMA: Un Nuevo Modelo para Entender el Sonido

GAMA mejora el procesamiento de audio al fusionar conocimientos de sonido y lenguaje.

2025-07-29T04:55:00+00:00 ― 7 minilectura

Procesado de Audio y Voz AV-CrossNet: Mejorando el Reconocimiento de Voz en Ruido

Un nuevo sistema ayuda a separar el habla del ruido para una comunicación más clara.

2025-07-29T03:17:50+00:00 ― 7 minilectura

Procesado de Audio y Voz GigaSpeech 2: Un Nuevo Conjunto de Datos para el Reconocimiento de Voz

GigaSpeech 2 ofrece un montón de datos para lenguas de pocos recursos para mejorar el reconocimiento de voz.

2025-07-29T02:29:15+00:00 ― 6 minilectura

Procesado de Audio y Voz Revolucionando el texto a voz con DiTTo-TTS

Un nuevo modelo mejora la tecnología de texto a voz con eficiencia y adaptabilidad.

2025-07-29T01:40:40+00:00 ― 7 minilectura

Procesado de Audio y Voz Nuevo Marco para la Producción de Habla Clara

Un nuevo método que optimiza el análisis y la síntesis del habla usando los movimientos del tracto vocal.

2025-07-28T20:49:10+00:00 ― 8 minilectura

Interacción Persona-Ordenador El impacto de los gestos en las explicaciones virtuales

Este estudio examina cómo los gestos afectan el aprendizaje de los agentes virtuales.

2025-07-28T19:12:00+00:00 ― 8 minilectura

Procesado de Audio y Voz DExter: Un Nuevo Enfoque para una Interpretación Expresiva del Piano

DExter usa IA para crear música de piano expresiva a partir de partituras escritas.

2025-07-28T10:17:35+00:00 ― 7 minilectura

Sonido Diarización de hablantes en tiempo real: una visión general

Infórmate sobre la diarización de hablantes en línea y su importancia en varias aplicaciones.

2025-07-28T06:14:40+00:00 ― 8 minilectura

Sonido Evaluando Tokens de Audio Discretos para Tareas de Habla

Nueva herramienta de referencia evalúa tokens de audio discretos para varias tareas de procesamiento de voz.

2025-07-28T04:37:30+00:00 ― 10 minilectura

Sonido Avances en la Generación Musical Estructurada con SING

Un nuevo método para la generación de música usando matrices de auto-similitud y sistemas de atención.

2025-07-28T01:23:10+00:00 ― 8 minilectura

Sonido Avances en modelado de audio con GANs

Nuevas técnicas mejoran la modelación de amplificadores de guitarra usando datos no emparejados y GANs.

2025-07-27T22:08:50+00:00 ― 8 minilectura

Procesado de Audio y Voz Avances en la Conversión de Voz Multilingüe

Un nuevo método mejora la conversión de voz entre idiomas mientras conserva las características del hablante.

2025-07-27T15:40:10+00:00 ― 5 minilectura

Sonido Analizando Modelos de Audio con Disectación de Redes

Un nuevo método para entender cómo los modelos de audio hacen predicciones.

2025-07-27T12:25:50+00:00 ― 6 minilectura

Sonido Avanzando en la Conversión de Voz con Conciencia Espacial

Introduciendo la conversión de voz espacial para mejorar el realismo y la inmersión del audio.

2025-07-27T01:54:15+00:00 ― 7 minilectura

Procesado de Audio y Voz WavRx: Un Nuevo Modelo para Diagnósticos de Salud Basados en el Habla

WavRx analiza el habla para la salud mientras protege la privacidad, mostrando resultados diagnósticos prometedores.

2025-07-26T21:51:20+00:00 ― 9 minilectura

Computación y lenguaje Analizando el habla para evaluar el riesgo de suicidio

La investigación explora cómo el análisis del habla puede predecir el riesgo de suicidio, considerando las diferencias de género.

2025-07-26T13:45:30+00:00 ― 6 minilectura

Sonido Una nueva herramienta para la visualización musical

Este documento presenta un sistema para crear visuales que responden a la música.

2025-07-26T10:31:10+00:00 ― 9 minilectura

Robótica Aprendizaje con Sonido: Una Nueva Era para los Robots

Un nuevo sistema ayuda a los robots a aprender tareas utilizando audio de demostraciones en la vida real.

2025-07-26T09:42:35+00:00 ― 8 minilectura

Procesado de Audio y Voz Avances en la Detección de Eventos Sonoros para 2024

Nuevos métodos mejoran la precisión al reconocer sonidos superpuestos de diversas fuentes de audio.

2025-07-26T07:16:50+00:00 ― 7 minilectura

Computación y lenguaje Mejorando la corrección de errores de habla en sistemas de ASR

Un nuevo método combina características acústicas y puntuaciones de confianza para mejorar la corrección de errores.

2025-07-25T20:45:15+00:00 ― 6 minilectura

Criptografía y seguridad Protegiendo Voces en la Era de los Deepfakes

SecureSpectra ofrece una nueva forma de proteger la identidad de audio contra las amenazas de deepfake.

2025-07-25T16:42:20+00:00 ― 6 minilectura

Aprendizaje automático Avances en la predicción de la dispersión acústica con PGI-DeepONet

Combinando física y geometría para mejorar las predicciones de dispersión acústica.

2025-07-25T15:54:09+00:00 ― 7 minilectura

Computación y lenguaje Avances en Sistemas de Traducción de Voz en Tiempo Real

Un nuevo sistema para traducción de voz precisa y rápida en varios idiomas.

2025-07-25T15:05:10+00:00 ― 7 minilectura

Sonido Nuevo método para la creación de voz en la síntesis de voz

Un método simple para crear voces y controlar emociones en la síntesis de voz.

2025-07-25T14:16:35+00:00 ― 6 minilectura

Sonido Avances en la Separación de Fuentes Musicales en Tiempo Real

Mejorando MMDenseNet para una separación de música rápida y eficiente.

2025-07-25T12:39:25+00:00 ― 6 minilectura

Procesado de Audio y Voz Nuevo método para un sonido más claro en entornos ruidosos

Un enfoque novedoso para mejorar la claridad del sonido usando técnicas avanzadas de aprendizaje profundo.

2025-07-25T11:02:15+00:00 ― 8 minilectura

Procesado de Audio y Voz Mejorando la detección de hablantes con datos de audio y visuales

Un sistema combina audio y video para mejorar la precisión en la detección de hablantes.

2025-07-25T10:13:40+00:00 ― 6 minilectura

Computación y lenguaje Avances en Sistemas de Diálogo Hablado

Un nuevo método mejora el diálogo de las máquinas mediante datos pseudo-estéreo.

2025-07-25T08:36:30+00:00 ― 7 minilectura

Computación y lenguaje Mejorando el Reconocimiento de Voz Chino a Través de la Regularización de Pinyin

Este estudio presenta un conjunto de datos y un método para mejorar la precisión del reconocimiento de voz en chino usando Pinyin.

2025-07-25T07:47:55+00:00 ― 8 minilectura

Sonido Avanzando en la tecnología de altavoces y control del sonido

Técnicas innovadoras mejoran el diseño de altavoces y la dirección del sonido.

2025-07-25T06:10:45+00:00 ― 5 minilectura

Visión por Computador y Reconocimiento de Patrones Avances en Modelos de Lenguaje Multi-Modales

Un nuevo modelo combina datos de audio y visuales para mejorar la comprensión.

2025-07-25T05:22:10+00:00 ― 7 minilectura

Sonido Desglosando las técnicas para detectar audio deepfake

Este estudio se centra en mejorar la detección de audio deepfake usando métodos avanzados.

2025-07-25T02:56:25+00:00 ― 5 minilectura

Sonido Enfoques innovadores para la creación musical con tecnología

Usando interfaces visuales y modelos para mejorar la generación de música.

2025-07-25T00:30:40+00:00 ― 6 minilectura

Visión por Computador y Reconocimiento de Patrones Enfoque innovador para la generación automática de efectos de sonido

Un nuevo marco para crear efectos de sonido sincronizados en videos.

2025-07-24T23:42:05+00:00 ― 7 minilectura

Sonido Mejorando la Diarización de Hablantes con Embeddings de Hablante

Un estudio sobre cómo mejorar la segmentación de audio integrando incrustaciones de hablante.

2025-07-24T21:16:20+00:00 ― 6 minilectura