Ingeniería Eléctrica y Ciencia de Sistemas - Procesado de Audio y Voz

Procesado de Audio y Voz Abordando el desafío de los deepfakes de audio

Este estudio investiga la efectividad de los modelos multilingües en la detección de deepfakes de audio.

2025-08-14T00:40:35+00:00 ― 7 minilectura

Sonido Midiendo la Adherencia en Modelos de Música Generativa

Un nuevo enfoque para evaluar qué tan bien la música sigue las indicaciones de audio.

2025-08-13T23:03:25+00:00 ― 10 minilectura

Visión por Computador y Reconocimiento de Patrones Presentamos el conjunto de datos 360+x para mejorar la comprensión de escenas

Un nuevo conjunto de datos mejora la forma en que los robots interpretan entornos del mundo real.

2025-08-13T18:11:55+00:00 ― 8 minilectura

Sonido Nuevo enfoque para la separación de audio usando lenguaje

Este método mejora la separación de audio al combinar descripciones de lenguaje con análisis de sonido.

2025-08-13T14:57:35+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Presentamos UniAV: Un Enfoque Unificado para la Localización de Videos

UniAV combina la localización de acción, la detección de sonido y la localización de eventos audio-visuales para una mejor comprensión del video.

2025-08-13T10:06:05+00:00 ― 9 minilectura

Procesado de Audio y Voz CLaM-TTS: Avanzando la Tecnología de Texto a Voz

CLaM-TTS mejora la síntesis de voz usando técnicas avanzadas para tener mejor eficiencia y calidad.

2025-08-13T08:28:55+00:00 ― 7 minilectura

Redes sociales y de información Analizando música a través de gráficos

Los gráficos permiten obtener nuevas ideas sobre la estructura de la música y sus relaciones.

2025-08-13T03:09:57+00:00 ― 6 minilectura

Procesado de Audio y Voz Mejorando el texto a voz con RALL-E

RALL-E mejora la síntesis de texto a voz para que suene más clara y natural.

2025-08-13T01:11:40+00:00 ― 6 minilectura

Sonido MuPT: Avanzando en la Generación de Música con Notación ABC

MuPT utiliza la notación ABC para generar música de manera efectiva con IA.

2025-08-12T09:00:00+00:00 ― 7 minilectura

Procesado de Audio y Voz Avanzando el Aprendizaje de Audio con M2D y M2D-X

Nuevos métodos mejoran la representación de audio a través de técnicas de aprendizaje auto-supervisado.

2025-08-12T07:22:50+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Presentando PEAVS: Una nueva forma de medir la sincronización audio-vídeo

PEAVS analiza qué tan bien funcionan el audio y el video juntos para mejorar la experiencia del espectador.

2025-08-12T03:19:55+00:00 ― 8 minilectura

Procesado de Audio y Voz Mejorando la Reconstrucción del Campo Sonoro con IA

Un método que usa IA mejora la representación del sonido en diferentes entornos.

2025-08-12T00:54:10+00:00 ― 8 minilectura

Física clásica Entendiendo los Momentos Espectrales en Pruebas Electromagnéticas

Explora el papel de los momentos espectrales en las pruebas de cámara de reverberación y el impacto del ruido.

2025-08-12T00:28:33+00:00 ― 7 minilectura

Procesado de Audio y Voz Modelo Eficiente de Transcripción de Piano en Tiempo Real

Un nuevo sistema para una transcripción de piano en tiempo real, precisa y ligera.

2025-08-12T00:05:35+00:00 ― 6 minilectura

Visión por Computador y Reconocimiento de Patrones Any2Point: Conectando la comprensión 3D en modelos de IA

Un nuevo marco mejora la comprensión de la IA sobre los espacios 3D.

2025-08-11T19:14:05+00:00 ― 8 minilectura

Sonido Avances en la tecnología de edición de atributos de voz

Nuevo modelo permite un control preciso de las cualidades de la voz mientras se mantiene el contenido.

2025-08-11T18:25:30+00:00 ― 5 minilectura

Procesado de Audio y Voz Evaluando Modelos de Procesamiento de Voz con SUPERB

Un nuevo marco para evaluar modelos base en tareas de habla.

2025-08-11T09:31:05+00:00 ― 9 minilectura

Sonido Avanzando la IA en la generación de texto a audio

Un estudio sobre cómo mejorar los audios a partir de indicaciones de texto usando optimización de preferencias.

2025-08-11T07:05:20+00:00 ― 8 minilectura

Sonido Avances en la generación automática de música usando IA

Explorando los últimos avances en herramientas de IA para crear música.

2025-08-10T16:30:50+00:00 ― 6 minilectura

Procesado de señales Combinando la detección acústica activa y pasiva en robótica

La investigación explora la fusión de técnicas de sonido para mejorar la navegación y el mapeo robótico.

2025-08-10T13:16:30+00:00 ― 10 minilectura

Sonido Mejorando el etiquetado de música con incrustaciones de palabras musicales

Un nuevo enfoque mejora el etiquetado y la recuperación de música al combinar términos de lenguaje general y de música.

2025-08-10T06:47:50+00:00 ― 12 minilectura

Procesado de Audio y Voz FlashSpeech: Un Salto en la Sintetización de Voz

FlashSpeech ofrece soluciones de síntesis de voz rápidas y de alta calidad.

2025-08-10T03:33:30+00:00 ― 8 minilectura

Sonido Avances en la detección de deepfakes con el marco RAD

Un nuevo método mejora la detección de deepfakes de audio usando referencias de muestras similares.

2025-08-10T01:07:45+00:00 ― 7 minilectura

Sonido Midiendo la virtuosidad en la interpretación de guitarra eléctrica

Este estudio analiza señales de sonido para medir la virtuosidad entre guitarristas eléctricos.

2025-08-09T18:39:05+00:00 ― 6 minilectura

Sonido Navegando vulnerabilidades en el reconocimiento de emociones en el habla

Este estudio examina las debilidades de los modelos SER frente a ataques adversariales en diferentes idiomas.

2025-08-08T21:35:55+00:00 ― 6 minilectura

Procesado de Audio y Voz Avanzando en la extracción de hablantes objetivo de audio y video con SEANet

SEANet mejora el aislamiento del hablante al reducir el ruido en el procesamiento de audio.

2025-08-08T20:47:20+00:00 ― 8 minilectura

Sonido SemantiCodec: El siguiente paso en la tecnología de audio

Un nuevo códec de audio que ofrece compresión de alta calidad y contenido semántico rico.

2025-08-08T19:10:10+00:00 ― 8 minilectura

Sonido Nueva herramienta analiza contenido de audio y video

Una herramienta que combina análisis de audio y video para identificar eventos.

2025-08-08T12:41:30+00:00 ― 6 minilectura

Procesado de Audio y Voz Midiendo la Absorción de Sonido: Un Nuevo Método

Un método para medir cómo los materiales absorben el sonido de manera efectiva.

2025-08-08T10:46:48+00:00 ― 6 minilectura

Procesado de Audio y Voz Avanzando en ASR: Un Nuevo Enfoque de Aprendizaje

Un método de aprendizaje activo en dos etapas mejora la precisión del reconocimiento de voz con menos datos.

2025-08-08T02:09:55+00:00 ― 6 minilectura

Procesado de Audio y Voz Avances en la tecnología de audífonos con aprendizaje profundo

Nuevos métodos mejoran la claridad del habla en los audífonos mediante técnicas de aprendizaje profundo.

2025-08-08T01:21:20+00:00 ― 7 minilectura

Sonido Localización de Fuentes de Sonido: Técnicas y Aplicaciones

Aprende sobre técnicas de localización de sonido y sus usos en diferentes campos.

2025-08-07T23:44:10+00:00 ― 5 minilectura

Sonido Abordando el aumento de la detección de audio deepfake

Un nuevo conjunto de datos y métodos mejoran la detección de deepfakes de audio generados por ALM.

2025-08-07T06:43:55+00:00 ― 7 minilectura

Computación y lenguaje Evaluando sistemas de ASR para habla tartamuda

Este estudio evalúa el rendimiento de los sistemas de ASR con personas que tartamudean.

2025-08-07T04:18:10+00:00 ― 10 minilectura

Computación y lenguaje Nuevo método de ataque silencia sistemas ASR

Un clip de audio universal puede silenciar modelos de ASR avanzados como Whisper.

2025-08-07T03:29:35+00:00 ― 7 minilectura

Sonido Nuevo dispositivo mejora la conversación en ambientes ruidosos

Un dispositivo ayuda a enfocarse en voces específicas en lugares concurridos.

2025-08-06T19:23:45+00:00 ― 7 minilectura

Sonido Avanzando en la Edición de Audio con Modelos de Difusión

Un nuevo método mejora la edición de audio usando modelos de difusión para cambios precisos.

2025-08-06T16:09:25+00:00 ― 6 minilectura

Computación y lenguaje Integrando Modelos de Audio y Lenguaje: SpeechVerse

SpeechVerse conecta la comprensión de audio y el procesamiento del lenguaje para mejorar la interacción humano-computadora.

2025-08-06T06:26:25+00:00 ― 7 minilectura

Sonido Evaluando el sesgo en la tecnología de asistentes de voz

Un nuevo conjunto de datos destaca las diferencias de rendimiento entre grupos demográficos que utilizan asistentes de voz.

2025-08-06T02:23:30+00:00 ― 8 minilectura

Computación y lenguaje Examinando la seguridad de los modelos de lenguaje

Este artículo investiga las vulnerabilidades en los modelos de voz y formas de mejorar su seguridad.

2025-08-05T23:09:10+00:00 ― 6 minilectura