Ingeniería Eléctrica y Ciencia de Sistemas - Procesado de Audio y Voz

RSS

Computación y lenguaje Aprovechando ciwGAN para el Análisis Fonológico

Explorando cómo ciwGAN puede aprender y representar características fonológicas como la nasalidad.

2025-11-05T15:10:05+00:00 ― 5 minilectura

Procesado de Audio y Voz Avances en el Reconocimiento de Voz con MH-SSM

Un nuevo modelo mejora la eficiencia y precisión del reconocimiento de voz.

2025-11-05T14:21:30+00:00 ― 6 minilectura

Procesado de Audio y Voz Avanzando en el Reconocimiento de Voz con Perspectivas Contextuales

Un nuevo método mejora la precisión del reconocimiento de voz usando información contextual.

2025-11-05T13:32:55+00:00 ― 6 minilectura

Sonido Simulando habla ruidosa para mejor reconocimiento

Los investigadores usan GANs para generar audio ruidoso a partir de audio limpio, mejorando los modelos de voz.

2025-11-05T12:44:20+00:00 ― 7 minilectura

Sonido Presentamos el Corpus JNV: Una nueva colección de vocalizaciones no verbales en japonés

El corpus JNV captura sonidos emocionales diversos en japonés, enriqueciendo las colecciones existentes.

2025-11-05T11:55:45+00:00 ― 7 minilectura

Sonido Avances en la Síntesis de Risas Realistas

Nuevos métodos mejoran la generación de risas para interacciones realistas entre humanos y computadoras.

2025-11-05T11:07:10+00:00 ― 6 minilectura

Sonido Detectar el habla sintética: Desafíos y soluciones

Una mirada a cómo identificar audio falso en el mundo tecnológico de hoy.

2025-11-05T10:18:35+00:00 ― 5 minilectura

Computación y lenguaje Avanzando Modelos de Habla a Través del Conocimiento Textual

Usando modelos de texto para mejorar la generación de voz y así entender mejor.

2025-11-05T09:30:00+00:00 ― 9 minilectura

Computación y lenguaje Mejorando la precisión del ASR con técnicas de datos sintéticos

La investigación muestra cómo el texto sintético puede mejorar efectivamente los sistemas de ASR.

2025-11-05T04:38:30+00:00 ― 6 minilectura

Aprendizaje automático Avanzando en el aprendizaje multimodal con C-MCR

C-MCR simplifica el aprendizaje multimodal al conectar el conocimiento existente de manera eficiente.

2025-11-05T03:49:55+00:00 ― 7 minilectura

Sonido FluentSpeech: Un Nuevo Enfoque para Eliminar la Tartamudez

FluentSpeech ofrece una solución automática para editar el habla de manera más fluida.

2025-11-05T02:12:45+00:00 ― 8 minilectura

Procesado de Audio y Voz Adaptación Modular de Dominios: Un Nuevo Enfoque para el Reconocimiento de Voz

MDA mejora el reconocimiento de voz al optimizar modelos para áreas de datos específicas.

2025-11-05T01:24:10+00:00 ― 6 minilectura

Física Médica Nuevo estudio relaciona señales del cerebro con el movimiento de la lengua

Investigaciones muestran que las señales del cerebro pueden ayudar a predecir los movimientos de la lengua durante el habla.

2025-11-04T23:54:21+00:00 ― 7 minilectura

Sonido Avances en la tecnología de texto a voz con U-DiT

El sistema U-DiT TTS mejora la generación de habla natural a través de una arquitectura innovadora.

2025-11-04T23:47:00+00:00 ― 5 minilectura

Procesado de Audio y Voz Mejorando el Reconocimiento de Voz para Todos los Hablantes

Un nuevo método busca mejorar los sistemas de reconocimiento de voz para personas con disartria.

2025-11-04T22:58:25+00:00 ― 6 minilectura

Computación y lenguaje Avances en el Aprendizaje de Palabras Habladas con MAMLCon

Un nuevo método mejora la comprensión de las computadoras sobre comandos hablados con menos ejemplos.

2025-11-04T22:09:50+00:00 ― 5 minilectura

Computación y lenguaje Mejorando la Diarización de Altavoces Usando Análisis de Palabras

Mejorando la identificación de voces al combinar sonido y palabras habladas en audio.

2025-11-04T18:55:30+00:00 ― 6 minilectura

Procesado de Audio y Voz Adaptando Gestos para Agentes Virtuales

Los agentes virtuales aprenden a imitar gestos humanos para interactuar mejor.

2025-11-04T18:06:55+00:00 ― 7 minilectura

Sonido Simplificando la síntesis de sonido con NAS-FM

Un nuevo método para crear sintetizadores que beneficia a los músicos.

2025-11-04T17:18:20+00:00 ― 7 minilectura

Procesado de Audio y Voz Avances en la tecnología de detección de hablantes activos

Un nuevo marco mejora la detección de hablantes activos usando pistas de audio y visuales.

2025-11-04T16:29:45+00:00 ― 6 minilectura

Sonido Fortaleciendo la Verificación de Voz Contra Amenazas Avanzadas

Una mirada a los desafíos y defensas en los sistemas de verificación automática de hablantes.

2025-11-04T15:41:10+00:00 ― 5 minilectura

Sonido El Papel de las Redes Ópticas en la Comunicación Moderna

Las redes ópticas permiten transferencias de datos rápidas, moldeando el futuro de la tecnología de comunicación.

2025-11-04T14:04:00+00:00 ― 6 minilectura

Procesado de Audio y Voz Mejorando Modelos de Audio Generales para Tareas de Voz

Un nuevo método mejora los modelos de audio generales para un reconocimiento de voz efectivo.

2025-11-04T05:58:10+00:00 ― 8 minilectura

Computación y lenguaje Avances en el reconocimiento de emociones en conversaciones

Nuevo modelo mejora la comprensión emocional en diálogos.

2025-11-04T05:09:35+00:00 ― 8 minilectura

Computación y lenguaje Nuevo modelo mejora la calidad de la traducción de voz

Un modelo combina lenguaje hablado y texto para mejorar la precisión de la traducción.

2025-11-04T04:21:00+00:00 ― 6 minilectura

Aprendizaje automático Estudiando los Llamados de los Marmosets a Través de Modelos de Habla Humana

La investigación utiliza modelos de voz humana para analizar eficazmente las vocalizaciones de los marmosets.

2025-11-04T03:32:25+00:00 ― 7 minilectura

Procesado de Audio y Voz Avances en la tecnología de análisis de sonidos pulmonares

Nuevos métodos mejoran la detección temprana de enfermedades respiratorias usando datos de sonido.

2025-11-04T02:43:50+00:00 ― 6 minilectura

Sonido Distinguiendo entre la risa feliz y la risa burlona

Este estudio analiza cómo la risa transmite emociones a través del análisis de sonido.

2025-11-04T01:55:15+00:00 ― 5 minilectura

Procesado de Audio y Voz EfficientSpeech: Tecnología de Texto a Voz en el Dispositivo

Un nuevo modelo le da capacidades de voz a dispositivos sin internet.

2025-11-04T01:06:40+00:00 ― 6 minilectura

Procesado de Audio y Voz Avanzando en la comprensión del lenguaje hablado con aprendizaje continuo

Esta investigación aborda el olvido en la IA a través del aprendizaje continuo en la comprensión del lenguaje hablado.

2025-11-04T00:18:05+00:00 ― 9 minilectura

Sonido Avances en la tecnología de texto a voz emocional

El nuevo modelo ZET-Speech mejora la síntesis de voz emocional para diferentes hablantes.

2025-11-03T23:29:30+00:00 ― 6 minilectura

Sonido Avances en la transcripción de música para piano y violín

Un estudio encuentra que nuevas técnicas de mezcla mejoran la precisión de la transcripción musical.

2025-11-03T21:52:20+00:00 ― 5 minilectura

Sonido Avanzando la interacción humano-máquina con diálogos empáticos

Un nuevo método mejora las respuestas de las máquinas a través de una mejor comprensión emocional.

2025-11-03T21:03:45+00:00 ― 6 minilectura

Sonido Avanzando el reconocimiento de voz en situaciones con varias personas hablando

Un nuevo método mejora la precisión en el reconocimiento automático de voz para reuniones.

2025-11-03T20:15:10+00:00 ― 7 minilectura

Sonido Desarrollando Asistentes de Voz Empáticos con CALLS

CALLS tiene como objetivo mejorar la capacidad de los asistentes de voz para manejar interacciones con clientes.

2025-11-03T19:26:35+00:00 ― 6 minilectura

Procesado de Audio y Voz Avances en la tecnología de inpainting de audio

Nuevos métodos mejoran la restauración de audio y la calidad de producción.

2025-11-03T17:49:25+00:00 ― 6 minilectura

Procesado de Audio y Voz Avances en cuantización para modelos de reconocimiento de voz

La investigación mejora las técnicas de cuantización para hacer más eficiente el modelo de reconocimiento de voz.

2025-11-03T11:20:45+00:00 ― 9 minilectura

Sonido Revolucionando la Medición de Calidad de Audio con PLCMOS

PLCMOS ofrece una nueva forma de evaluar la calidad del habla sin oyentes humanos.

2025-11-03T10:32:10+00:00 ― 7 minilectura

Interacción Persona-Ordenador LoopBoxes: Una Nueva Forma de Hacer Música

LoopBoxes ayuda a los niños a crear música de manera fácil y colaborativa.

2025-11-03T08:55:00+00:00 ― 7 minilectura

Sonido Síntesis de Sonido Innovadora Usando Redes Neuronales

Un nuevo método para crear sonidos de impacto realistas a través de redes neuronales.

2025-11-03T08:06:25+00:00 ― 5 minilectura