Ingeniería Eléctrica y Ciencia de Sistemas - Procesado de Audio y Voz

RSS

Procesado de Audio y Voz Avances en el procesamiento de habla con datos visuales

Nuevos métodos mejoran la comprensión del habla por parte de las máquinas usando señales de audio y visuales.

2025-11-06T07:21:45+00:00 ― 6 minilectura

Procesado de Audio y Voz Avances en la detección de palabras clave en entornos ruidosos

Nuevo modelo mejora el reconocimiento de palabras clave en entornos acústicos desafiantes.

2025-11-06T04:07:25+00:00 ― 7 minilectura

Computación y lenguaje i-Code V2: Un Nuevo Modelo para el Procesamiento de Datos Mixtos

i-Code V2 integra visión, lenguaje y voz para mejores respuestas de IA.

2025-11-06T03:18:50+00:00 ― 6 minilectura

Computación y lenguaje Mejorando la comprensión del habla con destilación de conocimientos

Un nuevo método mejora los modelos de habla al transferir conocimiento de los modelos de texto.

2025-11-06T01:41:40+00:00 ― 6 minilectura

Procesado de Audio y Voz Conjunto de Datos Coswara: Herramienta Innovadora para la Detección de COVID-19

Una colección de sonidos respiratorios ayuda a identificar casos de COVID-19.

2025-11-06T00:12:57+00:00 ― 5 minilectura

Sonido ACA-Net: Avanzando Sistemas de Verificación de Hablantes

Un nuevo modelo mejora la verificación de hablantes con técnicas eficientes.

2025-11-05T23:15:55+00:00 ― 7 minilectura

Sonido Avances en los sistemas de reconocimiento de voz para el reto VoxCeleb

Una mirada detallada a las técnicas de reconocimiento de hablantes desarrolladas para la competencia de 2022.

2025-11-05T21:38:45+00:00 ― 6 minilectura

Procesado de Audio y Voz Mejorando la comprensión del habla y las emociones por parte de la IA

Un nuevo enfoque entrena a la IA para reconocer mejor el habla y las emociones en entornos ruidosos.

2025-11-05T17:35:50+00:00 ― 6 minilectura

Procesado de Audio y Voz Análisis de audio innovador para la interacción familiar

Nuevos métodos buscan mejorar la comprensión de la dinámica familiar y la salud mental de los niños.

2025-11-05T16:47:15+00:00 ― 7 minilectura

Procesado de Audio y Voz Avances en Sistemas de Protección de Altavoces

Nuevos métodos de aprendizaje profundo mejoran las predicciones del movimiento del diafragma del hablante.

2025-11-05T16:10:24+00:00 ― 6 minilectura

Computación y lenguaje Aprovechando ciwGAN para el Análisis Fonológico

Explorando cómo ciwGAN puede aprender y representar características fonológicas como la nasalidad.

2025-11-05T15:10:05+00:00 ― 5 minilectura

Procesado de Audio y Voz Avances en el Reconocimiento de Voz con MH-SSM

Un nuevo modelo mejora la eficiencia y precisión del reconocimiento de voz.

2025-11-05T14:21:30+00:00 ― 6 minilectura

Procesado de Audio y Voz Avanzando en el Reconocimiento de Voz con Perspectivas Contextuales

Un nuevo método mejora la precisión del reconocimiento de voz usando información contextual.

2025-11-05T13:32:55+00:00 ― 6 minilectura

Sonido Simulando habla ruidosa para mejor reconocimiento

Los investigadores usan GANs para generar audio ruidoso a partir de audio limpio, mejorando los modelos de voz.

2025-11-05T12:44:20+00:00 ― 7 minilectura

Sonido Presentamos el Corpus JNV: Una nueva colección de vocalizaciones no verbales en japonés

El corpus JNV captura sonidos emocionales diversos en japonés, enriqueciendo las colecciones existentes.

2025-11-05T11:55:45+00:00 ― 7 minilectura

Sonido Avances en la Síntesis de Risas Realistas

Nuevos métodos mejoran la generación de risas para interacciones realistas entre humanos y computadoras.

2025-11-05T11:07:10+00:00 ― 6 minilectura

Sonido Detectar el habla sintética: Desafíos y soluciones

Una mirada a cómo identificar audio falso en el mundo tecnológico de hoy.

2025-11-05T10:18:35+00:00 ― 5 minilectura

Computación y lenguaje Avanzando Modelos de Habla a Través del Conocimiento Textual

Usando modelos de texto para mejorar la generación de voz y así entender mejor.

2025-11-05T09:30:00+00:00 ― 9 minilectura

Computación y lenguaje Mejorando la precisión del ASR con técnicas de datos sintéticos

La investigación muestra cómo el texto sintético puede mejorar efectivamente los sistemas de ASR.

2025-11-05T04:38:30+00:00 ― 6 minilectura

Aprendizaje automático Avanzando en el aprendizaje multimodal con C-MCR

C-MCR simplifica el aprendizaje multimodal al conectar el conocimiento existente de manera eficiente.

2025-11-05T03:49:55+00:00 ― 7 minilectura

Sonido FluentSpeech: Un Nuevo Enfoque para Eliminar la Tartamudez

FluentSpeech ofrece una solución automática para editar el habla de manera más fluida.

2025-11-05T02:12:45+00:00 ― 8 minilectura

Procesado de Audio y Voz Adaptación Modular de Dominios: Un Nuevo Enfoque para el Reconocimiento de Voz

MDA mejora el reconocimiento de voz al optimizar modelos para áreas de datos específicas.

2025-11-05T01:24:10+00:00 ― 6 minilectura

Física Médica Nuevo estudio relaciona señales del cerebro con el movimiento de la lengua

Investigaciones muestran que las señales del cerebro pueden ayudar a predecir los movimientos de la lengua durante el habla.

2025-11-04T23:54:21+00:00 ― 7 minilectura

Sonido Avances en la tecnología de texto a voz con U-DiT

El sistema U-DiT TTS mejora la generación de habla natural a través de una arquitectura innovadora.

2025-11-04T23:47:00+00:00 ― 5 minilectura

Procesado de Audio y Voz Mejorando el Reconocimiento de Voz para Todos los Hablantes

Un nuevo método busca mejorar los sistemas de reconocimiento de voz para personas con disartria.

2025-11-04T22:58:25+00:00 ― 6 minilectura

Computación y lenguaje Avances en el Aprendizaje de Palabras Habladas con MAMLCon

Un nuevo método mejora la comprensión de las computadoras sobre comandos hablados con menos ejemplos.

2025-11-04T22:09:50+00:00 ― 5 minilectura

Computación y lenguaje Mejorando la Diarización de Altavoces Usando Análisis de Palabras

Mejorando la identificación de voces al combinar sonido y palabras habladas en audio.

2025-11-04T18:55:30+00:00 ― 6 minilectura

Procesado de Audio y Voz Adaptando Gestos para Agentes Virtuales

Los agentes virtuales aprenden a imitar gestos humanos para interactuar mejor.

2025-11-04T18:06:55+00:00 ― 7 minilectura

Sonido Simplificando la síntesis de sonido con NAS-FM

Un nuevo método para crear sintetizadores que beneficia a los músicos.

2025-11-04T17:18:20+00:00 ― 7 minilectura

Procesado de Audio y Voz Avances en la tecnología de detección de hablantes activos

Un nuevo marco mejora la detección de hablantes activos usando pistas de audio y visuales.

2025-11-04T16:29:45+00:00 ― 6 minilectura

Sonido Fortaleciendo la Verificación de Voz Contra Amenazas Avanzadas

Una mirada a los desafíos y defensas en los sistemas de verificación automática de hablantes.

2025-11-04T15:41:10+00:00 ― 5 minilectura

Sonido El Papel de las Redes Ópticas en la Comunicación Moderna

Las redes ópticas permiten transferencias de datos rápidas, moldeando el futuro de la tecnología de comunicación.

2025-11-04T14:04:00+00:00 ― 6 minilectura

Procesado de Audio y Voz Mejorando Modelos de Audio Generales para Tareas de Voz

Un nuevo método mejora los modelos de audio generales para un reconocimiento de voz efectivo.

2025-11-04T05:58:10+00:00 ― 8 minilectura

Computación y lenguaje Avances en el reconocimiento de emociones en conversaciones

Nuevo modelo mejora la comprensión emocional en diálogos.

2025-11-04T05:09:35+00:00 ― 8 minilectura

Computación y lenguaje Nuevo modelo mejora la calidad de la traducción de voz

Un modelo combina lenguaje hablado y texto para mejorar la precisión de la traducción.

2025-11-04T04:21:00+00:00 ― 6 minilectura

Aprendizaje automático Estudiando los Llamados de los Marmosets a Través de Modelos de Habla Humana

La investigación utiliza modelos de voz humana para analizar eficazmente las vocalizaciones de los marmosets.

2025-11-04T03:32:25+00:00 ― 7 minilectura

Procesado de Audio y Voz Avances en la tecnología de análisis de sonidos pulmonares

Nuevos métodos mejoran la detección temprana de enfermedades respiratorias usando datos de sonido.

2025-11-04T02:43:50+00:00 ― 6 minilectura

Sonido Distinguiendo entre la risa feliz y la risa burlona

Este estudio analiza cómo la risa transmite emociones a través del análisis de sonido.

2025-11-04T01:55:15+00:00 ― 5 minilectura

Procesado de Audio y Voz EfficientSpeech: Tecnología de Texto a Voz en el Dispositivo

Un nuevo modelo le da capacidades de voz a dispositivos sin internet.

2025-11-04T01:06:40+00:00 ― 6 minilectura

Procesado de Audio y Voz Avanzando en la comprensión del lenguaje hablado con aprendizaje continuo

Esta investigación aborda el olvido en la IA a través del aprendizaje continuo en la comprensión del lenguaje hablado.

2025-11-04T00:18:05+00:00 ― 9 minilectura