Ingeniería Eléctrica y Ciencia de Sistemas - Procesado de Audio y Voz

RSS

Sonido Nuevo modelo mejora la evaluación de la intensidad de alimentación de los peces

Un enfoque unificado para evaluar la alimentación de peces usando datos de audio y video.

2025-09-14T21:03:15+00:00 ― 6 minilectura

Sonido Avances en la tecnología de cabezas hablantes emocionales

Un nuevo método mejora la creación de videos con cabezas hablantes que expresan emociones.

2025-09-14T15:23:10+00:00 ― 8 minilectura

Aprendizaje automático Desafíos en el uso de Convnets para el diseño de filtros de audio

Este estudio explora problemas con el uso de convnets para la creación de bancos de filtros de audio.

2025-09-14T14:34:35+00:00 ― 6 minilectura

Sonido Avances en modelos de audio y lenguaje

El modelo CLAP conecta el procesamiento de audio y texto para varias aplicaciones.

2025-09-14T13:46:00+00:00 ― 5 minilectura

Computación y lenguaje Avances en Aprendizaje Auto-Supervisado para Tecnologías de Voz en Francés

Un proyecto tiene como objetivo mejorar el procesamiento del habla en francés usando aprendizaje auto-supervisado.

2025-09-14T12:57:25+00:00 ― 6 minilectura

Procesado de Audio y Voz Avances en la anotación automática de prosodia

Nuevos métodos mejoran cómo las máquinas reconocen el ritmo y la emoción del habla.

2025-09-14T12:08:50+00:00 ― 8 minilectura

Sonido Nuevo Método para Estimación de Sonido en Entornos Dispersos

Un nuevo enfoque mejora la estimación del sonido en espacios con objetos que disipan.

2025-09-14T06:28:45+00:00 ― 7 minilectura

Sonido El impacto de la indecidibilidad en la producción musical

Examina cómo la indecibilidad influye en la composición y producción musical hoy en día.

2025-09-14T05:40:10+00:00 ― 5 minilectura

Procesado de Audio y Voz Mejorando la diarización de hablantes con modelos de lenguaje

Este artículo explora los avances en la diarización de hablantes usando modelos de lenguaje para mejorar la precisión.

2025-09-14T03:14:25+00:00 ― 6 minilectura

Procesado de Audio y Voz Avances en el reconocimiento de voz para niños

Este estudio mejora la capacidad de los sistemas de reconocimiento de voz para entender el habla de los niños.

2025-09-14T02:25:50+00:00 ― 7 minilectura

Procesado de Audio y Voz El papel del audio en la detección de peatones

Los investigadores están explorando tecnología de detección de audio para mejorar la identificación de peatones en áreas urbanas.

2025-09-14T00:48:40+00:00 ― 6 minilectura

Procesado de Audio y Voz Avances en Técnicas de Grabación de Campo Sonoro

Nuevo método mejora la localización de fuentes de sonido y la separación de campos.

2025-09-13T20:45:45+00:00 ― 7 minilectura

Sonido Avances en la Síntesis de Sonidos Percusivos

Un nuevo método mejora la síntesis del sonido de los tambores al centrarse en los elementos transitorios agudos.

2025-09-13T19:57:10+00:00 ― 7 minilectura

Sonido Creando conjuntos de datos de voz sintética amigables con la privacidad

Los investigadores están desarrollando datos de voz sintética para proteger la privacidad en el reconocimiento de voz.

2025-09-13T15:05:40+00:00 ― 7 minilectura

Procesado de Audio y Voz VoxtLM: Un enfoque unificado para voz y texto

VoxtLM combina reconocimiento de voz, síntesis, generación de texto y continuación en un solo modelo.

2025-09-13T11:02:45+00:00 ― 5 minilectura

Procesado de Audio y Voz PromptASR: Tecnología de Reconocimiento de Voz de Siguiente Nivel

Nuevo sistema mejora el reconocimiento de voz usando indicaciones conscientes del contexto.

2025-09-13T10:14:10+00:00 ― 5 minilectura

Sonido Avances en Modelos de Audio Universal

EnCodecMAE combina el aprendizaje auto-supervisado y códecs de audio para mejorar el rendimiento en tareas de audio.

2025-09-13T09:25:35+00:00 ― 6 minilectura

Procesado de Audio y Voz Avanzando el diagnóstico del autismo a través del reconocimiento de sonidos

Un estudio sobre el uso de aprendizaje automático para identificar los sonidos de los niños para la evaluación del TDAH.

2025-09-13T07:48:25+00:00 ― 6 minilectura

Procesado de Audio y Voz Un Nuevo Enfoque para Detectar Palabras Clave

Presentamos un método flexible para reconocer palabras clave en el habla en diferentes idiomas.

2025-09-13T06:11:15+00:00 ― 7 minilectura

Procesado de Audio y Voz Evaluando la calidad del habla en la comunicación de audio

Una mirada a cómo se prueba la calidad del habla usando crowdsourcing.

2025-09-13T05:22:40+00:00 ― 6 minilectura

Procesado de Audio y Voz Avances en la subtitulación de audio con entrenamiento solo de texto

Un nuevo método entrena sistemas de captioning de audio usando solo descripciones de texto.

2025-09-13T02:56:55+00:00 ― 7 minilectura

Sonido Pasos esenciales para escribir trabajos académicos

Una guía para redactar trabajos académicos claros y efectivos.

2025-09-13T01:19:45+00:00 ― 4 minilectura

Criptografía y seguridad Ataques de puerta trasera: Una amenaza oculta para la verificación de voz

Examinando los riesgos de ataques de puerta trasera en sistemas de verificación de voz.

2025-09-12T22:54:00+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones Avances en técnicas de segmentación audio-visual

Un nuevo método mejora la segmentación audio-visual sin etiquetas detalladas.

2025-09-12T20:28:15+00:00 ― 6 minilectura

Sonido Nuevo sistema mejora la extracción de voz desde posiciones inestables de la cabeza

PIAVE ayuda a las máquinas a captar voces con claridad, incluso cuando los hablantes giran la cabeza.

2025-09-12T19:39:40+00:00 ― 7 minilectura

Procesado de Audio y Voz Libriheavy: Un Nuevo Conjunto de Datos para el Reconocimiento de Voz

Libriheavy ofrece 50,000 horas de inglés hablado para mejorar la tecnología de reconocimiento de voz.

2025-09-12T18:51:05+00:00 ― 6 minilectura

Procesado de Audio y Voz Mejorando la claridad del habla con la tecnología AV2Wav

AV2Wav mejora la calidad del habla usando pistas de audio y visuales.

2025-09-12T17:13:55+00:00 ― 6 minilectura

Procesado de Audio y Voz EmoConv-Diff: Una Nueva Forma de Cambiar Emociones en el Habla

Un método nuevo para que las máquinas alteren las emociones del habla de manera natural.

2025-09-12T16:25:20+00:00 ― 6 minilectura

Sonido Detectando voces cantadas por IA

Se están desarrollando nuevos métodos para identificar voces cantantes deepfake en la industria musical.

2025-09-12T14:48:10+00:00 ― 7 minilectura

Sonido Optimizando el Texto a Voz con Selección de Conjuntos Básicos

La selección de core-set mejora los modelos de texto a voz al centrarse en datos diversos.

2025-09-12T08:19:30+00:00 ― 6 minilectura

Sonido Avances en sistemas de reconocimiento de emociones en el habla

Nuevos modelos están cambiando la forma en que analizamos las emociones en el habla.

2025-09-12T07:30:55+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Reconocimiento de acciones con tecnología de ultrasonido priorizando la privacidad

Un nuevo método usa ultrasonido para reconocer acciones mientras protege la privacidad.

2025-09-12T06:42:20+00:00 ― 6 minilectura

Sonido Un Nuevo Marco para la Anonimización de Voces

Presentamos un marco flexible para mejorar la investigación sobre la privacidad de la voz.

2025-09-12T05:05:10+00:00 ― 8 minilectura

Sonido CiwaGAN: Un Nuevo Modelo para el Aprendizaje del Habla

CiwaGAN combina el control de los movimientos del habla y el intercambio de información para un mejor aprendizaje del habla.

2025-09-12T04:16:35+00:00 ― 8 minilectura

Computación y lenguaje IntraVerbalPA: Un Nuevo Enfoque para la Evaluación de la Pronunciación

Un marco que mezcla señales verbales y no verbales para mejorar el aprendizaje de idiomas.

2025-09-12T03:28:00+00:00 ― 7 minilectura

Computación y lenguaje Mejorando las explicaciones para modelos de voz

Un nuevo método simplifica la comprensión de los modelos de clasificación de voz.

2025-09-12T02:39:25+00:00 ― 7 minilectura

Computación y lenguaje Mejorando el aprendizaje de idiomas con L1-MultiMDD

Un nuevo sistema mejora las habilidades de pronunciación al tener en cuenta las influencias del idioma materno.

2025-09-12T01:50:50+00:00 ― 6 minilectura

Tecnologías emergentes La computación cuántica y la composición musical

Descubre cómo las herramientas cuánticas cambian la creación y la interpretación de la música.

2025-09-12T00:31:30+00:00 ― 8 minilectura

Procesado de Audio y Voz Avances en la tecnología de conversión de voz

Nuevo método mejora la preservación de emociones en los procesos de conversión de voz.

2025-09-12T00:13:40+00:00 ― 6 minilectura

Procesado de Audio y Voz Emo-StarGAN: Avanzando la Tecnología de Conversión de Voz

Nuevo método preserva el tono emocional en la conversión de voz para mejorar la interacción humano-computadora.

2025-09-11T23:25:05+00:00 ― 7 minilectura