Ingeniería Eléctrica y Ciencia de Sistemas - Procesado de Audio y Voz

RSS

Procesado de Audio y Voz Avances en Técnicas de Grabación de Campo Sonoro

Nuevo método mejora la localización de fuentes de sonido y la separación de campos.

2025-09-13T20:45:45+00:00 ― 7 minilectura

Sonido Avances en la Síntesis de Sonidos Percusivos

Un nuevo método mejora la síntesis del sonido de los tambores al centrarse en los elementos transitorios agudos.

2025-09-13T19:57:10+00:00 ― 7 minilectura

Sonido Creando conjuntos de datos de voz sintética amigables con la privacidad

Los investigadores están desarrollando datos de voz sintética para proteger la privacidad en el reconocimiento de voz.

2025-09-13T15:05:40+00:00 ― 7 minilectura

Procesado de Audio y Voz VoxtLM: Un enfoque unificado para voz y texto

VoxtLM combina reconocimiento de voz, síntesis, generación de texto y continuación en un solo modelo.

2025-09-13T11:02:45+00:00 ― 5 minilectura

Procesado de Audio y Voz PromptASR: Tecnología de Reconocimiento de Voz de Siguiente Nivel

Nuevo sistema mejora el reconocimiento de voz usando indicaciones conscientes del contexto.

2025-09-13T10:14:10+00:00 ― 5 minilectura

Sonido Avances en Modelos de Audio Universal

EnCodecMAE combina el aprendizaje auto-supervisado y códecs de audio para mejorar el rendimiento en tareas de audio.

2025-09-13T09:25:35+00:00 ― 6 minilectura

Procesado de Audio y Voz Avanzando el diagnóstico del autismo a través del reconocimiento de sonidos

Un estudio sobre el uso de aprendizaje automático para identificar los sonidos de los niños para la evaluación del TDAH.

2025-09-13T07:48:25+00:00 ― 6 minilectura

Procesado de Audio y Voz Un Nuevo Enfoque para Detectar Palabras Clave

Presentamos un método flexible para reconocer palabras clave en el habla en diferentes idiomas.

2025-09-13T06:11:15+00:00 ― 7 minilectura

Procesado de Audio y Voz Evaluando la calidad del habla en la comunicación de audio

Una mirada a cómo se prueba la calidad del habla usando crowdsourcing.

2025-09-13T05:22:40+00:00 ― 6 minilectura

Procesado de Audio y Voz Avances en la subtitulación de audio con entrenamiento solo de texto

Un nuevo método entrena sistemas de captioning de audio usando solo descripciones de texto.

2025-09-13T02:56:55+00:00 ― 7 minilectura

Sonido Pasos esenciales para escribir trabajos académicos

Una guía para redactar trabajos académicos claros y efectivos.

2025-09-13T01:19:45+00:00 ― 4 minilectura

Criptografía y seguridad Ataques de puerta trasera: Una amenaza oculta para la verificación de voz

Examinando los riesgos de ataques de puerta trasera en sistemas de verificación de voz.

2025-09-12T22:54:00+00:00 ― 8 minilectura

Visión por Computador y Reconocimiento de Patrones Avances en técnicas de segmentación audio-visual

Un nuevo método mejora la segmentación audio-visual sin etiquetas detalladas.

2025-09-12T20:28:15+00:00 ― 6 minilectura

Sonido Nuevo sistema mejora la extracción de voz desde posiciones inestables de la cabeza

PIAVE ayuda a las máquinas a captar voces con claridad, incluso cuando los hablantes giran la cabeza.

2025-09-12T19:39:40+00:00 ― 7 minilectura

Procesado de Audio y Voz Libriheavy: Un Nuevo Conjunto de Datos para el Reconocimiento de Voz

Libriheavy ofrece 50,000 horas de inglés hablado para mejorar la tecnología de reconocimiento de voz.

2025-09-12T18:51:05+00:00 ― 6 minilectura

Procesado de Audio y Voz Mejorando la claridad del habla con la tecnología AV2Wav

AV2Wav mejora la calidad del habla usando pistas de audio y visuales.

2025-09-12T17:13:55+00:00 ― 6 minilectura

Procesado de Audio y Voz EmoConv-Diff: Una Nueva Forma de Cambiar Emociones en el Habla

Un método nuevo para que las máquinas alteren las emociones del habla de manera natural.

2025-09-12T16:25:20+00:00 ― 6 minilectura

Sonido Detectando voces cantadas por IA

Se están desarrollando nuevos métodos para identificar voces cantantes deepfake en la industria musical.

2025-09-12T14:48:10+00:00 ― 7 minilectura

Sonido Optimizando el Texto a Voz con Selección de Conjuntos Básicos

La selección de core-set mejora los modelos de texto a voz al centrarse en datos diversos.

2025-09-12T08:19:30+00:00 ― 6 minilectura

Sonido Avances en sistemas de reconocimiento de emociones en el habla

Nuevos modelos están cambiando la forma en que analizamos las emociones en el habla.

2025-09-12T07:30:55+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Reconocimiento de acciones con tecnología de ultrasonido priorizando la privacidad

Un nuevo método usa ultrasonido para reconocer acciones mientras protege la privacidad.

2025-09-12T06:42:20+00:00 ― 6 minilectura

Sonido Un Nuevo Marco para la Anonimización de Voces

Presentamos un marco flexible para mejorar la investigación sobre la privacidad de la voz.

2025-09-12T05:05:10+00:00 ― 8 minilectura

Sonido CiwaGAN: Un Nuevo Modelo para el Aprendizaje del Habla

CiwaGAN combina el control de los movimientos del habla y el intercambio de información para un mejor aprendizaje del habla.

2025-09-12T04:16:35+00:00 ― 8 minilectura

Computación y lenguaje IntraVerbalPA: Un Nuevo Enfoque para la Evaluación de la Pronunciación

Un marco que mezcla señales verbales y no verbales para mejorar el aprendizaje de idiomas.

2025-09-12T03:28:00+00:00 ― 7 minilectura

Computación y lenguaje Mejorando las explicaciones para modelos de voz

Un nuevo método simplifica la comprensión de los modelos de clasificación de voz.

2025-09-12T02:39:25+00:00 ― 7 minilectura

Computación y lenguaje Mejorando el aprendizaje de idiomas con L1-MultiMDD

Un nuevo sistema mejora las habilidades de pronunciación al tener en cuenta las influencias del idioma materno.

2025-09-12T01:50:50+00:00 ― 6 minilectura

Tecnologías emergentes La computación cuántica y la composición musical

Descubre cómo las herramientas cuánticas cambian la creación y la interpretación de la música.

2025-09-12T00:31:30+00:00 ― 8 minilectura

Procesado de Audio y Voz Avances en la tecnología de conversión de voz

Nuevo método mejora la preservación de emociones en los procesos de conversión de voz.

2025-09-12T00:13:40+00:00 ― 6 minilectura

Procesado de Audio y Voz Emo-StarGAN: Avanzando la Tecnología de Conversión de Voz

Nuevo método preserva el tono emocional en la conversión de voz para mejorar la interacción humano-computadora.

2025-09-11T23:25:05+00:00 ― 7 minilectura

Computación y lenguaje Avances en la Traducción Directa de Texto a Voz

Nuevos sistemas mejoran la traducción de texto a lenguaje hablado sin intermediarios.

2025-09-11T20:59:20+00:00 ― 5 minilectura

Procesado de Audio y Voz Mejorando la clasificación de sonidos cardíacos con aumento de datos

Los investigadores mejoran la precisión en la clasificación de sonidos del corazón usando métodos de aumento de datos con códec.

2025-09-11T19:22:10+00:00 ― 7 minilectura

Sonido Los desafíos emocionales en el discurso ponen a prueba los modelos de separación de sonidos

La investigación revela que el habla emocional afecta el rendimiento del modelo en tareas de separación de voz.

2025-09-11T18:33:35+00:00 ― 8 minilectura

Sonido M-AUDIODEC: Una nueva forma de comprimir audio

M-AUDIODEC comprime audio multicanal manteniendo la posición de los altavoces y la calidad.

2025-09-11T16:56:25+00:00 ― 7 minilectura

Sonido Avances en la tecnología de traducción de voz a voz

Nuevos métodos en S2ST mejoran la calidad de la traducción manteniendo la identidad del hablante.

2025-09-11T16:07:50+00:00 ― 6 minilectura

Sonido Avanzando en la compresión de audio con técnicas neuronales

Un nuevo sistema mejora la compresión de audio espacial para un sonido más claro y eficiente.

2025-09-11T15:19:15+00:00 ― 5 minilectura

Procesado de Audio y Voz MusiLingo: Uniendo Música y Lenguaje

Un nuevo sistema que conecta la música y el lenguaje para una mejor comprensión.

2025-09-11T14:30:40+00:00 ― 7 minilectura

Procesado de Audio y Voz Mejorando la Calidad de Sonido en Audífonos

La investigación revela nuevos modelos para mejorar la claridad del sonido en los auriculares inteligentes.

2025-09-11T12:04:55+00:00 ― 6 minilectura

Sonido Mejorando el reconocimiento de sonidos de aves con metadatos

Usar información extra mejora nuestra capacidad para identificar los cantos de los pájaros.

2025-09-11T11:16:20+00:00 ― 7 minilectura

Sonido Mejorando la Generación de Audio a Través de Técnicas de Alineación de Texto

Un nuevo enfoque mejora la generación de audio alineando el audio con descripciones de texto.

2025-09-11T07:13:25+00:00 ― 6 minilectura

Computación y lenguaje Avances en la tecnología de reconocimiento de voz

Los investigadores trabajan para mejorar el reconocimiento de voz en línea usando modelos de espacio de estados estructurados.

2025-09-11T04:47:40+00:00 ― 6 minilectura