Informática - Sonido

RSS

Computación y lenguaje Avances en la Traducción de Voz en Tiempo Real

AlignAtt mejora la traducción de voz simultánea con mayor velocidad y calidad.

2025-11-07T11:42:10+00:00 ― 6 minilectura

Sonido Equilibrando la privacidad y la eficiencia en los modelos de voz

Un nuevo método asegura la privacidad en la clasificación de voz sin sacrificar el rendimiento.

2025-11-07T10:05:00+00:00 ― 7 minilectura

Sonido Adaptando acentos de Texto a Voz sin complicaciones

Este estudio muestra cómo adaptar la tecnología TTS a diferentes acentos de manera eficiente.

2025-11-07T09:16:25+00:00 ― 6 minilectura

Interacción Persona-Ordenador Avanzando Agentes Socialmente Interactivos con el Modelo AMII

El modelo AMII mejora la comunicación para agentes socialmente interactivos a través de un mejor comportamiento no verbal.

2025-11-07T08:27:50+00:00 ― 6 minilectura

Visión por Computador y Reconocimiento de Patrones Un Nuevo Modelo para el Procesamiento de Datos Multi-Modales

Presentamos un modelo que integra varios tipos de datos para tareas complejas.

2025-11-07T05:13:30+00:00 ― 6 minilectura

Sonido Avances en la detección de sonido bioacústico

Los investigadores están mejorando cómo detectamos los sonidos de los animales de forma automática.

2025-11-07T05:03:27+00:00 ― 8 minilectura

Procesado de Audio y Voz Las habilidades versátiles de reconocimiento de voz de Whisper

Descubre cómo Whisper se adapta a diferentes tareas de habla usando ingeniería de prompts.

2025-11-07T04:24:55+00:00 ― 6 minilectura

Procesado de Audio y Voz FastFit: Un Nuevo Enfoque para la Generación de Habla

FastFit mejora la velocidad de generación de voz sin perder calidad de sonido.

2025-11-07T00:22:00+00:00 ― 6 minilectura

Procesado de Audio y Voz Avances en la detección de palabras clave con TACos

Un nuevo método mejora la detección de palabras clave en grabaciones de audio.

2025-11-06T23:33:25+00:00 ― 7 minilectura

Sonido Avances en Diarización de Hablantes con AED-EEND

El sistema AED-EEND mejora la diarización de hablantes al integrar técnicas avanzadas para una mejor precisión.

2025-11-06T20:19:05+00:00 ― 6 minilectura

Procesado de Audio y Voz Pengi: Uniendo Audio y Procesamiento de Texto

Pengi combina la comprensión de audio y la generación de texto en un solo modelo.

2025-11-06T19:30:30+00:00 ― 8 minilectura

Procesado de Audio y Voz Avanzando en la Detección de Palabras Clave con Aprendizaje Continuo

Un nuevo método mejora los sistemas de detección de palabras clave para un mejor rendimiento en audio cambiante.

2025-11-06T17:04:45+00:00 ― 5 minilectura

Sonido Avances en la tecnología de texto a voz multilingüe

Un nuevo sistema TTS mejora la generación de voz en varios idiomas con datos limitados.

2025-11-06T13:50:25+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones Difusión Composable: Una Nueva Frontera en la Creación de Contenido

CoDi permite generar al mismo tiempo diferentes tipos de contenido a partir de varias entradas.

2025-11-06T13:01:50+00:00 ― 5 minilectura

Sonido Avances en la separación de sonido usando aprendizaje profundo

Nuevas técnicas mejoran la separación de sonido en mezclas de Ambisonics para unas experiencias de audio mejores.

2025-11-06T12:13:15+00:00 ― 8 minilectura

Sonido Avances en el Monitoreo de Salud Basado en Voz

Nuevos métodos que usan el habla muestran promesas para identificar patrones de respiración y condiciones de salud.

2025-11-06T10:36:05+00:00 ― 6 minilectura

Sonido MIDI-Draw: Una Nueva Forma de Crear Melodías

MIDI-Draw permite a cualquiera hacer música dibujando melodías de forma intuitiva.

2025-11-06T09:47:30+00:00 ― 6 minilectura

Sonido Métodos innovadores para evaluar la calidad de audio

Nuevas técnicas que toman prestado del procesamiento de imágenes mejoran la evaluación de la calidad del audio.

2025-11-06T08:58:55+00:00 ― 8 minilectura

Procesado de Audio y Voz Avances en el procesamiento de habla con datos visuales

Nuevos métodos mejoran la comprensión del habla por parte de las máquinas usando señales de audio y visuales.

2025-11-06T07:21:45+00:00 ― 6 minilectura

Procesado de Audio y Voz Avances en la detección de palabras clave en entornos ruidosos

Nuevo modelo mejora el reconocimiento de palabras clave en entornos acústicos desafiantes.

2025-11-06T04:07:25+00:00 ― 7 minilectura

Computación y lenguaje Mejorando la comprensión del habla con destilación de conocimientos

Un nuevo método mejora los modelos de habla al transferir conocimiento de los modelos de texto.

2025-11-06T01:41:40+00:00 ― 6 minilectura

Procesado de Audio y Voz Conjunto de Datos Coswara: Herramienta Innovadora para la Detección de COVID-19

Una colección de sonidos respiratorios ayuda a identificar casos de COVID-19.

2025-11-06T00:12:57+00:00 ― 5 minilectura

Sonido ACA-Net: Avanzando Sistemas de Verificación de Hablantes

Un nuevo modelo mejora la verificación de hablantes con técnicas eficientes.

2025-11-05T23:15:55+00:00 ― 7 minilectura

Sonido Avances en los sistemas de reconocimiento de voz para el reto VoxCeleb

Una mirada detallada a las técnicas de reconocimiento de hablantes desarrolladas para la competencia de 2022.

2025-11-05T21:38:45+00:00 ― 6 minilectura

Procesado de Audio y Voz Mejorando la comprensión del habla y las emociones por parte de la IA

Un nuevo enfoque entrena a la IA para reconocer mejor el habla y las emociones en entornos ruidosos.

2025-11-05T17:35:50+00:00 ― 6 minilectura

Procesado de Audio y Voz Análisis de audio innovador para la interacción familiar

Nuevos métodos buscan mejorar la comprensión de la dinámica familiar y la salud mental de los niños.

2025-11-05T16:47:15+00:00 ― 7 minilectura

Procesado de Audio y Voz Avances en Sistemas de Protección de Altavoces

Nuevos métodos de aprendizaje profundo mejoran las predicciones del movimiento del diafragma del hablante.

2025-11-05T16:10:24+00:00 ― 6 minilectura

Computación y lenguaje Aprovechando ciwGAN para el Análisis Fonológico

Explorando cómo ciwGAN puede aprender y representar características fonológicas como la nasalidad.

2025-11-05T15:10:05+00:00 ― 5 minilectura

Procesado de Audio y Voz Avances en el Reconocimiento de Voz con MH-SSM

Un nuevo modelo mejora la eficiencia y precisión del reconocimiento de voz.

2025-11-05T14:21:30+00:00 ― 6 minilectura

Procesado de Audio y Voz Avanzando en el Reconocimiento de Voz con Perspectivas Contextuales

Un nuevo método mejora la precisión del reconocimiento de voz usando información contextual.

2025-11-05T13:32:55+00:00 ― 6 minilectura

Sonido Simulando habla ruidosa para mejor reconocimiento

Los investigadores usan GANs para generar audio ruidoso a partir de audio limpio, mejorando los modelos de voz.

2025-11-05T12:44:20+00:00 ― 7 minilectura

Sonido Presentamos el Corpus JNV: Una nueva colección de vocalizaciones no verbales en japonés

El corpus JNV captura sonidos emocionales diversos en japonés, enriqueciendo las colecciones existentes.

2025-11-05T11:55:45+00:00 ― 7 minilectura

Sonido Avances en la Síntesis de Risas Realistas

Nuevos métodos mejoran la generación de risas para interacciones realistas entre humanos y computadoras.

2025-11-05T11:07:10+00:00 ― 6 minilectura

Sonido Detectar el habla sintética: Desafíos y soluciones

Una mirada a cómo identificar audio falso en el mundo tecnológico de hoy.

2025-11-05T10:18:35+00:00 ― 5 minilectura

Sonido Avances en el Reconocimiento de Emociones en el Habla con LGFA

Un nuevo método mejora la detección de emociones en el habla mediante técnicas avanzadas de transformadores.

2025-11-05T10:09:24+00:00 ― 6 minilectura

Computación y lenguaje Avanzando Modelos de Habla a Través del Conocimiento Textual

Usando modelos de texto para mejorar la generación de voz y así entender mejor.

2025-11-05T09:30:00+00:00 ― 9 minilectura

Aprendizaje automático Avanzando en el aprendizaje multimodal con C-MCR

C-MCR simplifica el aprendizaje multimodal al conectar el conocimiento existente de manera eficiente.

2025-11-05T03:49:55+00:00 ― 7 minilectura

Sonido FluentSpeech: Un Nuevo Enfoque para Eliminar la Tartamudez

FluentSpeech ofrece una solución automática para editar el habla de manera más fluida.

2025-11-05T02:12:45+00:00 ― 8 minilectura

Procesado de Audio y Voz Adaptación Modular de Dominios: Un Nuevo Enfoque para el Reconocimiento de Voz

MDA mejora el reconocimiento de voz al optimizar modelos para áreas de datos específicas.

2025-11-05T01:24:10+00:00 ― 6 minilectura

Física Médica Nuevo estudio relaciona señales del cerebro con el movimiento de la lengua

Investigaciones muestran que las señales del cerebro pueden ayudar a predecir los movimientos de la lengua durante el habla.

2025-11-04T23:54:21+00:00 ― 7 minilectura