Informática - Sonido

RSS

Sonido Avances en el Reconocimiento Acústico de Objetivos Submarinos

El aprendizaje por transferencia mejora la clasificación de audio para la detección de sonidos submarinos.

2025-06-06T04:02:00+00:00 ― 7 minilectura

Visión por Computador y Reconocimiento de Patrones V-AURA: Avanzando la Integración de Video a Audio

Un nuevo modelo crea audio que coincide con el video, mejorando las experiencias mediáticas.

2025-06-05T23:59:05+00:00 ― 5 minilectura

Computación y lenguaje Mejorando los sistemas de ASR con listas de palabras clave y modelos de lenguaje

Un método para mejorar el reconocimiento automático de voz combinando listas de palabras clave con modelos de lenguaje.

2025-06-05T20:44:45+00:00 ― 5 minilectura

Gráficos Imitando Sonidos: Conectando Humanos y Máquinas

Un estudio sobre técnicas de imitación vocal usando tecnología para mejorar la comunicación.

2025-06-05T19:56:10+00:00 ― 6 minilectura

Computación y lenguaje Métodos innovadores para el reconocimiento de voz con datos limitados

Aprende a entrenar modelos de voz de manera efectiva con menos recursos etiquetados.

2025-06-05T19:07:35+00:00 ― 8 minilectura

Computación y lenguaje Reevaluando el Género en la Investigación de Tecnología de Voz

Un análisis de la terminología de género en la tecnología del habla y sus implicaciones sociales.

2025-06-05T15:53:15+00:00 ― 8 minilectura

Procesado de Audio y Voz Avanzando en la Detección de Eventos de Sonido con un Nuevo Marco

Un nuevo marco mejora la detección de eventos sonoros que se superponen en entornos de audio complejos.

2025-06-05T13:27:30+00:00 ― 7 minilectura

Sonido Usando Aprendizaje Automático para la Clasificación de Canto de Aves

Investigación sobre cómo mejorar la identificación de sonidos de aves usando técnicas de aprendizaje automático.

2025-06-05T10:13:10+00:00 ― 8 minilectura

Sonido Avanzando en la generación de covers de piano a través de técnicas de AMT

Un nuevo método mejora la creación automática de versiones de piano usando la tecnología de transcripción musical existente.

2025-06-05T07:47:25+00:00 ― 7 minilectura

Procesado de Audio y Voz Evaluando Códecs de Audio Neurales: Perspectivas del Desafío Codec-SUPERB

Una mirada a los resultados del desafío Codec-SUPERB y las métricas de rendimiento del codec.

2025-06-05T06:58:50+00:00 ― 6 minilectura

Computación y lenguaje Avanzando la Comunicación Médica con Tecnología ASR

El proyecto MultiMed mejora el reconocimiento de voz automático para una mejor comunicación en el cuidado de la salud.

2025-06-05T06:10:15+00:00 ― 7 minilectura

Procesado de Audio y Voz Nuevos métodos para medir la calidad del audio

Un enfoque nuevo para la evaluación de la calidad de audio sin necesitar referencias limpias.

2025-06-05T05:21:40+00:00 ― 7 minilectura

Sonido Mejorando la Clasificación de Sonidos Ambientales con el Marco ECHO

El marco ECHO mejora la precisión en la clasificación de sonidos usando etiquetas estructuradas y un proceso de aprendizaje en dos etapas.

2025-06-05T04:33:05+00:00 ― 6 minilectura

Procesado de Audio y Voz Combinando pistas de audio y visuales para un habla más clara

Un nuevo método mejora la claridad del habla al integrar información visual.

2025-06-04T22:53:00+00:00 ― 6 minilectura

Procesado de Audio y Voz Mejorando la estimación de dirección del sonido en entornos ruidosos

Un nuevo enfoque mejora la estimación de la dirección del sonido para altavoces en movimiento en entornos difíciles.

2025-06-04T19:38:40+00:00 ― 10 minilectura

Procesado de Audio y Voz Avances en la tecnología de recuperación de momentos de audio

La Recuperación de Momentos de Audio permite localizar momentos específicos en grabaciones largas.

2025-06-04T13:10:00+00:00 ― 6 minilectura

Procesado de Audio y Voz Mejorando la seguridad en la realidad virtual social con Safe Guard

Safe Guard detecta discurso de odio en tiempo real durante interacciones de voz en VR social.

2025-06-04T11:32:50+00:00 ― 7 minilectura

Computación y lenguaje Avances en Sistemas de Diálogo de IA: Un Nuevo Enfoque

La IA está evolucionando para tener conversaciones más naturales.

2025-06-04T10:44:15+00:00 ― 6 minilectura

Procesado de imagen y vídeo Nuevo método visualiza el movimiento del tracto vocal en el habla

Un enfoque novedoso utiliza MRI en tiempo real para visualizar los movimientos de producción del habla.

2025-06-04T09:07:05+00:00 ― 6 minilectura

Procesado de Audio y Voz Estimando las Primeras Reflexiones de Habitación con el Método FF-PHALCOR

Un nuevo método para detectar reflejos tempranos en la sala mejora las experiencias de audio.

2025-06-04T07:29:55+00:00 ― 8 minilectura

Procesado de Audio y Voz Construyendo Mejores Conjuntos de Datos de Habla para Idiomas Desatendidos

Un proyecto que desarrolla conjuntos de datos de voz y texto para idiomas con recursos limitados.

2025-06-04T06:41:20+00:00 ― 6 minilectura

Procesado de Audio y Voz Mejorando la verificación de hablantes con CA-MHFA

Un nuevo marco mejora el reconocimiento de voz y se adapta a varias tareas de habla.

2025-06-04T05:52:45+00:00 ― 5 minilectura

Sonido Abordando el aumento de la detección de discursos deepfake

Se necesitan nuevos métodos para detectar tecnologías avanzadas de voz deepfake.

2025-06-04T05:04:10+00:00 ― 7 minilectura

Sonido Mejorando la Detección de Eventos Bioacústicos con Nuevas Estrategias

Nuevos métodos aumentan la precisión para identificar sonidos de animales con datos limitados.

2025-06-04T04:15:35+00:00 ― 6 minilectura

Sonido Avances en el Diseño de Sonido para Realidad Aumentada

Nuevo método mejora la integración del sonido virtual en entornos de AR.

2025-06-04T00:12:40+00:00 ― 8 minilectura

Sonido Avanzando en la Privacidad Vocal con Nuevas Técnicas de Conversión

Un nuevo método busca preservar la privacidad de la voz mientras permite una comunicación efectiva.

2025-06-03T23:24:05+00:00 ― 5 minilectura

Computación y lenguaje Avances en técnicas de procesamiento de habla sin texto

Nuevos métodos mejoran el reconocimiento de voz para lenguas de pocos recursos sin texto.

2025-06-03T18:32:35+00:00 ― 5 minilectura

Computación y lenguaje Mejorando el Reconocimiento de Voz a Través de Técnicas Fonéticas

Nuevos métodos mejoran la precisión en los sistemas de reconocimiento de voz usando comprensión fonética.

2025-06-03T16:55:25+00:00 ― 6 minilectura

Multimedia Un Nuevo Sistema para la Generación de Habla y Gestos en Tiempo Real

Este marco mejora las animaciones en tiempo real al sincronizar el habla y los gestos de manera fluida.

2025-06-03T15:18:15+00:00 ― 5 minilectura

Sonido Mejorando el Reconocimiento de Voz con Características Inspiradas en Humanos

Nuevas características acústicas mejoran el rendimiento de los sistemas ASR en entornos ruidosos.

2025-06-03T14:29:40+00:00 ― 5 minilectura

Procesado de Audio y Voz Avanzando en el procesamiento de voz con consistencia en la reconstrucción de fases

Una nueva función de pérdida mejora la calidad del audio al alinear fase y magnitud.

2025-06-03T12:03:55+00:00 ― 7 minilectura

Sonido Nuevo modelo hace que el texto a voz suene más humano

Un nuevo modelo de TTS agrega profundidad emocional al habla generada por computadora.

2025-06-03T09:38:10+00:00 ― 6 minilectura

Procesado de Audio y Voz Mejorando el Reconocimiento de Voz para Conversaciones entre Niños y Adultos

Evaluando modelos de reconocimiento de voz para sesiones de diagnóstico de autismo.

2025-06-03T08:01:00+00:00 ― 7 minilectura

Procesado de Audio y Voz Avances en Técnicas de Restauración del Habla

Los métodos recientes mejoran la claridad y calidad del audio usando modelos avanzados.

2025-06-03T07:12:25+00:00 ― 7 minilectura

Sonido Nuevo método para detectar deepfakes de voz

Un enfoque nuevo mejora la detección de grabaciones de audio falsas.

2025-06-03T05:35:15+00:00 ― 6 minilectura

Procesado de Audio y Voz Avances en códecs neuronales con ESPnet-Codec

ESPnet-Codec mejora el entrenamiento y la evaluación de códecs neuronales para audio y voz.

2025-06-03T03:09:30+00:00 ― 8 minilectura

Procesado de Audio y Voz Ajustando las tasas de muestreo para efectos de audio realistas

Explorando métodos para adaptar RNNs a diferentes tasas de muestreo de audio.

2025-06-03T01:32:20+00:00 ― 7 minilectura

Procesado de Audio y Voz Whisper-Medusa: Mejorando la Eficiencia del Reconocimiento de Voz

Nuevo modelo consigue una transcripción de voz más rápida sin sacrificar la precisión.

2025-06-03T00:43:45+00:00 ― 5 minilectura

Procesado de Audio y Voz Embeddings de altavoces Matryoshka: Un enfoque flexible para el reconocimiento de voz

Descubre cómo los embeddings Matryoshka mejoran la eficiencia y flexibilidad del reconocimiento de hablantes.

2025-06-02T20:40:50+00:00 ― 6 minilectura

Sonido NanoVoice: Avanzando en la Tecnología de Texto a Voz Personalizada

Te presentamos NanoVoice, un modelo de texto a voz rápido y eficiente para audio personalizado.

2025-06-02T19:52:15+00:00 ― 6 minilectura