PDMX ofrece una gran colección de música simbólica de dominio público para el desarrollo de IA.
― 7 minilectura
Ciencia de vanguardia explicada de forma sencilla
PDMX ofrece una gran colección de música simbólica de dominio público para el desarrollo de IA.
― 7 minilectura
Un estudio muestra que los i-vectores pueden competir con modelos complejos en el reconocimiento de hablantes.
― 6 minilectura
Un estudio sobre cómo las elecciones de diseño afectan los modelos de lenguaje de base.
― 8 minilectura
Un nuevo método evalúa modelos de habla auto-supervisados usando medidas de rango.
― 6 minilectura
El estudio resalta los avances en el reconocimiento de emociones en robots usando Transformadores de Visión.
― 7 minilectura
La investigación resalta la importancia de un diagnóstico justo en enfermedades respiratorias.
― 8 minilectura
MusicLIME ayuda a explicar el enfoque de la IA para analizar música a través de audio y letras.
― 7 minilectura
Descubre cómo la Computación Cuántica está transformando la creatividad musical con el Harmonizador Cuántico Variacional.
― 14 minilectura
El modelo MCMamba mejora la calidad del habla en entornos ruidosos usando información espacial y espectral.
― 5 minilectura
Este estudio evalúa métodos de baja latencia para mejorar la calidad del habla en condiciones ruidosas.
― 8 minilectura
Examinando cómo los gestos 2D y 3D afectan la comunicación de personajes virtuales.
― 8 minilectura
Un estudio sobre cómo mejorar los sistemas de reconocimiento de voz en ambientes ruidosos.
― 7 minilectura
Los investigadores usan el habla para identificar y monitorear varias condiciones de salud.
― 10 minilectura
RF-GML mide la calidad del audio sin necesidad de una señal de referencia.
― 6 minilectura
Aprende cómo la ecualización de salas mejora las experiencias de audio en diferentes ambientes.
― 7 minilectura
StyleTTS-ZS ofrece una síntesis de voz eficiente y de alta calidad sin necesidad de un entrenamiento extenso del hablante.
― 6 minilectura
Un nuevo método mejora el canto en conjunto sintetizado al modelar las interacciones entre los cantantes.
― 6 minilectura
Un nuevo marco mejora el reconocimiento de voz al modelar las relaciones de sonido de manera efectiva.
― 6 minilectura
Aprende cómo el ajuste de preferencias alinea modelos con feedback humano.
― 5 minilectura
Un nuevo método de enmascaramiento mejora la conversión de voz al separar la identidad del hablante de la fonética.
― 7 minilectura
Técnicas innovadoras mejoran el entrenamiento de modelos de música-texto con recursos limitados.
― 8 minilectura
Nuevos métodos mejoran el etiquetado de audio para estilos musicales diversos y la preservación cultural.
― 8 minilectura
Un conjunto de datos de sonidos del hogar promueve la seguridad y la comodidad para los adultos mayores.
― 6 minilectura
SD-Codec mejora el procesamiento de audio al separar diferentes tipos de sonido de manera efectiva.
― 6 minilectura
Este artículo habla sobre métodos para mejorar el reconocimiento de voz en el habla con acento.
― 7 minilectura
Un nuevo enfoque mejora la interpretabilidad de la detección de voz falsa.
― 6 minilectura
Una mirada al nuevo sistema TTS de un solo paso que mejora la generación de voz.
― 7 minilectura
Este estudio aborda los desafíos en modelos de lenguaje de audio para lenguas de pocos recursos.
― 7 minilectura
Este estudio mejora los sistemas de reconocimiento de emociones para idiomas menos comunes usando datos de alto recurso.
― 8 minilectura
Un modelo mejora las tareas de habla en entornos multilingües, abordando los desafíos del cambio de código.
― 6 minilectura
Mejorando la síntesis de voz en lenguas indias usando unidades inter-pauss.
― 8 minilectura
DeFT-Mamba mejora la separación y clasificación de sonido en ambientes ruidosos.
― 6 minilectura
CADA-GAN mejora el rendimiento de los sistemas de ASR en diferentes entornos de grabación.
― 7 minilectura
EVA combina señales de audio y visuales para mejorar la precisión del reconocimiento de voz.
― 5 minilectura
Un nuevo marco simplifica el reconocimiento de voz en entornos ruidosos.
― 6 minilectura
Llama-AVSR combina entradas de audio y visuales para mejorar la precisión del reconocimiento de voz.
― 7 minilectura
WMCodec mejora la marca de agua de audio para más seguridad y autenticidad.
― 6 minilectura
Nuevos modelos abordan la clasificación de sonido con datos de entrenamiento limitados.
― 6 minilectura
Un nuevo enfoque mejora la detección de audio falso utilizando modelos preentrenados.
― 6 minilectura
Nuevo método mejora la calidad y eficiencia de la generación de voz.
― 5 minilectura