Adaptando la extracción de melodías para estilos musicales diversos
Un método para mejorar la extracción de melodías en diferentes estilos musicales con mínimo esfuerzo humano.
― 9 minilectura
Tabla de contenidos
La extracción de melodías de la música es una tarea esencial para entender y trabajar con audio. Esto implica descifrar la melodía principal o la voz en la música que a menudo tiene otros sonidos tocando al mismo tiempo. El desafío surge al tratar con audio polifónico, donde ocurren múltiples sonidos simultáneamente. Normalmente, para que un modelo de aprendizaje automático funcione bien en esta tarea, necesita una gran cantidad de datos de audio correctamente etiquetados para aprender.
Sin embargo, si un modelo se entrena en un tipo de música, como canciones de un cantante específico, puede no funcionar bien cuando se encuentra con música de otro cantante o de otro estilo. Esto se debe a que las características de la música pueden cambiar la forma en que funciona el modelo. Para ayudar al modelo a desempeñarse mejor frente a música diferente, es posible adaptarlo, lo que significa proporcionarle una pequeña cantidad de nuevos datos etiquetados relacionados con ese tipo de música. Este documento discute un método para mejorar la extracción de melodías permitiendo este tipo de adaptación.
Resumen del Método
El enfoque presentado combina dos ideas clave: el Aprendizaje Activo y el Meta-aprendizaje. El aprendizaje activo ayuda a seleccionar qué partes del audio deben ser etiquetadas por humanos de una manera que sea más útil para el modelo. El meta-aprendizaje permite que el modelo se ajuste rápidamente para manejar nuevos tipos de música basándose en los datos limitados que recibe.
El método primero identifica partes del audio sobre las que el modelo tiene dudas, marcando estas para la anotación humana. Luego, un humano etiqueta estas partes, que el modelo utiliza para cambiar su configuración y adaptarse mejor al nuevo audio. Este proceso ayuda al modelo a adaptarse a varios estilos musicales o cantantes con un esfuerzo humano mínimo.
La Importancia de la Extracción de Melodías
La extracción de melodías tiene numerosas aplicaciones. Puede ser útil para recomendar música, identificar versiones de canciones, generar nueva música o separar diferentes voces en una canción. Dado que la música puede variar mucho de un género a otro, es crucial que los modelos se adapten al pasar entre diferentes tipos de música.
Los modelos suelen seguir un enfoque de aprendizaje supervisado, donde aprenden de datos etiquetados en un dominio de origen y aplican ese aprendizaje en un dominio objetivo. Esto funciona bien si los datos en ambos dominios son similares. Sin embargo, cuando hay diferencias entre los datos en los dominios de origen y objetivo, el rendimiento del modelo suele decaer. Esta situación de caída en el rendimiento debido a cambios en las características de los datos se conoce como Cambio de dominio.
Cuando esto ocurre, adaptar el modelo utilizando un pequeño número de muestras etiquetadas del dominio objetivo puede ayudar a prevenir caídas en el rendimiento.
Cómo Funciona el Método
En este trabajo, la extracción de melodías se trata como un problema de clasificación. Los valores de tono de la música se dividen en varias clases. Normalmente, hay un problema con el desequilibrio de clases en esta configuración, donde algunas clases de tono pueden tener muchos ejemplos, mientras que otras pueden tener muy pocos. A menudo, este desequilibrio puede llevar a que el modelo esté sesgado hacia las clases más comunes.
El método propuesto funciona primero entrenando en un gran conjunto de datos para aprender características base y luego adaptándolo a otros conjuntos de datos. Aprovecha una medida de confianza para evaluar cuán seguro está el modelo sobre sus predicciones. Cuando el modelo tiene dudas, elige esas partes del audio para etiquetado humano.
Una vez que el humano anota estas partes inciertas, el modelo usa esta nueva información para ajustar sus parámetros. Esta interacción con la entrada humana es lo que lo convierte en un enfoque "interactivo".
Contribuciones Clave
Entendiendo el Cambio de Dominio: El estudio enfatiza cómo el cambio de dominio afecta la extracción de melodías. Los modelos pueden tener problemas cuando hay diferencias significativas entre los datos sobre los que se entrenan y los datos sobre los que se prueban.
Técnicas de Adaptación: El documento presenta un nuevo enfoque de meta-aprendizaje que puede manejar un severo desequilibrio de clases, que es común en la extracción de melodías.
Combinando Aprendizaje Activo y Meta-Aprendizaje: El método combina eficazmente el aprendizaje activo con el meta-aprendizaje, permitiéndole enfocarse en las áreas de audio con peor rendimiento para la entrada humana.
Creación de Conjuntos de Datos: Se creó un nuevo conjunto de datos de audio específicamente para esta tarea, proporcionando un recurso extenso para la extracción de melodías.
Trabajos Relacionados
Los intentos previos de extracción de melodías a menudo se han centrado en métodos de procesamiento de señales en lugar de aprendizaje automático. Muchos de estos métodos más antiguos lucharon con las complejidades introducidas por múltiples fuentes de sonido. Si bien los enfoques de aprendizaje profundo han mejorado los métodos de extracción de melodías, aún generalmente usaban aprendizaje supervisado sin adaptación a nuevos datos.
Las adaptaciones existentes a menudo se centran en minimizar las diferencias entre los datos de entrenamiento y prueba. Se han introducido varias técnicas para mejorar cómo los modelos aprenden a través de diferentes conjuntos de datos, pero muchas de estas no funcionan eficazmente cuando hay un desequilibrio significativo en los datos disponibles para diferentes clases.
Aprendizaje Activo y Meta-Aprendizaje
El aprendizaje activo es una técnica donde el modelo selecciona las muestras más útiles de un conjunto más grande de datos de audio no etiquetados. Esto ayuda a reducir la carga de tener que etiquetar cada pieza de audio por humanos mientras se mantiene un alto rendimiento del modelo. Hay varias formas de seleccionar estas muestras:
- Basado en la Incertidumbre: Este enfoque elige muestras donde el modelo tiene menos certeza.
- Basado en la Diversidad: Aquí, el objetivo es seleccionar una variedad de muestras que representen todo el conjunto de datos.
- Cambio Esperado del Modelo: Este método busca muestras que llevarían a cambios significativos en el modelo si se etiquetan.
En el contexto de la extracción de melodías, este estudio utiliza una probabilidad de clase verdadera normalizada para medir la incertidumbre, ya que proporciona una distinción más clara entre predicciones correctas e incorrectas.
El meta-aprendizaje, a menudo descrito como "aprender a aprender", se centra en mejorar cómo un modelo puede aprender de nuevas tareas o datos rápidamente. En este trabajo, se ajustan los parámetros del modelo para que pueda adaptarse rápidamente a nuevas tareas basándose solo en unos pocos ejemplos de una nueva fuente de audio.
Metodología
El proceso comienza fusionando canales de audio y reduciendo la tasa de muestreo de audio para construir un espectrograma de magnitud. Este espectrograma se introduce en el modelo, que clasifica tramos de tiempo en varias clases de tono, incluyendo una clase para sonidos no vocálicos.
Inicialmente, se entrena el modelo usando un gran conjunto de datos. Después de entrenar el modelo base, se entrena un modelo de confianza para estimar cuán confiadas son las predicciones. Para la fase de adaptación, cuando el modelo se encuentra con una nueva fuente de audio, identifica las predicciones menos seguras y las marca para la anotación humana. Después de obtener estas anotaciones de humanos, el modelo actualiza su comprensión del nuevo tipo de audio.
Cada tramo de audio se trata como un punto de muestreo para la clasificación. El modelo de confianza ayuda a determinar qué tramos necesitan mayor entrada humana.
Datos y Experimentos
El estudio utiliza un conjunto de datos que consiste en clips de karaoke de numerosos cantantes. El conjunto de datos se divide en conjuntos de entrenamiento y validación para asegurar que el modelo no solo esté memorizando datos, sino que realmente esté aprendiendo a identificar melodías de manera efectiva.
Para las pruebas, se evalúa el modelo contra conjuntos de datos objetivo específicos. Los resultados indican qué tan bien funciona el modelo en diferentes tipos de audio en comparación con los datos de entrenamiento.
El método de adaptación del modelo se evalúa en dos fases principales: entrenamiento activo-meta y prueba activa-meta. Durante el entrenamiento activo-meta, el modelo aprende de los datos de origen, mientras que en la prueba activa-meta, se pone a prueba con nuevos audios.
Resultados y Discusión
Se presentan métricas de rendimiento para el modelo, mostrando cómo se desempeña en conjuntos de datos de entrenamiento y objetivo. Los resultados indican que, mientras que los modelos entrenados sin adaptación luchan con nuevos tipos de audio, aquellos que emplean aprendizaje activo-meta muestran mejoras significativas.
Al comparar varias técnicas de adaptación, el modelo que proponemos superó a los demás debido a su capacidad para abordar el desequilibrio de clase y reunir efectivamente la entrada humana donde más se necesita.
Además, los resultados de variar el tamaño del conjunto de apoyo muestran que aumentar la cantidad de datos etiquetados mejora el rendimiento del modelo, demostrando el valor de la entrada humana en la refinación de la comprensión del modelo.
Conclusión
En resumen, este trabajo resalta los desafíos de la extracción de melodías ante el cambio de dominio y presenta un método que combina el aprendizaje activo con el meta-aprendizaje para adaptarse a nuevas fuentes de audio con un mínimo de entrada humana. El enfoque permite que los modelos sean entrenados de manera eficiente y efectiva, abordando problemas comunes como el desequilibrio de clases y la necesidad de conjuntos de datos etiquetados extensos.
Los métodos discutidos no solo contribuyen al campo al mejorar cómo se maneja la extracción de melodías en varios tipos de música, sino que también crean caminos para futuras investigaciones en recuperación de información musical. Las técnicas de adaptación desarrolladas aquí pueden aplicarse de forma más amplia a diversas tareas de aprendizaje automático más allá de la extracción de melodías, proporcionando una base para una mayor exploración y desarrollo en tecnologías de audio.
Título: Interactive singing melody extraction based on active adaptation
Resumen: Extraction of predominant pitch from polyphonic audio is one of the fundamental tasks in the field of music information retrieval and computational musicology. To accomplish this task using machine learning, a large amount of labeled audio data is required to train the model. However, a classical model pre-trained on data from one domain (source), e.g., songs of a particular singer or genre, may not perform comparatively well in extracting melody from other domains (target). The performance of such models can be boosted by adapting the model using very little annotated data from the target domain. In this work, we propose an efficient interactive melody adaptation method. Our method selects the regions in the target audio that require human annotation using a confidence criterion based on normalized true class probability. The annotations are used by the model to adapt itself to the target domain using meta-learning. Our method also provides a novel meta-learning approach that handles class imbalance, i.e., a few representative samples from a few classes are available for adaptation in the target domain. Experimental results show that the proposed method outperforms other adaptive melody extraction baselines. The proposed method is model-agnostic and hence can be applied to other non-adaptive melody extraction models to boost their performance. Also, we released a Hindustani Alankaar and Raga (HAR) dataset containing 523 audio files of about 6.86 hours of duration intended for singing melody extraction tasks.
Autores: Kavya Ranjan Saxena, Vipul Arora
Última actualización: 2024-02-12 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2402.07599
Fuente PDF: https://arxiv.org/pdf/2402.07599
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.