Un nuevo método para separar voces en la música
La tecnología innovadora separa las voces musicales usando técnicas avanzadas de seguimiento.
― 7 minilectura
Tabla de contenidos
En la música, se pueden tocar muchas notas al mismo tiempo con diferentes instrumentos o voces. Esto crea un sonido rico llamado polifonía. A veces es difícil decir qué notas pertenecen a qué voz. Esto es especialmente cierto en piezas complejas como la música clásica. La tarea de clasificar estas notas en sus voces correctas se llama Separación de voces.
Este documento habla de una nueva forma de separar voces en una pieza musical. En lugar de usar métodos tradicionales que dependen de reglas y enfoques específicos para diferentes tipos de música, este nuevo enfoque utiliza tecnología avanzada para ver la música de una manera fresca. Nuestro método trata la tarea de separación de voces como seguir objetos en movimiento, usando una técnica llamada Seguimiento de Múltiples Trayectorias (MTT).
El Problema de la Separación de Voces
La separación de voces es importante por varias razones. Ayuda en diversas aplicaciones musicales, como identificar melodías y convertir notas musicales en partituras. En partituras típicas, las diferentes voces pueden no estar claramente marcadas, lo que dificulta diferenciarlas. En la música polifónica, las voces pueden interactuar de maneras complejas, incluyendo notas superpuestas e inversiones de voces.
Al mirar una pieza musical, podemos ver notas que se están tocando. Cada nota tiene un tono, un tiempo de inicio (comienzo) y un tiempo de finalización (fin). Nuestro modelo trabajará con esta información para identificar qué notas están vinculadas a cada voz.
Uso de Gráficas para la Separación de Voces
En nuestro enfoque, pensamos en la pieza musical como un gráfico. En este gráfico, cada nota es un punto o nodo. Creamos conexiones o enlaces entre estos nodos según si pertenecen a la misma voz.
Para separar las voces, miramos pares de notas. Predicimos un enlace entre estas notas si son consecutivas, es decir, se tocan una después de otra en la misma voz. Esto significa que podemos crear efectivamente grupos de notas vinculadas, cada uno representando una voz diferente.
El Papel de las Redes Neuronales
Para hacer predicciones precisas sobre los enlaces entre notas, usamos un tipo de inteligencia artificial llamada Red Neuronal. Más específicamente, utilizamos una Red Neuronal de Gráfico Heterogéneo (GNN). Este tipo de red es buena para entender relaciones complejas entre notas.
La red aprende a reconocer patrones y conexiones que indican qué notas pertenecen juntas en la misma voz. Al analizar las relaciones entre notas, nuestro modelo puede tomar mejores decisiones sobre la separación de voces.
Asegurando Predicciones Precisas
Un desafío que enfrentamos es asegurarnos de que cada nota solo se conecte a otra nota como su enlace de entrada y salida. Para lograr esto, introducimos una regla especial, o función de pérdida. Esta regla ayuda a mantener nuestras predicciones precisas al imponer límites sobre cuántas conexiones puede tener cada nota.
Esto es importante porque ayuda a prevenir errores donde una nota podría conectarse a múltiples voces, lo que puede suceder si solo miramos las notas de manera aislada. Al asegurarnos de que cada nota tenga una conexión clara, mejoramos el rendimiento general de nuestro método de separación de voces.
Ventajas de Nuestro Enfoque
Nuestro método ofrece varios beneficios. Primero, es flexible y puede manejar diferentes estilos de música sin necesidad de ajustes especiales para cada tipo. Esto significa que puede funcionar eficazmente con una variedad de piezas musicales, desde clásicas hasta contemporáneas.
Además, nuestro enfoque es escalable, lo que significa que puede trabajar con piezas largas de música y muchas voces. Los métodos tradicionales a menudo tienen problemas con piezas más largas o voces superpuestas complejas, pero nuestro modelo procesa estas situaciones de manera eficiente.
Adicionalmente, podemos lograr alta precisión sin depender de reglas o suposiciones externas que podrían no aplicarse a cada pieza musical. Esto hace que nuestro método sea más robusto y capaz de abordar casos intrincados en la separación de voces.
Resultados y Comparaciones
Después de aplicar nuestro método, comparamos su rendimiento con técnicas existentes en separación de voces. En muchas pruebas, nuestro modelo mostró una mejora significativa. Por ejemplo, al separar voces en una colección de música clásica, nuestro método superó los resultados anteriores de vanguardia.
Realizamos experimentos en varias piezas, asegurando una mezcla de complejidad y estilo. En estas pruebas, medimos la precisión, recuperación y rendimiento general de nuestro modelo. Los resultados indican que nuestro enfoque ofrece consistentemente mejores resultados, especialmente en piezas más complicadas.
Desafíos en la Separación de Voces
A pesar de nuestro éxito, la separación de voces todavía presenta varios desafíos. Un problema surge de la naturaleza misma de la música. Por ejemplo, las notas pueden tener largas pausas entre ellas, lo que dificulta enlazarlas con precisión. Además, los instrumentos que tocan en diferentes rangos pueden superponerse de maneras que confunden al modelo.
También, cuando las voces se cruzan o cambian de lugar, puede llevar a errores en la separación. Los oyentes humanos pueden usar información sensorial adicional, como timbre y dinámicas, para distinguir mejor estas voces. Sin embargo, nuestro modelo depende únicamente de las notas de entrada, lo que puede limitar su capacidad para interpretar estas situaciones de la misma manera que lo hacen los humanos.
Direcciones Futuras
De cara al futuro, tenemos varios planes para mejorar nuestro enfoque de separación de voces. Un área que queremos explorar es el MIDI no cuantizado, que captura la expresividad de la interpretación humana. Esto implica examinar cómo las variaciones en el tiempo y la intensidad pueden dar pistas adicionales sobre la separación de voces.
Otra área potencial de crecimiento es permitir que múltiples notas ocurran al mismo tiempo dentro de una voz. Esto permitirá a nuestro modelo manejar estructuras musicales más complejas donde hay acordes o notas superpuestas.
Finalmente, estamos interesados en extender nuestro método para trabajar directamente con grabaciones de audio. Trabajar desde audio en bruto abre posibilidades para extraer información útil que no está disponible en notación simbólica. Esto podría llevar a avances aún mayores en el campo de la separación de voces, especialmente en contextos de interpretación que involucran múltiples instrumentos.
Conclusión
En resumen, nuestro nuevo enfoque para la separación de voces en la música representa un avance significativo en el campo. Al tratar la tarea como un problema de seguimiento de múltiples trayectorias y usar redes neuronales gráficas, podemos desenredar eficientemente voces en piezas musicales complejas.
Nuestro método es flexible, escalable y capaz de ofrecer un alto rendimiento mientras evita las trampas de las técnicas tradicionales. A medida que continuemos refinando nuestro enfoque y explorando nuevas direcciones, creemos que podemos mejorar aún más la calidad y efectividad de la separación de voces en la música.
A través de nuestro trabajo, buscamos profundizar nuestra comprensión de la percepción musical y mejorar las herramientas para músicos, investigadores y entusiastas por igual.
Título: Musical Voice Separation as Link Prediction: Modeling a Musical Perception Task as a Multi-Trajectory Tracking Problem
Resumen: This paper targets the perceptual task of separating the different interacting voices, i.e., monophonic melodic streams, in a polyphonic musical piece. We target symbolic music, where notes are explicitly encoded, and model this task as a Multi-Trajectory Tracking (MTT) problem from discrete observations, i.e., notes in a pitch-time space. Our approach builds a graph from a musical piece, by creating one node for every note, and separates the melodic trajectories by predicting a link between two notes if they are consecutive in the same voice/stream. This kind of local, greedy prediction is made possible by node embeddings created by a heterogeneous graph neural network that can capture inter- and intra-trajectory information. Furthermore, we propose a new regularization loss that encourages the output to respect the MTT premise of at most one incoming and one outgoing link for every node, favouring monophonic (voice) trajectories; this loss function might also be useful in other general MTT scenarios. Our approach does not use domain-specific heuristics, is scalable to longer sequences and a higher number of voices, and can handle complex cases such as voice inversions and overlaps. We reach new state-of-the-art results for the voice separation task in classical music of different styles.
Autores: Emmanouil Karystinaios, Francesco Foscarin, Gerhard Widmer
Última actualización: 2023-04-28 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2304.14848
Fuente PDF: https://arxiv.org/pdf/2304.14848
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.