Desglosando la música: el arte de la separación de fuentes
Descubre cómo la separación de fuentes de música y la transcripción cambian la forma en que disfrutamos la música.
Bradford Derby, Lucas Dunker, Samarth Galchar, Shashank Jarmale, Akash Setti
― 8 minilectura
Tabla de contenidos
- ¿Por qué es importante?
- Una nueva ola de tecnología
- ¿Cómo funciona la separación de fuentes?
- El papel del aprendizaje automático
- Entrenando el modelo
- Transcripción de voz y generación de partituras
- La magia del MIDI
- Los desafíos de la conversión de MIDI a partituras
- Mirando hacia el futuro
- Conclusión
- Fuente original
- Enlaces de referencia
¿Alguna vez has escuchado una canción y te has preguntado cómo sería desarmar cada instrumento como las cuerdas de una guitarra? Pues hay un campo de estudio que hace justo eso. La Separación de Fuentes Musicales se trata de aislar sonidos individuales de una mezcla de diferentes sonidos. Este proceso puede ayudar en varias tareas, como mejorar la claridad del habla, escribir letras y hacer mejores mezclas musicales.
Ahora, si alguna vez has intentado leer música, sabes que puede ser un poco complicado. Ahí es donde entra la Transcripción Automática de Música. Este es el proceso de convertir audio crudo de una canción en partituras que los músicos pueden leer. Así que, ya sea que quieras hacer karaoke como una estrella de rock o simplemente quieras saber cómo tocar esa melodía pegajosa en el piano, esta tecnología te tiene cubierto.
¿Por qué es importante?
Imagina que tienes una canción favorita, pero solo quieres escuchar el solo de guitarra mientras escuchas de fondo al cantante. Esta es solo una manera en que estas tecnologías pueden mejorar nuestra experiencia. ¡Pero no para ahí! También pueden ser un cambio de juego para músicos, productores e investigadores. Esto significa que no solo puedes separar las voces, el bajo y la batería, sino que también puedes profundizar en análisis más complejos, como descubrir a qué género pertenece una canción o remezclarla de maneras emocionantes.
Sin embargo, no todo es perfecto en el mundo de la tecnología musical. Todavía hay algunos desafíos, como el ruido en el audio, el tiempo que toma entrenar modelos y las molestas reglas de derechos de autor que dificultan la recolección de datos.
Una nueva ola de tecnología
Últimamente, el Aprendizaje Profundo ha comenzado a sacudir este campo. Este enfoque utiliza algoritmos que pueden aprender de grandes cantidades de datos y crear modelos que cometen menos errores. Con más potencia de cómputo disponible y modelos avanzados, los investigadores pueden abordar las complejidades de separar sonidos de una manera mucho más inteligente.
Desglosémoslo: los modelos de aprendizaje profundo analizan el audio y descubren patrones en los datos. Esto significa que pueden escuchar una mezcla de sonidos y entender cómo separar cada instrumento. ¡Es como tener un mago musical que puede hacer que los sonidos individuales aparezcan de la nada!
¿Cómo funciona la separación de fuentes?
Cuando hablamos de separar sonidos, uno de los métodos populares que se usa se llama enmascaramiento. Imagina una fiesta donde todos hablan al mismo tiempo. Las máscaras pueden actuar como auriculares que bloquean el ruido, permitiéndote enfocarte solo en una voz. En términos de audio, una máscara es un filtro que ayuda a aislar el sonido que quieres escuchar.
Para comenzar el proceso de separación, usamos algo llamado Transformada de Fourier de Tiempo Corto. Este término complicado describe cómo tomar una señal de audio y descomponerla en piezas más pequeñas. Cada pieza nos da información sobre el tiempo y la frecuencia de los sonidos. Usando estas piezas detalladas, podemos comenzar a identificar y aislar diferentes sonidos.
El papel del aprendizaje automático
Una vez que tenemos nuestras piezas de audio, es hora de que brille nuestro modelo de aprendizaje profundo. Este modelo mira esas piezas y aprende a separar las voces, la batería y los instrumentos. En lugar de usar un gran modelo para todo, podemos enfocarnos en separar solo las voces, dejando que el resto del sonido se mezcle, lo que ayuda a simplificar la tarea para nuestro modelo.
¡Lo que pasa después es bastante emocionante! Al mezclar fuentes de audio crudo, podemos generar muchos ejemplos de entrenamiento diferentes para nuestro modelo. Piensa en ello como cocinar: cuanto más ingredientes tengas, más sabroso puede ser tu platillo. Esta técnica permite a los investigadores aprovechar al máximo los datos limitados que tienen.
Entrenando el modelo
Ahora, hablemos de la parte de entrenamiento. Entrenar un modelo es un poco como prepararse para un concurso de talentos: ¡necesitas práctica! Los investigadores entrenan sus modelos con audio separado de otras fuentes, para que aprenda a reconocer varios sonidos y entender cómo se combinan.
Después de un entrenamiento exhaustivo, se realizan evaluaciones. Aquí es donde se prueba el rendimiento del modelo para ver qué tan bien puede separar los sonidos. Cuanto más alto sea el puntaje en estas evaluaciones, mejor ha aprendido el modelo su oficio, ¡mucho como las calificaciones de un estudiante reflejan su comprensión del tema!
Transcripción de voz y generación de partituras
Una vez que tenemos nuestras voces perfectamente separadas, podemos usar la transcripción automática de música para convertir el audio en archivos MIDI. Piensa en el MIDI como una representación digital de las notas musicales. Es como un plano musical, dándole a los músicos todo lo que necesitan saber sobre qué notas tocar.
Para hacer MIDI a partir de audio, dependemos del conjunto de datos MAESTRO, que proporciona archivos de audio y MIDI que están cuidadosamente alineados. Este conjunto de datos es como un tesoro donde los músicos pueden encontrar recursos valiosos. Al convertir audio en algo como un espectrograma transformado en Constant-Q, podemos analizar el audio de una manera que resalta las características musicales sin esfuerzo.
La magia del MIDI
Los archivos MIDI son increíblemente útiles porque ofrecen una forma de comunicar información musical sin necesidad de escuchar el audio nuevamente. Los músicos pueden leer fácilmente el MIDI, lo que les permite crear, editar y interpretar música de manera más efectiva. Este proceso a menudo implica crear algo llamado “piano roll”. Imagina una larga tira donde cada tecla del piano corresponde a una fila, y cada marco de tiempo es una columna. ¡Es como un juego de Tetris musical!
Sin embargo, la verdadera magia sucede cuando convertimos esos archivos MIDI en partituras usando software especializado. Este software puede entender el plano MIDI y convertirlo en notación que los músicos pueden leer y tocar.
Los desafíos de la conversión de MIDI a partituras
Convertir MIDI a partituras no siempre es fácil. Si bien el MIDI proporciona todo tipo de información útil, tiene limitaciones a la hora de expresar las sutilezas de una interpretación en vivo. Los músicos a menudo tocan con un nivel de expresividad que puede ser difícil de capturar solo con MIDI. Esto significa que la conversión puede llevar a resultados complejos y desordenados.
Por lo tanto, para que la partitura final no solo sea legible, sino también bonita, el software pasa por varias etapas para pulir todo. Piensa en ello como el toque final que un pintor da antes de mostrar su obra maestra.
Mirando hacia el futuro
Entonces, ¿qué nos depara el futuro en la separación de fuentes musicales, la transcripción musical y la generación de partituras? Bueno, todos pueden estar de acuerdo en que aún hay margen para mejorar. Un objetivo es crear mejores modelos que puedan trabajar con diferentes tipos de música, ¡incluyendo voces! Cuantos más datos tengan estos modelos para trabajar, mejor podrán desempeñarse.
Los investigadores esperan que, refinando sus procesos y colaborando en nuevas técnicas, puedan crear herramientas que sean fáciles de usar, produciendo resultados de alta calidad para músicos en todas partes. El sueño último es construir un sistema que no solo separe sonidos y transcriba música, sino que también añada un toque humano y un toque de creatividad.
Conclusión
En resumen, el mundo de la separación de fuentes musicales y la transcripción automática de música es un lugar emocionante lleno de potencial. Aunque aún hay algunos desafíos por superar, los avances en tecnología han abierto un mundo donde los músicos y amantes de la música pueden disfrutar de una experiencia más rica y dinámica.
Así que, la próxima vez que escuches una melodía pegajosa, recuerda que tras bambalinas hay equipos de personas dedicadas trabajando duro para hacer que esos sonidos sean más fáciles de tocar y disfrutar. ¡Quién sabe, tal vez un día pronto, tomes tu instrumento y encuentres una partitura bellamente elaborada de esa canción que amas, todo gracias a las maravillas de la tecnología!
Fuente original
Título: Source Separation & Automatic Transcription for Music
Resumen: Source separation is the process of isolating individual sounds in an auditory mixture of multiple sounds [1], and has a variety of applications ranging from speech enhancement and lyric transcription [2] to digital audio production for music. Furthermore, Automatic Music Transcription (AMT) is the process of converting raw music audio into sheet music that musicians can read [3]. Historically, these tasks have faced challenges such as significant audio noise, long training times, and lack of free-use data due to copyright restrictions. However, recent developments in deep learning have brought new promising approaches to building low-distortion stems and generating sheet music from audio signals [4]. Using spectrogram masking, deep neural networks, and the MuseScore API, we attempt to create an end-to-end pipeline that allows for an initial music audio mixture (e.g...wav file) to be separated into instrument stems, converted into MIDI files, and transcribed into sheet music for each component instrument.
Autores: Bradford Derby, Lucas Dunker, Samarth Galchar, Shashank Jarmale, Akash Setti
Última actualización: 2024-12-09 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2412.06703
Fuente PDF: https://arxiv.org/pdf/2412.06703
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://github.com/Lucas-Dunker/Stem-Separator-AMT/tree/main
- https://source-separation.github.io/tutorial/landing.html
- https://arxiv.org/pdf/1810.11520
- https://www.sciencedirect.com/science/article/pii/S1877050920310152?via%3Dihub
- https://www.ijert.org/research/audio-stems-separation-using-deep-learning-IJERTV10IS0300
- https://sigsep.github.io/datasets/musdb.html
- https://pseeth.github.io/public/papers/seetharaman_2dft_waspaa2017.pdf
- https://arxiv.org/pdf/1806.03185
- https://github.com/nussl/nussl
- https://source-separation.github.io/tutorial/basics/tf_and_masking.html
- https://digitalcommons.calpoly.edu/cgi/viewcontent.cgi?article=3064&context=theses
- https://cs230.stanford.edu/projects_spring_2020/reports/38948801.pdf
- https://github.com/jsleep/wav2mid
- https://arxiv.org/pdf/1710.11153