Riconoscere le Epoche Musicali Attraverso Dati Audio e degli Artisti
Uno studio per classificare la musica in base all'epoca usando le caratteristiche audio e le intuizioni degli artisti.
― 6 leggere min
Indice
La musica degli anni '60 suona diversa rispetto a quella degli anni '90? Studi dimostrano che ci sono differenze nei modelli legati a come la musica è stata creata nel corso dei decenni. Questo significa che possiamo capire da quale era proviene una canzone in base alle sue caratteristiche musicali e alle informazioni sull'artista. Sapere l'era di una canzone può essere utile per creare playlist e fare raccomandazioni. Tuttavia, a volte è difficile scoprire quando è stata pubblicata una canzone.
Questo articolo parla di un nuovo compito chiamato riconoscimento dell'era musicale. Lo trattiamo come un problema di classificazione musicale e presentiamo soluzioni basate su un metodo di apprendimento che confronta diversi input. Creiamo un modello che prevede l'era della musica usando il suo audio. Se abbiamo informazioni sull'artista, espandiamo questo modello per utilizzare sia i dati audio che quelli dell'artista per ottenere risultati migliori.
I nostri test mostrano che il modello audio base può prevedere l'era musicale con il 54% di accuratezza permettendo una differenza di 3 anni. Quando aggiungiamo informazioni sull'artista, l'accuratezza migliora del 9%. La musica ha sempre cercato di essere attraente per gli ascoltatori. Anche se abbiamo meno prove scientifiche, studi precedenti suggeriscono variazioni nell' strumentazione e tendenze di volume nella musica nel corso degli anni. Riconoscere l'era musicale attraverso le caratteristiche audio sembra un compito fattibile.
Di solito, le ere musicali sono categorizzate per decenni come gli anni '80 o '90. Questi tag sono comuni nelle piattaforme di streaming musicale come Spotify e Pandora. L'anno di uscita di una canzone fornisce un contesto sulla cultura, l'umore e persino uno sguardo nella storia. Questo aiuta a organizzare canzoni per playlist e raccomandazioni. Ma a volte non possiamo contarci sull'anno di uscita, quindi stimare l'era di una canzone dal suo audio diventa importante.
Internet ha reso facile condividere contenuti musicali, e piattaforme come TikTok e YouTube sono cresciute rapidamente. In questi casi, la musica potrebbe essere riutilizzata o modificata, il che può portare a perdere l'anno di uscita originale. Inoltre, se qualcuno fa una cover di una vecchia canzone oggi, può aggiungere confusione riguardo alla sua era.
In questa discussione, presentiamo il riconoscimento dell'era musicale come un modo specifico per classificare le canzoni in base ai loro anni. La sfida sta nel differenziare le canzoni pubblicate in anni vicini, poiché le variazioni potrebbero non essere ovvie. Abbiamo anche notato che ci sono meno canzoni di certi anni, rendendo i dati sbilanciati. Pertanto, abbiamo progettato il nostro modello per imparare le relazioni tra canzoni simili dello stesso anno e distinguere quelle di anni diversi.
Per raggiungere questo obiettivo, utilizziamo un approccio di apprendimento supervisionato che ha avuto grande successo nel riconoscere immagini. Per includere informazioni sull'artista, introduciamo un nuovo framework che gestisce sia input audio che informazioni sugli artisti per migliorare l'allenamento.
Nonostante l'utilità dei metodi passati nel tagging musicale basato sul contesto e sulle preferenze degli utenti, è stata prestata pochissima attenzione al riconoscimento dell'era musicale, probabilmente perché l'anno di uscita è di solito disponibile. Tuttavia, in alcuni casi, queste informazioni possono mancare.
Il suono di un'era può essere meglio definito dalle sue canzoni popolari, collegando il nostro lavoro alla previsione di quali canzoni diventeranno successi in un determinato periodo. Analizziamo due tipi di caratteristiche: quelle interne estratte dall'audio e quelle esterne legate ai social media e ai dati di mercato. Includere il successo passato di un artista può aumentare l'accuratezza di queste previsioni.
Le nostre contribuzioni possono essere riassunte in tre approcci:
- Audio-CNN: Un modello che prevede l'era musicale basato sull'audio.
- Audio-SUC: Un modello migliorato che utilizza l'Apprendimento Contrastivo per identificare meglio l'era musicale dall'audio.
- AudioArt-MMC: Un modello potenziato che combina informazioni audio e dell'artista per previsioni ancora migliori.
Nel nostro approccio, utilizziamo una Rete Neurale Convoluzionale (CNN) per il nostro modello base, che elabora l'audio per estrarre caratteristiche locali per la classificazione. La CNN consiste in vari strati che gestiscono i dati audio, seguiti da uno strato lineare per restituire i risultati di classificazione.
Successivamente, riconosciamo i limiti del modello CNN nel distinguere gli anni vicini, il che porta allo sviluppo di una nuova architettura che incorpora l'apprendimento contrastivo. Questo metodo impara a differenziare le coppie di audio in base alle etichette dell'era, raggruppando le canzoni della stessa era e separando quelle di ere diverse.
Per gestire l'imbalance nella distribuzione delle canzoni tra gli anni, utilizziamo un approccio multimodale che incorpora testi biografici degli artisti, che forniscono un contesto extra sullo stile musicale durante gli anni attivi dell'artista. Queste informazioni aggiuntive possono aiutarci a creare rappresentazioni migliori delle canzoni.
Il nostro modello di fusione multimodale utilizza tecniche di deep learning per apprendere informazioni correlate tra musica e testo attraverso meccanismi di attenzione. Per l'audio, utilizziamo dati di mel-spectrogram, mentre i dati biografici degli artisti sono codificati usando tecniche speciali.
Nel nostro framework, proponiamo anche una perdita contrastiva multimodale, che aiuta a migliorare l'apprendimento di diverse visuali delle canzoni, permettendo al modello di evitare di perdere differenze importanti tra le canzoni all'interno della stessa classe di era.
Utilizziamo due dataset per testare i nostri metodi: il noto Million Song Dataset (MSD) e il nostro dataset interno che include circa 800.000 canzoni. Ci assicuriamo di avere abbastanza dati sugli anni di uscita delle canzoni e sulle biografie degli artisti per la nostra analisi.
Per misurare l'accuratezza, definiamo una metrica che consente una certa tolleranza nelle previsioni, poiché le differenze tra canzoni vicine nella data di uscita possono essere sottili. Definiamo due scenari per valutare la nostra accuratezza: uno in cui ogni anno è una classe e un altro in cui i decenni sono raggruppati insieme.
Durante l'addestramento, preprocessiamo i dati audio per creare caratteristiche utili in input. Poi suddividiamo i nostri dati per l'addestramento e la validazione, mantenendo una parte per testare le prestazioni del modello.
I risultati dei nostri metodi proposti mostrano che l'uso dell'apprendimento contrastivo aumenta significativamente le prestazioni rispetto al nostro modello base. La combinazione di audio e informazioni sugli artisti porta a risultati ancora migliori, il che è in linea con le nostre aspettative, confermando l'importanza dei dati sugli artisti per determinare l'era musicale.
Le nostre scoperte suggeriscono che man mano che consentiamo tolleranze più ampie nelle previsioni, i vantaggi dei nostri metodi di apprendimento contrastivo diventano più evidenti. Anche in anni con meno canzoni, i nostri metodi mostrano forza nella gestione dell'imbalance dei dati.
Visualizziamo i risultati tracciando gli embeddings di diverse canzoni, mostrando quanto efficacemente i nostri metodi separano le canzoni in base alla loro era e all'artista. Le nostre osservazioni confermano che usare entrambe le perdite contrastive migliora il clustering basato su attributi musicali.
In sintesi, abbiamo proposto un approccio completo per riconoscere le ere musicali basato su audio e informazioni sugli artisti, utilizzando efficacemente nuove funzioni di perdita per ottenere un migliore clustering delle rappresentazioni delle canzoni. I nostri risultati sono promettenti per future applicazioni in compiti legati alla musica.
Guardando al futuro, puntiamo a migliorare il nostro approccio con metodi più avanzati e considerare di integrare ulteriori metadata, come i tipi di strumenti e gli stati d'animo delle canzoni, in un framework unificato per il riconoscimento musicale.
Titolo: Music Era Recognition Using Supervised Contrastive Learning and Artist Information
Estratto: Does popular music from the 60s sound different than that of the 90s? Prior study has shown that there would exist some variations of patterns and regularities related to instrumentation changes and growing loudness across multi-decadal trends. This indicates that perceiving the era of a song from musical features such as audio and artist information is possible. Music era information can be an important feature for playlist generation and recommendation. However, the release year of a song can be inaccessible in many circumstances. This paper addresses a novel task of music era recognition. We formulate the task as a music classification problem and propose solutions based on supervised contrastive learning. An audio-based model is developed to predict the era from audio. For the case where the artist information is available, we extend the audio-based model to take multimodal inputs and develop a framework, called MultiModal Contrastive (MMC) learning, to enhance the training. Experimental result on Million Song Dataset demonstrates that the audio-based model achieves 54% in accuracy with a tolerance of 3-years range; incorporating the artist information with the MMC framework for training leads to 9% improvement further.
Autori: Qiqi He, Xuchen Song, Weituo Hao, Ju-Chiang Wang, Wei-Tsung Lu, Wei Li
Ultimo aggiornamento: 2024-07-07 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.05368
Fonte PDF: https://arxiv.org/pdf/2407.05368
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.