Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Suono# Intelligenza artificiale# Apprendimento automatico# Elaborazione dell'audio e del parlato

Presentiamo MARBLE: un benchmark per l'AI musicale

MARBLE stabilisce uno standard per valutare i modelli di intelligenza artificiale musicale su più attività.

― 7 leggere min


MARBLE: Benchmark perMARBLE: Benchmark perl'IA musicalecomprensione musicale.valutazione strutturato per laMARBLE stabilisce un framework di
Indice

Negli ultimi tempi, l'arte e l'Intelligenza Artificiale (IA) si sono incrociate in modo significativo, soprattutto in aree come la creazione di immagini e storie. Tuttavia, l'uso dell'IA nella musica, specialmente per comprenderla, è ancora in fase di sviluppo. C'è poca ricerca su come rappresentare profondamente la musica, poche raccolte di dati ampie e utili, e manca uno standard comune per valutare i sistemi di IA musicali. Per colmare questa lacuna, presentiamo MARBLE - Music Audio Representation Benchmark for Universal Evaluation. MARBLE aiuta a valutare diverse attività di Recupero di Informazioni Musicali (MIR) organizzandole in una struttura chiara.

Cos'è MARBLE?

MARBLE ha l'obiettivo di fornire un modo standard per valutare varie attività di MIR attraverso un sistema dettagliato che organizza i compiti in quattro livelli: acustico, performance, spartito e descrizioni di alto livello della musica. Il benchmark è creato sulla base di 18 attività su 12 set di dati ad accesso aperto. Questo offre una procedura standard per valutare i modelli musicali, rendendo più facile per i ricercatori confrontare i risultati e trovare aree di miglioramento.

MARBLE è progettato per essere user-friendly e consente ai ricercatori di costruirci sopra facilmente. Rispettando il copyright, fornisce linee guida chiare sull'uso dei set di dati. I primi risultati indicano che i modelli di linguaggio musicale sviluppati recentemente stanno performando bene in molte attività, ma c'è ancora margine per ulteriori miglioramenti. Il sito del benchmark e l'kit di strumenti sono disponibili per favorire futuri studi nell'IA musicale.

Il bisogno di comprendere la musica

Anche se l'IA ha fatto progressi in molte forme d'arte, il suo sviluppo nella comprensione della musica è in ritardo. I ricercatori si stanno concentrando sul MIR, che riguarda l'estrazione di informazioni dall'audio grezzo. Attività come la classificazione musicale, il riconoscimento delle emozioni, la stima del pitch e l'analisi degli elementi musicali sono al centro del MIR. Tuttavia, a causa di sfide come il copyright e l'alto costo di etichettatura, ci sono spesso insiemi di dati etichettati insufficienti, limitando così l'efficacia dei modelli che si basano sull'apprendimento supervisionato.

L'apprendimento auto-supervisionato (SSL) sta guadagnando terreno in vari campi come l'Elaborazione del Linguaggio Naturale (NLP) e la Visione Computerizzata (CV) perché funziona bene anche con dati annotati limitati. Alcuni ricercatori hanno iniziato a sperimentare l'SSL per l'apprendimento della rappresentazione audio e modelli pre-addestrati su misura per la musica.

Benchmark esistenti in altri campi

In NLP, benchmark come GLUE e SuperGLUE hanno aiutato a valutare e promuovere la ricerca. Allo stesso modo, in CV, set di dati come VTAB e VISSL offrono standard. Tuttavia, nella musica, le valutazioni dei modelli esistenti sono disgiunte e offrono poche indicazioni per i confronti. Questo rende difficile trarre intuizioni o conclusioni significative attraverso diverse tecniche per la comprensione musicale.

Attualmente, i modelli musicali vengono testati principalmente su attività downstream come la classificazione di genere e emozione, identificazione degli strumenti, tagging musicale, rilevamento della tonalità e altro. Molti studi seguono vari disegni sperimentali, e solo alcuni si concentrano su attività sequenziali, come il beat tracking e la separazione delle diverse sorgenti audio. Anche se altri benchmark come SUPERB e HEAR forniscono valutazioni unite per attività di parlato e suono, l'audio musicale presenta sfide uniche.

C'è un urgente bisogno di benchmark completi, estesi e accessibili per stimolare lo sviluppo della musica SSL. Perciò, introduciamo MARBLE per affrontare questa necessità.

La Struttura di MARBLE

MARBLE esamina le capacità dei modelli musicali attraverso un ampio spettro, proponendo una nuova organizzazione per le attività di MIR. I quattro livelli della gerarchia si allineano con la comprensione professionale, offrendo un framework che aiuta a strutturare i set di dati e identificare una vasta gamma di attività downstream.

Attività popolari dal defunto MIREX Challenge sono state selezionate, utilizzando set di dati corrispondenti che hanno etichette limitate. Attualmente, MARBLE comprende 18 attività su 13 categorie basate su 12 set di dati pubblici o commercialmente disponibili.

Oltre alle tradizionali attività di classificazione, MARBLE include attività di etichettatura sequenziale come la separazione delle sorgenti e il beat tracking. I set di dati sono facilmente accessibili, consentendo agli utenti di scaricarli direttamente da fonti ufficiali o siti esterni.

È stato stabilito un protocollo unificato, insieme a toolkit per valutare le prestazioni dei modelli attraverso le attività. In questo protocollo, i modelli fungono da fondamenta per fornire rappresentazioni generali per tutte le attività, mentre componenti predittivi specifici per compiti vengono aggiunti e addestrati sotto vari vincoli.

Attività Chiave in MARBLE

MARBLE comprende più categorie di attività che coprono aspetti essenziali della lavorazione musicale. Le attività sono divise principalmente in due categorie: discriminative e generative. Questa prima versione di MARBLE si concentra su attività discriminative, mentre le attività generative, come la creazione musicale, verranno considerate in futuri aggiornamenti.

Attività di Descrizione di Alto Livello

Le attività di descrizione di alto livello valutano le caratteristiche generali della musica, come genere, umore e tonalità. Alcuni esempi includono:

  1. Rilevamento della Tonalità: Predire la tonalità di una canzone utilizzando set di dati come Giantsteps.

  2. Tagging Musicale: Assegnare etichette appropriate ai brani musicali, utilizzando set di dati come MagnaTagATune.

  3. Classificazione di Genere: Categorizzare le canzoni in generi basati su set di dati esistenti come GTZAN e MTG-Genre.

  4. Riconoscimento delle Emozioni: Determinare il contenuto emotivo della musica. Sono stati utilizzati due set di dati per questo scopo: Emomusic e MTG-MoodTheme.

Attività di Livello Spartito

Questo livello si concentra sull'identificazione degli elementi musicali da uno spartito. Alcune attività coinvolgono:

  1. Classificazione del Pitch: Assegnare tonalità a campioni audio, utilizzando set di dati come Nsynth.

  2. Beat Tracking: Rilevare i battiti in ogni frame della musica.

  3. Stima degli Accordi: Identificare gli accordi nei clip audio, utilizzando il set di dati GuitarSet.

  4. Estrazione della Melodia: Estrarre melodie dall'audio, utilizzando il set di dati MedleyDB.

Attività di Livello Performance

Questa categoria guarda alle tecniche impiegate durante una performance. Per esempio:

  1. Rilevamento della Tecnica Vocale: Identificare le tecniche di canto da clip audio utilizzando il set di dati VocalSet.

Attività di Livello Acustico

Qui, ci si concentra su varie qualità audio, tra cui:

  1. Classificazione degli Strumenti: Identificare gli strumenti nell'audio utilizzando set di dati come Nsynth.

  2. Identificazione del Cantante: Riconoscere i cantanti dalle registrazioni.

  3. Separazione delle Sorgenti: Separare le tracce audio in componenti individuali, utilizzando il set di dati MUSDB18.

Framework di Valutazione

MARBLE ha stabilito un framework di valutazione standardizzato per garantire valutazioni eque. Questo framework sfrutta modelli pre-addestrati per esaminare efficientemente le predizioni specifiche dei compiti.

Le tracce di valutazione includono:

  1. Traccia Non Vincolata: I partecipanti possono inviare qualsiasi configurazione, incoraggiando la flessibilità.

  2. Traccia Semi-Vincolata: Le sottomissioni devono utilizzare modelli pre-addestrati fissi, restringendo i parametri.

  3. Traccia Vincolata: Un approccio standardizzato in cui le sottomissioni devono seguire linee guida specifiche, applicando limiti alle ricerche di iperparametri.

Dati e Preoccupazioni sulla Licenza

Molti set di dati utilizzati nel benchmark MARBLE affrontano sfide legate al copyright e alla licenza. Questo limita la quantità di dati etichettati disponibili per l'addestramento, portando a potenziali bias nelle valutazioni dei modelli.

Inoltre, MARBLE mira a includere più set di dati commercialmente disponibili in futuro.

Limitazioni e Direzioni Future

Anche se MARBLE punta a migliorare la comprensione musicale, rimangono alcune sfide. Ad esempio, molte attività coinvolgono più metriche, ma attualmente il benchmark include solo una o due metriche a causa di problemi di copyright e accesso ai set di dati. Sono necessari set di dati più completi per alcune attività, e le future versioni includeranno ulteriori compiti, come il rilevamento di canzoni di cover.

C'è anche margine per sviluppare benchmark che valutino la generazione musicale e la composizione, insieme a modelli per mescolare l'audio musicale con rappresentazioni simboliche e linguaggio.

Conclusione

In conclusione, MARBLE funge da benchmark completo per valutare le caratteristiche musicali, comprendendo una struttura ben definita per varie attività di MIR. La standardizzazione dei processi consente valutazioni eque e ripetibili attraverso diversi modelli. I risultati di MARBLE indicano risultati promettenti per diversi modelli pre-addestrati, ma il campo ha ancora molto potenziale di crescita.

Facilitando un accesso facile e misure comparative, MARBLE mira a promuovere ulteriori ricerche nel campo della comprensione musicale e delle sue applicazioni in IA. La comunità musicale è incoraggiata a partecipare a questa iniziativa per far avanzare l'apprendimento della rappresentazione nel Recupero delle informazioni musicali.

Fonte originale

Titolo: MARBLE: Music Audio Representation Benchmark for Universal Evaluation

Estratto: In the era of extensive intersection between art and Artificial Intelligence (AI), such as image generation and fiction co-creation, AI for music remains relatively nascent, particularly in music understanding. This is evident in the limited work on deep music representations, the scarcity of large-scale datasets, and the absence of a universal and community-driven benchmark. To address this issue, we introduce the Music Audio Representation Benchmark for universaL Evaluation, termed MARBLE. It aims to provide a benchmark for various Music Information Retrieval (MIR) tasks by defining a comprehensive taxonomy with four hierarchy levels, including acoustic, performance, score, and high-level description. We then establish a unified protocol based on 14 tasks on 8 public-available datasets, providing a fair and standard assessment of representations of all open-sourced pre-trained models developed on music recordings as baselines. Besides, MARBLE offers an easy-to-use, extendable, and reproducible suite for the community, with a clear statement on copyright issues on datasets. Results suggest recently proposed large-scale pre-trained musical language models perform the best in most tasks, with room for further improvement. The leaderboard and toolkit repository are published at https://marble-bm.shef.ac.uk to promote future music AI research.

Autori: Ruibin Yuan, Yinghao Ma, Yizhi Li, Ge Zhang, Xingran Chen, Hanzhi Yin, Le Zhuo, Yiqi Liu, Jiawen Huang, Zeyue Tian, Binyue Deng, Ningzhi Wang, Chenghua Lin, Emmanouil Benetos, Anton Ragni, Norbert Gyenge, Roger Dannenberg, Wenhu Chen, Gus Xia, Wei Xue, Si Liu, Shi Wang, Ruibo Liu, Yike Guo, Jie Fu

Ultimo aggiornamento: 2023-11-23 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2306.10548

Fonte PDF: https://arxiv.org/pdf/2306.10548

Licenza: https://creativecommons.org/licenses/by-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili