Riconoscere le Canzoni Finte: Un Nuovo Approccio al Dataset
Nuovi metodi sviluppati per identificare canzoni false tra le crescenti preoccupazioni.
― 5 leggere min
Indice
Negli ultimi anni, le tecnologie che creano voci canore hanno fatto grandi progressi. Questi sviluppi hanno cambiato il modo in cui viviamo e godiamo della musica. Tuttavia, queste tecnologie hanno anche portato alla nascita delle "Deepfake Songs", canzoni false che imitano lo stile e l'emozione dei veri cantanti. Questo solleva domande importanti sulla veridicità e l'affidabilità di questa musica. Poiché queste canzoni false possono suonare molto simili a vere performance, è fondamentale trovare modi affidabili per distinguerle.
La Necessità di Rilevamento
Con l'aumento delle canzoni false, cresce la necessità di metodi efficaci per rilevarle. Questo campo di ricerca, noto come rilevamento di deepfake canzoni, sta diventando sempre più importante. L'obiettivo è sviluppare strumenti che possano separare le vere canzoni da quelle generate dalle macchine. Questo è vitale per proteggere la reputazione degli artisti e per aiutare gli ascoltatori a fidarsi della musica che stanno ascoltando. Purtroppo, non ci sono molte risorse disponibili per questo compito, come dataset dedicati o metodi specializzati per il rilevamento delle canzoni.
Anche se esiste un campo ben consolidato chiamato Rilevamento Audio DeepFake (ADD) che ha molti dataset e metodi, si concentra principalmente sul parlato. La sfida nel rilevare le canzoni false è che i modelli ADD esistenti funzionano male quando si tratta di rilevamento delle canzoni. La principale ragione di ciò è che le canzoni combinano il canto con tracce strumentali, il che può confondere i metodi di rilevamento attuali progettati per il parlato.
Creazione di un Nuovo Dataset
Per affrontare il problema del rilevamento delle canzoni false, abbiamo creato un nuovo dataset chiamato Chinese Fake Song Detection (FSD). Questo dataset è composto da canzoni vere e false, con canzoni false prodotte utilizzando cinque tecniche avanzate diverse. Per generare canzoni false, abbiamo preso tracce strumentali di canzoni reali e le abbiamo mescolate con voci canore create artificialmente. Questo processo ha reso il compito di rilevamento più complicato.
Metodi di Generazione di Voci Canore False
Cinque metodi diversi sono stati utilizzati per creare le voci canore false nel nostro dataset:
SO-VITS: Questo è un metodo focalizzato sulla conversione di una voce canora in un'altra mantenendo le qualità uniche della voce originale.
SO-VITS con Attivazione Snake: Questa è una versione modificata del primo metodo che mira a migliorare la qualità del suono prodotto.
SO-VITS con Diffusione Superficiale: Questo metodo utilizza un modello separato per migliorare la qualità del suono della voce canora generata.
DiffSinger: Questo metodo utilizza un modello complesso per creare voci canore da zero basandosi su alcune regole per la generazione del suono.
RVC: Questo metodo enfatizza la conversione vocale, mirando a mantenere la qualità mentre cambia la voce di un cantante in quella di un altro.
Per ciascuno di questi metodi, abbiamo anche mescolato le voci generate con tracce strumentali, rendendo il rilevamento ancora più difficile.
Composizione del Dataset
Il dataset FSD consiste in 200 canzoni vere e 450 canzoni false. Per creare le canzoni false, abbiamo raccolto diverse canzoni reali e le abbiamo utilizzate come base. Abbiamo poi applicato i cinque metodi sopra menzionati per creare le voci false, garantendo una gamma diversificata di stili e suoni.
Impostazione degli Esperimenti
Per i nostri esperimenti, abbiamo diviso le canzoni false in segmenti di quattro secondi. Abbiamo poi suddiviso il dataset in tre parti: addestramento, sviluppo e valutazione. Questo ci ha permesso di testare quanto bene funzionassero i metodi di rilevamento in condizioni diverse. Abbiamo creato diversi scenari di test basati sui metodi di generazione delle canzoni false.
Test dei Modelli
Abbiamo valutato le prestazioni di diversi modelli avanzati di ADD sul nostro dataset FSD. Sfortunatamente, i modelli addestrati su dati di parlato non hanno funzionato bene quando testati sul nostro dataset di canzoni. La maggior parte dei risultati ha mostrato tassi di errore molto elevati nel rilevamento delle canzoni false. Credevamo che questo potesse essere dovuto al modo in cui sono costruite le canzoni, mescolando canto e strumentali in modo che i modelli non riuscissero a gestire efficacemente.
Per vedere se potessimo migliorare il rilevamento, abbiamo testato le tracce vocali separate dalle canzoni. Anche se è stato visto qualche miglioramento, i risultati erano comunque limitati. Questo dimostra la necessità di modelli che possano gestire le caratteristiche uniche del canto.
Sviluppo di Modelli Addestrati sulle Canzoni
Date le sfide affrontate dai modelli addestrati sul parlato, abbiamo deciso di addestrare nuovi modelli specificamente sul nostro dataset FSD. I risultati sono stati promettenti. I nuovi modelli hanno mostrato miglioramenti significativi nel rilevare correttamente le canzoni false. Abbiamo notato che un modello in particolare, AASIST, ha ottenuto i risultati migliori con un tasso di errore molto più basso rispetto ai tentativi precedenti.
Abbiamo anche testato l'efficacia della separazione delle tracce vocali per l'addestramento. Ancora una volta, i risultati hanno mostrato un chiaro vantaggio in termini di precisione, specialmente con un modello che ha raggiunto un tasso di errore molto basso. Questo indica che concentrarsi su caratteristiche specifiche del canto aiuta a migliorare il rilevamento.
Conclusione e Lavori Futuri
In questa ricerca, abbiamo creato un nuovo dataset progettato per rilevare canzoni false. Abbiamo anche esaminato quanto siano efficaci i metodi di rilevamento attuali quando applicati alle canzoni invece che al parlato. I risultati hanno mostrato che l'addestramento di modelli specificamente per questo compito potrebbe portare a risultati migliori.
Man mano che il campo del rilevamento delle canzoni false continua a crescere, i lavori futuri si concentreranno sull'espansione del dataset e sull'esplorazione di nuovi metodi di rilevamento. Avanzando nella nostra comprensione e negli strumenti per il rilevamento di deepfake canzoni, possiamo contribuire a preservare l'integrità della musica e garantire che artisti e ascoltatori possano fidarsi di ciò che ascoltano.
Titolo: FSD: An Initial Chinese Dataset for Fake Song Detection
Estratto: Singing voice synthesis and singing voice conversion have significantly advanced, revolutionizing musical experiences. However, the rise of "Deepfake Songs" generated by these technologies raises concerns about authenticity. Unlike Audio DeepFake Detection (ADD), the field of song deepfake detection lacks specialized datasets or methods for song authenticity verification. In this paper, we initially construct a Chinese Fake Song Detection (FSD) dataset to investigate the field of song deepfake detection. The fake songs in the FSD dataset are generated by five state-of-the-art singing voice synthesis and singing voice conversion methods. Our initial experiments on FSD revealed the ineffectiveness of existing speech-trained ADD models for the task of song deepFake detection. Thus, we employ the FSD dataset for the training of ADD models. We subsequently evaluate these models under two scenarios: one with the original songs and another with separated vocal tracks. Experiment results show that song-trained ADD models exhibit a 38.58% reduction in average equal error rate compared to speech-trained ADD models on the FSD test set.
Autori: Yuankun Xie, Jingjing Zhou, Xiaolin Lu, Zhenghao Jiang, Yuxin Yang, Haonan Cheng, Long Ye
Ultimo aggiornamento: 2023-09-06 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.02232
Fonte PDF: https://arxiv.org/pdf/2309.02232
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://github.com/xieyuankun/FSD-Dataset
- https://github.com/svc-develop-team/so-vits-svc
- https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
- https://github.com/Anjok07/ultimatevocalremovergui
- https://github.com/mozillazg/python-pinyin
- https://huggingface.co/facebook/wav2vec2-xls-r-300m