Détecter les fausses chansons : Une nouvelle approche de dataset
De nouvelles méthodes ont été développées pour identifier les fausses chansons au milieu des préoccupations grandissantes.
― 7 min lire
Table des matières
Ces dernières années, les techs qui créent des voix chantées ont fait de gros progrès. Ces avancées ont changé notre façon d'expérimenter et de profiter de la musique. Mais, ces techs ont aussi fait émerger les "Chansons Deepfake", des faux morceaux qui imitent le style et l'émotion de vrais chanteurs. Ça soulève des questions importantes sur la vérité et la fiabilité de cette musique. Comme ces fausses chansons peuvent sonner très similaires aux vraies performances, c'est crucial de trouver des moyens fiables pour les distinguer.
La Nécessité de Détection
Avec la montée des chansons fausses, le besoin de méthodes efficaces pour les détecter augmente. Ce domaine de recherche, connu sous le nom de détection de chansons deepfake, devient de plus en plus important. Le but est de développer des outils qui peuvent séparer les vraies chansons de celles générées par des machines. C'est vital pour protéger la réputation des artistes et aider les auditeurs à faire confiance à la musique qu'ils entendent. Malheureusement, il n'y a pas beaucoup de ressources disponibles pour cette tâche, comme des jeux de données dédiés ou des méthodes spécialisées pour la détection de chansons.
Il existe un domaine bien établi appelé Détection de deepfake audio (ADD) qui a beaucoup de jeux de données et de méthodes, mais il se concentre principalement sur la parole. Le défi avec la détection de chansons fausses est que les modèles ADD existants sont peu performants pour détecter des chansons. La principale raison est que les chansons mélangent chant et pistes instrumentales, ce qui peut embrouiller les méthodes de détection actuelles conçues pour la parole.
Création d'un Nouveau Jeu de Données
Pour aborder la question de la détection des chansons fausses, on a créé un nouveau jeu de données appelé le jeu de données de Détection de Chansons Fausses Chinoises (FSD). Ce jeu de données comprend à la fois de vraies et des fausses chansons, avec des fausses chansons produites en utilisant cinq techniques avancées différentes. Pour générer les fausses chansons, on a pris de vraies pistes instrumentales et on les a mélangées avec des voix chantées générées artificiellement. Ce processus a rendu la tâche de détection plus compliquée.
Méthodes de Génération de Voix Chantées Fausses
Cinq méthodes différentes ont été utilisées pour créer les voix chantées fausses dans notre jeu de données :
SO-VITS : C'est une méthode axée sur la conversion d'une voix chantée à une autre tout en gardant les qualités uniques de la voix d'origine.
SO-VITS avec Activation Snake : C'est une version modifiée de la première méthode qui vise à améliorer la qualité sonore produite.
SO-VITS avec Diffusion Shallow : Cette méthode utilise un modèle séparé pour améliorer la qualité sonore de la voix chantée générée.
DiffSinger : Cette méthode utilise un modèle complexe pour créer des voix chantées à partir de rien en fonction de certaines règles de génération sonore.
RVC : Cette méthode met l'accent sur la conversion de voix, visant à maintenir la qualité tout en changeant la voix d'un chanteur à celle d'un autre.
Pour chacune de ces méthodes, on a aussi mélangé les voix générées avec des pistes instrumentales, rendant la détection encore plus difficile.
Composition du Jeu de Données
Le jeu de données FSD se compose de 200 vraies chansons et 450 fausses chansons. Pour créer les fausses chansons, on a collecté différentes vraies chansons et les a utilisées comme base. On a ensuite appliqué les cinq méthodes mentionnées ci-dessus pour créer les voix fausses, assurant une variété de styles et de sons.
Configuration de l'Expérience
Pour nos expériences, on a divisé les chansons fausses en segments de quatre secondes. On a ensuite divisé le jeu de données en trois parties : entraînement, développement et évaluation. Cela nous a permis de tester l'efficacité des méthodes de détection sous différentes conditions. On a créé différents scénarios de test basés sur les méthodes de génération des chansons fausses.
Test des Modèles
On a évalué les performances de plusieurs modèles avancés d'ADD sur notre jeu de données FSD. Malheureusement, les modèles formés sur des données de parole n'ont pas bien fonctionné lorsqu'ils ont été testés sur notre jeu de données de chansons. La plupart des résultats ont montré des taux d'erreur très élevés dans la détection des chansons fausses. On pensait que cela pouvait être dû à la manière dont les chansons sont construites, mélangeant chant et instrumentaux d'une manière que les modèles ne pouvaient pas gérer efficacement.
Pour voir si on pouvait améliorer la détection, on a testé les pistes vocales séparées des chansons. Bien que quelques améliorations aient été notées, les résultats restaient limités. Cela démontre le besoin de modèles capables de gérer les caractéristiques uniques du chant.
Développement de Modèles Entraînés sur des Chansons
Étant donné les défis rencontrés par les modèles formés sur la parole, on a décidé de former de nouveaux modèles spécifiquement sur notre jeu de données FSD. Les résultats étaient prometteurs. Les nouveaux modèles ont montré des améliorations significatives dans la détection correcte des chansons fausses. On a remarqué qu'un modèle en particulier, AASIST, a obtenu les meilleurs résultats avec un taux d'erreur beaucoup plus bas comparé aux tentatives précédentes.
On a aussi testé l'efficacité de la séparation des pistes vocales pour l'entraînement. Encore une fois, les résultats ont montré un avantage clair en précision, surtout avec un modèle atteignant un taux d'erreur très bas. Cela indique que se concentrer sur des caractéristiques spécifiques du chant aide à améliorer la détection.
Conclusion et Travaux Futurs
Dans cette recherche, on a créé un nouveau jeu de données conçu pour détecter les chansons fausses. On a aussi examiné à quel point les méthodes de détection actuelles sont efficaces lorsqu'elles sont appliquées aux chansons plutôt qu'à la parole. Les résultats ont montré que former des modèles spécifiquement pour cette tâche pourrait mener à de meilleurs résultats.
À mesure que le domaine de la détection des chansons fausses continue d'évoluer, les travaux futurs se concentreront sur l'expansion du jeu de données et l'exploration de nouvelles méthodes de détection. En avançant notre compréhension et nos outils pour la détection de deepfake de chansons, on peut aider à préserver l'intégrité de la musique et s'assurer que les artistes et les auditeurs peuvent faire confiance à ce qu'ils entendent.
Titre: FSD: An Initial Chinese Dataset for Fake Song Detection
Résumé: Singing voice synthesis and singing voice conversion have significantly advanced, revolutionizing musical experiences. However, the rise of "Deepfake Songs" generated by these technologies raises concerns about authenticity. Unlike Audio DeepFake Detection (ADD), the field of song deepfake detection lacks specialized datasets or methods for song authenticity verification. In this paper, we initially construct a Chinese Fake Song Detection (FSD) dataset to investigate the field of song deepfake detection. The fake songs in the FSD dataset are generated by five state-of-the-art singing voice synthesis and singing voice conversion methods. Our initial experiments on FSD revealed the ineffectiveness of existing speech-trained ADD models for the task of song deepFake detection. Thus, we employ the FSD dataset for the training of ADD models. We subsequently evaluate these models under two scenarios: one with the original songs and another with separated vocal tracks. Experiment results show that song-trained ADD models exhibit a 38.58% reduction in average equal error rate compared to speech-trained ADD models on the FSD test set.
Auteurs: Yuankun Xie, Jingjing Zhou, Xiaolin Lu, Zhenghao Jiang, Yuxin Yang, Haonan Cheng, Long Ye
Dernière mise à jour: 2023-09-06 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.02232
Source PDF: https://arxiv.org/pdf/2309.02232
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/xieyuankun/FSD-Dataset
- https://github.com/svc-develop-team/so-vits-svc
- https://github.com/RVC-Project/Retrieval-based-Voice-Conversion-WebUI
- https://github.com/Anjok07/ultimatevocalremovergui
- https://github.com/mozillazg/python-pinyin
- https://huggingface.co/facebook/wav2vec2-xls-r-300m