Créer des chanteurs numériques : une nouvelle approche
Une méthode pour créer des voix chantantes sans étiquetage vocal détaillé.
― 8 min lire
Table des matières
- Le Monde Virtuel et les Humains Digitaux
- Méthodes Traditionnelles de Génération de Voix
- Défis avec la Modélisation de Voix Supervisée
- Une Nouvelle Méthode pour la Numérisation de Voix
- Construction du Modèle Acoustique
- Génération d'Audio Contrôlable
- Création d'un Chœur AI
- Évaluation du Chœur AI
- Résultats de la Méthode
- Conclusion
- Source originale
Le monde de la tech évolue super vite, et un des domaines qui explose, c'est la création d'humains digitaux qui ressemblent et sonnent comme de vraies personnes. Un élément clé pour que ces êtres numériques paraissent réels, c'est de leur donner une voix. Comme notre voix véhicule plein de traits personnels, il est super important de créer un chanteur numérique qui peut performer comme un humain. Mais c'est pas évident. Contrôler tous les aspects du chant - genre le ton, la vitesse, la hauteur et les paroles - nécessite beaucoup d'étiquetage détaillé, ce qui prend un temps fou et beaucoup d'efforts.
Dans cet article, on va explorer une méthode qui nous permet de créer un chanteur virtuel juste en écoutant des enregistrements de quelqu'un qui parle. Ce processus utilise un cadre qui n'a pas besoin d'annotations détaillées, rendant le tout beaucoup plus simple et rapide. En utilisant un type de modèle appelé Auto-encodeur variationnel (VAE), on peut traiter des enregistrements audio et prédire le chant à partir d'enregistrements de parole normale. Ce cadre peut aider à générer de nouveaux chanteurs virtuels en mélangeant différents styles de chant. Les résultats montrent que cette méthode est efficace, surtout quand on l'utilise pour créer un chœur AI.
Le Monde Virtuel et les Humains Digitaux
Alors qu'on entre dans une époque où les mondes numérique et réel se mélangent, les frontières deviennent de moins en moins claires. Ce changement permet aux gens de se connecter au-delà des barrières physiques et de s'engager profondément avec l'IA. Un des principaux objectifs de la création d'humains digitaux est de s'assurer qu'ils sonnent aussi réels que possible. La voix d'un humain transmet des infos pas seulement avec des mots, mais aussi à travers ses qualités uniques telles que l'accent, le ton et le rythme. C'est crucial pour des applications dans le divertissement, les assistants virtuels, la conservation culturelle, et même pour créer une forme d'immortalité numérique.
Méthodes Traditionnelles de Génération de Voix
D'habitude, pour créer une voix humaine à travers des machines, on utilise ce qu'on appelle la synthèse texte-parole (TTS). Les systèmes TTS prennent des entrées textuelles et génèrent des sons de parole. Avant, on utilisait des techniques simples, mais maintenant, les méthodes de deep learning sont la norme. Ces méthodes nécessitent de grandes bases de données contenant des enregistrements audio associés à des scripts pour entraîner les modèles. Une fois entraîné, une partie du modèle convertit le texte en un mel-spectrogramme - une représentation visuelle du son - tandis qu'une autre partie, appelée vocodeur, transforme ça en une forme d'onde audio réelle.
Cependant, pour le chant, le processus implique non seulement du texte mais aussi des mélodies et des paroles. Cela signifie qu'on doit demander les paroles des chansons et comment elles devraient sonner en chant. Le défi avec les méthodes de synthèse de voix chantée (SVS) conventionnelles, c'est qu'elles ont besoin de beaucoup de données étiquetées. Créer de telles bases de données prend un temps considérable, rendant difficile la production d'un modèle vocal pour quelqu'un de manière plus décontractée.
Défis avec la Modélisation de Voix Supervisée
Bien qu'il existe des ensembles de données publics pour les voix chantées, rassembler ces données demande beaucoup d'efforts pour l'étiquetage et l'enregistrement. Ce défi limite la flexibilité de création de modèles vocaux personnalisés et rend difficile l'imitation des compétences de chanteurs très entraînés. Une solution possible est un processus appelé Conversion de Voix Chantée (SVC), qui change le style de l'audio basé sur des exemples. Cependant, ça peine encore à capturer les compétences uniques des chanteurs individuels ou à contrôler différentes caractéristiques du chant.
Une Nouvelle Méthode pour la Numérisation de Voix
On propose une nouvelle façon de numériser les voix sans avoir besoin d'annotations. En se concentrant uniquement sur les enregistrements de quelqu'un qui parle, cette méthode peut prédire les voix chantées. Notre approche se base sur des modèles existants pour examiner divers traits sonores sans avoir besoin d'une base de données étiquetée pour le locuteur ciblé.
La première partie de notre cadre gère le contenu - ce qui est dit - en utilisant des modèles de Reconnaissance Automatique de la Parole (ASR). Ces modèles peuvent identifier le contenu en générant un embedding audio spécifique. On peut aussi capturer l'identité du locuteur grâce à un modèle séparé qui produit des embeddings de locuteur. Enfin, pour extraire la mélodie de l'audio, on utilise un autre modèle qui estime la hauteur de la voix. En décomposant le processus en ces étapes clés, on peut construire un modèle vocal flexible qui correspond aux caractéristiques de chant d'une personne.
Construction du Modèle Acoustique
Une fois qu'on a collecté les différentes caractéristiques audio, on crée un modèle acoustique qui traduit ces embeddings en un mel-spectrogramme. Cette étape nous permet de capturer des traits plus détaillés de la voix originale. Le modèle apprend à refléter les qualités uniques de la voix du locuteur. Ensuite, le modèle acoustique utilise ces infos pour générer des formes d'onde audio via un vocodeur.
Dans le processus d'apprentissage, on affine le modèle acoustique et le vocodeur ensemble de manière intégrale. Cette technique assure que les Mel-spectrogrammes prédits correspondent étroitement aux sorties sonores réelles, ce qui conduit à une meilleure qualité audio.
Génération d'Audio Contrôlable
Avec le modèle acoustique et le vocodeur en place, on peut créer des signaux audio contrôlés. Ça veut dire qu'on peut modifier différents aspects du chant, comme la hauteur et la mélodie, même à partir d'enregistrements de parole.
Quand on crée du contenu audio, on peut utiliser le matériel parlé existant, en l'ajustant pour l'adapter à la mélodie et au rythme souhaités. En ajustant les embeddings, on crée des modèles personnalisés qui peuvent reproduire la voix de quelqu'un ou créer complètement de nouvelles voix.
Création d'un Chœur AI
Une application excitante de ce cadre est la génération d'un chœur AI composé de plusieurs chanteurs virtuels. En construisant un chœur, c'est important de trouver un équilibre entre la cohérence entre les chanteurs tout en assurant une diversité dans leurs voix. Cette diversité aide à obtenir un son plus riche, comme dans un vrai chœur.
Pour créer cet effet, on développe une méthode en deux étapes. D'abord, on génère des chanteurs prototypes qui partagent des qualités vocales similaires. Dans la deuxième étape, on crée plusieurs chanteurs virtuels en combinant ces voix prototypes. Le résultat est un chœur harmonieux où chaque chanteur contribue à un son global riche.
Évaluation du Chœur AI
Pour tester les performances de nos voix générées, on les évalue sur différentes bases de données contenant des voix chantées et parlées. Par exemple, on utilise le dataset OpenCpop, qui comprend de l'audio chanté de haute qualité, pour voir à quel point notre méthode capte les traits vocaux. On construit aussi un ensemble de données de voix parlées quotidiennes pour évaluer comment on peut générer du chant à partir de paroles décontractées.
Le chœur est créé en interpolant entre différents chanteurs virtuels, en s'assurant que leurs hauteurs et rythmes s'alignent. Les évaluateurs humains jouent un rôle crucial dans la révision du son combiné, en faisant des ajustements si nécessaire pour obtenir un mélange agréable.
Résultats de la Méthode
À travers diverses expériences, on a découvert que la méthode proposée peut effectivement créer des voix qui ressemblent de près aux chanteurs originaux. On a vérifié la précision de la hauteur et du rythme dans l'audio généré, confirmant que nos modèles pouvaient suivre les mélodies spécifiées.
On a observé que même en générant des voix chantées à partir d'ensembles de données de parole uniquement, les résultats montraient une grande précision dans les contours de hauteur. L'audio créé peut refléter la mélodie voulue tout en établissant l'identité d'un autre locuteur, indiquant une transformation réussie.
Conclusion
Ce cadre innovant met en lumière comment on peut créer des voix chantées numériques sans les processus d'annotation fastidieux. En tirant parti des caractéristiques des enregistrements existants - qu'il s'agisse de chansons ou de discours quotidiens - on peut construire des modèles vocaux flexibles qui produisent un audio chanté de haute qualité. Les implications de cette technologie sont énormes, permettant de créer des chanteurs virtuels qui pourraient révolutionner l'industrie du divertissement, améliorer les assistants numériques et préserver le patrimoine culturel de manière unique. À mesure qu'on continue à affiner ces méthodes, l'avenir semble radieux pour la collaboration humain-IA dans le domaine de la voix et du son.
Titre: Learn to Sing by Listening: Building Controllable Virtual Singer by Unsupervised Learning from Voice Recordings
Résumé: The virtual world is being established in which digital humans are created indistinguishable from real humans. Producing their audio-related capabilities is crucial since voice conveys extensive personal characteristics. We aim to create a controllable audio-form virtual singer; however, supervised modeling and controlling all different factors of the singing voice, such as timbre, tempo, pitch, and lyrics, is extremely difficult since accurately labeling all such information needs enormous labor work. In this paper, we propose a framework that could digitize a person's voice by simply "listening" to the clean voice recordings of any content in a fully unsupervised manner and predict singing voices even only using speaking recordings. A variational auto-encoder (VAE) based framework is developed, which leverages a set of pre-trained models to encode the audio as various hidden embeddings representing different factors of the singing voice, and further decodes the embeddings into raw audio. By manipulating the hidden embeddings for different factors, the resulting singing voices can be controlled, and new virtual singers can also be further generated by interpolating between timbres. Evaluations of different types of experiments demonstrate the proposed method's effectiveness. The proposed method is the critical technique for producing the AI choir, which empowered the human-AI symbiotic orchestra in Hong Kong in July 2022.
Auteurs: Wei Xue, Yiwen Wang, Qifeng Liu, Yike Guo
Dernière mise à jour: 2023-05-09 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2305.05401
Source PDF: https://arxiv.org/pdf/2305.05401
Licence: https://creativecommons.org/publicdomain/zero/1.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.