Présentation de Sudowoodo : Une nouvelle façon d'écrire des paroles
Sudowoodo crée des paroles en imitant des œuvres existantes, aidant les compositeurs à trouver de l'inspiration.
― 7 min lire
Table des matières
- Sudowoodo : Un Nouveau Système d'I imitation de Paroles
- Qu'est-ce que les Assistants Créatifs AI ?
- Le Besoin d'I imitation de Paroles
- Le Cadre de Sudowoodo
- Préparation des Données
- Entraînement du Modèle
- Inférence et Décodage
- Évaluation des Paroles Générées
- Interface Utilisateur et Modes
- Conclusion
- Source originale
- Liens de référence
Créer des paroles de chanson est un domaine de recherche fascinant en intelligence artificielle. Pas mal d’études passées ont essayé de voir comment écrire de nouvelles paroles tout en gardant certains éléments comme des mots ou des rimes spécifiques en tête. Par contre, une approche différente appelée imitation de paroles n’a pas été vraiment explorée. Cette méthode se concentre sur l'écriture de nouvelles paroles qui correspondent au style et à l'ambiance des paroles existantes, ce qui peut être compliqué sans avoir un ensemble de paroles à imiter pour l'entraînement.
Sudowoodo : Un Nouveau Système d'I imitation de Paroles
On a introduit un système appelé Sudowoodo qui peut générer de nouvelles paroles chinoises en imitant des paroles existantes. Pour pallier le manque de paroles correspondantes pour l'entraînement, on a créé une méthode unique pour constituer un Ensemble d'entraînement basé sur des paroles existantes. On collecte les paroles originales et en extrait des mots-clés importants pour former des paires de nouvelles et originales paroles. Ensuite, on utilise ces paires pour apprendre à Sudowoodo comment imiter les paroles efficacement.
Quand on produit de nouvelles paroles, on a un processus de suivi qui filtre et classe les paroles générées. Ça garantit qu'on choisit les meilleurs résultats. De plus, on a ajouté de l'audio pour aligner les paroles avec la musique, créant des chansons complètes.
Qu'est-ce que les Assistants Créatifs AI ?
Les assistants créatifs AI sont des systèmes conçus pour aider à générer du contenu. Ils apprennent à partir de beaucoup de données textuelles, ce qui leur permet de comprendre la langue et la culture. Ces assistants peuvent aider à écrire des histoires, de la poésie, et même à vérifier la grammaire. L'un des trucs cool de ces systèmes, c'est leur capacité à aider à l'écriture de chansons. En étudiant une variété de chansons, ils peuvent apprendre à transmettre des émotions et à générer de la musique qui ressemble à des styles d'écriture humains.
La plupart des recherches précédentes se sont concentrées sur la génération de paroles basées sur des mots-clés ou des thèmes spécifiques. Ça donne souvent des paroles qui ne gardent pas toute la structure ou la créativité des chansons existantes.
Le Besoin d'I imitation de Paroles
Dans le monde de la musique, c'est courant pour les artistes de s'inspirer de chansons existantes tout en ajoutant leur touche personnelle. Ça veut dire qu'un bon système d'imitation de paroles devrait permettre aux utilisateurs de conserver la structure principale des paroles originales tout en ajoutant des éléments uniques et personnels. Pour ça, un meilleur contrôle sur les paroles sources est essentiel, y compris des éléments comme le contenu, les émotions et les styles d'écriture.
Le Cadre de Sudowoodo
Sudowoodo a un cadre conçu pour créer de nouvelles paroles qui ressemblent aux paroles sources. Le système se compose de modèles pour générer des paroles basées sur des mots-clés et un autre qui produit des paroles imitées à partir de paroles existantes. Il y a aussi un composant dédié à l'affinage des paroles générées.
Quand on a commencé, on a rassemblé un ensemble de données de diverses paroles chinoises sur Internet, en filtrant les paroles plus courtes et les doublons. On a fini avec une grande collection de paroles uniques, qu'on a utilisées pour un traitement plus poussé.
Préparation des Données
On a préparé notre ensemble de données à partir de paroles chinoises dans différents styles comme la pop et le rap. En extrayant des mots-clés et d'autres caractéristiques, comme le Ton émotionnel et le style lyrique, on a construit un ensemble d'entraînement qui inclut non seulement les paroles, mais aussi leurs attributs.
En utilisant une méthode appelée Extraction de mots-clés, on a identifié des mots importants dans les paroles. Après avoir décomposé les paroles en segments gérables, on a sélectionné les meilleurs mots-clés pour représenter chaque chanson.
Pour mieux comprendre les thèmes sous-jacents et les émotions des paroles, on a entraîné un modèle de classification. Ça nous a permis d'associer des émotions et des styles avec les paroles sources. Enfin, on a couplé ces attributs avec les paroles originales pour former un ensemble de données complet.
Entraînement du Modèle
Après avoir créé notre ensemble de données, on a entraîné notre modèle de génération de paroles. Ça a impliqué d'apprendre au modèle comment prendre les mots-clés et les attributs pour produire de nouvelles paroles qui s'alignent avec les chansons originales. En utilisant un système d’entraînement en deux parties, on a appris à un modèle à relier les mots-clés et les attributs aux paroles originales, tandis que le second modèle a appris à imiter les paroles à partir des données collectées.
Pour améliorer la performance de notre modèle, on a utilisé un système pré-entraîné basé sur une architecture bien connue. Ce modèle contenait des millions de paramètres et a été entraîné sur de grandes quantités de données textuelles provenant de sources en ligne.
Inférence et Décodage
Quand on génère des paroles, on fait attention à contrôler les entrées, qui incluent les mots-clés et le ton émotionnel désiré. Pour s'assurer que les paroles générées ne dépassent pas une certaine longueur, on tronque le texte excédentaire.
Pour le décodage des paroles, on utilise une méthode d'échantillonnage qui aide à créer des résultats variés. Pour éviter la répétition dans les paroles, on a aussi ajouté une technique qui pénalise les mots en double.
Une fois que les paroles sont générées, on utilise un processus de suivi pour s'assurer de sélectionner des résultats de haute qualité. Ça implique de noter les paroles en fonction de divers critères de qualité, comme à quel point elles correspondent aux paroles originales.
Évaluation des Paroles Générées
Pour évaluer la qualité des paroles générées, on regarde quelques aspects : la pertinence par rapport au thème original, la fluidité du langage et le flux logique des idées. On demande à des paroliers expérimentés de noter les paroles sur ces critères.
En échantillonnant un ensemble diversifié de paroles provenant de l'ensemble de données original, on a généré plusieurs paroles imitées pour comparaison. Les résultats montrent que Sudowoodo peut produire des paroles de haute qualité qui sont thématiquement riches et cohérentes.
Interface Utilisateur et Modes
Sudowoodo fonctionne en deux modes principaux : Mode Paroles et Mode Chansons. Dans le Mode Paroles, les utilisateurs peuvent choisir des paroles sources et entrer des mots-clés pour générer de nouvelles paroles. Ça permet une certaine créativité tout en restant fidèle au style original.
Dans le Mode Chansons, les utilisateurs peuvent entendre les paroles générées mises en musique. Cette fonctionnalité combine à la fois les paroles et la mélodie pour créer une chanson complète.
Conclusion
En résumé, Sudowoodo est un système innovant pour générer des paroles qui imitent des chansons existantes tout en permettant une créativité personnelle. En utilisant des méthodes avancées pour extraire des informations vitales des paroles et générer de nouvelles pièces basées sur ces données, on a créé un outil qui non seulement améliore la génération de paroles mais produit aussi des chansons complètes. Cette technologie pourrait s'avérer bénéfique pour les paroliers à la recherche d'inspiration ou d'un point de départ pour leur créativité.
En regardant vers l'avenir, il y a des plans pour améliorer encore le système, y compris le rendu en temps réel des chansons, rendant cela encore plus accessible et convivial pour ceux qui souhaitent expérimenter la création de paroles.
Titre: Sudowoodo: a Chinese Lyric Imitation System with Source Lyrics
Résumé: Lyrics generation is a well-known application in natural language generation research, with several previous studies focusing on generating accurate lyrics using precise control such as keywords, rhymes, etc. However, lyrics imitation, which involves writing new lyrics by imitating the style and content of the source lyrics, remains a challenging task due to the lack of a parallel corpus. In this paper, we introduce \textbf{\textit{Sudowoodo}}, a Chinese lyrics imitation system that can generate new lyrics based on the text of source lyrics. To address the issue of lacking a parallel training corpus for lyrics imitation, we propose a novel framework to construct a parallel corpus based on a keyword-based lyrics model from source lyrics. Then the pairs \textit{(new lyrics, source lyrics)} are used to train the lyrics imitation model. During the inference process, we utilize a post-processing module to filter and rank the generated lyrics, selecting the highest-quality ones. We incorporated audio information and aligned the lyrics with the audio to form the songs as a bonus. The human evaluation results show that our framework can perform better lyric imitation. Meanwhile, the \textit{Sudowoodo} system and demo video of the system is available at \href{https://Sudowoodo.apps-hp.danlu.netease.com/}{Sudowoodo} and \href{https://youtu.be/u5BBT_j1L5M}{https://youtu.be/u5BBT\_j1L5M}.
Auteurs: Yongzhu Chang, Rongsheng Zhang, Lin Jiang, Qihang Chen, Le Zhang, Jiashu Pu
Dernière mise à jour: 2023-08-08 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.04665
Source PDF: https://arxiv.org/pdf/2308.04665
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.latex-project.org/help/documentation/encguide.pdf
- https://Sudowoodo.apps-hp.danlu.netease.com/
- https://youtu.be/u5BBT_j1L5M
- https://youtu.be/u5BBT
- https://en.wikipedia.org/wiki/Talk
- https://music.163.com/
- https://www.sbert.net/docs/pretrained
- https://github.com/fxsjy/jieba
- https://openai.com/blog/gpt-2-1-5b-release/
- https://www.ipr.edu/blogs/audio-production/what-are-the-basics-of-music-theory/