Génération Audio Ouverte : Un Nouveau Modèle
Un nouveau modèle de texte à audio utilisant uniquement des données publiques.
― 7 min lire
Table des matières
Créer de l’Audio à partir de texte est un domaine de recherche qui prend de l'ampleur. L'objectif est d'aider les artistes et les chercheurs en rendant plus facile le développement de Modèles qui transforment les mots écrits en son. Cependant, beaucoup de systèmes existants gardent leurs méthodes et leurs données privées, ce qui complique les progrès pour les autres. On vous présente un nouveau modèle de texte-à-audio qui utilise uniquement des données publiques, permettant à tout le monde d'accéder à ses détails et résultats.
Pourquoi les Modèles Ouverts Sont Importants
Les modèles ouverts offrent plusieurs avantages clés. Ils permettent aux artistes et aux chercheurs de comprendre comment les modèles fonctionnent et peuvent être modifiés pour répondre à différents besoins. Malheureusement, beaucoup de modèles actuels ne sont pas accessibles au public. Ça limite leur utilisation pour de nouveaux projets et recherches. En plus, les données utilisées pour entraîner certains modèles ne sont pas bien documentées, ce qui peut causer des problèmes de violation de droits d'auteur.
Par exemple, certains modèles utilisent des ensembles de données comme AudioSet sans licences claires. D'autres, comme MusicGen, sont ouverts mais formés sur des données bien documentées et sous licence. Les modèles ouverts actuels ne correspondent souvent pas à la qualité des meilleurs modèles disponibles, surtout pour générer un son cohérent sur de plus longues périodes.
Nos Objectifs
Le but principal de notre projet est de créer un modèle audio basé sur du texte qui répond à des critères spécifiques :
- Il utilise uniquement de l'audio sous licence Creative Commons.
- Ses détails, y compris les poids du modèle et le code, sont accessibles à tout le monde.
- Il génère un son stéréo de haute qualité à un taux de 44,1 kHz.
Bien que ce choix de données puisse limiter la capacité du modèle à créer de la musique, il assure la transparence sur la façon dont les données ont été collectées et utilisées.
Architecture du Modèle
Notre modèle génère de l'audio de différentes longueurs (jusqu'à 47 secondes) basées sur des invites textuelles. Il a trois composants principaux :
- Un autoencodeur qui compresse l'audio pour le rendre plus facile à manipuler.
- Un système d'intégration de texte qui relie le texte à l'audio.
- Un modèle de diffusion qui génère de l'audio basé sur les entrées compressées.
L'autoencodeur prend de l'audio brut et le décompose en parties gérables. Il utilise des techniques de traitement avancées pour maintenir la qualité audio tout en simplifiant les données sonores. Le modèle de diffusion fonctionne dans un espace spécialement créé, suivant une série d'étapes pour générer un son qui correspond au texte d'entrée.
Processus d'Entraînement des Données
On a entraîné notre modèle en utilisant des enregistrements de Freesound et de l'Archive de Musique Libre. On a fait des vérifications minutieuses pour s'assurer que le matériel protégé par des droits d'auteur ne faisait pas partie de nos données d'entraînement.
Pour Freesound, on a identifié des enregistrements musicaux en cherchant des tags spécifiques liés à la musique et ensuite on a envoyé ces échantillons signalés à une entreprise de confiance pour un contrôle des droits d'auteur. Après avoir supprimé tout contenu signalé, on a réussi à rassembler un grand ensemble de fichiers audio. De même, on a veillé à ce que le sous-ensemble de l'Archive de Musique Libre ne contienne pas d'audio protégé en menant une recherche approfondie contre une grande base de données.
Au total, on a fini avec plus de 486 000 enregistrements audio répondant aux critères de licence Creative Commons, adaptés pour entraîner notre modèle.
Entraînement du Modèle
Pendant l'entraînement, on a découpé l'audio en courts segments. Cela a aidé à maintenir un ensemble diversifié de sons tout en évitant que le modèle ne se concentre trop sur des enregistrements plus longs. On a aussi veillé à avoir un mélange de sources de haute fidélité pour créer des données audio riches.
Lors de l'entraînement du modèle, on a mis en œuvre divers objectifs pour améliorer les performances. Par exemple, on a mis l’accent sur la reconstruction précise de l'audio et utilisé plusieurs méthodes pour évaluer le succès des sons générés.
Évaluation
Pour évaluer la performance du modèle, on l'a comparé à d'autres modèles existants. On a utilisé deux ensembles de données principaux lors de l'évaluation : un axé sur les sons généraux et l'autre sur la musique instrumentale. Les résultats ont montré que notre modèle produisait des sons réalistes et était compétitif avec certains des modèles les plus performants, surtout pour générer des effets sonores.
En ce qui concerne la génération musicale, notre modèle était légèrement moins efficace par rapport aux meilleurs modèles du marché. Cependant, il a quand même surpassé d'autres modèles ouverts similaires. Pendant l'évaluation, on a aussi examiné la qualité de l'audio généré en comparant les différences entre les sons générés et les données d'entraînement originales.
Performance et Vitesse
Notre modèle fonctionne efficacement sur du matériel standard, ce qui signifie que tout le monde peut l'utiliser sans avoir besoin d'équipement coûteux. On a mesuré la performance en termes de rapidité à laquelle le modèle pouvait générer de l'audio. Les résultats ont montré de bonnes performances sur divers setups, rendant le modèle accessible à un public plus large.
Défis et Limitations
Malgré ses capacités, notre modèle fait face à certains défis. Il a du mal à générer des invites contenant des connecteurs, comme "et" ou "avec". En plus, il ne peut pas produire de la parole claire, ce qui limite son utilisation pour des tâches de parole.
Comme beaucoup de modèles de Génération audio actuels dépendent de matériel protégé par des droits d'auteur, on a choisi d'utiliser uniquement de l'audio sous Creative Commons. Cette décision garantit que notre modèle respecte les normes légales, mais ça limite sa capacité à produire de la musique de haute qualité.
Directions Futures
Pour l’avenir, on prévoit de continuer à améliorer notre modèle. Améliorer la capacité à générer de la musique tout en respectant strictement les réglementations sur les droits d'auteur sera un axe clé. On pense aussi à élargir la gamme de langues soutenues par le modèle, car il a été principalement entraîné avec du texte en anglais.
Conclusion
En résumé, notre nouveau modèle de texte-à-audio démontre la valeur de la recherche ouverte et des ressources communautaires. En s'appuyant sur des données Creative Commons, on garantit que l'audio généré est exempt de problèmes de droits d'auteur. Le modèle montre un potentiel prometteur pour produire de l'audio de haute qualité et peut aider les artistes et les chercheurs. En continuant à peaufiner le modèle, on espère ouvrir de nouvelles avenues pour l'exploration créative dans la synthèse audio.
Titre: Stable Audio Open
Résumé: Open generative models are vitally important for the community, allowing for fine-tunes and serving as baselines when presenting new models. However, most current text-to-audio models are private and not accessible for artists and researchers to build upon. Here we describe the architecture and training process of a new open-weights text-to-audio model trained with Creative Commons data. Our evaluation shows that the model's performance is competitive with the state-of-the-art across various metrics. Notably, the reported FDopenl3 results (measuring the realism of the generations) showcase its potential for high-quality stereo sound synthesis at 44.1kHz.
Auteurs: Zach Evans, Julian D. Parker, CJ Carr, Zack Zukowski, Josiah Taylor, Jordi Pons
Dernière mise à jour: 2024-07-31 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.14358
Source PDF: https://arxiv.org/pdf/2407.14358
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/facebookresearch/audiocraft/blob/
- https://huggingface.co/stabilityai/stable-audio-open-1.0/
- https://huggingface.co/facebook/musicgen-stereo-large
- https://github.com/Stability-AI/stable-audio-metrics
- https://stability-ai.github.io/stable-audio-open-demo/
- https://x.com/RoyalCities/status/1808563794677018694
- https://www.youtube.com/watch?v=ex4OBD