Simple Science

La science de pointe expliquée simplement

# Génie électrique et science des systèmes# Son# Apprentissage automatique# Traitement de l'audio et de la parole

Améliorer la génération de covers de piano grâce aux techniques AMT

Une nouvelle méthode améliore la création automatique de covers de piano en utilisant la technologie de transcription musicale existante.

― 8 min lire


AMT-APC : MeilleuresAMT-APC : Meilleuresreprises de pianoreprises de piano automatiques.considérablement la qualité desUne nouvelle méthode améliore
Table des matières

Le piano est un instrument adoré par plein de gens. Les gens y jouent pour s’amuser, créer de la musique ou écouter leurs chansons préférées. Quand quelqu'un veut jouer une chanson au piano, il doit en faire une version spécialement pour cet instrument. Ce processus implique d'écouter la chanson originale attentivement, de reconnaître sa mélodie et ses accords, puis de l'écrire d'une manière qui peut être jouée sur le piano. Malheureusement, tout le monde n'a pas la formation musicale ou les compétences nécessaires pour faire ça facilement.

Récemment, des avancées technologiques, surtout en informatique, ont rendu possible l'automatisation de tâches qui étaient autrefois très difficiles. L'une de ces tâches est la création de reprises au piano. Bien qu'il existe des systèmes capables de générer automatiquement des versions piano de chansons, ils ont encore des limites. Ces systèmes peuvent ne pas sonner très expressifs, ou ils peuvent ne pas correspondre de près à la chanson originale.

Pour améliorer cette situation, nous avons développé une nouvelle méthode qui utilise la technologie existante en transcription musicale automatique (TMA). La TMA est une technique qui convertit les enregistrements audio en une forme écrite en reconnaissant les notes jouées. Notre nouvelle méthode, appelée TMA-CRP, combine les forces des modèles TMA avec celles de la génération automatique de reprises au piano pour créer de meilleures reprises. Les premiers résultats montrent que notre méthode peut produire des reprises au piano qui ressemblent davantage aux morceaux originaux que les modèles précédents.

Contexte

Transcription Musicale Automatique

La transcription musicale automatique (TMA) consiste à déterminer quelles notes sont jouées dans une pièce de musique juste en écoutant un enregistrement audio. Cela implique de prédire quand les notes commencent (appelés débuts) et combien de temps elles durent. Beaucoup de systèmes de TMA utilisent un format qui ressemble à un rouleau de piano, ce qui aide à visualiser et à prédire les notes avec précision.

Reprise Automatique au Piano

Une reprise automatique au piano consiste à créer une version d'une chanson pour piano à partir d'un enregistrement audio. Il existe différentes approches pour réaliser cela. Une méthode impliquait de former un modèle avec des paires de chansons originales et leurs reprises correspondantes. Cependant, certaines méthodes ont des limites. Par exemple, certains systèmes ne peuvent gérer que des rythmes simples, tandis que d'autres peuvent ne pas tenir compte de tous les détails nécessaires pour une reprise au piano riche.

Le défi réside dans l'équilibre entre représenter les informations musicales essentielles et capturer les détails plus fins qui rendent une reprise au piano agréable et réaliste.

Méthodologie

Notre approche est basée sur un algorithme d'apprentissage appelé TMA-CRP. Cette méthode s'appuie sur des modèles de transcription musicale automatique existants pour améliorer la qualité de la génération de reprises au piano. La première étape de notre approche consiste à pré-entraîner un modèle en utilisant des techniques de TMA. Cela prépare le modèle à reconnaître et reproduire avec précision les sons des morceaux de musique originaux.

Une fois que nous avons cette base, nous affinons le modèle spécifiquement pour générer des reprises au piano. L'idée est d'utiliser les forces du modèle TMA pour mieux reproduire le son et l'ambiance de la musique originale lors de la création de reprises.

Choix du Bon Modèle TMA

Nous avons sélectionné un modèle TMA bien étudié appelé HFT-Transformer comme base de notre travail. Ce modèle a montré des performances impressionnantes dans les tâches de transcription musicale. Contrairement à d'autres modèles qui ne regardent peut-être que des dimensions uniques de données, hFT-Transformer utilise un format bidimensionnel, ce qui lui permet de capturer des détails plus intriqués.

Le hFT-Transformer traite l'audio en petites sections, ce qui lui permet de gérer efficacement des pièces musicales plus longues. Pour l'adapter aux reprises au piano, nous avons apporté quelques ajustements, comme augmenter la longueur des segments audio qu'il traite à la fois.

Vecteur de Style

Différents styles peuvent changer la façon dont une reprise au piano sonne pour la même chanson. Pour représenter ces variations, nous avons développé ce qu'on appelle un vecteur de style. Ce vecteur capture différentes caractéristiques qui se rapportent à la façon dont la reprise au piano devrait sonner, comme le nombre de notes jouées et leurs niveaux de volume. En utilisant des vecteurs de style continus au lieu d'IDs fixes, notre modèle peut apprendre à exprimer une plus large gamme de styles musicaux.

Le vecteur de style est créé en analysant trois aspects d'une reprise au piano : le rythme auquel les notes commencent, les niveaux de volume de ces notes, et les types de hauteurs utilisées. Ces caractéristiques sont combinées pour former un seul vecteur que le modèle peut utiliser avec l'audio original lors de la génération d'une reprise au piano.

Affinage du Modèle

Une fois que notre modèle est prêt et que le vecteur de style est défini, nous procédons à l'affinage. Cette étape consiste à entraîner le modèle spécifiquement pour créer des reprises au piano basées sur les données collectées. Pendant cet entraînement, nous nous concentrons sur les éléments les plus importants de la musique pour assurer un apprentissage efficace. En mettant l'accent sur les caractéristiques clés dans les données, nous pouvons améliorer la capacité du modèle à générer de meilleures reprises au piano.

Expérimentations

Pour évaluer notre modèle, nous avons créé un ensemble de données qui associe des chansons originales à leurs reprises au piano. Nous avons trouvé des chansons sur des plateformes populaires et avons veillé à ce que la qualité des reprises convienne à nos besoins. Après avoir filtré les données, nous avons abouti à une collection substantielle à exploiter.

Au fur et à mesure que nous entraînions le modèle, nous avons surveillé sa performance sur un ensemble séparé de chansons non utilisées lors de l'entraînement. Nous avons évalué combien le modèle pouvait bien reproduire les chansons originales en regardant divers indicateurs qui mesurent la précision et l'efficacité.

Résultats

Nous avons généré des reprises au piano pour un certain nombre de pistes originales et comparé les résultats aux modèles précédents. Notre méthode a produit des reprises qui correspondaient davantage aux chansons originales. L'évaluation a montré que notre modèle performait mieux que les autres en termes de reproduction précise de la musique originale.

Influence du Vecteur de Style

Nos investigations ont révélé que l'inclusion du vecteur de style avait un impact notable sur le résultat final. Lorsque nous avons généré des reprises avec différents vecteurs de style, il était clair que les reprises résultantes variaient considérablement. Par exemple, une reprise pouvait être calme, tandis qu'une autre pourrait être plus intense, démontrant que notre modèle pouvait adapter sa performance en fonction du style fourni.

Discussions

Nos résultats suggèrent que l'utilisation de l'étape de pré-entraînement TMA a grandement bénéficié au processus d'apprentissage pour générer des reprises au piano. Les résultats indiquent que même sans ajustement spécifique pour les reprises au piano, le modèle TMA était capable de générer des sorties raisonnables. Cela sous-entend la similarité entre les tâches de transcription musicale et de création de reprises au piano.

Cependant, nous avons aussi noté des limites dans notre approche. Bien que le vecteur de style ait aidé, il n'a pas capturé tous les éléments essentiels pour maintenir un son cohérent tout au long de la pièce. Certains détails, comme les motifs d'accompagnement et les ornements nuancés, n'étaient pas complètement représentés, entraînant des incohérences.

Conclusion

La méthode TMA-CRP que nous avons développée montre du potentiel pour améliorer la génération automatique de reprises au piano. En s'appuyant sur des modèles de transcription musicale existants, notre approche permet de reproductions plus précises des morceaux originaux. Ce travail souligne la relation étroite entre TMA et la génération de reprises au piano et souligne l'importance de s'appuyer sur des recherches établies pour améliorer les résultats dans ce domaine. Les recherches futures devraient se concentrer sur le perfectionnement de ces modèles, en cherchant des moyens de capturer des détails encore plus riches dans la création de reprises musicales.

Articles similaires