自己教師あり学習で音楽検索を進化させる
新しいアプローチは、音声と楽譜をつなげるために自己教師あり学習を活用している。
― 0 分で読む
楽譜と音声ファイルをつなげるのは、効果的な音楽検索システムを構築するために重要だよね。でも、短い音声クリップを楽譜画像に結びつけるシステムを作るのは簡単じゃないんだ。しかも、こういうシステムのパフォーマンスを妨げるのが、注釈付きデータの不足なんだよ。
この記事では、ラベル付きデータが不足している問題に対処するために、自己教師ありのコントラスト学習を使った方法について話してる。たくさんの無ラベルの音楽ファイルを用意することで、音声クリップとそれに対応する楽譜を結びつける能力が高まるんだ。
問題
音楽のための正しい楽譜を見つけるのは、ほんとに大変なんだ。ミュージシャンは音声のスニップを持ってることが多いけど、その曲の名前や対応する楽譜がわからないことが多い。単純に思えるけど、追加の情報がないと複雑化しちゃうんだ。
この文脈では、2つのデータ形式、つまり音声とその音楽の書き表しである楽譜に焦点を当ててる。短い音声クリップが与えられたときに正しい楽譜を取得するのが共通の課題なんだ。
従来のアプローチと限界
音声記録とその楽譜を結びつけるための従来の方法は、ラベル付きデータに依存してるんだ。つまり、各音声が正しい楽譜と詳細に一致させる必要があったんだ。残念ながら、こういう注釈付きデータを取得するのは高くついて時間もかかる。専門家が音声を聞いて、楽譜の正しい音符と一致させる必要があるからね。
この問題のために、多くのシステムは代わりにシミュレートされた音楽データに頼ることが多い。これが実際の音楽データで使われるとパフォーマンスが悪くなっちゃうことがあるんだ。生成されたデータが実際の音楽パフォーマンスの複雑さを反映していないからなんだ。
我々の方法
我々は自己教師あり学習を使った方法を提案するよ。このアプローチでは、広範にラベルがなくてもデータ自体から学ばせることができるんだ。モデルを大量の音楽データにさらすことで、明示的な注釈なしで音声と楽譜の関係を学ばせることができるんだ。
自己教師ありコントラスト学習
自己教師ありコントラスト学習プロセスでは、同じ音声と楽譜のスニップのさまざまなバージョンでモデルを訓練するんだ。データにランダムな変更や「補強」を加えることで、同じ曲の異なる視点を作り出すんだ。これによって、モデルは同じデータの異なる表現の間の類似性を認識するようになるんだ。
例えば、音声のスニップがあったら、ちょっとした変更を加えても、モデルがこれらのバージョンがつながっていることを理解することを期待できる。こうして、モデルはラベルなしで特徴を学ぶんだ。
楽譜の補強技術
我々の方法は、楽譜画像のさまざまな補強技術に依存してるよ。いくつかの操作には以下が含まれる:
- 楽譜を水平方向および垂直方向に移動させる。
- 画像のサイズを少し異なるサイズにリサイズする。
- 楽譜を回転させる。
- 低品質をシミュレートするためにノイズを加えたり、画像をぼかす。
これらの技術は、モデルが変更に関係なく音楽を認識できるように助けるんだ。
音声の補強技術
楽譜と同様に、音声スニップもさまざまな補強を受けるんだ。例えば:
- 時間をかけて音を移動させる。
- 音声ファイルの音量を変えたり、ノイズを加えたりする。
- ピッチをそのままでテンポを変更する。
これらの操作は、常に完全にクリアではない音声データを理解するためにモデルを準備するんだ。
実験と結果
データ準備
実験のために、音声と楽譜のスニップを用意したんだ。楽譜画像は適切にスケールされて、関連する音楽コンテンツを含んでいるように選ばれたよ。音声については、必要なスペクトログラムを計算して、音声スニップが正しく処理できるようにしたんだ。
実験設定
いくつかのデータセットで評価を行ったよ。中には完全にシンセティックなデータを含むものもあれば、実際の音楽データを使用したものもあった。このバリエーションで、我々のアプローチがどれだけ一般化できるかを評価できたんだ。
我々のシステムは、音声クエリに基づいてスニップを取得したり、楽譜を入力として使ったりするなど、複数の方法でテストされたよ。
結果の概要
実験では、自己教師あり学習で訓練されたモデルが実際の音楽データを使用した場合に特にパフォーマンスが良かったことがわかったんだ。提案したモデルのメトリクスを従来の監視モデルと比較すると、見られる改善はかなりのものでした。
- シンセティックなデータのみを使用した場合、従来のモデルは実際の音楽データでテストするとパフォーマンスが大幅に低下した。
- 自己教師ありモデルは、シンセティックから実データに移行する過程でも、音声と楽譜のスニップの間の関係をより良く保っていた。
- 自己教師あり手法で事前訓練されたモデルは、すべての設定で従来のベースライン方法を一貫して上回っていた。
クロスモーダル曲の特定
我々は、クロスモーダル曲の特定というより高次のタスクも調べたよ。このタスクでは、音声記録またはその楽譜が与えられたときに正しい曲を見つけることを目的としてる。実験では、自己教師ありモデルが曲の特定結果を改善するのに効果的だということがわかったんだ。
複数のスニップからの埋め込みを集約することで、モデルはベストマッチをベースライン手法よりもはるかに良く取得できたんだ。
結論
結局、楽譜と音声の検索システムを訓練する際のラベル付きデータの不足問題に対処するための学習フレームワークを設計したよ。自己教師ありコントラスト学習アプローチは、無ラベルデータから学ぶのを効果的に可能にし、音楽の頑強な表現を構築するための補強技術を活用したんだ。
我々の実験は、この方法が特に実際の音楽データを扱う際の検索パフォーマンスを大幅に向上させることを示してる。だから、このフレームワークが将来的に音楽検索と取得のためのより信頼性の高いシステムを構築する手助けになると信じてるよ。
タイトル: Self-Supervised Contrastive Learning for Robust Audio-Sheet Music Retrieval Systems
概要: Linking sheet music images to audio recordings remains a key problem for the development of efficient cross-modal music retrieval systems. One of the fundamental approaches toward this task is to learn a cross-modal embedding space via deep neural networks that is able to connect short snippets of audio and sheet music. However, the scarcity of annotated data from real musical content affects the capability of such methods to generalize to real retrieval scenarios. In this work, we investigate whether we can mitigate this limitation with self-supervised contrastive learning, by exposing a network to a large amount of real music data as a pre-training step, by contrasting randomly augmented views of snippets of both modalities, namely audio and sheet images. Through a number of experiments on synthetic and real piano data, we show that pre-trained models are able to retrieve snippets with better precision in all scenarios and pre-training configurations. Encouraged by these results, we employ the snippet embeddings in the higher-level task of cross-modal piece identification and conduct more experiments on several retrieval configurations. In this task, we observe that the retrieval quality improves from 30% up to 100% when real music data is present. We then conclude by arguing for the potential of self-supervised contrastive learning for alleviating the annotated data scarcity in multi-modal music retrieval models.
著者: Luis Carvalho, Tobias Washüttl, Gerhard Widmer
最終更新: 2023-09-21 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2309.12134
ソースPDF: https://arxiv.org/pdf/2309.12134
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。