動画からのアクション音生成の進展
新しいモデルが動画の視覚的アクションとの音の一致を向上させる。
― 1 分で読む
人間の行動にリアルな音を作るのは、映画やバーチャルリアリティゲームの音響効果を作る上で重要だよね。今の方法の多くは、動画で見えるものが聞こえるものと完全に一致するって考えに基づいてるけど、実際はそうじゃないことが多い。多くの音は画面外で発生したり、視覚的に起こっていることと合ってなかったりする。これが、映像に合わない音を生成して、混乱を招いたり、音のコントロールができなかったりする原因だよ。
この問題を解決するために、AV-LDMという新しいモデルを紹介するよ。これは、行動に直接関連する音と背景音の違いを理解することに焦点を当ててる。私たちのモデルはサイレント動画を使って、映像の内容に意味とタイミングの両方で合った音声を作るんだ。Ego4DとEPIC-KITCHENSという2つの実世界の動画データセットを使ってモデルをトレーニングしてテストした結果、他のものよりも動画で見られる行動とよく合った音を生成するのが得意だってことが分かったよ。さらに、ユーザーが生成した音声の背景音のレベルをコントロールできるってのも大きな利点だし、コンピュータゲームのクリップとも相性がいい。
日常生活では、物と関わるときにその行動が音を生む。たとえば、マウスをクリックしたり、ドアを閉めたり、野菜を切ったりすると、それぞれの行動や物、力のかけ方によって異なる音が出るよね。動画は行動を捉える一方で、いつその行動が起きるかの手がかりも提供してる。だから、サイレント動画からリアルな音を作る可能性があるんだ。この能力は、映画の音響効果を作ったり、バーチャルリアリティやビデオゲームで音を生成するのに役立つかもしれない。
現実世界の音は、通常2つの主要なタイプで構成されている。行動音(視覚的に見える行動から直接生まれる)と背景音(動画に映っていない音源からのもの)。これまでの方法は、これら2種類の音を区別せずに扱っていたから問題が起きていた。私たちのモデルは、トレーニング動画で行動音と環境音を区別することで、より良い音声を作れるようになったんだ。
行動音は短い瞬間に起こりがちだけど、背景音はしばらく残ることが多い。それを利用して、シンプルだけど効果的なアプローチを提案するよ。トレーニング中に、モデルは入力動画と同じ長い動画の異なる時間からの音声セグメントを使う。これで、モデルは動画の行動の手がかりに集中しつつ、背景音からの干渉を最小限に抑えられる。
テスト中は、正確な音声を使わずに、トレーニングセットから動画と視覚的・音響的に似た音声クリップを探して取得する。この方法は、特に音が視覚と明確に結びつかないシナリオで効果的だよ。たとえば、屋外で風が吹く時など。
行動音を生成するための既存の方法は、普段は少ない行動タイプをカバーするクリーンなデータに依存したり、特定の方法で分類されたオンラインソースの動画を使用している。私たちは、行動音の生成範囲をより自然で現実的な行動に拡大することを目指している。そのために、大規模なエゴセントリック動画データセットを使ってる。この動画は人の視点で撮られた記録で、遠くから撮った動画よりも人間の行動をより近くで見ることができるし、いつ何が起こっているかのタイムスタンプ付きの説明もついてる。私たちはEgo4D-Soundsというデータセットを作った。これは120万の音響-視覚行動クリップで構成されている。
私たちの取り組みでは、トレーニング中に行動音と背景音を暗黙的に分けることを目指した。これを実現するために、音響-視覚的潜在拡散モデル(AV-LDM)を設計して、音声生成に動画と音声の両方を使用した。さまざまな既存の方法と比較テストを行った結果、Ego4D-SoundsとEPIC-KITCHENSデータセットの両方で大幅に上回ることができた。さらに、人間評価でも、私たちのモデルが動画とよく合った音を生成していることが確認された。
私たちのモデルは、リアルな行動音を生成するだけでなく、ユーザーが背景音のレベルをコントロールすることも可能にしている。この機能は特にゲームに役立つで、周囲のノイズよりも行動に完全に集中したいときに便利だよ。たとえば、料理ゲームでプレイヤーが野菜を切っているとき、私たちのモデルは正しい切る音を提供しつつ、不要な背景ノイズを最小限に抑えられるんだ。
これを達成するために、行動音と背景ノイズの明確な区別を作る必要があった。行動音は通常短いのに対し、背景音は動画全体にわたって残ることが難しさなんだ。たとえば、スパイスのパッケージを閉じるときのカサカサ音が行動音を表していて、画面外の冷蔵庫のブンブン音が背景音になる。
多くの以前の方法は、視覚と音に一対一の対応があると仮定していたけど、日常生活の動画ではそうじゃないことが多い。会話や交通などの画面外の音は、視覚で起こっていることを反映しない。もしモデルがこの仮定でトレーニングされていたら、動画でキャッチされた行動に合わない音を生成することになる。
音声生成を改善するために、私たちは視覚と環境音の間の弱いまたは欠如した相関関係を認識するようにモデルをトレーニングしている。行動音が短い時間に現れる様子と、背景音が動画の中で持続する傾向を観察して、これを導きの手がかりにしている。これにより、トレーニング中に同じ動画の異なるタイミングからの音声クリップをモデルに提供するシステムを開発できた。
テストの段階では、視覚的な類似性に基づいて関連する音声セグメントを取得する。この方法は、背景ノイズが動画の行動と強く結びついていないような状況、例えば屋外での設定に特に効果的だよ。
私たちのモデルの目標は、現実世界の状況で撮影された動画の中で行動音を生成する可能性を広げること。最近のエゴセントリック動画データセットの進展を利用して目的を達成することを目指してる。私たちのモデルは特にエゴセントリック動画専用に設計されているわけではないけど、これらのデータセットは遠くから撮った動画よりも人間の行動をよりよく捉える助けになってるよ。加えて、これらのデータセットにはその時に行われている行動の説明もついている。
私たちが提案するモデル、AV-LDMは、動画の行動に基づいて音を生成できる。結果によると、さまざまなメトリクスで私たちのモデルは他の既存の方法を上回っていて、音声生成の効果が確認できるよ。
私たちの研究では、Ego4D-Soundsデータセットでモデルを評価したところ、既存のアプローチを大きく上回る結果が得られた。さらに、生成した音が視覚とどれだけリアルに合っているかをフィードバックするために人間評価も行った。参加者は他のモデルよりも私たちのモデルの音声を好む結果が出て、その能力が確認された。
また、EPIC-KITCHENSデータセットでもモデルをテストし、同様の成功を収めた。私たちのモデルは、他のモデルと比較して音声生成でより良い結果を出していて、さまざまなデータセットに一般化できる能力を示した。
私たちが探求した中で刺激的なアプリケーションの一つは、バーチャルリアリティゲームの音響効果を生成すること。料理ゲームの動画でモデルをテストしたところ、行動に合わせた同期音を成功裏に生成できて、没入感のある環境でのユーザー体験を向上させることができた。
結論として、私たちのモデルは、特に背景ノイズが音の明瞭さに干渉する場合、動画で起きていることに合った行動音を生成する課題に取り組んでいる。行動音と環境音を分離する能力は、映画やゲームなどで動画コンテンツを使用する際に、ユーザーが聞くものをコントロールできるようにしている。
今後は、バーチャルリアリティアプリケーションでの合成画像への音声生成モデルの適用について調査し、ユーザーの音響体験をさらに向上させる予定だよ。
行動音の理解
私たちの日常的な経験では、さまざまな物や行動と関わることで音が生まれる。これらの音の知覚は、行動の種類、関係する材料、環境などの要因によって異なることがある。たとえば、コーヒーをかき混ぜるときの音と、野菜を切るときの音は異なるけど、どちらも一般的な行動だよね。
音響-視覚学習システムを開発する試みの多くは、動画内の人間の活動を認識することに焦点を当ててきた。これらのシステムは、外部視点から撮影された動画を使って開発されることが多い。対照的に、エゴセントリック動画は活動を行っている人の視点から行動を捉え、行動とそれに伴う音をより近く表現している。
音声生成を分析する際には、私たちが聞く音と見える行動の関係を考慮する必要がある。行動音は短くて迅速であることが多いけど、背景音は長く続くことがあり、主要な行動に対してあまり関連性がないこともある。この複雑さが、動画内の行動に合った意味のある音を生成することを難しくしている。
行動音と環境音の分離
音声を正確に生成する上での重要な障壁は、行動音と背景音を効果的に分けることにある。従来の方法は、両方のタイプの音を統合してしまう傾向があり、生成された音が行動を正しく反映しない問題を引き起こしていた。一方で、私たちのアプローチは、行動音が一瞬であるのに対し、環境音は動画全体にわたって持続することを認識しているので、トレーニングと生成プロセスが複雑になる。
私たちのモデルでは、同じ動画の異なるタイムスタンプからの音声クリップを使用することで、トレーニングが大幅に改善されることが分かった。このアプローチにより、モデルは行動音に干渉せずに、環境音を認識できるようになる。
実用的には、サイレント動画をトレーニングするときに、同じ動画の隣接するクリップからの音声を提供できるようにする。この方法により、モデルは動画内の強調された行動に集中し、全体の行動コンテキストに寄与しない無関係な背景音を放置できるようになる。
音声生成の際に、モデルは視覚的な入力に合致する関連音クリップを取得する。サイレント動画と保存された音声クリップの間の類似性を評価することで、特定の視覚コンテキストに最も関連性の高い音を引き出せるんだ。
このアプローチにより、モデルは視覚的に起こっていることと関係のないノイズを分離できる能力を持ち、より正確な行動音を生成するための明確な道を提供する。
実用的なアプリケーション
私たちのモデルの影響は、研究だけにとどまらない。映画やゲームでは、音が没入感を生むために重要な役割を果たしている。視覚的コンテキストに合った行動音を生成できることで、映画製作者やゲーム開発者はより魅力的なコンテンツを作り上げることが可能になる。
バーチャルリアリティでは、複雑なインタラクションがあり、複数の同時行動が関わることが多いが、私たちのモデルはユーザーが行動を行う際に音を動的に生成できる。たとえば、料理ゲームでプレイヤーがさまざまな材料と関わる場合、それぞれの行動に応じて音が変わることで、全体の体験を向上させることができる。
私たちのモデルは、教育や訓練シミュレーションなどの他の分野でも革新的なアプリケーションを開く可能性を持っている。リアルな音が行動と合ったフィードバックを提供することで、学習環境を向上させることができるんだ。
今後の方向性
今後は、私たちの行動から音を生成するシステムの可能性を探っていく。合成画像やバーチャルリアリティのコンテキストへのモデルの適用方法を調査し、バーチャル環境における音響視覚体験を向上させることを目指しているよ。
さらに、生成する音の質と関連性を改善するために、モデルの改良を続けていく予定だ。この継続的な作業は、キャッチされる行動音の範囲を広げ、モデルのパフォーマンスをさまざまなコンテキストで向上させることを目指している。
要するに、行動音を背景ノイズと分離しながらリアルな音を生成できるモデルを作る努力が、映画、ゲーム、その他多くの分野での興味深い進展の基盤を築いている。野外データを活用して人間の行動や音声生成の細かい部分に焦点を当てることで、この革新的な分野をリードする立場にいるんだ。
タイトル: Action2Sound: Ambient-Aware Generation of Action Sounds from Egocentric Videos
概要: Generating realistic audio for human actions is important for many applications, such as creating sound effects for films or virtual reality games. Existing approaches implicitly assume total correspondence between the video and audio during training, yet many sounds happen off-screen and have weak to no correspondence with the visuals -- resulting in uncontrolled ambient sounds or hallucinations at test time. We propose a novel ambient-aware audio generation model, AV-LDM. We devise a novel audio-conditioning mechanism to learn to disentangle foreground action sounds from the ambient background sounds in in-the-wild training videos. Given a novel silent video, our model uses retrieval-augmented generation to create audio that matches the visual content both semantically and temporally. We train and evaluate our model on two in-the-wild egocentric video datasets, Ego4D and EPIC-KITCHENS, and we introduce Ego4D-Sounds -- 1.2M curated clips with action-audio correspondence. Our model outperforms an array of existing methods, allows controllable generation of the ambient sound, and even shows promise for generalizing to computer graphics game clips. Overall, our approach is the first to focus video-to-audio generation faithfully on the observed visual content despite training from uncurated clips with natural background sounds.
著者: Changan Chen, Puyuan Peng, Ami Baid, Zihui Xue, Wei-Ning Hsu, David Harwath, Kristen Grauman
最終更新: 2024-07-25 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2406.09272
ソースPDF: https://arxiv.org/pdf/2406.09272
ライセンス: https://creativecommons.org/publicdomain/zero/1.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。