エゴセントリックビデオにおけるアクション認識の進展
X-MICフレームワークは、第一人称動画でのアクション認識モデルを強化するよ。
― 1 分で読む
目次
動画内のアクションを特定するために、視覚と言語を組み合わせたモデルが注目を集めてる。これらのモデルは、標準的な画像や動画でテストしたときは良い結果を示してるけど、第一人称視点の動画になるとパフォーマンスが大幅に落ちるんだ。第一人称動画、つまり自分目線の動画は、ユーザーが見ているアクションを捉えるから、従来のモデルには難しいところがある。
現在のモデルの問題点
従来のモデルは第三者視点の動画ではうまくいってるけど、標準的なデータセットと自己中心的な動画が持つ独特の課題の間には大きなギャップがあるんだ。例えば、第三者視点のデータセットで学習したモデルは物体やアクションをうまく認識できるけど、第一人称の動画に適用すると精度が落ちる。これは、自己中心的な動画には異なる環境やユーザー、さまざまな物体とアクションが含まれてるから、モデルがそれに対応してないからなんだ。
私たちのソリューション:X-MICフレームワーク
これらの問題に取り組むために、X-MICという新しいフレームワークを提案するよ。このフレームワークは、動画アダプターと呼ばれる特別な部分を訓練して、モデルがテキストの説明を自己中心的な動画に結びつけるのを助ける。これによって、モデルが第一人称視点の動画内のアクションを認識する能力を向上させることを目指してる。
X-MICの仕組み
X-MICは視覚情報とテキスト情報が同時に存在できる共有空間を利用する。これにより、モデルは固定されたテキスト情報を自己中心的な動画コンテンツに直接合わせることができるようになる。私たちは、モデルが動画内の時間を処理する方法(時間モデル)と画像を理解する方法(視覚エンコーディング)を分ける新しい構造を作った。これによって、モデルが異なるデータタイプに対してよりよく一般化できるようになる。
自己中心的なアクション認識の重要性
拡張現実やロボティクスが普及する中で、第一人称動画内のアクションを認識することは重要だよ。最近、Epic-KitchensやEgo4Dのような大規模なデータセットが、第一人称の視点から日常のアクティビティを捉えるために作られた。しかし、既存の研究の多くは同じデータセット内でアクションを評価することに焦点を当てていて、モデルの実際のアプリケーションでのパフォーマンスを制限してる。異なるデータセットでモデルをテストして、新しい状況にどれだけ適応できるかを見るのが重要なんだ。
トレーニングとテストの課題
これらのモデルをトレーニングする際の主な課題の一つは、異なるデータセットに存在する環境や物体の不一致だよ。一つのデータセットで訓練されたモデルは、別のデータセットでテストしたときにうまく機能しない場合が多い。前に見たことのないアクションやアイテムに遭遇すると、パフォーマンスはさらに落ちる。だから、さまざまなデータセットに対して適応できて一般化できるシステムが必要なんだ。
現在の技術の概要
現在の技術には、視覚タスクに合うようにテキスト入力を変更する方法が含まれている。いくつかの技術は、テキストと視覚データを結びつける追加の訓練可能なコンポーネントを使用しているけど、これらのアプローチは自己中心的な動画コンテンツの特定のニーズを考慮していないことが多い。これが、アクションを正確に認識する効率の低下につながってる。
視覚-言語モデルを適応させる私たちのアプローチ
X-MICフレームワークは、視覚-言語モデルを自己中心的な動画でよりよく機能させるシンプルな適応を可能にする。第一人称動画に特有の知識をモデルの既存アーキテクチャに組み込むことで、アクション認識を向上させている。この方法では、各動画をベクトルに変換して、テキストと動画データを効率的に調整できるようにしている。
様々なデータセットでの評価
私たちは、Epic-Kitchens、Ego4D、EGTEAを含むいくつかのデータセットに対して、私たちの方法を厳密にテストした。評価の結果、私たちのアプローチは異なるデータセットでのアクション認識において、他の最先端技術よりも大幅に優れていることが分かった。
データセット内とデータセット間の一般化のアプローチ
私たちの研究の主な目標の一つは、アクション認識がモデルが訓練されたデータセットに限定されないようにすることだ。データセット内(同じデータセット内)とデータセット間(異なるデータセット間)の一般化の両方に取り組んでいる。この二重の焦点は、モデルが新しい未知のデータに出会う現実のアプリケーションでの実用性にとって重要なんだ。
プロンプト学習とアダプターの役割
プロンプト学習は、固定されたテキストモデルの調整に役立つことが証明されている。私たちは、動画とテキストデータから同時に学ぶ適応コンポーネントを作成することで、このアイデアを画像に拡張した。以前の方法が適応のさまざまなバリエーションを探求してきたが、私たちのアプローチは特に自己中心的な動画コンテンツのユニークな側面に焦点を当てている。
時間モデルと空間的注意
自己中心的な動画のニュアンスを捉えるために、手周りの重要な部分に焦点を当てる注意メカニズムを開発した。最も多くのインタラクションが行われる場所だからね。自己注意技術を適用して、モデルがこれらのインタラクションを効果的に強調しつつ、時間を通じてフレーム間の関係を考慮できるようにしている。
X-MICによるパフォーマンスの改善
X-MICフレームワークは、データセットを横断して細かなアクションを認識する際に大幅な改善を示している。空間的および時間的注意の両方に焦点を当てることで、私たちのモデルは他のモデルよりも常にアクションを正確に認識しており、より良い現実世界のアプリケーションにつながっている。
実装の詳細
私たちのアプローチでは、事前に訓練されたCLIPモデルを利用している。トレーニング中に、学習率の調整やさまざまなデータ拡張手法を含む特定の技術を実装した。また、自己中心的な動画のニュアンスをよりよく捉えるために、第二の視覚エンコーダーも使用した。
ゼロショット一般化
私たちのアプローチの際立った特徴の一つは、ゼロショット一般化ができることだ。つまり、モデルがこれまで遭遇したことのないクラスに基づいて予測を行えるってこと。これは、新しいアクションが頻繁に発生する現実のアプリケーションにとって重要な機能だよ。
データセットでの詳細評価
評価では、クラスをデータセット全体での存在に基づいて共有クラスと新規クラスに分類した。結果は、共有アクションを認識する際に強いパフォーマンスを示しながら、新規クラスへの一般化も良好であることが分かった。これらの発見は、モデルが新しい状況に対処する際の堅牢性を強調している。
最先端技術との比較
既存の方法と比較すると、私たちのアプローチが明らかなアドバンテージを持っていることが分かる。名詞と動詞クラスのパフォーマンス指標は、モデルのトレーニング中に遭遇したことのないアクションを認識する際に特に一貫した改善を示している。
制限と今後の方向性
私たちのフレームワークは強力なパフォーマンスを示しているが、テキストから動画の検索タスクには対応していない。今後の開発では、これらの領域を探求して、より広範なアプリケーションに対応できる包括的なモデルを作成することを目指している。
結論
X-MICフレームワークは、自己中心的アクション認識のために視覚-言語モデルを適応させる上で大きな前進を示している。第一人称動画情報をモデルの構造に直接取り入れることで、さまざまなデータセット間でのパフォーマンスの著しい向上を実現した。私たちのアプローチの柔軟性は、視覚バックボーンの調整を容易にし、モデルが新しいアクションによりよく一般化できるようにして、現実のアプリケーションでさらなる進展の土台を築いている。
タイトル: X-MIC: Cross-Modal Instance Conditioning for Egocentric Action Generalization
概要: Lately, there has been growing interest in adapting vision-language models (VLMs) to image and third-person video classification due to their success in zero-shot recognition. However, the adaptation of these models to egocentric videos has been largely unexplored. To address this gap, we propose a simple yet effective cross-modal adaptation framework, which we call X-MIC. Using a video adapter, our pipeline learns to align frozen text embeddings to each egocentric video directly in the shared embedding space. Our novel adapter architecture retains and improves generalization of the pre-trained VLMs by disentangling learnable temporal modeling and frozen visual encoder. This results in an enhanced alignment of text embeddings to each egocentric video, leading to a significant improvement in cross-dataset generalization. We evaluate our approach on the Epic-Kitchens, Ego4D, and EGTEA datasets for fine-grained cross-dataset action generalization, demonstrating the effectiveness of our method. Code is available at https://github.com/annusha/xmic
著者: Anna Kukleva, Fadime Sener, Edoardo Remelli, Bugra Tekin, Eric Sauser, Bernt Schiele, Shugao Ma
最終更新: 2024-03-28 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2403.19811
ソースPDF: https://arxiv.org/pdf/2403.19811
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。