MMG-Ego4Dで自己中心的なアクション認識を進化させる
新しい課題は、マルチモーダルデータを使って一人称視点からのアクション認識に取り組んでる。
― 1 分で読む
目次
エゴセントリックアクション認識は、第一人称の視点からアクションを理解することで、つまり人が自分の目を通して何をしているかを見ることを意味する。このタイプの認識は、ロボティクスや拡張現実などのさまざまな分野で重要で、個々の行動に基づいてカスタマイズされた推奨やリマインダーを提供するのに役立つ。しかし、この視点からアクションを認識するのは、第三者の視点から評価する従来の方法よりも複雑なんだ。
人が自分の視点から動画を撮影すると、映像はあまりクリアじゃなくて、モーションブラーなどの問題があることが多い。さらに、エゴセントリック認識はカメラをつけている人の周囲も考慮しなきゃいけない。これらの課題に対処するために、研究者たちは第一人称の視点からアクションを認識するシステムのパフォーマンスを評価するための新しい評価基準を導入したんだ。
マルチモーダル一般化の必要性
エゴセントリックな視点からアクション認識を向上させるために、「マルチモーダル一般化」(MMG)という新しい概念が開発された。この概念は、音声や映像などのデータが一部欠けている状態でも、システムがアクションを認識できるかどうかを見ている。これは実際の環境では、ユーザーがセキュリティや効率の理由で全ての情報を提供できないことがあるから重要なんだ。
例えば、ユーザーが敏感な場所でカメラをオフにした場合、音声とモーションセンサーのデータだけが利用可能なモダリティになる。これを踏まえて、不完全な情報でも正確なアクション認識を提供できるシステムを構築することが目標だ。この問題を研究するために、MMG-Ego4Dという新しいデータセットが作られ、動画、音声、モーションセンサーのデータが含まれている。
MMG-Ego4Dチャレンジの概要
MMG-Ego4Dチャレンジには、エゴセントリックアクション認識用のシステムの一般化能力を評価する2つのタスクが含まれている:
欠落モダリティ一般化 - このタスクでは、テスト中に特定のデータタイプが利用できないときにモデルがどれだけアクションを認識できるかをチェックする。
クロスモーダルゼロショット一般化 - このタスクでは、トレーニングデータが1つのモダリティのセットを使用し、テストデータはトレーニング中には存在しなかった異なるセットを使用する。
これらのタスクは、ユーザーがアクションの正確な認識に必要なすべてのデータタイプにアクセスできない現実の状況を反映している。
MMG-Ego4Dデータセット
MMG-Ego4Dデータセットは、MMGタスクの評価をサポートするために作成された。既存のデータセットEgo4Dを慎重に処理し、人間の専門家の協力を得て再注釈付けされた。最終的なデータセットには、第一人称視点からキャプチャされたさまざまなアクションを示す動画、音声、センサーデータが含まれている。
データセットは約202時間のデータを含んでいて、研究者たちが自分たちのシステムを効果的にトレーニングおよびテストできるようになっている。データポイントは標準化されているため、一貫した評価が可能だ。MMGタスクの評価を効果的にサポートするために、特定の手法が適用されている。
マルチモーダルデータの重要性
アクションを正確に認識するためには、動画、音声、モーションセンサーなどの異なるソースからのデータ、つまりマルチモーダルデータが不可欠だ。それぞれのデータタイプは、ユーザーの行動を理解するために独自に貢献する。例えば、動画データは視覚的なコンテキストを示し、音声はアクションを示す音を認識できる。さまざまなモダリティの組み合わせを使うことで、ユーザーの意図を明確にし、より信頼性の高いアクション認識が実現できる。
一つのデータタイプだけに依存すると、あいまいさが生じることがある。例えば、動画クリップには草の背景にツールが映っているかもしれなく、音声専用のシステムは摩擦の音をゴミをゴミ箱に入れる音と誤解するかもしれない。動画、音声、モーションセンサーからの情報を組み合わせることで、システムは乾燥した葉を集めるアクションを正確に認識できる。
マルチモーダルシステムの課題
複数のデータソースを利用することは、アクション認識の精度向上に役立つが、それには課題も伴う。現実の条件では、すべてのデータタイプを使用することができない場合もある。例えば、誰かがプライバシーの理由でカメラやマイクをオフにした場合、システムの正確な予測能力が制限される。
さらに、トレーニング中、ユーザーは帯域幅やストレージを節約するためにデータの使用を制限したい場合がある。特に高需要のモダリティである動画は多くのリソースを必要とする。したがって、マルチモーダルシステムは、いくつかのデータが利用できないシナリオにも対応できるように、堅牢でなければならない。
提案されたMMG-Ego4Dタスク
MMG-Ego4Dチャレンジは、トレーニングデータとテストデータの不一致のある条件下で、機械学習アルゴリズムがどれだけうまく機能するかを測ることを目指している。2つのタスク-欠落モダリティ評価とゼロショットクロスモーダル一般化-は、ユーザーが限られた情報で操作する現実の状況を反映している。
欠落モダリティ評価
このタスクでは、トレーニング中に利用可能だったモダリティの選択のみを使用してモデルを評価する。この評価は、さまざまな制約により特定のデータタイプが利用できない場合に、システムがどれだけ適応できるかをシミュレートするのに役立つ。
ゼロショットクロスモーダル一般化
このタスクでは、モデルがテスト中に遭遇する特定のデータタイプについてトレーニングされていなくても、アクションを正しく認識できるかをチェックする。これは、ユーザーがトレーニング中に安価なデータタイプのみを使用するが、テスト中にはリッチなデータタイプを利用する必要があるシナリオを反映している。
一般化性能の向上
MMG-Ego4Dチャレンジには、アクション認識モデルの性能を向上させることを目的とした提案手法が伴っている。この手法には、モデルが異なるモダリティでどれだけ一般化できるかを改善するために設計されたいくつかの革新的なコンポーネントが含まれている。
手法の概要
提案された手法は3つの主要なステージから成る:
ユニモーダル教師あり事前トレーニング - 各データタイプ(動画、音声、IMU)の特徴抽出器を個別にトレーニングする。
マルチモーダル教師あり事前トレーニング - 異なるモダリティのデータを単一のシステムに統合し、モデルがすべてのデータタイプから効果的に学習できるようにする。
マルチモーダルメタトレーニング - システムをさらにトレーニングして、さまざまなデータタイプでの一般化能力を向上させる。
このトレーニングプロセスによって、標準的な条件下でも高い性能を発揮でき、欠落や異なるデータタイプにも効果的に適応できるシステムが構築される。
融合モジュールを持つマルチモーダルネットワーク
提案された手法の中心は、異なるデータソースを組み合わせるマルチモーダルネットワークだ。このネットワークは、各データタイプを処理する特徴抽出器と、結果を統合する融合モジュールで構成されている。この融合モジュールにより、システムはさまざまな入力モダリティの数で操作できるようになり、現実の状況に適応するのに重要だ。
この手法には、「モダリティドロップアウト」と呼ばれる技法も含まれていて、トレーニング中にデータタイプの一部がランダムに省略される。これにより、融合モジュールは現実世界で特定のデータタイプが利用できない状況に備えることができる。
クロスモーダルアラインメントトレーニング
マルチモーダルモデルが異なるデータタイプから効果的に学習できるようにするために、さまざまなモダリティの特徴を整列させる手法が用いられる。このクロスモーダルアラインメントトレーニングは、異なるソースからのデータが密接に関係する統一された特徴空間を構築するのに役立つ。
対照的な損失メカニズムを使用することで、異なるモダリティで同じアクションからの特徴がこの統一された空間でより近くに配置されるようになり、モデルの新しいデータタイプに対する一般化能力を高める。
クロスモーダルプロトタイプ損失
少ないトレーニング例があるシナリオでの性能をさらに向上させるために、クロスモーダルプロトタイプ損失と呼ばれる専門的な損失関数が導入される。この関数は、異なるデータタイプからの例であっても、同じクラスの例同士の距離を最小限に抑えることを目指している。
同じ表現空間を学習することによって、モデルは評価時に見慣れないデータタイプが提示されたときに、より良い予測を行えるようになる。
実験設定
提案された手法の性能を評価するために、さまざまな実験が行われる。これには、豊富なラベル付きデータが利用できる教師あり設定と、限られた数のラベル付き例がモデルに提示される少数shot設定の両方が含まれる。
MMG-Ego4Dベンチマークの結果
性能結果は新たに設立されたMMG-Ego4Dベンチマークで評価される。結果は、ユニモーダルおよびマルチモーダル評価を含む異なる設定に基づいて分類される。
一般的に、マルチモーダルシステムは、単一データタイプでトレーニングされたモデルを常に上回っており、アクション認識タスクにおいて複数の情報源を使用することの重要性を示している。
発見と洞察
提案されたコンポーネントを通じた向上
広範な評価を通じて、提案された手法の各コンポーネントが全体的な性能にプラスの影響を与えることが明らかになった。トランスフォーマーベースの融合モジュールを実装し、アラインメントトレーニングを統合することで、モデルの一般化能力はかなり向上した。
モダリティドロップアウトの重要性
モダリティドロップアウト技術は、モデルが現実世界のアプリケーションで特定のデータタイプが欠如している状況に対する耐性を高めるのに成功した。結果からは、モダリティドロップアウトを通じて条件づけられたモデルが、不完全な情報に直面しても高性能を維持できることが示されている。
結論
要するに、MMG-Ego4Dチャレンジとそれに対応するデータセットの導入は、エゴセントリックアクション認識を進展させるための重要なステップを示している。マルチモーダル一般化に焦点を当てることで、研究者たちはユーザーがすべてのデータタイプを提供できない現実の状況でも効果的に動作する頑丈なシステムを開発する方向に進んでいる。
発見は、さまざまな情報源を活用することで、アクション認識の性能を大いに向上させることができることを示している。研究が進んでいく中で、これらのシステムは拡張現実やロボットの知覚などのアプリケーションを強化し、よりインテリジェントで適応可能な技術ソリューションにつながる可能性がある。
タイトル: MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition
概要: In this paper, we study a novel problem in egocentric action recognition, which we term as "Multimodal Generalization" (MMG). MMG aims to study how systems can generalize when data from certain modalities is limited or even completely missing. We thoroughly investigate MMG in the context of standard supervised action recognition and the more challenging few-shot setting for learning new action categories. MMG consists of two novel scenarios, designed to support security, and efficiency considerations in real-world applications: (1) missing modality generalization where some modalities that were present during the train time are missing during the inference time, and (2) cross-modal zero-shot generalization, where the modalities present during the inference time and the training time are disjoint. To enable this investigation, we construct a new dataset MMG-Ego4D containing data points with video, audio, and inertial motion sensor (IMU) modalities. Our dataset is derived from Ego4D dataset, but processed and thoroughly re-annotated by human experts to facilitate research in the MMG problem. We evaluate a diverse array of models on MMG-Ego4D and propose new methods with improved generalization ability. In particular, we introduce a new fusion module with modality dropout training, contrastive-based alignment training, and a novel cross-modal prototypical loss for better few-shot performance. We hope this study will serve as a benchmark and guide future research in multimodal generalization problems. The benchmark and code will be available at https://github.com/facebookresearch/MMG_Ego4D.
著者: Xinyu Gong, Sreyas Mohan, Naina Dhingra, Jean-Charles Bazin, Yilei Li, Zhangyang Wang, Rakesh Ranjan
最終更新: 2023-05-11 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2305.07214
ソースPDF: https://arxiv.org/pdf/2305.07214
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。