自己学習で時間的アクションのローカリゼーションを進める
ラベルなしの動画を使って長い動画のアクション認識を向上させる。
― 1 分で読む
目次
時間的アクションローカリゼーション(TAL)は、長い動画の中でアクションのインスタンスを特定して分類する方法だよ。でも、TALのための大規模なデータセットを作るのって、お金も時間もかかるから、モデルが認識できるアクションの種類が限られちゃうんだ。この研究では、インターネットの大量のラベルなし動画を使ったセルフトレーニングでこの問題を克服する方法を探ってる。
背景
TALのボキャブラリーは、大規模で注釈付きのデータセットが不足してるせいで制限されることが多い。これを解決するために、研究者たちは画像とテキストを結びつける先進的なモデル、いわゆるビジョン・ランゲージモデル(VLM)を使い始めたんだ。よく知られてる例はCLIP。これらのモデルを使うことで、訓練中に見たことのないアクションを認識してローカライズするオープンボキャブラリーTAL(OV-TAL)が可能になるんだ。
VLMは大量の画像や動画データを使うといい成績を出すけど、現在のOV-TAL手法は依然として小さくて完全にラベル付けされたデータセットに依存してるんだ。これが、多くのラベルなし動画の可能性が十分に活かされていないギャップを生んでる。
セルフトレーニング手法
この研究では、セルフトレーニングの2段階を組み合わせた方法を提案してる:
クラス非依存アクションローカライザーの訓練:最初の段階では、人間がアノテーションしたアクションのデータセットでモデルを訓練する。このモデルは、ラベルなし動画で何が起きてるかの擬似ラベルを作るんだ。
データを組み合わせて訓練:2段階目では、擬似ラベルデータを元のラベル付きデータと混ぜてモデルを再訓練する。このアプローチによって、モデルはさまざまなアクションや動画に対して一般化する能力が向上するんだ。
実験からは、大量のラベルなし動画を使ったセルフトレーニングが、モデルの異なるアクションに対する一般化能力を大きく向上させることがわかってる。
ラベルなしデータの重要性
ソーシャルメディアやYouTubeみたいな動画プラットフォームの普及で、ラベルなし動画コンテンツがたくさん存在するようになった。こうしたデータを使うことで、モデルが特別に訓練されていないアクションを認識する能力を向上させることができるんだ。
焦点は、ターゲットベンチマークからのドメイン内データと、インターネットのランダムな動画からのオープンドメインデータ両方にある。結果は、オープンドメインデータを活用することがモデルのパフォーマンス向上に特に効果的であることを示唆している。
現在の評価手法の課題
現存のOV-TALの評価手法にはいくつかの限界がある。一般的に、モデルが馴染みのあるアクションに対してどうパフォーマンスを発揮するかを考慮せず、新しいアクションのみに焦点を当てるから、モデルの実際のパフォーマンスを歪めた見方になるんだ。
評価を改善するために、新しいベンチマークを提案してる。これには:
- 一般化ゼロショット設定:パフォーマンスを測るときに、馴染みのあるアクションと馴染みのないアクションの両方を考慮する。
- クロスデータセット評価:異なるデータセット間でモデルがどれだけ一般化できるかをテストする、これは現実のアプリケーションには重要なんだ。
結果
調査結果は、オープンドメインデータを使ったセルフトレーニングが、ドメイン内データのみを使う場合と比較して、より良いパフォーマンスをもたらすことを示している。大量のラベルなし動画で訓練することで、モデルはアクションを認識してローカライズする精度が高くなるんだ。
研究は、異なる評価モードがさまざまな結果を生むことも示している。テスト中に見ることができたアクションと見たことがないアクションのカテゴリを考慮することの重要性を強調している。
ビジョン・ランゲージモデル
VLMは、画像や動画の中の物体やアクションを認識するさまざまなタスクで大きな成功を収めてる。この研究は、これらのモデルの能力を活かしてTALシステムのパフォーマンスを向上させることを目指してる。
この研究では、ViFi-CLIPをモデルのバックボーンに使ってて、大規模な動画-テキストデータセットで訓練されている。この選択は、OV-TALタスクのパフォーマンスを最大化するのに役立つ。
セルフトレーニングのためのデータソース
セルフトレーニングでは、2つの主要なデータソースを利用してる:
ドメイン内データ:ベンチマークデータセットに所属する動画で、モデルが学ぶための関連例を提供する。
オープンドメインデータ:インターネットからスクレイピングされた多様な動画で、モデルが幅広く学ぶ機会を与える。
さまざまなドメインからランダムな動画を使うことで、モデルは異なるアクションを認識する能力が高まるんだ。
アクションローカリゼーションプロセス
アクションローカリゼーションプロセスは、2つの主要なコンポーネントに分かれてる:
クラス非依存アクションローカライザー:このモデルの部分は、アクションのインスタンスをカテゴリ分けせずに検出することに重点を置いてる。動画内のアクションの存在をマークして、そのアクションが起こる可能性を示すスコアを提供する。
オープンボキャブラリーアクションクラシファイア:このコンポーネントは、モデルに提供された入力アクションに基づいて検出されたアクションに分類を割り当てる。VLMの強みを活かして、このタスクを効果的に実行するんだ。
訓練と評価
訓練は、モデルが最初にラベル付きデータから学び、その後ラベルなしデータを使ってさらなる改善を図るという2段階のアプローチを取ってる。この研究で使われている評価指標は、パフォーマンスを包括的に見るために設計されている。
伝統的な指標と新しいベンチマークを使ってモデルを評価することで、結果は異なるデータセットや条件でのアクション認識におけるモデルの効果を反映している。
セルフトレーニングのスケーラビリティ
大量のラベルなし動画を使ったセルフトレーニングのスケーラビリティは、アクションローカリゼーション能力を大幅に向上させる可能性があることを示唆してる。研究者たちがより多くのウェブデータを活用することで、モデルがさまざまなアクションカテゴリに一般化したり適応したりする能力はさらに増すだろう。
実施された実験からは、訓練データの量が増えるにつれて、モデルのパフォーマンスが向上するという明確な傾向が見られる。これが、多様な動画コンテンツにアクセスすることの重要性を強調している。
結論
この研究は、時間的アクションローカリゼーションの分野での有望な方向性を示している。豊富なラベルなし動画データを活用するセルフトレーニングアプローチを採用することで、モデルはより広範なアクションを認識して分類できるようになる。
提案されている評価手法は、モデルのパフォーマンスをより細かく見ることができる方法を提供し、今後のアクションローカリゼーション技術の進歩の道を開くんだ。全体的に、結果は利用可能なリソースを活用し、訓練方法を最適化することがTALシステムの能力を向上させるために重要であることを強調している。
タイトル: Exploring Scalability of Self-Training for Open-Vocabulary Temporal Action Localization
概要: The vocabulary size in temporal action localization (TAL) is limited by the scarcity of large-scale annotated datasets. To overcome this, recent works integrate vision-language models (VLMs), such as CLIP, for open-vocabulary TAL (OV-TAL). However, despite the success of VLMs trained on extensive datasets, existing OV-TAL methods still rely on human-labeled TAL datasets of limited size to train action localizers, limiting their generalizability. In this paper, we explore the scalability of self-training with unlabeled YouTube videos for OV-TAL. Our approach consists of two stages: (1) a class-agnostic action localizer is trained on a human-labeled TAL dataset to generate pseudo-labels for unlabeled videos, and (2) the large-scale pseudo-labeled dataset is then used to train the localizer. Extensive experiments demonstrate that leveraging web-scale videos in self-training significantly enhances the generalizability of an action localizer. Additionally, we identify limitations in existing OV-TAL evaluation schemes and propose a new benchmark for thorough assessment. Finally, we showcase the TAL performance of the large multimodal model Gemini-1.5 on our new benchmark. Code is released at https://github.com/HYUNJS/STOV-TAL.
著者: Jeongseok Hyun, Su Ho Han, Hyolim Kang, Joon-Young Lee, Seon Joo Kim
最終更新: 2024-12-19 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2407.07024
ソースPDF: https://arxiv.org/pdf/2407.07024
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。