アクション認識のためのAIトレーニングのバランス調整
新しいフレームワークが、動画理解におけるアクションバイアスを解決する。
Rohith Peddi, Saurabh, Ayush Abhay Shrivastava, Parag Singla, Vibhav Gogate
― 1 分で読む
目次
想像してみて、誰かが本を拾って椅子に座る動画を見てるとするよ。簡単に聞こえるよね?でも、AIやコンピュータビジョンの世界では、その動画で何が起こってるかを理解するのは、ただ「人」「本」「椅子」みたいな物体を認識するだけじゃないんだ。これらの物体が時間とともにどう相互作用するかを考えることが重要なんだ。ここで登場するのが、空間-時間シーングラフ(STSG)だよ。STSGは、動画の中の行動や物体の関係をマッピングする洗練された方法だと思って。まるで家系図を描くみたいに、家族のメンバーの代わりにさまざまな行動やアイテムがある感じ。
ロングテール分布の課題
さて、何か問題があるのかって思うかもしれないけど、現実では、いくつかの行動はいつでも起こる一方で、他の行動は珍しいんだ。例えば、多くの人が本を読んでいるのはよく見かけるけど、誰かが椅子の上でバランスを取っているのをどれくらいの頻度で見る?これを技術的にはロングテール分布って言うんだ。一般的な行動は「尾の頭」みたいで、珍しい行動は「尾」の部分。
AIモデルに動画を理解させるとき、彼らは一般的な行動にばかり焦点を当てて、同じくらい重要な珍しい行動を完全に無視しがちなんだ。これが偏った視点を生む原因で、モデルが「全体像」を「見えない」ことになる。だから、人気のある行動と目立たない行動の両方に注意を払うことを教えないといけないんだ。
ImparTailに会いましょう:新しい教師
この偏りを打破するために、ImparTailっていうトレーニングフレームワークを紹介するよ。これは学校で賢い新しい教師みたいなもので、学生が好きな科目だけに集中するんじゃなくて、難しい科目もマスターするように導いてくれるんだ。これをカリキュラム学習と損失マスキングっていう2つの賢い戦略を通じて実現してる。
カリキュラム学習
カリキュラム学習って、子供たちに簡単な科目から始めて、徐々に複雑なものに移る教え方だと考えてみて。AIの場合、これは最初に一般的な行動に焦点を当てて、徐々に珍しい行動に移っていくってことだよ。一度に全部をモデルに投げるんじゃなくて、一歩一歩進めるんだ。
損失マスキング
損失マスキングは、ノイズをブロックするフィルターみたいに働くんだ。ここでは、トレーニング中に支配的すぎる一般的な行動をモデルが無視できるようにするために役立つんだ。こうすることで、人気のある行動も珍しい行動も、学習プロセスで公平なチャンスを得ることができる。
新しい評価タスク:水を試す
新しく訓練したモデルがどれだけうまく機能するかを見るために、2つの新しいタスクを作ったんだ:ロバストな空間-時間シーングラフ生成とロバストなシーングラフ予測。これらのタスクは、モデルが現実世界の課題-例えば、照明の変化や突然の障害物-にどれだけうまく対処できるかを評価するのに役立つ。
アクショングノームデータセット
私たちの方法を評価するために、アクショングノームデータセットという特別な動画コレクションを選んだんだ。これは、動画の中のさまざまな行動や関係を理解するための金の山みたいで、一般的な行動と珍しい行動の両方を特徴としているんだ。このデータセットには35のオブジェクトクラス(シーンで見かけるいろんなもの)と25の関係クラス(それらのオブジェクトがどうつながるか)があって、注意関係、空間関係、接触関係の3つのカテゴリに分かれているよ。
結果を見てみよう
私たちのフレームワークがどれだけうまく機能したかを見てみよう。
動画シーングラフ生成
最初の実験は、観察された動画のシーングラフを作成することを目的とした動画シーングラフ生成(VidSGG)に焦点を当てたんだ。人気のあるベースモデルに対して私たちのモデルをテストした結果、新しいアプローチが常にそれらを上回ったんだ。お気に入りのチームがタッチダウンを決めるみたいな感じで、私たちのフレームワークはそのスター選手だったよ。
シーングラフ予測
次は、シーングラフ予測(SGA)。これは動画で次に何が起こるかを予測するタスクだ。またしても、私たちのフレームワークは素晴らしいパフォーマンスを示し、未来の行動を準備できることを証明したよ。好みのミステリー小説の次のプロットツイストを予測しようとするみたいにね。
ロバストネス評価:嵐を乗り越える
でも、ここが面白いポイントなんだ。私たちはモデルが通常の条件下でどれだけ良く機能するかだけを知りたいわけじゃなかった。厳しい状況下でどれだけ耐えられるかを見たかったんだ。それで、ノイズを加えたり色を変えたりするような、さまざまな「腐敗」や干渉を入力動画に導入したんだ。
とても嬉しいことに、ImparTailで訓練されたモデルは、これらの課題に対処する驚くべき能力を示したんだ。それは、パーティーに行って、他のみんなの衣装が崩れていく中、自分のが無事なままって感じ-ただ自分だけがよく見えるってこと。
結論:前を向いて
空間-時間シーングラフ生成の探求を通じて、私たちはアクション認識におけるロングテール分布から生じる偏見という大きな問題に取り組んだんだ。ImparTailは、行動のよりバランスの取れた理解を助けて、どの関係も見落とされないようにしてくれる。これからも、これらの技術を洗練し続け、AIが複雑なシーンをより良く理解するための新しい方法を探求していくよ。
将来的には、エラー認識や行動予測のようなさまざまなシナリオに私たちの偏りのないアプローチを適用することにも挑戦するつもりだ。だから、次に動画を見るときは、レーダー下で飛んでいるかもしれないすべての小さくて複雑な相互作用について考えてみて-そして、AIがそれらすべてを見えるようにするために私たちがどれだけ努力しているかを思い出してね!
タイトル: Towards Unbiased and Robust Spatio-Temporal Scene Graph Generation and Anticipation
概要: Spatio-Temporal Scene Graphs (STSGs) provide a concise and expressive representation of dynamic scenes by modelling objects and their evolving relationships over time. However, real-world visual relationships often exhibit a long-tailed distribution, causing existing methods for tasks like Video Scene Graph Generation (VidSGG) and Scene Graph Anticipation (SGA) to produce biased scene graphs. To this end, we propose ImparTail, a novel training framework that leverages curriculum learning and loss masking to mitigate bias in the generation and anticipation of spatio-temporal scene graphs. Our approach gradually decreases the dominance of the head relationship classes during training and focuses more on tail classes, leading to more balanced training. Furthermore, we introduce two new tasks, Robust Spatio-Temporal Scene Graph Generation and Robust Scene Graph Anticipation, designed to evaluate the robustness of STSG models against distribution shifts. Extensive experiments on the Action Genome dataset demonstrate that our framework significantly enhances the unbiased performance and robustness of STSG models compared to existing methods.
著者: Rohith Peddi, Saurabh, Ayush Abhay Shrivastava, Parag Singla, Vibhav Gogate
最終更新: 2024-11-20 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2411.13059
ソースPDF: https://arxiv.org/pdf/2411.13059
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://github.com/cvpr-org/author-kit
- https://support.apple.com/en-ca/guide/preview/prvw11793/mac#:~:text=Delete%20a%20page%20from%20a,or%20choose%20Edit%20%3E%20Delete
- https://www.adobe.com/acrobat/how-to/delete-pages-from-pdf.html#:~:text=Choose%20%E2%80%9CTools%E2%80%9D%20%3E%20%E2%80%9COrganize,or%20pages%20from%20the%20file
- https://superuser.com/questions/517986/is-it-possible-to-delete-some-pages-of-a-pdf-document