Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# コンピュータビジョンとパターン認識

LAPフレームワークを使った動画異常検知の進展

ビデオ監視で異常な出来事を検出する新しい方法を紹介します。

― 1 分で読む


ビデオ監視におけるLAPフビデオ監視におけるLAPフレームワーク動画フィードの異常を効率的に検出する。
目次

ビデオ異常検出(VAD)は、ビデオ監視の重要な研究領域だよ。これは、安全上の脅威を示す可能性のある異常なイベントを特定することを目的としているんだ。公共の場でのカメラの使用が増えているから、これらの異常な活動を効率的に検出できるシステムを開発することが重要になってきた。でも、このタスクのための効果的なモデルを作るのは難しいんだ。主な理由は、大規模なビデオデータセットにあるすべての異常イベントに対する詳細なラベルが不足していることだよ。従来の方法は通常、限られた情報を使ってモデルを訓練する弱教師あり学習技術に依存している。

課題

ほとんどの従来のVAD方式は、複数インスタンス学習(MIL)に依存している。この枠組みでは、異常が何を意味するかを明確に定義することなく、ビデオのどの部分が正常か異常かを判断することが目標だ。このあいまいさは偏りや不正確な特定をもたらすことがある。モデルが正常な部分と異常な部分の両方を含むビデオを見ると、効果的に区別するのに苦労することが多いんだ。ここで、テキストプロンプトの導入が大きな役割を果たす。これらのプロンプトを利用することで、異なる状況での異常を明確にする助けになるんだ。

提案されたフレームワーク:LAP

Learn Suspected Anomalies from Event Prompts(LAP)という新しいフレームワークがVADの課題に取り組むために導入された。LAPは、潜在的な異常イベントの辞書をテキストプロンプトの形で作成するシステムを利用している。この辞書はモデルのガイドとなり、ビデオスニペット内で異常と見なされる可能性のあるイベントを判断するのに役立つんだ。LAPアプローチは、これらのプロンプトとビデオから生成されたキャプションを比較して類似性を評価する。これを分析することで、モデルは異常が疑われるものをより正確に特定できるようになる。

LAPフレームワークは、特徴合成、マルチプロンプト学習、擬似異常ラベリングという3つの主要なプロセスを含んでいる。最初のステップは、視覚データとテキストプロンプトの両方から特徴を集めることだ。これらの特徴を組み合わせて、ビデオコンテンツの全体的な表現を高める。次のステップ、マルチプロンプト学習では、モデルが孤立したインスタンスだけに焦点を当てるのではなく、さまざまなビデオコンテキストで学ぶのを助ける構造を作る。最後に、擬似異常ラベリングは、モデルが訓練用に追加のラベルを作成できるようにし、異常を特定する能力を高める。

マルチプロンプト学習の重要性

マルチプロンプト学習はLAPフレームワークの重要な要素だ。これは、辞書からのプロンプトと異なるビデオスニペットを結びつけ、モデルがより包括的なデータセットから洞察を得るのを可能にする。従来は、モデルは異常であることを評価するために個々のビデオからの最も極端なスコアだけに依存していた。複数のプロンプトを使うことで、LAPは各スニペットでさまざまな異常行動の可能性を評価できるようになり、イベントが異常である理由をより詳細に理解できるようになる。

擬似異常ラベリング

擬似異常ラベリングのプロセスは、モデルのパフォーマンスにさらに寄与する。このフレームワークは、データに提供されたラベルだけに依存するのではなく、プロンプトとビデオのキャプションの意味的類似性に基づいて追加のラベルを生成するんだ。この生成されたラベルは補完的な訓練データとして機能し、モデルが異常とは何かをもっと学ぶのを助ける。

LAPの評価

LAPの効果をテストするために、XD-Violence、UCF-Crime、TAD、ShanghaiTechなどの異なるデータセットで一連の実験が行われた。これらのデータセットは、さまざまな異常イベントをカバーする幅広いビデオタイプを含んでいる。LAPのパフォーマンスは、既存の最先端の方法と比較して測定された。結果は、精度-再現率曲線(AP)や曲線下面積(AUC)メトリクスにおいてLAPがほとんどの方法を上回り、異常活動の検出においてその堅牢性を示している。

データセットの役割

LAPのパフォーマンスを評価するには、さまざまなデータセットを使用する必要があった。XD-Violenceデータセットには、暴力的な事件を示す多くの未編集ビデオが含まれている一方、UCF-Crimeデータセットは監視カメラに捉えられた幅広い犯罪を網羅している。一方、TADのようなデータセットは交通シナリオにおける異常に焦点を当て、ShanghaiTechはキャンパス環境からの例を提供している。複数のデータセットを活用することで、LAPはさまざまなコンテキストに適応する能力を示し、実際のアプリケーションでの潜在能力を強調することができた。

既存の方法との比較

LAPを他の既存の方法と比較すると、いくつかの顕著な違いが浮かび上がってきた。たとえば、多くの従来モデルはビデオコンテンツを分析する際に視覚的特徴だけを考慮する。その制限は高い誤報率や低い精度をもたらすことが多い。一方、LAPは視覚的特徴と意味的特徴の両方を取り入れて、ビデオスニペットをより徹底的に評価できるようにしている。

さらに、従来の方法はさまざまな異常に対して十分な監視を提供するのが難しく、誤分類を招くことが多い。LAPフレームワークは、ビデオ特徴とテキストプロンプトの両方を活用することで、この課題に効果的に対処している。この組み合わせはモデルの精度を向上させるだけでなく、誤報の可能性も減らす。

定性的分析

定量的評価に加えて、LAPの効果を視覚化するために定性的な分析も行われた。この分析では、LAPの結果と従来の最先端手法の結果を比較した。調査結果は、LAPの優れた異常検出能力と、ビデオの正常な領域での誤報を最小限に抑える能力を示している。

結論

要するに、提案されたLAPフレームワークはビデオ異常検出の分野における有望な進展を示している。視覚データとテキストプロンプトを組み合わせることで、LAPは異常なイベントの定義をより詳細に理解できるようにしている。この方法は異常検出モデルの精度と効率を向上させ、リアルタイムのビデオ監視におけるさまざまなアプリケーションのための意味的情報の活用をさらに探求する扉を開いている。複数のデータセットで行われた広範な実験は、LAPの有効性をさらに裏付けており、弱教師ありビデオ異常検出における重要な発展をもたらしている。

オリジナルソース

タイトル: Learn Suspected Anomalies from Event Prompts for Video Anomaly Detection

概要: Most models for weakly supervised video anomaly detection (WS-VAD) rely on multiple instance learning, aiming to distinguish normal and abnormal snippets without specifying the type of anomaly. However, the ambiguous nature of anomaly definitions across contexts may introduce inaccuracy in discriminating abnormal and normal events. To show the model what is anomalous, a novel framework is proposed to guide the learning of suspected anomalies from event prompts. Given a textual prompt dictionary of potential anomaly events and the captions generated from anomaly videos, the semantic anomaly similarity between them could be calculated to identify the suspected events for each video snippet. It enables a new multi-prompt learning process to constrain the visual-semantic features across all videos, as well as provides a new way to label pseudo anomalies for self-training. To demonstrate its effectiveness, comprehensive experiments and detailed ablation studies are conducted on four datasets, namely XD-Violence, UCF-Crime, TAD, and ShanghaiTech. Our proposed model outperforms most state-of-the-art methods in terms of AP or AUC (86.5\%, \hl{90.4}\%, 94.4\%, and 97.4\%). Furthermore, it shows promising performance in open-set and cross-dataset cases. The data, code, and models can be found at: \url{https://github.com/shiwoaz/lap}.

著者: Chenchen Tao, Xiaohao Peng, Chong Wang, Jiafei Wu, Puning Zhao, Jun Wang, Jiangbo Qian

最終更新: 2024-09-02 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2403.01169

ソースPDF: https://arxiv.org/pdf/2403.01169

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事