Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# コンピュータビジョンとパターン認識

ビデオ異常検出技術の進歩

新しい方法で動画の中の変わった出来事を見つけやすくなったよ。

― 1 分で読む


動画異常検出のブレイクスル動画異常検出のブレイクスル改善された。新しい技術で動画のリアルタイム異常検知が
目次

ビデオ異常検出(VAD)は、普通のパターンに合わない動画内の異常なイベントを見つけることについてです。これは、医療、安全、交通監視などの分野で非常に役立ちます。たとえば、人が転んだり、職場での事故、道路上の変な行動を見つけるのに役立ちます。こうした異常なイベントを迅速に発見することで、緊急事態に早く対処できるんです。

異常を検出するのは難しいことがあります。というのも、予期しないイベントは明確なパターンに従わないからです。簡単に特定できる一般的な行動とは違って、異常はしばしばユニークで、動画のどこでも起こり得ます。また、コンピュータシステムが学習するための十分な例がないこともあります。そこで、普通の行動を表す動画データだけを使ってシステムをトレーニングする「ワンクラス分類」という特別なアプローチが使われます。

提案された方法

私たちの新しい方法は、ビデオ異常検出の課題に取り組むものです。私たちの方法は、動画から取得した情報を、特定のパターンに従うランダムなソースからのものとして扱い、動画の特徴を見ます。私たちは、神経ネットワークという機械学習モデルを使って、このパターンがどんなものかを推定します。

これにより、動画が普通の行動を含んでいる可能性を判断し、もしそうでなければ異常としてフラグを立てることができます。トレーニングのために、動画データに少しノイズを加えることでモデルを強化し、普通のパターンをよりよく学べるようにしています。

私たちの方法のユニークな点は、異なるノイズレベルの動画データを見ているところです。これにより、「ハイパーパラメータ」と呼ばれる特定のパラメータを選ぶ必要がなくなります。テスト中は、異なるノイズレベルからの結果を組み合わせて潜在的な異常のためのしっかりとしたスコアを得ます。

効率性

私たちのビデオ異常検出アプローチの最も良い部分の一つは、すぐに動作することです。動画から必要な特徴を抽出すると、モデルはそれをほんの数秒のうちに処理できます。これにより、迅速な対応が必要なリアルタイム監視に適したシステムとなります。

結果

私たちのさまざまな人気のある動画データセットでのテスト結果は、私たちの方法が非常に優れていることを示しています。市場にある他のシステムと比較しましたが、私たちのアプローチは、特定のオブジェクト分析と全体フレーム検査のどちらにおいても他を一貫して上回っています。

ビデオ異常検出の背景

ビデオ異常検出はさまざまなシナリオで研究されてきました。一部の方法は、標準的な行動の1つのクラスから異常な行動を特定することで機能します。他の方法は、トレーニング中に普通と異常のデータを持っている場合がありますが、特定のトレーニングラベルを必要としないものもあります。

私たちの焦点は、トレーニングデータが普通の動画のみで構成されている最初のシナリオです。ビデオ異常検出に使用される方法は、フレーム中心とオブジェクト中心の2つの主なタイプに分類できます。

フレーム中心の方法では、動画全体のフレームが全体として分析されます。これらの方法は、火災や群衆の行動など全体的なイベントを特定するのに通常より適しています。一方、オブジェクト中心の方法は、動画のフレーム内の特定のオブジェクトを分析するため、人や特定の車両に関するアクション(転倒や車の事故など)を検出するのに理想的です。

伝統的なアプローチとその限界

通常、VADアプローチは、通常の動画を再現するためにモデルをトレーニングし、その後異常を含む動画でどれだけ苦労するかを確認します。これを再構築エラーと呼びます。動画がトレーニングに使用されたものと非常に異なる場合、モデルがそれを再現するのが難しくなり、異常が存在することを示すという仮定があります。

しかし、この仮定は常に正しいわけではありません。場合によっては、モデルは異常な入力でもうまく機能することがあります。私たちの目的は、ビデオ異常検出のためのより信頼性の高い基盤を提供することです。仮定するのではなく、普通の動画から取られた特徴の分布を近似し、神経ネットワークを使用してその確率密度関数を導き出します。

ノイズと学習

確率分布を直接推定することの一つの課題は、複雑であることです。研究によれば、ノイズを加えることで分布を学習しやすくなることが示されています。私たちの方法は、より良いパフォーマンスを達成するためにノイズを調整する技術を利用しています。

ノイズを導入すると、普通の動画の全体的な構造が保たれ、モデルがわずかな変動にさらされながらも学習することができます。これにより、異常を見つけるための信頼性の高い指標を構築します。

マルチスケールアプローチ

私たちの方法は、異なるノイズレベルの分布を見ているという点でユニークです。1つのノイズレベルにこだわらず、範囲を考慮します。これにより、モデルのさまざまな異常をキャッチする能力が向上します。「正則化」という技術を使って、さまざまなノイズレベルでモデルの出力を整合させ、異常のより統一的な理解を可能にします。

モデルをテストする際には、さまざまなノイズレベルからの結果を使って最終スコアを算出します。これは、一つのノイズレベルに制限されることがなく、選ばれたレベルが状況を正しく表さない場合に起こりうるミスを避けることができます。

異常スコアリングと評価

動画に異常が含まれているかを判断するために、モデルを使ってスコアを計算します。スコアが低いほど、データが普通と見なされる可能性が高くなります。高いスコアは、データが異常である可能性が高いことを示します。この評価方法によって、異常は自動的に特定され、普通のデータから学習した特徴と比較してどれだけ異常かに基づいています。

ベンチマーキングと結果

私たちの方法は、ビデオ異常検出のために複数のデータセットでテストされています。私たちは一貫して、既存の方法を上回ることを示しました。実施した実験は、フレーム分析に基づいたメトリックを使用して、異なるアプローチのパフォーマンスを評価する標準的な実践に従いました。

パフォーマンスは一般的なメトリックであるAUCを使って測定されます。この比較には、新しい技術と古い技術の両方を含めて、私たちの方法がビデオ異常検出の分野でどの位置にあるかを完全に理解します。

特徴選択

動画データを表現するための正しい特徴を選ぶことは非常に重要です。異なる種類の特徴が異なる種類の異常を検出するのに役立ちます。たとえば、人間のポーズを捉える特徴は転倒を特定するのに優れており、速度を追跡する特徴は車両の不規則な動きを見つけるのに役立ちます。

私たちのアプローチは柔軟で、さまざまな特徴のタイプで機能するため、さまざまな状況に適応できます。私たちのテストでは、方法は特徴を選ばず、異なる特徴タイプで効率的に作動できることを確認しました。

異なるデータセットでのパフォーマンス評価

私たちは、実際のシナリオからの動画を含む5つのよく知られたデータセットで方法を評価しました。これらのデータセットには、キャンパス、歩道、監視映像などの設定が含まれています。各データセットには、普通のトレーニング動画と異常が含まれたテスト動画がありました。

結果は、私たちのアプローチが全体的に効果的であることを示しています。特に、他の方法と比較すると、私たちのシステムは高精度を維持するだけでなく、普通と異常な行動を区別するのにより信頼性を示しました。

実行時間と計算効率

効率は、ビデオ分析に使用される方法において重要な考慮事項です。私たちのシステムは、特徴が抽出された後、異常を処理するのにほとんど時間を必要としません。現代の処理能力を持つことで、私たちの方法はリアルタイムのアプリケーションに十分な速度を誇ります。

たとえば、1フレームの処理はミリ秒未満で済むため、安全監視など迅速な意思決定が必要なシナリオに適した実用的な選択肢となります。

課題と今後の方向性

私たちの方法は有望な結果を示していますが、対処すべき課題もあります。一つは、普通の動画と異常動画の特徴を対比させる必要があることです。使用する特徴抽出器が両者を効果的に区別できることが重要です。

もう一つの課題は、テスト中の適切なノイズレベルを選択することです。ノイズレベルの範囲を設定していますが、特定の状況に最適な範囲を自動的に決定する方法があると良いでしょう。

今後は、アプローチをさらに洗練させることを目指します。異常指標のためのさまざまなアーキテクチャを検討し、異なるタイプのノイズが異常をより効果的に表現できる方法を探求しています。

結論

要するに、私たちは普通の動画の特徴の分布を推定する神経モデルを構築することで、ビデオ異常検出の新しい方法を紹介しました。このアプローチは、迅速であり、既存の技術に比べて最先端の結果を達成しています。フレーム中心とオブジェクト中心のシナリオの両方において。

私たちの方法を統計モデルに基づかせることで、異常が検出された際の対処方法に関する明確なガイドラインを提供します。この進歩により、さまざまな分野でリアルタイムのビデオ監視が新たな可能性を開き、予期しないイベントに迅速かつ効率的に対応できるようになります。

このシステムの継続的な発展において、私たちは技術を改善し、その適用範囲を拡大することを楽しみにしており、効果的なビデオ分析に頼るさまざまな業界のニーズに応えられるようにしていきます。

オリジナルソース

タイトル: MULDE: Multiscale Log-Density Estimation via Denoising Score Matching for Video Anomaly Detection

概要: We propose a novel approach to video anomaly detection: we treat feature vectors extracted from videos as realizations of a random variable with a fixed distribution and model this distribution with a neural network. This lets us estimate the likelihood of test videos and detect video anomalies by thresholding the likelihood estimates. We train our video anomaly detector using a modification of denoising score matching, a method that injects training data with noise to facilitate modeling its distribution. To eliminate hyperparameter selection, we model the distribution of noisy video features across a range of noise levels and introduce a regularizer that tends to align the models for different levels of noise. At test time, we combine anomaly indications at multiple noise scales with a Gaussian mixture model. Running our video anomaly detector induces minimal delays as inference requires merely extracting the features and forward-propagating them through a shallow neural network and a Gaussian mixture model. Our experiments on five popular video anomaly detection benchmarks demonstrate state-of-the-art performance, both in the object-centric and in the frame-centric setup.

著者: Jakub Micorek, Horst Possegger, Dominik Narnhofer, Horst Bischof, Mateusz Kozinski

最終更新: 2024-03-21 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2403.14497

ソースPDF: https://arxiv.org/pdf/2403.14497

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事