動画内の暴力検出のためのディープラーニングアプローチ
先進的な動画分析を使った公共の場での暴力を検出する実用的な方法。
Abdarahmane Traoré, Moulay A. Akhloufi
― 1 分で読む
公共の場での暴力が増えてきていて、特に都市部の人口が増える中で心配になってきた。従来の監視システムは、人が監視する方式だから、複数のスクリーンを一人で見るのは難しくて効果的じゃない。このため、ビデオ映像の異常行動を見つける方法が求められている。最近の技術進歩、特にコンピュータビジョンの発展が、ビデオの暴力を効率的に見つける新しい解決策を提供している。
背景
ビデオの中で暴力を検出するには、暴力的または攻撃的な行動を認識する必要がある。この作業には、各フレームの画像とフレーム間の時間的変化を分析できるシステムが必要だ。いくつかの方法が提案されているが、多くは手動作業が多くて、リアルタイム監視には実用的じゃない。
ディープラーニング技術は、ビデオデータを分析する強力なツールとして登場した。これらの方法は、行動を認識するために必要な特徴を自動的に学習できるから、手動入力の必要が減る。畳み込みニューラルネットワーク(CNN)やゲート付き再帰ユニット(GRU)など、さまざまなネットワークがビデオ内の暴力行動をよりよく検出する助けをしている。
提案する方法
暴力を検出するための効果的なシステムを作るために、2D CNNと双方向ゲート付き再帰ユニット(BiGRU)を組み合わせた新しいアーキテクチャを提案する。この組み合わせで、システムは各ビデオフレームの空間的詳細と、時間の経過によるフレーム間の関係を分析できる。
2D畳み込みニューラルネットワーク(CNN)
私たちが使うCNNは、VGG16という人気のあるアーキテクチャに基づいている。このモデルは、画像から特徴を抽出するのに適している。まず、人々の画像が含まれたデータセットでこのCNNを訓練して、ビデオ内の個人を特定する方法を学ばせる。そして、訓練が終わったら、ネットワークの一部の層を取り除いて、抽出された特徴をBiGRUに送る準備をする。
双方向ゲート付き再帰ユニット(BiGRU)
BiGRUは、ビデオのフレーム間で情報がどう流れるかを理解するために設計されている。この種の再帰ユニットを使うことで、モデルは過去と未来の両方のフレームから重要な詳細を記憶でき、暴力検出の精度が大幅に向上する。BiGRUはCNNが提供する特徴を洗練させて、特定のシーンに暴力行動が含まれているかどうかをより良く予測できるようにする。
使用するデータセット
私たちのアプローチの性能を評価するために、3つの公共ビデオデータセットでテストした。
ホッキーデータセット: このデータセットは、ホッケーの試合からの1,000本のビデオクリップで構成されていて、その半分は喧嘩を、残りの半分はそうではない。各クリップは約2秒で、だいたい41フレームが含まれている。映像はかなり似ているから、モデルの訓練とテストに最適な資源だ。
暴力の流れデータセット: このデータセットには、群衆暴力に関する実際の事件のビデオが含まれている。246本のビデオがあり、長さは様々で、モデルが異なるシナリオから学べるようになっている。
実生活の暴力状況データセット: このデータセットは、さまざまなタイプの暴力的な状況を描いた1,000本のクリップが含まれている。この多様性は、異なる文脈でのモデルの有効性を確認するのに役立つ。
実装の詳細
モデルを構築するために、KerasライブラリをTensorFlowで利用した。ビデオクリップの長さが異なるため、分析するフレーム数を減らすサンプリング法を採用して、処理を効率化した。これにより、重要なフレームに集中できて、無駄な情報にリソースを使わずに済む。
訓練プロセス
完全なモデルを訓練する前に、まず人データセットでCNNを100エポック訓練した。これにより、CNNはビデオフレーム内の個人を特定する方法を学ぶことができた。その後、CNNとBiGRUを組み合わせ、3つのデータセットで全体のシステムをさらにテストした。
訓練プロセスでは、各データセットの最良の性能を確保するために異なる学習率を使った。合計250エポックでモデルを訓練し、各ビデオから10フレームを入力として使用した。
結果
私たちのアプローチの性能を評価するために、主要な指標として精度を使用した。3つのデータセットでのテスト結果は良好だった:
- ホッキーデータセット: 私たちのモデルは98%の精度を達成し、喧嘩の検出において素晴らしいパフォーマンスを示した。
- 暴力の流れデータセット: このデータセットでは95.5%の精度に達し、暴力的な事件の特定においてその効果を強調した。
- 実生活の暴力状況データセット: モデルは90.25%の精度を得て、さまざまな状況での一般化能力を示した。
既存の方法と比較すると、私たちのアプローチは多くの従来技術を上回った。いくつかの3D CNNモデルはわずかに高い精度を提供したが、私たちの方法は計算負荷が少なく、リアルタイムアプリケーションにとってより実用的だった。
結論
要するに、私たちはビデオシーケンスでの暴力検出のためのシンプルなディープラーニングアプローチを開発した。2D CNNとBiGRUを組み合わせることで、私たちのアーキテクチャは、計算負荷を低く保ちながら暴力行動を特定する方法を効果的に学んでいる。
複数のデータセットでのテスト結果は、私たちのモデルが多くの既存技術を上回ることを示している。今後の作業は、サンプリング方法の改善や光フローデータの組み込みに焦点を当てて、さらにパフォーマンスを向上させることを目指している。私たちの方法はモジュラーなので、軽量なCNNアーキテクチャを探求することで、さらにリアルタイム性能に近づくことを目指している。
この研究は、自動暴力検出システムの改善におけるディープラーニングの可能性を強調し、公共の場での安全を確保するためのより効率的な方法を提供している。
タイトル: 2D bidirectional gated recurrent unit convolutional Neural networks for end-to-end violence detection In videos
概要: Abnormal behavior detection, action recognition, fight and violence detection in videos is an area that has attracted a lot of interest in recent years. In this work, we propose an architecture that combines a Bidirectional Gated Recurrent Unit (BiGRU) and a 2D Convolutional Neural Network (CNN) to detect violence in video sequences. A CNN is used to extract spatial characteristics from each frame, while the BiGRU extracts temporal and local motion characteristics using CNN extracted features from multiple frames. The proposed end-to-end deep learning network is tested in three public datasets with varying scene complexities. The proposed network achieves accuracies up to 98%. The obtained results are promising and show the performance of the proposed end-to-end approach.
著者: Abdarahmane Traoré, Moulay A. Akhloufi
最終更新: 2024-09-11 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2409.07588
ソースPDF: https://arxiv.org/pdf/2409.07588
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。