Bullying10K: 暴力検出の一歩前進
新しいデータセットがDVSカメラを使ってプライバシーを守りながら暴力検出を改善したよ。
― 1 分で読む
日常生活での暴力は深刻な問題だよ。身体的健康やメンタルヘルスに悪影響を及ぼすこともあるしね。公共の場所に設置されたカメラは、暴力を早期に発見することで減少させたり防いだりするのに役立つんだけど、その一方で人々のプライバシーを侵害する不安もあるんだ。
この問題に対処するために、ダイナミックビジョンセンサー(DVS)という特別なカメラを使ってる。このカメラは静止画を撮るんじゃなくて、光の変化をキャッチするんだ。これによって、プライバシーを守りながら暴力的な行動を検出できるようになる。新しいデータセット「Bullying10K」には、実際の行動や動き、人が互いに視界を遮る状況など、いろんなデータが含まれてるよ。
Bullying10Kデータセットは、いくつかのタスクをテストする方法を提供していて、行動を認識したり、行動が起こるタイミングを見つけたり、体の位置を推定したりできるんだ。10,000のビデオセグメントと大量のデータがあるから、暴力を認識するだけじゃなく、プライバシーを保護するのにも重要だよ。それに、既存のニューロモーフィックデータセットにも挑戦してる。
プライバシーの重要性
暴力は多くの人にとって有害な状況を生み出すことがあるんだ。ただ暴力的な行動をしてる人を罰するだけじゃなくて、そういう行動を防ぐことも大事。カメラは、暴力的な行動を早く特定するのに役立つ。だけど、カメラの増加はプライバシーの懸念を大きくしてるんだよね。
カメラの普及でデータ収集が簡単になったけど、屋内外どちらでも監視に使われるからね。残念ながら、撮影されている人の同意が必要なことが多いけど、その同意を得るのは簡単ではないんだ。それに、カメラは顔や服装といった個人情報を集めるから、信頼できないサーバーに保存されてプライバシー侵害が起こる可能性もある。暴力を検出するためのデータセットは大体、従来のカラー画像に頼っているけど、私たちの目標は、プライバシーを守りながら異常や暴力的な状況を特定する方法を見つけることだよ。
Bullying10Kデータセット
Bullying10Kデータセットには、DVSカメラでキャッチしたイベントが含まれてる。一方では明るさの変化を示すイベントのストリームがあり、もう一方では関連する行動のフレームに重要な体のポイントがマークされてる。これによって、特定の行動や場面を見ることができるんだ。
DVSカメラは普通のカメラとは動作が違うんだ。一定の間隔でスナップショットを撮るのではなくて、各ピクセルで明るさの変化を記録する。それが最初の判断でキャッチされたオブジェクトを認識するのを難しくするんだ。DVSデータを画像に変換する方法もあるけど、鮮明さの問題があったりする。だから、DVSカメラからの詳細なユーザー情報を認識のために抽出するのは難しいし、プライバシーの必要性が強調される。
DVSカメラはエネルギー効率も良くて、安定したシーンでは普通のカメラよりも少ない電力を消費するよ。それでも、DVSデータセットは大体、基本的なタスクに焦点を当てていることが多い。既存の行動認識データセットは、暴力的な事件で見られるような急速な動きや重なる人々の複雑さを見逃しがちなんだ。
Bullying10Kは、DVSカメラのユニークな特徴を活かすために作ったよ。このデータセットは、個々のプライバシーを守りながら動画内の暴力的なイベントを特定することを目指してる。アルゴリズムに頼ったり画像を再現する代わりに、実際のイベントをキャッチしたんだ。この選択が、従来のデータセットに多いバイアスの問題を避ける助けになるんだ。Bullying10Kは、いろんなアングルや光の条件で人々がさまざまな行動をする様子を捉えてるんだ。
Bullying10Kの目的と特徴
Bullying10Kデータセットは、映像内の暴力行動のリアルタイム検出のニーズを満たしつつ、映像に映る人々のプライバシーを最大限に守るために作られた。映像監視においてプライバシーを維持するシステムのトレーニングには不可欠だよ。
私たちは、10,000のイベントセグメントを含む主要なDVS暴力検出データセットを提供していて、12億のイベントを構成し、情報は合計255GBにもなる。これらのビデオの中の行動は、複雑さやスピード、時には人が互いに視界を遮る瞬間を幅広く示しているよ。
私たちは、行動を認識するためのベンチマーク、時間内に行動を見つけるためのベンチマーク、体の位置を推定するためのベンチマークの3つを提供してる。ポーズ推定タスクのためには、体の位置のラベルも用意しているよ。
Bullying10Kデータセットは、研究者が暴力を検出しつつプライバシーに配慮したシステムをトレーニングするための可能性を広げるんだ。
データ収集と品質管理
データ収集のために、撮影エリアの両側に2台のDVSカメラを設置して、異なるアングルをキャッチしたよ。実際の状況をシミュレートするために、二つの照明条件で撮影した。各ビデオセグメントは、暴力的なシーンで加害者と被害者の役を演じる二人を映していて、友情のあるシーンでも協力してる。
俳優には各行動の指示を出し、行動ごとに10本の有効なクリップを録画したよ。クリップの長さは行動に応じて異なり、2秒から20秒の間で続くんだ。
カメラはDVSイベント用の特定のフォーマットでデータを出力するから、それを扱いやすい一般的なフォーマットに変換した。精度を保ちつつファイルサイズを管理しやすくするために、10ミリ秒の間隔でイベントを収集した。データの品質を確保するために厳格な撮影条件を設けて、収集したセグメントを手動でフィルタリングして、最高品質のクリップだけがデータセットに含まれるようにしたんだ。
データの注釈と分析
撮影後、各クリップに示された行動を特定するために丁寧にラベリングを行った。Bullying10Kは、蹴りやパンチといった6つの暴力的な行動と、挨拶や歩行といった4つの友好的な行動を含む、10種類の行動から成り立っている。各カテゴリーは、被写体、照明条件、カメラアングルによって整理されているよ。
ポーズ推定も重要な役割を果たしている。体の位置や動きを特定するのを助けるんだ。私たちのデータセットでは、DVSデータと一緒にRGBデータを使って人間のポーズを正確にラベル付けしたよ。頭や手足などの重要なポイントに焦点を当てて、自動でこのラベリングプロセスを行うツールを使用した。
Bullying10Kデータセットには、2秒から20秒の間のクリップが10,000本あり、驚くほどのイベント数を含んでいる。私たちはデータセットを分析して、どの動きがどのくらいの頻度で起こるかを調べた結果、個人の間で異なる動きのパターンがあることがわかったんだ。
Bullying10Kの評価
Bullying10Kは、その効果を評価するための3つの重要なタスクを提供している:行動認識、時間的行動のローカリゼーション、ポーズ推定。それぞれのタスクには、パフォーマンスを測定するための独自のベンチマークがあるよ。
行動認識
行動認識タスクでは、ビデオクリップに基づいてラベルを予測するんだ。各サンプルには単一の行動が含まれていて、分類に適している。ビデオデータを増やすことで認識が向上することがわかったんだけど、人気のあるモデルでも私たちのデータセットには苦労しているから、ユニークな課題があることが示されてる。
時間的行動のローカリゼーション
このタスクでは、ビデオの中で行動がいつ起こるかを探すことに焦点を当てているんだ。異なるカテゴリーからのサンプルを組み合わせて、行動とそれが起こる正確な時間を予測することを目指したよ。評価指標としては、リコール率や曲線下面積の計算を用いたんだ。
ポーズ推定
モデルが体の位置をどれだけ正確に推定できるかも評価したよ。異なるモデルが異なる正確さを示していて、Bullying10Kがポーズタスクにとって著しい課題を提示していることがわかった。
結論
この研究では、DVSカメラを使って暴力の事例を監視しつつプライバシーを守る新しいデータセット「Bullying10K」を紹介した。このデータセットは、以前のデータセットの限界を克服することを目指していて、複雑な行動や重なる個人を含んでいるんだ。
この大規模なデータセットを提供することで、研究者が複雑な行動を研究できるようになり、暴力検出システムとプライバシー保護技術の両方を進展させることができる。Bullying10Kは未来に向けた新しい機会を開き、プライバシーを侵害せずに暴力を監視するためのより良いシステムにつながるかもしれないよ。
タイトル: Bullying10K: A Large-Scale Neuromorphic Dataset towards Privacy-Preserving Bullying Recognition
概要: The prevalence of violence in daily life poses significant threats to individuals' physical and mental well-being. Using surveillance cameras in public spaces has proven effective in proactively deterring and preventing such incidents. However, concerns regarding privacy invasion have emerged due to their widespread deployment. To address the problem, we leverage Dynamic Vision Sensors (DVS) cameras to detect violent incidents and preserve privacy since it captures pixel brightness variations instead of static imagery. We introduce the Bullying10K dataset, encompassing various actions, complex movements, and occlusions from real-life scenarios. It provides three benchmarks for evaluating different tasks: action recognition, temporal action localization, and pose estimation. With 10,000 event segments, totaling 12 billion events and 255 GB of data, Bullying10K contributes significantly by balancing violence detection and personal privacy persevering. And it also poses a challenge to the neuromorphic dataset. It will serve as a valuable resource for training and developing privacy-protecting video systems. The Bullying10K opens new possibilities for innovative approaches in these domains.
著者: Yiting Dong, Yang Li, Dongcheng Zhao, Guobin Shen, Yi Zeng
最終更新: 2023-10-23 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2306.11546
ソースPDF: https://arxiv.org/pdf/2306.11546
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://figshare.com/articles/dataset/Bullying10k/19160663
- https://www.neurips.cc/Conferences/2023/CallForDatasetsBenchmarks
- https://mirrors.ctan.org/macros/latex/contrib/natbib/natnotes.pdf
- https://www.ctan.org/pkg/booktabs
- https://www.emfield.org/icuwb2010/downloads/IEEE-PDF-SpecV32.pdf
- https://mirrors.ctan.org/macros/latex/required/graphics/grfguide.pdf
- https://neurips.cc/Conferences/2023/PaperInformation/FundingDisclosure