リアルタイム人間動作認識の新しいアルゴリズム
新しい方法で、RGBカメラとサーモカメラを使って人の動きをリアルタイムで追跡するんだ。
― 1 分で読む
ビデオ内の人間の動きや行動を監視するのって、色々な理由で重要なんだ。新しいアルゴリズムが開発されて、普通のRGBカメラやサーマルカメラを使って人間の行動を認識できるようになった。このアルゴリズムは、リアルタイムで人を検出・追跡できて、立っている、歩いている、走っている、寝ているの4つの基本的な動作を認識することができるんだ。しかも、強力なNVIDIAのグラフィックカードを搭載したノートパソコンで動くよ。
人間の行動認識の重要性
人間の行動を認識することは、スポーツ、医療、セキュリティ、自動運転車、高齢者支援、人間と機械のインタラクション、ビデオ監視など、多くの分野で重要なんだ。多くの場面で、迅速に行動を検出して適切に対応することが求められる。例えば、地下の環境、地下鉄の駅やトンネルなんかでは、人々の行動を効率的に監視するのが特に大事だよ、特に停電や爆発、攻撃のような緊急事態の時にはね。
こういう危機的状況では、照明が壊れることがあるから、普通のビデオカメラが使えなくなっちゃう。でも、サーマルカメラなら有用な情報をキャッチできるから、暗闇でも人間の行動を監視できるんだ。
提案されたアルゴリズムの機能性
このアルゴリズムは、4つの人間の行動を効果的に検出できるんだ。リアルタイムでこれらの行動を検出することで、オペレーターは潜在的に危険な状況をすぐに特定して適切に対応できる。例えば、地下鉄の駅で誰かが寝ていたら、それは緊急事態、つまり怪我の可能性を示すかもしれない。同様に、多くの人が走っているのを見たら、それはパニックの状況かもしれないから、すぐに対応が必要だね。
このアルゴリズムは、オブジェクトを検出・追跡し、動きを分析し、個々の位置を推定するために高度なディープラーニング技術を使ってるよ。
アルゴリズムの主要な要素
このアルゴリズムはいくつかの主要な要素から構成されている:
オブジェクト検出と追跡:OmniTrackアルゴリズムを使って、人や他のオブジェクトをビデオで検出・追跡する。リアルタイムで動作して、Scaled-YoloV4という強力なニューラルネットワークを利用してオブジェクトを検出する。この部分が追跡しているオブジェクトの動きを予測し、検出されたオブジェクトを予測されたものとマッチさせて、効果的に人を追跡する。
ポーズ推定:人のポーズを判定するためにEvoSkeletonアルゴリズムを使用。この方法は、検出された人に基づいて3Dの人間骨格モデルを作成できる。各骨格には17の関節があって、人の体の位置や向きを特定するのに役立つ。
3Dシーン表現:カメラが2D画像しかキャッチできないから、アルゴリズムはカメラをキャリブレーションして3D環境を理解する。このステップで、アルゴリズムは追跡している人々に関する正確な空間情報を提供できるようになる。
人間の行動を特定する
このアルゴリズムは、検出された体の向きや速度に基づいて4つの特定の人間の行動を認識する。
- 人が走っているのは、彼らの速度が特定の閾値を超えたら認識される。
- 人が歩いているのは、彼らの速度が二つの閾値の間にある場合。
- 人が立っているのは、彼らの上半身が垂直で、速度が特定の限界以下の場合。
- 地面に寝ている人は、体の向きや速度に基づいて認識される。
このルールベースのシステムは、各人の行動を迅速に検出するけれど、速度や向きの計算が必要なため、検出には少し遅れがあるんだ。
テストと評価
このアルゴリズムは、オーストリアのZentrum am Bergという地下作業用の施設で制御された環境でテストされた。テスト中には、攻撃や煙の中からの救助など、さまざまな緊急シナリオがシミュレーションされた。このアルゴリズムは、RGBビデオとサーマルビデオの両方で信頼性高く人を検出・追跡し、その行動を認識できたよ。
ビジュアルの結果から、カメラから離れた位置にいる人でも効果的に追跡できたし、サーマルカメラでも行動認識がうまく機能した。ただ、寝ているという行動を認識するのが時々難しいことがあって、特に遠くにいる人の場合は改善が必要ってことを示してるね。
リアルタイム処理能力
このアルゴリズムは、強力なプロセッサとグラフィックカードを搭載した標準的なWindowsラップトップでリアルタイムに機能する。各カメラのフィードには専用のコンピュータが必要で、スムーズな処理を確保するために、すべてのディープラーニングタスクと動作分析はGPUが担当している。
今後の方向性
開発者たちは、このアルゴリズムにもっと多くの人間の行動を認識できるようにする予定だ。例えば、攻撃的な行動を検出したり、誰かが武器を持っているかを特定したりするのが有益だね。さらに、寝ている行動の認識を改善するために、新しい検出モデルを利用したり、人間の検出だけに特化したネットワークを作ったりする計画もあるよ。
結論
要するに、RGBとサーマルビデオフォーマットでの人間の行動認識のために提案されたアルゴリズムは、期待できる結果を示している。効果的に個人を検出・追跡し、リアルタイムで4つの基本的な行動を認識できる。このアルゴリズムは、さまざまな条件下でも信頼性高く動作することが実社会のシナリオで確認された。これからは、安全性や監視の向上のために、さらにその能力を広げる計画があるよ。
タイトル: A real-time algorithm for human action recognition in RGB and thermal video
概要: Monitoring the movement and actions of humans in video in real-time is an important task. We present a deep learning based algorithm for human action recognition for both RGB and thermal cameras. It is able to detect and track humans and recognize four basic actions (standing, walking, running, lying) in real-time on a notebook with a NVIDIA GPU. For this, it combines state of the art components for object detection (Scaled YoloV4), optical flow (RAFT) and pose estimation (EvoSkeleton). Qualitative experiments on a set of tunnel videos show that the proposed algorithm works robustly for both RGB and thermal video.
著者: Hannes Fassold, Karlheinz Gutjahr, Anna Weber, Roland Perko
最終更新: 2023-04-04 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2304.01567
ソースPDF: https://arxiv.org/pdf/2304.01567
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。