群衆カウントのための混合モデルの評価
この研究は、より正確な群衆カウントのためにシングルモデルとミックスモデルを比較しているよ。
― 1 分で読む
より良い情報は通常、より良い選択や予測に繋がるんだ。いくつかの研究では、通常の(光学)画像とサーマル画像を同時に使うことで、群衆カウントの精度が向上するって示されてる。でも、どうやってこのミックスモデルが両方の画像から情報を取得してるのかは、まだ完全にはわかってないんだ。両方のデータを追加するとモデルが複雑になって、時間やメモリがもっと必要になるから、マルチモダリティ(両方のタイプを使う)モデルとシングルモダリティ(一種類を使う)モデルを比べることが大事なんだ。
俺たちの研究では、これらの二種類の画像を使った群衆カウントの既存のデータセットを全部見てるんだ。シングルモダリティの群衆カウントについて分かってることを基にして、データを一種類だけ使うベースモデルを作った。それに加えて、二種類の画像を組み合わせるためのいくつかのミックスモデルも作成したんだ。シングルモダリティモデルの主な特徴もミックスモデルに使ったから、両方の画像を使うことで本当に群衆カウントの結果が良くなるかどうか調べることができたんだ。
興味深いことに、既存のデータセットは主にサーマル画像を好んでることがわかった。このことを明らかにするために、光学画像の明るさとその画像に映っている人の数、さらに各データセットでの人のラベリングの仕方を見たんだ。これは将来のリアルな群衆カウントの用途に役立つ重要な疑問なんだ。ミックスモデルが一般的に群衆カウントを改善できるかどうかを判断するための良いデータセットの基準も提案するよ。
現実での群衆カウントの課題
群衆カウントの大きな課題の一つは、異なる照明条件に対処することなんだ。群衆カウントは、イベントのセキュリティや大勢の人を監視するために重要だから、照明に関係なくきちんとカウントできることが大切なんだ。たとえば、夜は光が薄暗くなって光学画像の可視性が減って、予測があまり正確じゃなくなる。そういう場合、サーマル画像の方が役に立つことがあるんだ。
でも、昼間は光学画像の方がカラーのおかげで詳細をキャッチできるんだ。それに、昼間に温度が上がると、サーマル画像は対照が少なくなることがあるから、人の体温が一定に保たれるんだ。両方のタイプの画像を一緒に使うのが、どちらか一方を使うよりも結果を改善するみたいだね。
光学データとサーマルデータを使って開発された成功したモデルもたくさんある。特にトランスフォーマーの登場によって、一つのモデルの中でテキストや画像のような異なるモダリティを組み合わせるのが簡単になった。でも、シングルモダリティの群衆カウントでは、トランスフォーマーがそのポテンシャルを十分に活用されてないんだ。一つの研究を除けば、前の研究は主に畳み込みネットワークに焦点を当ててきた。トランスフォーマーを使うことで、新しい可能性が開けるかもしれないね。彼らは詳細な特徴を抽出するのに優れたパフォーマンスを見せてるから。
光学画像とサーマル画像を組み合わせれば群衆カウントの予測が改善されるって考えがあるけど、これらのモデルが内部でどう働くかや、両方の画像からどのように有用な特徴を抽出するのかはまだ完全には明らかじゃないんだ。
さらなる研究の必要性
ミックスモデルがどのように機能するのか理解が不足しているだけでなく、両方の画像を使うことが全体的により良いカウント結果をもたらすのか、特定の状況だけなのかもわからないんだ。照明、群衆との距離、画像内の人数のような要素を考慮した研究がもっと必要なんだ。
両方の光学画像とサーマル画像を一緒に使う効果を評価するために、シングルモダリティモデルと同じ重要な要素を共有するいくつかのミックスモデルを作ったよ。シングルモダリティモデルを設計する際には、最新のシングルモダリティの群衆カウントの進展を考慮したんだ。二種類の画像を組み合わせる異なる戦略を使った三つの異なるミックスモデルを作成したよ。
この比較の目的は、ミックスモデルが全体的により良いパフォーマンスを発揮するのか、特定の状況だけなのかを判断することなんだ。この調査は興味深い結果をもたらし、比較で使用したデータセットをさらに分析する助けになったよ。
データセットからの発見
シングルモダリティモデルとミックスモデルの違いを検証してみたら、既存のデータセットがサーマル画像に偏っていることに気づいたんだ。この偏りが、両方のタイプの画像を使うことで得られる結果が全体的に良くなるのか、特定の状況だけなのかを判断するのを難しくしてる。だから、研究質問に答えるのに役立つデータセットのポイントも詳しく説明したよ。
群衆カウントに関する以前の研究
群衆カウントは何年も研究されてきたんだ。いくつかの研究でサーマル画像が使われているけど、大部分は光学画像に頼ってきた。ディープラーニング技術のおかげで、予測はより正確になっているんだ。最近では、群衆カウントのための密度マップを作る方法が一般的になってきた。多くの研究が、画像内のスケールの違いに対処する方法-マルチカラムモデルやダイレーション畳み込みを使って様々なスケールの特徴を抽出することに焦点を当ててきたんだ。
最近注目され始めているマルチモーダル群衆カウントの分野では、光学画像とサーマル画像、さらに光学画像と深度画像が使われている。しかし、深度画像は短距離しかキャッチできないから、多くの現実の群衆カウントの状況にとっては実用的ではないって制限があるんだ。深度画像を使うことは、薄暗いシーンでの情報が少なくなるって課題ももたらす。
だから、俺たちは光学画像とサーマル画像を組み合わせることに焦点を当て続けるよ。以前の研究は、サーマル画像を追加すると群衆カウントの予測が改善されると主張しているけど、より良い結果を得るためにどのタイミングで両方の画像を組み合わせるのが最も効果的なのかは不明なんだ。以前の研究は主に新しいモデルアーキテクチャを作ることに努めてきたけど、これでは両方のタイプのデータがどう働くかを完全には説明していないんだ。
現在のデータセット
最近、光学画像とサーマル画像のペアを含む、注目すべき二つのデータセットがリリースされたよ。一つのデータセットはドローンを使って収集されていて、3,600の画像ペアと、距離、照明、画像ごとの群衆カウントに関する追加情報が含まれている。二つ目のデータセットは2,030の画像ペアを含んでいて、それぞれのペアに対する個人の数と照明に関する詳細が提供されているんだ。
モデルの比較
まず、シングルモダリティモデルを作成してから、三つのミックスモデルを作ったよ。俺たちのシングルモダリティモデルは、既存の研究からインスパイアを受け、そのコアコンポーネントを再利用して、ミックスモデルとの公平な比較ができるようにしたんだ。
シングルモダリティのアーキテクチャ
俺たちのシングルモダリティモデルは、いくつかのシングルモダリティベンチマークで最先端の結果を得ているモデルに影響を受けているんだ。俺たちの場合、PVTv2アーキテクチャを使ったんだけど、俺たちのニーズに合ったパフォーマンスを発揮することが分かったよ。このモデルは、より少ないリソースを使っても、適度なパフォーマンスを保っていて、ちょっと大きいバリアントよりも結果は低めだったけど。
ミックスモダリティ
シングルモダリティモデルを作成した後、モダリティを組み合わせるためのさまざまなアプローチを使った三つの異なるミックスモデルを設計したよ。これらのミックスモデルにも、シングルモダリティモデルの重要な特徴が含まれていて、公平な比較ができるようにしてる。
**アーリーフュージョンモデル:**このアプローチでは、モデルの最初に二つのモダリティを組み合わせる。俺たちのシングルモダリティモデルを適応させて、このミックスモデルを複数のチャンネルに対応させたんだ。
**レイトフュージョンモデル:**ここでは、モダリティが最後に組み合わされる。まず、両方のタイプから個別に特徴を抽出して、それを統合して最終的な群衆カウントを出すんだ。
**ディープフュージョンモデル:**他の二つのモデルとは対照的に、これは特徴抽出の過程で情報交換を許可して、最も複雑なデザインを持っているんだ。
モデルの評価
俺たちのシングルモデルとミックスモデルのパフォーマンスを評価するために、群衆カウントで使われる一般的な指標を見たんだ。俺たちのトレーニングアプローチは、分野で成功したモデルを反映していて、ランダムクロッピングやオプティマイザーを使うテクニックを取り入れたよ。
結果として、サーマル画像だけを使った場合の方が、光学画像だけを使った場合よりもかなり良い結果が出たんだ。興味深いことに、一つのデータセットでの結果は、ミックスアプローチが期待通りに機能しなかったって示していて、データセットのさらなる検討が必要だってことを示唆しているんだ。
データセットの分析
結果をより理解するために、データセットの二つの側面に焦点を当てたんだ:明るさと群衆カウントの関係、そして画像内の人々がどうラベリングされているか。
明るさと群衆カウント
まず、光学画像の明るさが人数にどのように関連しているか分析したよ。多くの光学画像は薄暗かったから、サーマル画像がその場合により良いパフォーマンスを示しているのかもしれない。これはデータセットの質が結果を歪めている可能性があるという疑問を生じさせるね。
アノテーションの実践
俺たちはまた、データセット内で人々がどうラベリングされているかを詳しく調べたんだ。両方のデータセットでラベリングに使われたのはサーマル画像だけだったから、モデルが正確にカウントを学ぶ方法に影響を与える可能性があるんだ。
将来のデータセットの基準設定
現在のデータセットの制限から、将来のより良いデータセットの基準を提案するよ。俺たちの推奨事項には、画像が一日中撮影されること、群衆カウントがバランスを取っていること、光学画像とサーマル画像が密接に一致していることが含まれる。
結論:ミックスモダリティはより良いのか?
最終的に、俺たちの発見は、現在のデータセットがサーマル画像に偏っていることを示していて、両方の画像タイプを使う効果についての結論を複雑にしているんだ。結果はサーマル画像が非常に効果的であることを示しているけど、二つのアプローチを組み合わせることで一般的により良い予測が得られるのかはまだわからない。
俺たちの結果はまた、昼間はミックスアプローチが良い結果を出す可能性がある一方で、夜はサーマル画像だけがより良い結果を出すかもしれないことを示唆してる。でも、これらのアイデアはさらなるテストと調査が必要だ。俺たちは、マルチモーダルな群衆カウントの利点と課題をしっかり探求するために、より良いデータセットの必要性を強調するよ。
タイトル: Why Existing Multimodal Crowd Counting Datasets Can Lead to Unfulfilled Expectations in Real-World Applications
概要: More information leads to better decisions and predictions, right? Confirming this hypothesis, several studies concluded that the simultaneous use of optical and thermal images leads to better predictions in crowd counting. However, the way multimodal models extract enriched features from both modalities is not yet fully understood. Since the use of multimodal data usually increases the complexity, inference time, and memory requirements of the models, it is relevant to examine the differences and advantages of multimodal compared to monomodal models. In this work, all available multimodal datasets for crowd counting are used to investigate the differences between monomodal and multimodal models. To do so, we designed a monomodal architecture that considers the current state of research on monomodal crowd counting. In addition, several multimodal architectures have been developed using different multimodal learning strategies. The key components of the monomodal architecture are also used in the multimodal architectures to be able to answer whether multimodal models perform better in crowd counting in general. Surprisingly, no general answer to this question can be derived from the existing datasets. We found that the existing datasets hold a bias toward thermal images. This was determined by analyzing the relationship between the brightness of optical images and crowd count as well as examining the annotations made for each dataset. Since answering this question is important for future real-world applications of crowd counting, this paper establishes criteria for a potential dataset suitable for answering whether multimodal models perform better in crowd counting in general.
著者: Martin Thißen, Elke Hergenröther
最終更新: 2023-04-13 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2304.06401
ソースPDF: https://arxiv.org/pdf/2304.06401
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。