FaceTouch: 顔に触れるのを監視する新しい方法
FaceTouchは、手と顔の接触を追跡して病気の拡散を減らすのを手助けするよ。
― 1 分で読む
多くのウイルスは呼吸器系を通じて広がり、しばしば一人から別の人へと移ります。良い例がCovid-19で、これにより接触の追跡と減少が重要だとわかりました。ただ、顔に触れる瞬間を自動的に効果的に検出する方法にはギャップがあります、特に忙しい都市部や屋内では。
この記事では、FaceTouchという新しいコンピュータープログラムを紹介します。このプログラムは、高度な技術を使って、人の顔と手が接触している瞬間を動画フィードを通じて認識します。ビデオ通話、バスのカメラ、監視カメラからの映像でも使えます。顔が部分的に隠れていても、FaceTouchは腕の動きなどからこれらの瞬間を学ぶことができます。このシステムは、手の動きや顔の近くにいることを見つけるだけでなく、混雑した環境でも役に立つようになっています。スーパーバイズドコントラスト学習という方法を使って、私たちが収集したデータセットで自己学習します。基準データセットがないためです。
人は顔を触りたくなる自然な傾向があります、特に目、鼻、口などの敏感な部分。こうした行動は、体内にバイ菌を持ち込んで病気を広めるリスクを高めることがあります。だから、顔に触れる行為を監視することが行動の変化には必要です。複雑な環境の中で人間の行動を解釈できる自動システムは、多くの状況で有益です。パンデミックの時に、手がどこに触れるかを追跡できれば、病気がどのように広がるかを理解するのに役立ちます。
最近、コンピュータビジョンと深層学習の進歩により、人間の行動とその周囲との相互作用のさまざまな側面を学ぶことができるようになりました。リアルワールドの画像データセットを見つけるのはまだ難しいものの、ウエアラブルデバイスを使って手と顔の接触を検出する研究もあります。ただ、このアプローチは複数の個人からのデータが必要で、トリッキーで持続可能ではありません。他のシステムは手と顔を別々に検出し、距離に基づいて接触があったかどうかを判断します。この方法は、手の動きが顔に触れるように見えても、実際は無関係な動作(例えば飲み物を飲む)などの場合にエラーが起こりやすいです。
この研究での貢献は以下の通りです:
- FaceTouchフレームワークを紹介して、ビデオ通話、バスの画像、CCTV映像などのさまざまな状況で手と顔の接触を検出することを目指します。このフレームワークは、腕の動きのようなボディジェスチャーを見て、顔が部分的に隠れていても接触を見つけることができます。
- 自己教師あり学習を完全教師あり学習に拡張し、画像ラベルを効果的に使用します。
- 手と顔の接触のための新しいデータセットを作成し、屋内外のさまざまな人間のポーズをキャプチャします。
- 同様の課題に対処できる深層学習モデルを分析します。
紹介が終わったら、関連する作業や以前の手法について説明します。その後、FaceTouchフレームワーク、学習方法、評価指標について詳しく説明します。結果をまとめ、現在の文献と関連付けて議論します。将来の研究や限界についても触れます。最後に、私たちの研究を結論付けます。
関連研究
このトピックに関連するいくつかの研究があり、2つのカテゴリにグループ化できます:
センサーデバイスによる検出
いくつかの方法では、加速度センサーからのデータを分析して自発的な顔の接触を検出するためにスマートウォッチを使用します。これらの方法には、ランダムフォレストやサポートベクターマシンなどのさまざまな機械学習技術が含まれます。似たようなアプローチでは、加速度センサーのデータを用いて顔への接触を特定します。無意識の顔の接触を防ぐために、加速度センサーのデータと手の動きの分類に深層学習を利用したウエアラブル技術も開発されています。さらに、ある研究では耳に装着するデバイスを使い、手の接触を検出して、顔に触れた時の皮膚の変化を示す熱信号や生理信号を分析して、粘膜または非粘膜として特定しました。
手と顔の別々の検出
顔の接触を特定するために、手と顔を別々に検出し、間の距離を計算して接触があったかどうかを確認することもできます。顔検出のために、リアルタイムでうまく動作する軽量な方法がいくつか開発されています。ある方法は、特徴ピラミッドと深いアーキテクチャを使用して、さまざまなコンテキストで顔を検出し、位置を特定します。別の方法では、CNN技術を利用して小さな顔の検出に焦点を当て、入力画像をリサイズして多解像度検出を改善します。
手の検出のために、ポーズのないCNNモデルがRGB画像から手を認識するために作成されています。他の研究では、深層学習ブロックを使用して手の検出を改善し、結果の解釈を向上させています。いくつかの研究者は、手の表現を再構築するために生成的敵対ネットワークを導入し、他の研究者はキーポイントに基づいて手のポーズを推定するモデルを開発しました。
要約すると、センサー装置と算術アプローチを使用して手と顔の接触行動を理解する進展がありました。また、手によって引き起こされる顔の遮蔽を特定する進展もありましたが、リアルワールドのシナリオでの顔の接触を認識するにはまだ課題があります。
材料と方法
このプロジェクトは、ニューカッスル大学のアーバンオブザーバトリーから倫理的承認を受けました。個々の同意は必要ありませんでした。なぜなら、使用されたデータが個人情報を開示しないからです。私たちは公開データに基づく結果のみを示し、プライバシーを考慮して顔をぼかしています。
このセクションでは、私たちのアプローチ、アーキテクチャ、材料、評価指標、モデルのハイパーパラメータなどの実装の詳細について説明します。
顔の接触を検出するために、スケールや解像度が異なるRGB画像入力を使用します。このタスクに対処するために、私たちは教師ありコントラスト学習に依存しています。この方法はトリプレット損失に似ていて、従来の教師あり学習よりもパフォーマンスが良いことが証明されています。
教師ありコントラスト学習では、2つのネットワーク、エンコーダーネットワークとプロジェクションネットワークを使用します。エンコーダーは入力データをベクトル表現にマッピングし、プロジェクションネットワークは別のベクトルにマッピングします。この設定により、潜在ベクトル空間内の距離を測定できます。エンコーダーはResNetやMobileNetなどの人気のあるアーキテクチャで構成できますが、プロジェクションネットワークはトレーニング中にのみ使用されます。
FaceTouchのアーキテクチャ
私たちが提案するフレームワークは、さまざまなスケールで人間と顔を検出し、位置を特定することを可能にします。4つの主要なコンポーネントで構成されています:
バックボーン:物体と顔の検出のために2つのバックボーンモデルを利用し、複雑なシーンで顔の接触を分類する能力を高めます。最初に顔検出器が作動し、顔が検出されなければ人間検出器がアクティブになり、シーン内の人間を特定します。
アクションエンコーダー:バックボーンの後、検出された画像をエンコーダーに通し、教師ありコントラスト学習を使用して顔への接触を特定します。速度と効率を最適化するために、いくつかの最先端のエンコーダーアーキテクチャをトレーニングしました。
顔のぼかし:プライバシーを確保し、識別のリスクを減らすために、検出された顔を含む画像にガウスノイズを追加し、匿名性を確保します。
説明可能なAI:推論中に注意を視覚化する機能を組み込み、Grad-CAMを使用して顔の接触を分類する際にモデルが焦点を当てる画像の部分を強調します。
フレームワークの損失と評価指標
物体検出パートでは、ローカリゼーションと信頼に基づいて損失を定義し、正確な検出と分類を確保します。アクションエンコーダーのトレーニングには、教師ありコントラスト損失を使用します。また、クラスの不均衡に対処するために、従来の交差エントロピー損失とフォーカル損失を組み合わせて適用します。
モデルのパフォーマンスは、精度、適合率、再現率、F1スコアを使用して評価します。受信者動作特性曲線(ROC)を計算して、バックボーンとアクションエンコーダーの両方の分類性能を評価します。
収集データ
現在、手と顔の接触をラベリングおよび分類するためのオープンアクセスの深層学習データセットはありません。これに対応するために、20,000以上の画像をインターネットから収集して、独自のデータセットを作成しました。データを視覚的に検査し、顔に触れている関連ケースに焦点を当て、画像をトレーニングセットとテストセットに分けました。
モデルをトレーニングする際には、顔の画像と全身の画像の両方を分析し、画像の角度や高さに関係なく手の接触を認識する柔軟性を持たせました。これによりトレーニングが複雑になるかもしれませんが、さまざまな環境でのセンサーニーズに適応することができます。
実装の詳細
物体検出:私たちは適切な手順に従って、よく知られたデータセットで物体検出器をトレーニングしました。データ拡張技術を使用し、学習率とバッチサイズに基づいてモデルを最適化しました。
アクション認識:アクション分類のために、従来の教師あり学習と教師ありコントラスト学習の両方を使用して分類器をトレーニングしました。さまざまなアーキテクチャを探求し、層、活性化関数、最適化方法を調整して高いパフォーマンスを達成しました。
結果と分析
FaceTouch内で異なるモデルをトレーニングした後、私たちの結果は、さまざまなアーキテクチャにおいて教師ありコントラスト学習を使用することで大幅なパフォーマンス向上を示しました。平均適合率、再現率、F1スコアなどの指標を記録し、私たちのアプローチの効果を示しています。
物体検出モデルは人間と顔を認識する上で強力な性能を示し、アクション認識モデルは教師ありコントラスト学習でトレーニングされた場合に優れた結果を出しました。また、モデルが手の位置や顔の検出にどのように焦点を当てているかを分析し、成功した分類と誤認識を強調しました。
FaceTouchフレームワークは、リアルタイムアプリケーションで有用で、ビデオ通話、低解像度のバス画像、複雑な都市環境など、さまざまなコンテキストで手と顔の接触を成功裏に検出します。このシステムは、視覚障害者が他人が顔に触れているかどうかを意識しながら、適切な社会的距離を保つのに役立ちます。
今後の研究方向
この研究の結果は、公共の場での手と顔の接触や他の一般的な相互作用のパターンを検出するために、ビデオストリームの時系列データを組み込むことで拡張できる可能性があります。FaceTouchフレームワークは、時間情報を活用し、フレームを順次ラベリングすることに取り組むことで改善できるかもしれません。また、物体検出機能を人間の形状以外の他のアイテムにも拡張することができます。
結論として、FaceTouchは編集されていないビデオストリームで手と顔の接触を検出する新しく効果的なアプローチを示しています。個人の匿名性を確保し、新たに作成されたデータセットを活用することで、フレームワークはテストデータで高い検証を示し、公共の健康行動の監視における将来の応用に期待が持てます。
タイトル: FaceTouch: Detecting hand-to-face touch with supervised contrastive learning to assist in tracing infectious disease
概要: Through our respiratory system, many viruses and diseases frequently spread and pass from one person to another. Covid-19 served as an example of how crucial it is to track down and cut back on contacts to stop its spread. There is a clear gap in finding automatic methods that can detect hand-to-face contact in complex urban scenes or indoors. In this paper, we introduce a computer vision framework, called FaceTouch, based on deep learning. It comprises deep sub-models to detect humans and analyse their actions. FaceTouch seeks to detect hand-to-face touches in the wild, such as through video chats, bus footage, or CCTV feeds. Despite partial occlusion of faces, the introduced system learns to detect face touches from the RGB representation of a given scene by utilising the representation of the body gestures such as arm movement. This has been demonstrated to be useful in complex urban scenarios beyond simply identifying hand movement and its closeness to faces. Relying on Supervised Contrastive Learning, the introduced model is trained on our collected dataset, given the absence of other benchmark datasets. The framework shows a strong validation in unseen datasets which opens the door for potential deployment.
著者: Mohamed R. Ibrahim, Terry Lyons
最終更新: 2023-08-24 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2308.12840
ソースPDF: https://arxiv.org/pdf/2308.12840
ライセンス: https://creativecommons.org/licenses/by-nc-sa/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.ctan.org/pkg/latexdiff?lang=en
- https://journals.plos.org/plosone/s/figures
- https://journals.plos.org/plosone/s/tables
- https://journals.plos.org/plosone/s/latex
- https://arxiv.org/abs/2008.01769
- https://arxiv.org/abs/1708.00370
- https://arxiv.org/abs/1907.05047
- https://arxiv.org/abs/1904.10633
- https://arxiv.org/abs/1905.00641
- https://arxiv.org/abs/1612.04402
- https://arxiv.org/abs/2105.10904
- https://arxiv.org/abs/2005.01351
- https://arxiv.org/abs/2207.03112
- https://arxiv.org/abs/2004.11362
- https://arxiv.org/abs/1412.6622
- https://arxiv.org/abs/1704.04861
- https://arxiv.org/abs/2010.11929
- https://arxiv.org/abs/2103.02440
- https://arxiv.org/abs/1903.06593
- https://arxiv.org/abs/1812.08008