FaceTouch : Une nouvelle façon de surveiller les contacts avec le visage
FaceTouch suit les contacts main-visage pour aider à réduire la propagation des maladies.
― 12 min lire
Table des matières
Beaucoup de virus se propagent à travers notre système respiratoire, souvent transmis d'une personne à une autre. Un bon exemple, c'est le Covid-19, qui a mis en lumière l'importance de suivre et de réduire les contacts pour empêcher sa propagation. Cependant, il y a un manque de méthodes automatiques capables de détecter quand quelqu'un touche son visage, surtout dans des lieux urbains bondés ou à l'intérieur.
Dans cet article, on vous présente un nouveau programme informatique appelé FaceTouch. Ce programme utilise une technologie avancée pour reconnaître quand des mains touchent des visages à travers des flux vidéo, que ce soit lors d'appels vidéo, de caméras de bus ou de caméras de sécurité. Même quand les visages sont partiellement cachés, FaceTouch peut apprendre à identifier ces moments en observant des mouvements corporels comme les mouvements des bras. Ce système va au-delà de la simple détection des mouvements des mains et de leur proximité avec le visage, ce qui le rend utile dans des environnements encombrés. Il utilise une méthode appelée Apprentissage contrastif supervisé pour s'entraîner sur un ensemble de données qu'on a collecté, étant donné qu'il n'existe pas de Jeux de données de référence.
Les gens ont tendance à toucher naturellement leur visage, surtout des zones sensibles comme les yeux, le nez et la bouche. Ce comportement peut augmenter les risques pour la santé en introduisant des germes dans le corps et en propageant des maladies. Donc, surveiller les touches faciales est essentiel pour changer les comportements. Un système automatisé capable d'interpréter les actions humaines dans des environnements compliqués peut être bénéfique dans de nombreuses situations. Pendant les pandémies, pouvoir suivre où nos mains touchent pourrait aider à comprendre comment les maladies se propagent.
Récemment, les avancées en vision par ordinateur et en apprentissage profond nous ont aidés à apprendre divers aspects des actions humaines et comment elles interagissent avec leur environnement. Bien qu'il y ait encore des lacunes dans la recherche de jeux de données d'images du monde réel pour reconnaître les touches mains-visage, certaines études se concentrent sur l'utilisation de dispositifs intelligents portables pour détecter ces actions. Cependant, cette approche peut être compliquée et non durable puisqu'elle nécessite des données de plusieurs sources de différentes personnes. D'autres systèmes reposent sur la détection séparée des mains et des visages et décident si une touche a eu lieu en fonction de leurs distances. Cette méthode peut entraîner des erreurs, surtout lorsque les mouvements des mains ressemblent à un toucher du visage mais en réalité ne sont pas liés, comme boire.
Dans ce travail, on présente les contributions suivantes :
- L'introduction du cadre FaceTouch qui vise à détecter les touches mains-visage dans diverses situations, y compris les appels vidéo, les images de bus, et les vidéos de CCTV. Ce cadre apprend à repérer les touches même lorsque le visage est partiellement caché, en observant des gestes corporels comme les mouvements des bras.
- On élargit l'utilisation de l'apprentissage auto-supervisé à l'apprentissage entièrement supervisé, en utilisant efficacement des étiquettes d'image.
- On crée un nouvel ensemble de données spécialement pour les touches mains-visage, capturant diverses poses humaines en intérieur et en extérieur.
- On analyse différents modèles d'apprentissage profond qui peuvent aborder des défis similaires.
Après l'introduction, on expliquera les travaux liés et les méthodes précédemment utilisées. Ensuite, on décrira le cadre FaceTouch, les méthodes d'entraînement et les métriques d'évaluation. On résumera les résultats et on les discutera par rapport à la littérature actuelle, notant les travaux futurs et les limitations. Enfin, on conclura notre recherche.
Travaux Liés
Plusieurs études sont liées à ce sujet et peuvent être regroupées en deux catégories :
Détection via des Dispositifs de Capteurs
Certaines méthodes utilisent des montres connectées pour détecter les touches de visage spontanées en analysant les données des accéléromètres. Ces méthodes impliquent diverses techniques d'apprentissage automatique, y compris les forêts aléatoires et les machines à vecteurs de support. Des approches similaires utilisent des données d'accéléromètres pour identifier les touches de visage. D'autres technologies portables ont été développées pour aider à prévenir les touches inconscientes du visage, utilisant à la fois des données d'accéléromètres et de l'apprentissage profond pour classifier les mouvements des mains. De plus, une étude a employé un appareil porté dans l'oreille, détectant les touches de mains et les identifiant comme muqueuses ou non muqueuses en analysant des signaux thermiques et physiologiques qui indiquent des changements dans la peau lors du contact avec le visage.
Détections Séparées des Mains et des Visages
Identifier les touches faciales peut aussi se faire en détectant séparément une main et un visage et en calculant la distance entre eux pour voir si un contact a eu lieu. Pour la détection du visage, plusieurs méthodes légères qui fonctionnent bien en temps réel ont été développées pour les appareils en périphérie. Une méthode utilise des pyramides de caractéristiques et des architectures profondes pour détecter et localiser les visages dans divers contextes. Une autre méthode se concentre sur la détection de petits visages en utilisant des techniques de CNN et redimensionne les images d'entrée pour une meilleure détection multi-résolution.
Pour la détection des mains, un modèle CNN sans posture a été créé pour reconnaître les mains à partir d'images RGB. D'autres études ont amélioré la détection des mains en utilisant des blocs d'apprentissage profond pour une meilleure interprétation des résultats. Certains chercheurs ont introduit des réseaux adverses génératifs pour reconstruire des représentations de mains, tandis que d'autres ont développé des modèles pour estimer les poses des mains basées sur des points clés.
En résumé, des progrès ont été réalisés en utilisant des données provenant de dispositifs de détection et des approches arithmétiques pour comprendre les actions de toucher mains-visage. De plus, des avancées ont été faites pour localiser l'occlusion faciale causée par les mains, mais des défis subsistent pour reconnaître les touches faciales dans des scénarios réels.
Matériaux et Méthodes
Le projet a reçu l'approbation éthique de l'Observatoire Urbain de l'Université de Newcastle. Le consentement individuel n'était pas nécessaire puisque les données utilisées ne divulguent pas d'informations personnelles. On ne présente que des résultats basés sur des données disponibles publiquement, avec des visages floutés pour préserver la vie privée.
Dans cette section, on discute de notre approche, de l'architecture, des matériaux, des métriques d'évaluation, et des détails d'implémentation, y compris des hyperparamètres du modèle.
Pour détecter les touches faciales, on utilise une image d'entrée RGB, qui varie en échelle et en résolution. On s'appuie sur l'apprentissage contrastif supervisé pour aborder cette tâche. Cette méthode est similaire à la perte triplet, qui a prouvé qu'elle fonctionnait mieux que l'apprentissage supervisé traditionnel.
Dans l'apprentissage contrastif supervisé, on emploie deux réseaux : un réseau encodeur et un réseau de projection. L'encodeur mappe les données d'entrée à une représentation vectorielle, tandis que le réseau de projection mappe à un autre vecteur. Cette configuration nous permet de mesurer les distances dans l'espace vectoriel latent. L'encodeur peut être constitué d'architectures populaires comme ResNet ou MobileNet, tandis que le réseau de projection n'est utilisé que pendant l'entraînement.
L'Architecture de FaceTouch
Notre cadre proposé permet la détection et la localisation des humains et des visages à différentes échelles. Il se compose de quatre composants principaux :
Backbone : On utilise deux modèles backbone pour la Détection d'objets et de visages, améliorant la capacité du cadre à classifier les touches faciales dans des scènes complexes. Au début, un détecteur de visages fonctionne, tandis que le détecteur humain reste inactif. Si aucun visage n'est détecté, le détecteur humain s'active pour identifier les humains dans la scène.
Action Encoder : Après le backbone, on passe les images détectées à un encodeur pour les classifier et identifier d'éventuelles touches faciales en utilisant l'apprentissage contrastif supervisé. On a entraîné plusieurs architectures d'encodeurs à la pointe pour optimiser la vitesse et l'efficacité.
Flou du Visage : Pour garantir la vie privée et réduire les risques d'identification, on ajoute un bruit gaussien aux images contenant des visages détectés, assurant l'anonymat.
IA Explicable : On incorpore une fonctionnalité pour visualiser l'attention pendant l'inférence, utilisant Grad-CAM pour mettre en évidence les parties de l'image sur lesquelles le modèle se concentre lorsqu'il classifie un toucher facial.
Pertes du Cadre et Métriques d'Évaluation
Pour la partie détection d'objets, on définit la perte en fonction de la localisation et de la confiance, garantissant une détection et une classification précises. Pour entraîner l'encodeur d'actions, on utilise la perte contrastive supervisée. On applique aussi une perte d'entropie croisée traditionnelle associée à une perte focalisée pour traiter les déséquilibres de classe.
On évalue les performances du modèle en utilisant la précision, la précision, le rappel et le score F1. On calcule la courbe ROC pour évaluer la performance de classification à la fois du backbone et des action encoders.
Données Collectées
Il n'existe actuellement aucun ensemble de données d'apprentissage profond en accès libre pour étiqueter et classifier les touches mains-visage. Pour y remédier, on a compilé notre propre ensemble de données, rassemblant plus de 20,000 images sur Internet. On a inspecté visuellement les données pour se concentrer sur des cas pertinents d'individus touchant leur visage et on a divisé les images en ensembles d'entraînement et de test.
On a entraîné le modèle pour analyser à la fois des images faciales et des images de corps entier, lui donnant la flexibilité de reconnaître les touches de mains indépendamment de l'angle ou de l'élévation de l'image. Bien que cela puisse compliquer l'entraînement, cela permet au modèle de s'adapter à divers besoins de détection dans plusieurs environnements.
Détails d'Implémentation
Détection d'Objets : On a entraîné le détecteur d'objets sur un ensemble de données bien connu en suivant des procédures appropriées. On a utilisé des techniques d'augmentation de données et optimisé le modèle en fonction des taux d'apprentissage et des tailles de lot.
Reconnaissance d'Actions : Pour la classification des actions, on a entraîné des classificateurs en utilisant à la fois l'apprentissage supervisé traditionnel et l'apprentissage contrastif supervisé. On a veillé à explorer une gamme d'architectures, en ajustant les couches, les fonctions d'activation et les méthodes d'optimisation pour obtenir de hautes performances.
Résultats et Analyse
Après avoir entraîné différents modèles dans FaceTouch, nos résultats montrent des améliorations significatives en performance grâce à l'apprentissage contrastif supervisé à travers diverses architectures. On a enregistré des métriques comme la précision moyenne, le rappel et le score F1, indiquant l'efficacité de notre approche.
Le modèle de détection d'objets a montré de solides performances dans la reconnaissance des humains et des visages, tandis que les modèles de reconnaissance d'actions ont excellé lorsqu'ils ont été entraînés avec l'apprentissage contrastif supervisé. On a aussi analysé comment le modèle se concentrait sur les positions des mains et la détection faciale, en soulignant les classifications réussies par rapport aux identifications incorrectes.
Le cadre FaceTouch s'avère utile dans des applications en temps réel, détectant avec succès les touches mains-visage dans différents contextes, y compris les appels vidéo, les images de bus basse résolution, et des environnements urbains complexes. Le système peut aider les personnes malvoyantes à maintenir une distance sociale sécurisée tout en étant conscientes des autres qui pourraient se toucher le visage.
Directions de Recherche Future
Les résultats de cette étude pourraient être étendus en incorporant des données séquentielles dans des flux vidéo pour détecter des motifs dans les touches mains-visage ou d'autres interactions communes dans les espaces publics. Le cadre FaceTouch pourrait être amélioré en utilisant des informations temporelles et en se chargeant de l'étiquetage des images de manière séquentielle. De plus, les capacités de détection d'objets pourraient être étendues pour inclure d'autres éléments au-delà des figures humaines.
En conclusion, FaceTouch représente une nouvelle et efficace approche pour détecter les touches mains-visage dans des flux vidéo non montés. En garantissant l'anonymat des individus et en tirant parti d'un nouvel ensemble de données créé, le cadre montre une haute validation sur les données de test et promet de futures applications dans la surveillance des comportements de santé publique.
Titre: FaceTouch: Detecting hand-to-face touch with supervised contrastive learning to assist in tracing infectious disease
Résumé: Through our respiratory system, many viruses and diseases frequently spread and pass from one person to another. Covid-19 served as an example of how crucial it is to track down and cut back on contacts to stop its spread. There is a clear gap in finding automatic methods that can detect hand-to-face contact in complex urban scenes or indoors. In this paper, we introduce a computer vision framework, called FaceTouch, based on deep learning. It comprises deep sub-models to detect humans and analyse their actions. FaceTouch seeks to detect hand-to-face touches in the wild, such as through video chats, bus footage, or CCTV feeds. Despite partial occlusion of faces, the introduced system learns to detect face touches from the RGB representation of a given scene by utilising the representation of the body gestures such as arm movement. This has been demonstrated to be useful in complex urban scenarios beyond simply identifying hand movement and its closeness to faces. Relying on Supervised Contrastive Learning, the introduced model is trained on our collected dataset, given the absence of other benchmark datasets. The framework shows a strong validation in unseen datasets which opens the door for potential deployment.
Auteurs: Mohamed R. Ibrahim, Terry Lyons
Dernière mise à jour: 2023-08-24 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2308.12840
Source PDF: https://arxiv.org/pdf/2308.12840
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://www.ctan.org/pkg/latexdiff?lang=en
- https://journals.plos.org/plosone/s/figures
- https://journals.plos.org/plosone/s/tables
- https://journals.plos.org/plosone/s/latex
- https://arxiv.org/abs/2008.01769
- https://arxiv.org/abs/1708.00370
- https://arxiv.org/abs/1907.05047
- https://arxiv.org/abs/1904.10633
- https://arxiv.org/abs/1905.00641
- https://arxiv.org/abs/1612.04402
- https://arxiv.org/abs/2105.10904
- https://arxiv.org/abs/2005.01351
- https://arxiv.org/abs/2207.03112
- https://arxiv.org/abs/2004.11362
- https://arxiv.org/abs/1412.6622
- https://arxiv.org/abs/1704.04861
- https://arxiv.org/abs/2010.11929
- https://arxiv.org/abs/2103.02440
- https://arxiv.org/abs/1903.06593
- https://arxiv.org/abs/1812.08008