Améliorer la reconnaissance faciale avec le son
Une nouvelle méthode détecte les visages faux en utilisant les échos sonores.
― 6 min lire
Table des matières
La reconnaissance faciale devient de plus en plus populaire pour accéder aux smartphones. Les gens aiment l'utiliser parce que c'est pratique et que ça peut être assez précis. Cependant, cette technologie rencontre des défis. Un gros problème, c'est que les attaquants peuvent utiliser de faux visages pour tromper le système. Ces faux visages sont fabriqués avec divers matériaux comme des photos ou des masques. Détecter ces faux visages peut être compliqué, surtout quand les matériaux utilisés varient beaucoup.
Attaques de présentation
Le défi desLes attaques de présentation se produisent quand quelqu'un essaie de contourner la reconnaissance faciale en montrant une image fake ou un masque au lieu de son vrai visage. Avec l'essor des réseaux sociaux et la facilité de capturer l'image de quelqu'un, ces attaques deviennent plus courantes. C'est particulièrement préoccupant pour des secteurs comme la banque, où la sécurité est primordiale.
Signaux acoustiques
L'importance desLa plupart des systèmes de reconnaissance faciale actuels s'appuient sur des données visuelles, qui peuvent être facilement manipulées. Dans cette étude, on explore l'utilisation du son pour déterminer si un visage est réel ou faux. Le concept est simple : les ondes sonores se réfléchissent différemment sur une peau réelle par rapport aux matériaux utilisés dans les faux visages. En analysant ces réflexions, on peut déterminer l'authenticité du visage montré à la caméra.
Méthode proposée
L'objectif de cette étude est d'améliorer la détection des faux visages en utilisant des signaux acoustiques. La technique consiste à envoyer un signal sonore depuis un smartphone et à capturer l'écho qui revient. Les éléments clés de notre approche sont :
Conception du signal : Un signal sonore bien conçu est essentiel. On introduit un son à large impulsion qui nous aide à mieux capturer les échos des visages. Cette impulsion est suivie d'une période silencieuse pour enregistrer le bruit de fond, qu'on soustrait ensuite du signal reçu. Ça rend plus facile de voir les réflexions venant du visage.
Traitement des échos : Une fois qu'on a enregistré les échos, on utilise une méthode pour nettoyer le signal. Le but est de réduire le bruit de fond et de se concentrer sur les parties importantes du signal qui nous aident à identifier si le visage est réel.
Extraction de caractéristiques : On utilise ensuite une méthode mathématique spécifique, appelée Transformée en Ondelette Continue, pour décomposer les données sonores en caractéristiques utiles. Ces caractéristiques nous aident à comprendre les différences entre les visages réels et faux.
Apprentissage profond : Pour améliorer la précision, on utilise un type d'intelligence artificielle appelé apprentissage profond. On entraîne un modèle avec les caractéristiques extraites des données sonores pour différencier avec précision les visages réels et faux.
Tests et évaluation : Notre méthode a été testée sur divers sujets et types de faux visages, y compris des images imprimées et des masques en silicone. Ces tests approfondis aident à établir la performance de la méthode dans différentes situations.
Collecte de données
Pour notre étude, on a créé un ensemble de données nommé Acoustic Sound Echo Dataset (ASED). Cet ensemble contient des enregistrements de visages réels et de divers types de faux visages. Les données ont été collectées auprès de 35 individus et incluaient plusieurs sessions pour de meilleurs résultats.
Pour créer des faux visages, on a utilisé différentes techniques :
- Attaques par impression : On a imprimé des photos des sujets en utilisant deux types d'imprimantes pour voir si la méthode pouvait les détecter.
- Attaques par affichage : On a affiché le visage du sujet sur une tablette pour tester l'efficacité du système contre les écrans.
- Masques en silicone : Enfin, on a utilisé des masques en silicone qui ressemblent de près à des visages humains pour défier davantage le système de détection.
Évaluation de la performance
Une fois les données collectées, on devait évaluer comment notre méthode détectait les faux visages. On a utilisé différents protocoles pour analyser la performance, y compris :
- Protocole d'évaluation intra : Ce protocole teste le système avec le même type de faux visage sur lequel il a été entraîné.
- Protocole d'évaluation inter : Ici, on teste le système avec différents types de faux visages que ceux sur lesquels il a été entraîné.
L'objectif était de vérifier non seulement la fiabilité de la détection mais aussi comment elle pouvait s'adapter à de nouveaux types de faux visages non vus.
Résultats
Les résultats de l'évaluation étaient prometteurs. Notre méthode a montré une bonne capacité à identifier les faux visages, tant dans des situations contrôlées qu'en utilisant différents types d'attaques.
Sans soustraction de bruit de fond : Au départ, on a testé la méthode sans soustraire le bruit de fond. Les résultats ont montré que notre méthode avait plus de mal dans cette condition. Cependant, elle faisait toujours mieux que les méthodes existantes.
Avec soustraction de bruit de fond : Quand on a utilisé la période silencieuse pour soustraire le bruit de fond, la performance s'est améliorée de manière significative. Le système pouvait détecter les faux visages de manière plus fiable.
La différence de performance en utilisant la soustraction de bruit de fond indique que prendre en compte le bruit environnemental est crucial pour une meilleure précision dans les systèmes de reconnaissance faciale.
Conclusion
Notre recherche démontre une nouvelle manière de détecter les faux visages en utilisant les échos du son au lieu de se fier uniquement aux données visuelles. L'utilisation de signaux acoustiques montre un grand potentiel pour améliorer la sécurité des systèmes de reconnaissance faciale.
En capturant les réflexions sonores et en les analysant, on peut obtenir de meilleurs résultats que les méthodes traditionnelles qui se concentrent seulement sur les images. Cette approche peut renforcer la fiabilité des systèmes de sécurité des smartphones, les rendant plus difficiles à tromper.
Les recherches futures exploreront davantage cette méthode, y compris des tests sur différents smartphones et dans des environnements plus bruyants. L'objectif est de perfectionner la technique et de la rendre largement disponible pour un usage quotidien, assurant ainsi une meilleure sécurité pour les utilisateurs.
En résumé, la combinaison du traitement du son avec des techniques d'apprentissage profond ouvre de nouvelles voies pour la technologie de reconnaissance faciale, ce qui pourrait mener à des systèmes plus fiables et sécurisés dans un avenir proche.
Titre: Sound-Print: Generalised Face Presentation Attack Detection using Deep Representation of Sound Echoes
Résumé: Facial biometrics are widely deployed in smartphone-based applications because of their usability and increased verification accuracy in unconstrained scenarios. The evolving applications of smartphone-based facial recognition have also increased Presentation Attacks (PAs), where an attacker can present a Presentation Attack Instrument (PAI) to maliciously gain access to the application. Because the materials used to generate PAI are not deterministic, the detection of unknown presentation attacks is challenging. In this paper, we present an acoustic echo-based face Presentation Attack Detection (PAD) on a smartphone in which the PAs are detected based on the reflection profiles of the transmitted signal. We propose a novel transmission signal based on the wide pulse that allows us to model the background noise before transmitting the signal and increase the Signal-to-Noise Ratio (SNR). The received signal reflections were processed to remove background noise and accurately represent reflection characteristics. The reflection profiles of the bona fide and PAs are different owing to the different reflection characteristics of the human skin and artefact materials. Extensive experiments are presented using the newly collected Acoustic Sound Echo Dataset (ASED) with 4807 samples captured from bona fide and four different types of PAIs, including print (two types), display, and silicone face-mask attacks. The obtained results indicate the robustness of the proposed method for detecting unknown face presentation attacks.
Auteurs: Raghavendra Ramachandra, Jag Mohan Singh, Sushma Venkatesh
Dernière mise à jour: 2023-09-24 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2309.13704
Source PDF: https://arxiv.org/pdf/2309.13704
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.