Présentation du jeu de données DocXPand-25k pour la vérification d'identité
Un nouveau jeu de données pour analyser les documents d'identité afin d'aider les services en ligne.
― 8 min lire
Table des matières
- Ensemble de données DocXPand-25k
- Importance pour la banque et l'assurance
- Objectif de l'ensemble de données
- Travaux connexes
- Conception de l'ensemble de données
- Génération d'images de documents
- Intégration des documents dans des arrière-plans
- Format et étiquettes de l'ensemble de données
- Analyse de Similarité Visuelle
- Métriques d'évaluation et bases de référence
- Conclusion
- Source originale
- Liens de référence
L'analyse d'images de documents d'identité est essentielle pour plein de services en ligne, comme ouvrir des comptes bancaires ou s'inscrire à des assurances. Ces dernières années, il y a eu pas mal de recherches sur comment mieux trouver des documents dans des images, reconnaître du texte et détecter des fraudes. Pourtant, les chercheurs galèrent à cause d'un manque de gros ensembles de données pour tester et comparer leurs méthodes, surtout à cause des lois sur la vie privée et des préoccupations de sécurité.
Ensemble de données DocXPand-25k
Cet article présente l'ensemble de données DocXPand-25k, qui contient 24 994 images étiquetées de documents d'identité. Les documents ont été créés avec des modèles personnalisés représentant neuf designs fictifs de cartes d'identité, comprenant quatre cartes d'identité, deux permis de séjour et trois passeports. Chacune de ces ID a de fausses informations personnelles comme des noms et des dates, et elles varient en apparence visuelle et en mise en page du texte.
Pour garantir une grande variété de fonds, nous avons collecté environ 5 800 images prises dans des arrière-plans réels, incluant des photos et des documents scannés. Le logiciel utilisé pour générer ces images est open source, donc d'autres peuvent aussi l'utiliser.
Importance pour la banque et l'assurance
Les banques et les compagnies d'assurance doivent respecter des réglementations strictes qui exigent de vérifier l'identité de leurs clients en vérifiant leurs documents. Pour simplifier ce processus, des méthodes automatiques ont été développées pour classer les documents, les localiser dans des images, et extraire des informations pertinentes comme du texte ou des caractéristiques visuelles. Ces systèmes sont devenus courants ces dernières années, surtout sur les appareils mobiles.
Malgré les recherches en cours, il y a toujours un manque de grands ensembles de données publics qui peuvent être utilisés pour tester et comparer, rendant difficile la reproduction des résultats par les chercheurs.
Objectif de l'ensemble de données
Le principal objectif de l'ensemble de données DocXPand-25k est de fournir une ressource qui peut être utilisée pour évaluer différentes méthodes d'analyse d'ID, incluant :
- Classer les types d'ID
- Localiser les ID dans les images
- Détecter des caractéristiques spécifiques comme des photos et des signatures
- Reconnaître des champs de texte sur les ID
Travaux connexes
Des ensembles de données précédents, comme la famille MIDV, ont eu une influence significative sur la recherche en analyse d'ID. Par exemple, l'ensemble de données MIDV-500, sorti en 2019, contient 50 classes différentes d'ID. Cependant, il avait des limitations, comme des résolutions d'image et des conditions de capture variées.
Les ensembles de données suivants, comme MIDV-2019 et MIDV-2020, ont cherché à améliorer ces limitations. Ils ont introduit plus de diversité dans les classes de documents et les conditions de capture, mais manquaient encore d'outils robustes pour créer plus d'exemples.
Il existe d'autres ensembles de données avec un impact limité également, mais la plupart ne combinent pas des caractéristiques comme une grande variabilité dans les conditions d'acquisition ou un étiquetage riche qui permet un benchmarking efficace.
Conception de l'ensemble de données
Nous avons cherché à créer un ensemble de données qui reflète les conditions du monde réel. Notre ensemble de données présente une variété de documents d'identité incluant des détails nécessaires comme le nom, la date de naissance et la photo. Nous avons classé les ID selon le type, le pays émetteur, et la période d'émission.
L'ensemble de données DocXPand-25k comprend neuf classes fictives de documents, chacune conçue par un designer graphique professionnel suivant des directives spécifiques pour garantir le réalisme. Les modèles ont été soigneusement créés pour inclure une gamme diversifiée de caractéristiques visuelles et de mises en page.
Génération d'images de documents
Le processus de génération d'images de documents a commencé par la conception de modèles qui indiquaient où ajouter du texte et des images. Nous avons créé des générateurs qui produisaient du contenu pour des champs de texte sans utiliser de données d'identité réelles. Cela a permis d'éviter les problèmes de confidentialité tout en produisant des documents ressemblant à la réalité.
Des valeurs générées aléatoirement ont été utilisées pour les informations personnelles, et des outils supplémentaires ont été employés pour créer des codes-barres et d'autres éléments visuels. Pour rendre le tout encore plus réaliste, nous avons utilisé de l'intelligence artificielle pour générer des visages pour les photos d'identité, garantissant une représentation diversifiée.
Intégration des documents dans des arrière-plans
Pour rendre nos images encore plus réalistes, nous avons collecté des milliers d'images montrant de vrais documents d'ID dans des situations quotidiennes. Notre logiciel remplaçait ensuite les ID réels dans ces images par nos documents générés, s'assurant qu'ils se fondaient bien dans l'arrière-plan. On a veillé à ce qu'aucune information personnelle ne soit incluse dans les images finales.
Ce processus d'intégration a différencié notre ensemble de données des autres, car il permet de nombreuses variations et un large éventail d'arrière-plans et de conditions.
Format et étiquettes de l'ensemble de données
Avec les images, nous fournissons un fichier de description détaillé au format JSON. Chaque image a des étiquettes riches qui incluent :
- Classification du document
- Coordonnées de localisation de l'ID dans l'image
- Localisations des caractéristiques comme des photos et des codes-barres
- Valeurs pour chaque champ de texte
Au total, l'ensemble de données comprend 24 994 images étiquetées à travers 15 classes de documents, offrant 237 895 champs de texte étiquetés pour l'analyse.
Similarité Visuelle
Analyse dePour confirmer que notre ensemble de données représente bien les conditions du monde réel, nous l'avons comparé à une collection privée d'images d'ID réelles capturées par des utilisateurs. Cette analyse s'est concentrée sur la similarité visuelle de notre ensemble de données avec les vraies images traitées par des systèmes existants.
En utilisant une méthode pour mesurer la similarité visuelle, nous avons constaté que notre ensemble de données correspondait de près aux types d'images généralement analysées par les systèmes de l'industrie.
Métriques d'évaluation et bases de référence
Dans cette section, nous décrivons des métriques et des tests de base pour évaluer comment diverses méthodes performaient sur les tâches de classification d'ID, de localisation et de Reconnaissance de texte.
Classification d'ID
La classification d'ID implique de déterminer le type de document dans une image en fonction des éléments visuels et sémantiques. Nous avons divisé notre ensemble de données en groupes d'entraînement, de validation et de test, en veillant à ce qu'il n'y ait pas de chevauchement dans les arrière-plans.
L'ensemble d'entraînement comprend plus de 18 000 images, tandis que les ensembles de validation et de test contiennent chacun environ 3 000 images. Pour évaluer la performance de classification, nous nous concentrons sur le nombre de documents correctement classifiés par rapport au nombre total de documents.
Localisation d'ID
La localisation de documents vise à identifier où un document se trouve dans une image. Nous considérons les formes des documents comme des quadrilatères, définis par leurs quatre coins.
L'exactitude de la localisation peut être mesurée en comparant la position prédite à la localisation réelle du document dans l'image.
Reconnaissance de champs de texte
Dans la reconnaissance de texte, nous supposons que les ID ont déjà été localisés dans les images. Nous évaluons à quel point le texte peut être reconnu à partir de ces champs en utilisant des métriques basées sur les taux d'erreur.
Différentes catégories de champs de texte existent dans notre ensemble de données, y compris des champs numériques et alphanumériques.
Conclusion
L'ensemble de données DocXPand-25k représente une avancée significative dans le développement d'un ensemble de données fiable pour les méthodes d'analyse de documents. Il offre une gamme diverse de types de documents et d'arrière-plans qui reflètent les images d'ID du monde réel, comme le montrent nos comparaisons de similarité visuelle. Bien que nous fournissions des évaluations de base pour les tâches de classification, de localisation et de reconnaissance de texte, nous encourageons des améliorations et des investigations supplémentaires. Nous espérons que cet ensemble de données servira de ressource précieuse pour les chercheurs travaillant sur des technologies de vérification d'identité automatiques.
Titre: DocXPand-25k: a large and diverse benchmark dataset for identity documents analysis
Résumé: Identity document (ID) image analysis has become essential for many online services, like bank account opening or insurance subscription. In recent years, much research has been conducted on subjects like document localization, text recognition and fraud detection, to achieve a level of accuracy reliable enough to automatize identity verification. However, there are only a few available datasets to benchmark ID analysis methods, mainly because of privacy restrictions, security requirements and legal reasons. In this paper, we present the DocXPand-25k dataset, which consists of 24,994 richly labeled IDs images, generated using custom-made vectorial templates representing nine fictitious ID designs, including four identity cards, two residence permits and three passports designs. These synthetic IDs feature artificially generated personal information (names, dates, identifiers, faces, barcodes, ...), and present a rich diversity in the visual layouts and textual contents. We collected about 5.8k diverse backgrounds coming from real-world photos, scans and screenshots of IDs to guarantee the variety of the backgrounds. The software we wrote to generate these images has been published (https://github.com/QuickSign/docxpand/) under the terms of the MIT license, and our dataset has been published (https://github.com/QuickSign/docxpand/releases/tag/v1.0.0) under the terms of the CC-BY-NC-SA 4.0 License.
Auteurs: Julien Lerouge, Guillaume Betmont, Thomas Bres, Evgeny Stepankevich, Alexis Bergès
Dernière mise à jour: 2024-07-30 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.20662
Source PDF: https://arxiv.org/pdf/2407.20662
Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/QuickSign/docxpand/
- https://github.com/QuickSign/docxpand/releases/tag/v1.0.0
- https://github.com/joke2k/faker
- https://github.com/zxing-cpp/zxing-cpp
- https://github.com/AUTOMATIC1111/stable-diffusion-webui
- https://github.com/richzhang/PerceptualSimilarity
- https://github.com/sirfz/tesserocr
- https://github.com/Shreeshrii/tessdata_ocrb
- https://github.com/Shreeshrii/tessdata