Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Apprendimento automatico

Presentiamo il dataset DocXPand-25k per la verifica dell'identità

Un nuovo dataset per analizzare i documenti d'identità e aiutare i servizi online.

― 6 leggere min


DocXPand-25k DatasetDocXPand-25k DatasetSvelatodei documenti d'identità.Una risorsa fondamentale per l'analisi
Indice

L'analisi delle immagini dei documenti d'identità è importante per molti servizi online, come l'apertura di conti bancari e l'iscrizione a assicurazioni. Negli ultimi anni, ci sono stati molti studi focalizzati su come migliorare la ricerca di documenti all'interno delle immagini, il riconoscimento del testo e la rilevazione delle frodi. Tuttavia, i ricercatori affrontano sfide a causa della mancanza di grandi dataset per testare e confrontare i loro metodi. Questo problema nasce principalmente a causa delle leggi sulla privacy e delle preoccupazioni per la sicurezza.

Dataset DocXPand-25k

Questo documento presenta il dataset DocXPand-25k, che contiene 24.994 immagini etichettate di documenti d'identità. I documenti sono stati creati utilizzando modelli personalizzati che rappresentano nove design di ID fittizi, tra cui quattro carte d'identità, due permessi di soggiorno e tre passaporti. Ognuno di questi ID ha informazioni personali false come nomi e date, e varia nell'aspetto visivo e nel layout del testo.

Per garantire una grande varietà di sfondi, abbiamo raccolto circa 5.800 immagini scattate in contesti reali, comprese foto e documenti scannerizzati. Il software utilizzato per generare queste immagini è open source, permettendo ad altri di utilizzarlo anch'essi.

Importanza per Banche e Assicurazioni

Banche e compagnie di assicurazione devono seguire regole rigorose che richiedono la verifica dell'identità dei loro clienti controllando i documenti. Per semplificare questo processo, sono stati sviluppati metodi automatici per classificare i documenti, localizzarli all'interno delle immagini e estrarre informazioni rilevanti come testo o caratteristiche visive. Questi sistemi sono diventati comuni negli ultimi anni, specialmente sui dispositivi mobili.

Nonostante la ricerca in corso, c'è ancora una mancanza di grandi dataset pubblici che possano essere utilizzati per test e confronti, rendendo difficile per i ricercatori riprodurre i risultati.

Scopo del Dataset

L'obiettivo principale del dataset DocXPand-25k è fornire una risorsa utilizzabile per valutare vari metodi per l'analisi dei documenti d'identità, inclusi:

  • Classificazione dei tipi di ID
  • Localizzazione degli ID nelle immagini
  • Rilevazione di caratteristiche specifiche come foto e firme
  • Riconoscimento dei campi di testo sugli ID

Lavori Correlati

Dataset precedenti, come la famiglia MIDV, hanno avuto un'influenza significativa nella ricerca sull'analisi dei documenti d'identità. Ad esempio, il dataset MIDV-500, rilasciato nel 2019, contiene 50 classi diverse di ID. Tuttavia, aveva limitazioni, come variazioni nella risoluzione delle immagini e nelle condizioni di acquisizione.

Dataset successivi, come MIDV-2019 e MIDV-2020, hanno cercato di migliorare queste limitazioni. Hanno introdotto maggiore diversità nelle classi di documenti e nelle condizioni di acquisizione, ma mancavano ancora di strumenti robusti per creare ulteriori esempi.

Ci sono altri dataset con impatto limitato, ma la maggior parte non combina caratteristiche come alta variabilità nelle condizioni di acquisizione o etichettature ricche che consentano un benchmarking efficace.

Design del Dataset

Il nostro obiettivo era creare un dataset che riflettesse condizioni reali. Il nostro dataset presenta una varietà di documenti d'identità che includono dettagli necessari come nome, data di nascita e foto. Abbiamo categorizzato gli ID in base al tipo, al paese di emissione e al periodo di emissione.

Il dataset DocXPand-25k include nove classi fittizie di documenti, ciascuna progettata da un grafico professionista seguendo linee guida specifiche per garantire realismo. I modelli sono stati creati con attenzione per includere una gamma diversificata di caratteristiche visive e layout.

Generazione delle Immagini dei Documenti

Il processo di generazione delle immagini dei documenti è iniziato con la progettazione di modelli che indicavano dove aggiungere testo e immagini. Abbiamo creato generatori che producevano contenuti per i campi di testo senza utilizzare dati di identità reali. Questo ha aiutato a evitare problemi di privacy mantenendo comunque l'aspetto realistico dei documenti.

Valori generati casualmente sono stati utilizzati per le informazioni personali, e sono stati utilizzati strumenti aggiuntivi per creare codici a barre e altri elementi visivi. Per migliorare ulteriormente il realismo, abbiamo utilizzato intelligenza artificiale per generare volti per le foto di identità, garantendo una rappresentazione diversificata.

Integrazione dei Documenti negli Sfondo

Per rendere le nostre immagini ancora più realistiche, abbiamo raccolto migliaia di immagini che mostrano documenti d'identità reali in situazioni quotidiane. Il nostro software sostituiva poi gli ID reali in queste immagini con i nostri documenti generati, assicurandosi che si integrassero bene con lo sfondo. Abbiamo fatto attenzione a non includere informazioni personali nelle immagini finali.

Questo processo di integrazione ha differenziato il nostro dataset da altri, poiché consente molte variazioni e una vasta gamma di sfondi e condizioni.

Formato e Etichette del Dataset

Insieme alle immagini, forniamo un file di descrizione dettagliato in formato JSON. Ogni immagine ha etichette ricche che includono:

  • Classificazione del documento
  • Coordinate di localizzazione dell'ID nell'immagine
  • Posizioni di caratteristiche come foto e codici a barre
  • Valori per ciascun campo di testo

In totale, il dataset comprende 24.994 immagini etichettate su 15 classi di documenti, offrendo 237.895 campi di testo etichettati per l'analisi.

Analisi di Somiglianza Visiva

Per confermare che il nostro dataset rappresenti condizioni reali, l'abbiamo confrontato con una collezione privata di immagini di ID reali catturate dagli utenti. Questa analisi si è concentrata su quanto visivamente simile fosse il nostro dataset rispetto alle immagini reali elaborate dai sistemi esistenti.

Utilizzando un metodo per misurare la somiglianza visiva, abbiamo scoperto che il nostro dataset corrispondeva strettamente ai tipi di immagini tipicamente analizzati dai sistemi dell'industria.

Metriche di Valutazione e Baseline

In questa sezione, delineiamo metriche e test base per valutare come si comportano vari metodi nei compiti che riguardano la classificazione, la localizzazione e il riconoscimento del testo sugli ID.

Classificazione ID

La classificazione degli ID implica determinare il tipo di documento in un'immagine basandosi su elementi visivi e semantici. Abbiamo diviso il nostro dataset in gruppi di addestramento, validazione e test, assicurando che non ci fosse sovrapposizione negli sfondi.

Il set di addestramento include oltre 18.000 immagini, mentre i set di validazione e test contengono circa 3.000 immagini ciascuno. Per valutare le prestazioni della classificazione, ci concentriamo su quanti documenti sono stati classificati correttamente rispetto al numero totale di documenti.

Localizzazione ID

La localizzazione dei documenti mira a identificare dove si trova un documento all'interno di un'immagine. Consideriamo le forme dei documenti come quadrilateri, definiti dai loro quattro angoli.

L'accuratezza della localizzazione può essere misurata confrontando la posizione prevista con la posizione reale del documento nell'immagine.

Riconoscimento dei Campi di Testo

Nel riconoscimento del testo, presumiamo che gli ID siano già stati localizzati all'interno delle immagini. Valutiamo quanto bene il testo può essere riconosciuto da questi campi utilizzando metriche basate sui tassi di errore.

Esistono diverse categorie di campi di testo nel nostro dataset, tra cui campi numerici e alfanumerici.

Conclusione

Il dataset DocXPand-25k rappresenta un traguardo significativo nello sviluppo di un dataset affidabile per i metodi di analisi dei documenti. Offre una gamma diversificata di tipi di documenti e sfondi che riflettono immagini reali di ID, come dimostrato dai nostri confronti di somiglianza visiva. Sebbene offriamo valutazioni di base per i compiti di classificazione, localizzazione e riconoscimento del testo, incoraggiamo ulteriori miglioramenti e investigazioni. Speriamo che questo dataset possa servire come una risorsa preziosa per i ricercatori che lavorano su tecnologie di verifica dell'identità automatica.

Fonte originale

Titolo: DocXPand-25k: a large and diverse benchmark dataset for identity documents analysis

Estratto: Identity document (ID) image analysis has become essential for many online services, like bank account opening or insurance subscription. In recent years, much research has been conducted on subjects like document localization, text recognition and fraud detection, to achieve a level of accuracy reliable enough to automatize identity verification. However, there are only a few available datasets to benchmark ID analysis methods, mainly because of privacy restrictions, security requirements and legal reasons. In this paper, we present the DocXPand-25k dataset, which consists of 24,994 richly labeled IDs images, generated using custom-made vectorial templates representing nine fictitious ID designs, including four identity cards, two residence permits and three passports designs. These synthetic IDs feature artificially generated personal information (names, dates, identifiers, faces, barcodes, ...), and present a rich diversity in the visual layouts and textual contents. We collected about 5.8k diverse backgrounds coming from real-world photos, scans and screenshots of IDs to guarantee the variety of the backgrounds. The software we wrote to generate these images has been published (https://github.com/QuickSign/docxpand/) under the terms of the MIT license, and our dataset has been published (https://github.com/QuickSign/docxpand/releases/tag/v1.0.0) under the terms of the CC-BY-NC-SA 4.0 License.

Autori: Julien Lerouge, Guillaume Betmont, Thomas Bres, Evgeny Stepankevich, Alexis Bergès

Ultimo aggiornamento: 2024-07-30 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2407.20662

Fonte PDF: https://arxiv.org/pdf/2407.20662

Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili