Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung# Maschinelles Lernen

Vorstellung des DocXPand-25k-Datensatzes für Identitätsprüfung

Ein neuer Datensatz zur Analyse von Ausweisdokumenten, um Online-Dienste zu unterstützen.

― 6 min Lesedauer


DocXPand-25k DatensatzDocXPand-25k DatensatzEnthülltvon Ausweisdokumenten.Eine wichtige Ressource für die Analyse
Inhaltsverzeichnis

Die Analyse von Bildern von Ausweisdokumenten ist wichtig für viele Online-Dienste, wie z.B. die Eröffnung von Bankkonten und den Abschluss von Versicherungen. In den letzten Jahren gab's viel Forschung, die sich darauf konzentriert hat, wie wir Dokumente in Bildern finden, Text erkennen und Betrug aufdecken können. Forscher stehen jedoch vor Herausforderungen, weil es an grossen Datensätzen fehlt, um ihre Methoden zu testen und zu vergleichen. Dieses Problem entsteht hauptsächlich durch Datenschutzgesetze und Sicherheitsbedenken.

DocXPand-25k Datensatz

In diesem Papier wird der DocXPand-25k Datensatz vorgestellt, der 24.994 bildlich gekennzeichnete Bilder von Ausweisdokumenten enthält. Die Dokumente wurden mit benutzerdefinierten Vorlagen erstellt, die neun fiktive Ausweis-Designs darstellen, darunter vier Personalausweise, zwei Aufenthaltserlaubnisse und drei Pässe. Jedes dieser Ausweise hat falsche persönliche Informationen wie Namen und Daten und variiert in visueller Erscheinung und Textlayout.

Um eine grosse Vielfalt an Hintergründen zu gewährleisten, haben wir rund 5.800 Bilder aus realen Hintergründen gesammelt, darunter Fotos und gescannte Dokumente. Die Software, die zur Erstellung dieser Bilder verwendet wurde, ist Open Source, damit auch andere sie nutzen können.

Bedeutung für Banken und Versicherungen

Banken und Versicherungsunternehmen müssen strenge Vorschriften einhalten, die eine Überprüfung der Identität ihrer Kunden durch die Prüfung ihrer Dokumente verlangen. Um diesen Prozess zu vereinfachen, wurden automatische Methoden entwickelt, um Dokumente zu klassifizieren, sie in Bildern zu lokalisieren und relevante Informationen wie Text oder visuelle Merkmale zu extrahieren. Diese Systeme sind in den letzten Jahren, besonders auf mobilen Geräten, üblich geworden.

Trotz der laufenden Forschung fehlen immer noch grosse öffentliche Datensätze, die für Tests und Vergleiche genutzt werden können, was es für die Forscher schwierig macht, Ergebnisse zu reproduzieren.

Zweck des Datensatzes

Das Hauptziel des DocXPand-25k Datensatzes ist es, eine Ressource bereitzustellen, die zur Bewertung verschiedener Methoden zur Ausweis-Analyse verwendet werden kann, darunter:

  • Klassifizierung von Ausweisarten
  • Lokalisierung von Ausweisen in Bildern
  • Erkennung spezifischer Merkmale wie Fotos und Unterschriften
  • Erkennung von Textfeldern auf Ausweisen

Verwandte Arbeiten

Frühere Datensätze, wie die MIDV-Familie, hatten einen erheblichen Einfluss auf die Forschung zur Ausweis-Analyse. Zum Beispiel enthält der MIDV-500-Datensatz, der 2019 veröffentlicht wurde, 50 verschiedene Klassen von Ausweisen. Allerdings hatte er Einschränkungen, wie unterschiedliche Bildauflösungen und Aufnahmebedingungen.

Nachfolgende Datensätze, wie MIDV-2019 und MIDV-2020, versuchten, diese Einschränkungen zu verbessern. Sie führten mehr Vielfalt in Dokumentklassen und Aufnahmebedingungen ein, mangelten aber weiterhin an robusten Werkzeugen zur Erstellung weiterer Beispiele.

Es gibt auch andere Datensätze mit begrenztem Einfluss, aber die meisten kombinieren nicht die Merkmale wie hohe Variabilität in den Aufnahmebedingungen oder umfangreiche Kennzeichnung, die effektives Benchmarking ermöglichen.

Design des Datensatzes

Wir haben uns zum Ziel gesetzt, einen Datensatz zu erstellen, der reale Bedingungen widerspiegelt. Unser Datensatz zeigt eine Vielzahl von Ausweisdokumenten, die notwendige Details wie Name, Geburtsdatum und Foto enthalten. Wir haben IDs nach Art, ausstellendem Land und Ausstellungszeitraum kategorisiert.

Der DocXPand-25k Datensatz umfasst neun fiktive Dokumentklassen, die von einem professionellen Grafikdesigner nach speziellen Richtlinien entworfen wurden, um Realismus zu gewährleisten. Die Templates wurden sorgfältig erstellt, um eine vielfältige Auswahl an visuellen Merkmalen und Layouts einzubeziehen.

Generierung von Dokumentenbildern

Der Prozess der Erstellung von Dokumentenbildern begann mit dem Design von Vorlagen, die markierten, wo Text und Bilder hinzugefügt werden sollten. Wir haben Generatoren erstellt, die Inhalte für Textfelder erzeugten, ohne echte Identitätsdaten zu verwenden. Das half, Datenschutzprobleme zu vermeiden, während dennoch realistisch aussehende Dokumente erzeugt wurden.

Zufällig generierte Werte wurden für persönliche Informationen verwendet, und zusätzliche Werkzeuge wurden eingesetzt, um Strichcodes und andere visuelle Elemente zu erstellen. Um den Realismus weiter zu erhöhen, haben wir künstliche Intelligenz genutzt, um Gesichter für Identitätsfotos zu generieren und eine vielfältige Darstellung sicherzustellen.

Integration von Dokumenten in Hintergründen

Um unsere Bilder noch realistischer zu machen, haben wir Tausende von Bildern gesammelt, die reale ID-Dokumente in Alltagssituationen zeigen. Unsere Software hat dann die tatsächlichen IDs in diesen Bildern durch unsere generierten Dokumente ersetzt, sodass sie gut mit dem Hintergrund harmonieren. Wir haben darauf geachtet, dass keine persönlichen Informationen in den finalen Bildern enthalten sind.

Dieser Integrationsprozess unterscheidet unseren Datensatz von anderen, da er viele Variationen und eine breite Palette von Hintergründen und Bedingungen ermöglicht.

Datensatzformat und Labels

Neben den Bildern bieten wir eine detaillierte Beschreibungsdatei im JSON-Format an. Jedes Bild hat umfangreiche Labels, die beinhalten:

  • Dokumentklassifikation
  • Koordinaten der ID im Bild
  • Standorte von Merkmalen wie Fotos und Strichcodes
  • Werte für jedes Textfeld

Insgesamt umfasst der Datensatz 24.994 gekennzeichnete Bilder in 15 Dokumentklassen und bietet 237.895 gekennzeichnete Textfelder zur Analyse.

Analyse der visuellen Ähnlichkeit

Um zu bestätigen, dass unser Datensatz repräsentativ für reale Bedingungen ist, haben wir ihn mit einer privaten Sammlung von echten ID-Bildern verglichen, die von Nutzern aufgenommen wurden. Diese Analyse konzentrierte sich darauf, wie visuell ähnlich unser Datensatz zu den echten Bildern war, die von bestehenden Systemen verarbeitet wurden.

Durch ein Verfahren zur Messung der visuellen Ähnlichkeit fanden wir heraus, dass unser Datensatz eng mit den Arten von Bildern übereinstimmte, die typischerweise von Industrie-Systemen analysiert werden.

Bewertungsmetriken und Baselines

In diesem Abschnitt skizzieren wir Metriken und grundlegende Tests zur Bewertung, wie gut verschiedene Methoden bei den Aufgaben der ID-Klassifikation, Lokalisierung und Texterkennung abschneiden.

ID-Klassifikation

Die ID-Klassifikation beinhaltet die Bestimmung der Art des Dokuments in einem Bild basierend auf visuellen und semantischen Elementen. Wir haben unseren Datensatz in Trainings-, Validierungs- und Testgruppen unterteilt und dabei darauf geachtet, dass keine Überschneidungen in den Hintergründen bestehen.

Der Trainingssatz umfasst über 18.000 Bilder, während die Validierungs- und Testsätze jeweils etwa 3.000 Bilder enthalten. Bei der Bewertung der Klassifikationsleistung konzentrieren wir uns darauf, wie viele Dokumente korrekt klassifiziert wurden im Verhältnis zur Gesamtzahl der Dokumente.

ID-Lokalisierung

Die Lokalisierung von Dokumenten zielt darauf ab, den Standort eines Dokuments innerhalb eines Bildes zu identifizieren. Wir betrachten die Formen von Dokumenten als Vierecke, die durch ihre vier Ecken definiert sind.

Die Genauigkeit der Lokalisierung kann gemessen werden, indem die vorhergesagte Position mit dem tatsächlichen Standort des Dokuments im Bild verglichen wird.

Texterkennung

Bei der Texterkennung nehmen wir an, dass IDs bereits in Bildern lokalisiert wurden. Wir bewerten, wie gut Text aus diesen Feldern erkannt werden kann, basierend auf Metriken, die auf Fehlerquoten basieren.

In unserem Datensatz gibt es verschiedene Kategorien von Textfeldern, darunter numerische und alphanumerische Felder.

Fazit

Der DocXPand-25k Datensatz stellt einen bedeutenden Erfolg in der Entwicklung eines zuverlässigen Datensatzes für Methoden zur Dokumenten-Analyse dar. Er bietet eine vielfältige Auswahl an Dokumenttypen und Hintergründen, die reale ID-Bilder widerspiegeln, wie durch unsere Vergleiche zur visuellen Ähnlichkeit gezeigt wird. Während wir Basisbewertungen für Klassifikations-, Lokalisierungs- und Texterkennungsaufgaben anbieten, ermutigen wir zu weiteren Verbesserungen und Untersuchungen. Wir hoffen, dass dieser Datensatz eine wertvolle Ressource für Forscher ist, die an automatischen Identitätsverifikationstechnologien arbeiten.

Originalquelle

Titel: DocXPand-25k: a large and diverse benchmark dataset for identity documents analysis

Zusammenfassung: Identity document (ID) image analysis has become essential for many online services, like bank account opening or insurance subscription. In recent years, much research has been conducted on subjects like document localization, text recognition and fraud detection, to achieve a level of accuracy reliable enough to automatize identity verification. However, there are only a few available datasets to benchmark ID analysis methods, mainly because of privacy restrictions, security requirements and legal reasons. In this paper, we present the DocXPand-25k dataset, which consists of 24,994 richly labeled IDs images, generated using custom-made vectorial templates representing nine fictitious ID designs, including four identity cards, two residence permits and three passports designs. These synthetic IDs feature artificially generated personal information (names, dates, identifiers, faces, barcodes, ...), and present a rich diversity in the visual layouts and textual contents. We collected about 5.8k diverse backgrounds coming from real-world photos, scans and screenshots of IDs to guarantee the variety of the backgrounds. The software we wrote to generate these images has been published (https://github.com/QuickSign/docxpand/) under the terms of the MIT license, and our dataset has been published (https://github.com/QuickSign/docxpand/releases/tag/v1.0.0) under the terms of the CC-BY-NC-SA 4.0 License.

Autoren: Julien Lerouge, Guillaume Betmont, Thomas Bres, Evgeny Stepankevich, Alexis Bergès

Letzte Aktualisierung: 2024-07-30 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2407.20662

Quell-PDF: https://arxiv.org/pdf/2407.20662

Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Ähnliche Artikel