Simple Science

Ciencia de vanguardia explicada de forma sencilla

# Informática# Visión por Computador y Reconocimiento de Patrones# Aprendizaje automático

Presentamos el conjunto de datos DocXPand-25k para verificación de identidad

Un nuevo conjunto de datos para analizar documentos de identidad y ayudar a servicios en línea.

― 7 minilectura


Dataset DocXPand-25kDataset DocXPand-25kReveladodocumentos de identidad.Un recurso clave para el análisis de
Tabla de contenidos

El análisis de imágenes de documentos de identidad es importante para muchos servicios en línea, como abrir cuentas bancarias y contratar seguros. En los últimos años, se ha investigado mucho para mejorar cómo encontramos documentos en imágenes, reconocemos texto y detectamos fraudes. Sin embargo, los investigadores enfrentan desafíos por la falta de grandes Conjuntos de datos para probar y comparar sus métodos. Este problema surge principalmente por las leyes de privacidad y preocupaciones de seguridad.

Conjunto de Datos DocXPand-25k

Este artículo presenta el conjunto de datos DocXPand-25k, que contiene 24,994 imágenes etiquetadas de documentos de identidad. Los documentos fueron creados usando plantillas personalizadas que representan nueve diseños de ID ficticios, que incluyen cuatro tarjetas de identidad, dos permisos de residencia y tres pasaportes. Cada uno de estos IDs tiene información personal falsa, como nombres y fechas, y varían en apariencia visual y diseño de texto.

Para garantizar una gran variedad de fondos, recolectamos alrededor de 5,800 imágenes tomadas de fondos del mundo real, incluyendo fotos y documentos escaneados. El software usado para generar estas imágenes es de código abierto, lo que permite que otros también lo utilicen.

Importancia para la Banca y los Seguros

Los bancos y las compañías de seguros deben seguir regulaciones estrictas que requieren verificar la identidad de sus clientes revisando sus documentos. Para simplificar este proceso, se han desarrollado métodos automáticos para clasificar documentos, localizarlos en imágenes y extraer información relevante, como texto o características visuales. Estos sistemas se han vuelto comunes en los últimos años, especialmente en dispositivos móviles.

A pesar de la investigación en curso, todavía hay una falta de grandes conjuntos de datos públicos que se pueden usar para pruebas y comparación, lo que dificulta a los investigadores reproducir resultados.

Propósito del Conjunto de Datos

El objetivo principal del conjunto de datos DocXPand-25k es proporcionar un recurso que se pueda usar para evaluar varios métodos para el análisis de ID, incluyendo:

  • Clasificación de tipos de ID
  • Localización de IDs en imágenes
  • Detección de características específicas como fotos y firmas
  • Reconocimiento de campos de texto en IDs

Trabajo Relacionado

Conjuntos de datos anteriores, como la familia MIDV, han tenido una influencia significativa en la investigación sobre análisis de ID. Por ejemplo, el conjunto de datos MIDV-500, lanzado en 2019, contiene 50 clases diferentes de IDs. Sin embargo, tenía limitaciones, como variaciones en resoluciones de imagen y condiciones de captura.

Conjuntos de datos subsiguientes, como MIDV-2019 y MIDV-2020, buscaron mejorar estas limitaciones. Introdujeron más diversidad en clases de documentos y condiciones de captura, pero aún carecían de herramientas robustas para crear más ejemplos.

También hay otros conjuntos de datos con impacto limitado, pero la mayoría no combina características como alta variabilidad en condiciones de adquisición o etiquetado rico que permita una evaluación efectiva.

Diseño del Conjunto de Datos

Buscamos crear un conjunto de datos que refleje las condiciones del mundo real. Nuestro conjunto de datos muestra una variedad de documentos de identidad que incluyen detalles necesarios como nombre, fecha de nacimiento y foto. Clasificamos los IDs según tipo, país de emisión y período de emisión.

El conjunto de datos DocXPand-25k incluye nueve clases ficticias de documentos, cada una diseñada por un diseñador gráfico profesional siguiendo pautas específicas para garantizar el realismo. Las plantillas fueron creadas cuidadosamente para incluir una variedad de características visuales y diseños.

Generación de Imágenes de Documentos

El proceso de generación de imágenes de documentos comenzó con el diseño de plantillas que marcaban dónde debían añadirse textos e imágenes. Creamos generadores que producían contenido para campos de texto sin usar datos de identidad reales. Esto ayudó a evitar problemas de privacidad mientras se producían documentos con apariencia realista.

Se usaron valores generados al azar para la información personal, y se emplearon herramientas adicionales para crear códigos de barras y otros elementos visuales. Para aumentar aún más el realismo, utilizamos inteligencia artificial para generar rostros para las fotos de identidad, asegurando una representación diversa.

Integración de Documentos en Fondos

Para hacer que nuestras imágenes fueran aún más realistas, recolectamos miles de imágenes que mostraban documentos de ID reales en situaciones cotidianas. Nuestro software reemplazaría los IDs reales en estas imágenes con nuestros documentos generados, asegurando que se integraran bien con el fondo. Nos aseguramos de que ninguna información personal estuviera incluida en las imágenes finales.

Este proceso de integración diferencia nuestro conjunto de datos de otros, ya que permite muchas variaciones y una amplia gama de fondos y condiciones.

Formato del Conjunto de Datos y Etiquetas

Junto con las imágenes, proporcionamos un archivo de descripción detallado en formato JSON. Cada imagen tiene etiquetas ricas que incluyen:

  • Clasificación del documento
  • Coordenadas de ubicación del ID en la imagen
  • Ubicaciones de características como fotos y códigos de barras
  • Valores para cada campo de texto

En total, el conjunto de datos comprende 24,994 imágenes etiquetadas en 15 clases de documentos, ofreciendo 237,895 campos de texto etiquetados para análisis.

Análisis de Similitud Visual

Para confirmar que nuestro conjunto de datos es representativo de las condiciones del mundo real, lo comparamos con una colección privada de imágenes de ID reales capturadas por usuarios. Este análisis se centró en cuán visualmente similar era nuestro conjunto de datos a las imágenes reales procesadas por sistemas existentes.

Usando un método para medir la similitud visual, encontramos que nuestro conjunto de datos coincidía de cerca con los tipos de imágenes analizadas típicamente por los sistemas de la industria.

Métricas de Evaluación y Líneas Base

En esta sección, describimos métricas y pruebas básicas para evaluar qué tan bien se desempeñan varios métodos en las tareas relacionadas con la clasificación de ID, localización y Reconocimiento de texto.

Clasificación de ID

La clasificación de ID implica determinar el tipo de documento en una imagen según elementos visuales y semánticos. Dividimos nuestro conjunto de datos en grupos de entrenamiento, validación y prueba, asegurando que no hubiera superposición en los fondos.

El conjunto de entrenamiento incluye más de 18,000 imágenes, mientras que los conjuntos de validación y prueba contienen alrededor de 3,000 imágenes cada uno. Para evaluar el rendimiento de clasificación, nos enfocamos en cuántos documentos se clasificaron correctamente en relación con el número total de documentos.

Localización de ID

La localización de documentos busca identificar dónde se encuentra un documento dentro de una imagen. Consideramos las formas de los documentos como cuadriláteros, definidos por sus cuatro esquinas.

La precisión de la localización se puede medir comparando la posición predicha con la ubicación real del documento en la imagen.

Reconocimiento de Campos de Texto

En el reconocimiento de texto, asumimos que los IDs ya han sido localizados en las imágenes. Evaluamos qué tan bien se puede reconocer el texto de estos campos usando métricas basadas en tasas de error.

Existen diferentes categorías de campos de texto en nuestro conjunto de datos, incluyendo campos numéricos y alfanuméricos.

Conclusión

El conjunto de datos DocXPand-25k representa un logro significativo en el desarrollo de un conjunto de datos fiable para métodos de análisis de documentos. Ofrece una amplia gama de tipos de documentos y fondos que reflejan imágenes de ID del mundo real, como se demuestra en nuestras comparaciones de similitud visual. Aunque ofrecemos evaluaciones base para tareas de clasificación, localización y reconocimiento de texto, animamos a seguir mejorando e investigando. Esperamos que este conjunto de datos sirva como un recurso valioso para investigadores que trabajan en tecnologías de verificación de identidad automáticas.

Fuente original

Título: DocXPand-25k: a large and diverse benchmark dataset for identity documents analysis

Resumen: Identity document (ID) image analysis has become essential for many online services, like bank account opening or insurance subscription. In recent years, much research has been conducted on subjects like document localization, text recognition and fraud detection, to achieve a level of accuracy reliable enough to automatize identity verification. However, there are only a few available datasets to benchmark ID analysis methods, mainly because of privacy restrictions, security requirements and legal reasons. In this paper, we present the DocXPand-25k dataset, which consists of 24,994 richly labeled IDs images, generated using custom-made vectorial templates representing nine fictitious ID designs, including four identity cards, two residence permits and three passports designs. These synthetic IDs feature artificially generated personal information (names, dates, identifiers, faces, barcodes, ...), and present a rich diversity in the visual layouts and textual contents. We collected about 5.8k diverse backgrounds coming from real-world photos, scans and screenshots of IDs to guarantee the variety of the backgrounds. The software we wrote to generate these images has been published (https://github.com/QuickSign/docxpand/) under the terms of the MIT license, and our dataset has been published (https://github.com/QuickSign/docxpand/releases/tag/v1.0.0) under the terms of the CC-BY-NC-SA 4.0 License.

Autores: Julien Lerouge, Guillaume Betmont, Thomas Bres, Evgeny Stepankevich, Alexis Bergès

Última actualización: 2024-07-30 00:00:00

Idioma: English

Fuente URL: https://arxiv.org/abs/2407.20662

Fuente PDF: https://arxiv.org/pdf/2407.20662

Licencia: https://creativecommons.org/licenses/by-nc-sa/4.0/

Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.

Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.

Artículos similares