Revolucionando la digitalización de recibos con una nueva app
Una app que simplifica el escaneo y almacenamiento de recibos a través de detección automática.
― 7 minilectura
Tabla de contenidos
En el mundo de hoy, muchos pagos están pasando de efectivo a métodos digitales. Sin embargo, los recibos en papel todavía se dan comúnmente después de compras en tiendas físicas. Estos recibos son importantes porque cumplen múltiples propósitos. Proporcionan prueba de compra, lo que puede ser útil en casos de robo o para devolver artículos. También ayudan a documentar gastos para los empleadores o autoridades fiscales. Además, los recibos en papel contienen información detallada que a menudo no está disponible a través de métodos de pago digitales, como los artículos comprados, la hora y la ubicación de la compra, y cualquier descuento utilizado. Por lo tanto, parece poco probable que los recibos en papel desaparezcan por completo en el corto plazo.
Soluciones Existentes
Hay varias aplicaciones para smartphones que ayudan a capturar y digitalizar recibos en papel. Algunas de las más populares son Apple Notes, Expensify y Zoho. La app Money Forward ME tiene más de 12 millones de usuarios en Japón y procesa millones de Imágenes de recibos cada mes. La mayoría de estas apps requieren que el usuario alinee correctamente el recibo dentro de un área específica en la pantalla de su teléfono. Este proceso puede ser tedioso y propenso a errores. Por ejemplo, presionar el botón para tomar una foto puede mover accidentalmente la posición de la cámara, resultando en una imagen borrosa. Los usuarios también pueden tener problemas para tomar una foto desde arriba si tienen que levantarse para alinear correctamente el recibo. Por lo tanto, un método automático para detectar y corregir imágenes de recibos haría el proceso más fácil para el usuario y también mejoraría la precisión de tareas posteriores, como leer y gestionar el texto del recibo.
Nuestra Propuesta
Este documento habla sobre una nueva aplicación para smartphones que permite a los usuarios digitalizar rápidamente recibos en papel "moviendo" su teléfono sobre los recibos. La app detecta y corrige automáticamente las imágenes de los recibos, facilitando a los usuarios su almacenamiento. Un paso esencial en este proceso es la corrección de la imagen, que requiere una Detección precisa de las esquinas del recibo.
Desafíos en la Detección
Los métodos tradicionales para detectar bordes y esquinas en imágenes a menudo tienen problemas con los recibos en papel. Los recibos del mundo real tienen bordes desiguales, y los colores pueden ser similares al fondo, lo que complica su detección. Una detección insegura de las esquinas puede llevar a imágenes distorsionadas al intentar corregir la perspectiva. Nuestro enfoque implica tratar cada esquina del recibo como un objeto separado. Usamos un Modelo moderno de detección de objetos que combina imágenes reales de recibos y DatosSintéticos creados para imitar escenarios del mundo real.
Generación de Datos
Recoger un gran conjunto de imágenes reales de recibos puede ser caro y llevar tiempo. Para superar esto, generamos datos sintéticos combinando imágenes reales de recibos con varios fondos. Primero, tomamos un conjunto de imágenes escaneadas de recibos reales, asegurándonos de que estén en posición vertical con el mínimo fondo expuesto. Luego aplicamos transformaciones aleatorias, como rotaciones y desplazamientos, para simular cómo los usuarios podrían tomar fotos desde diferentes ángulos y posiciones.
Para crear los datos sintéticos, elegimos fondos diversos sobre los que los usuarios podrían colocar sus recibos. De esta manera, podemos entrenar el modelo para reconocer recibos contra una variedad de fondos, incluidos aquellos que pueden tener colores o texturas similares. Al generar un conjunto de imágenes que incluye múltiples recibos en posiciones aleatorias, aseguramos que el modelo aprenda a ignorar objetos interferentes y se concentre en el recibo objetivo.
Técnicas de Aumento
Una vez que tenemos nuestros recibos sintéticos, aplicamos una serie de transformaciones para generar una variedad de imágenes diferentes. Esto incluye cambiar la escala, mover las posiciones y aplicar rotaciones para crear una variedad de perspectivas. Esto ayuda a simular escenarios de la vida real donde la cámara del usuario podría no estar perfectamente posicionada.
Al aplicar tales transformaciones, no solo creamos un conjunto de datos más amplio, sino que también ayudamos al modelo a aprender a identificar las esquinas del recibo incluso cuando no son claramente visibles o están perfectamente alineadas.
Entrenamiento del Modelo
Entrenamos nuestro modelo usando tanto datos reales como sintéticos. Para nuestro proceso de entrenamiento, usamos un marco de aprendizaje profundo popular que nos permite alimentar nuestros datos etiquetados y ajustar los parámetros del modelo para mejorar su precisión. El modelo aprende a reconocer las cuatro esquinas de un recibo como objetos únicos, en lugar de buscar todo el recibo como una sola entidad.
Durante el entrenamiento, monitoreamos el rendimiento del modelo y hacemos ajustes según sea necesario. Nuestro objetivo es que el modelo logre una alta precisión en la detección de esquinas incluso en condiciones desafiantes, como bajo contraste o recibos superpuestos.
Evaluación del Modelo
Para evaluar cuán bien está funcionando nuestro modelo, comparamos su rendimiento con los métodos tradicionales de detección de bordes. Descubrimos que nuestro enfoque es significativamente más preciso. Por ejemplo, mientras que los métodos tradicionales pueden identificar correctamente las esquinas solo alrededor del 36% de las veces, nuestro modelo logra una precisión de más del 85%. Esta mejora es crucial para garantizar que los usuarios puedan confiar en la app para reconocer y almacenar correctamente sus recibos.
Experiencia del Usuario
Uno de los principales objetivos de nuestra aplicación es simplificar la experiencia del usuario. En lugar de requerir que los usuarios alineen sus recibos perfectamente, la app les permite tomar un enfoque más relajado al pasar su teléfono sobre los recibos. Esto reduce la frustración y la probabilidad de errores.
Planeamos integrar esta función de detección de recibos en la app Money Forward ME, proporcionando a los usuarios una forma fluida de gestionar sus recibos. Los usuarios no tendrán que preocuparse por la posición o alineación exacta, haciendo que el proceso sea más agradable y menos estresante.
Mejoras Futuras
Aunque nuestro modelo actual muestra resultados prometedores, reconocemos el potencial para más mejoras. Un área que queremos explorar es la capacidad de detectar esquinas que pueden no estar completamente visibles, ya sea porque están ocultas o dañadas. También planeamos investigar cómo rectificar imágenes de recibos que están curvados o doblados.
Al continuar mejorando nuestro modelo y usar datos del mundo real más variados, esperamos lograr un rendimiento aún mejor. Esto facilitará a los usuarios capturar y gestionar sus recibos, sin importar las condiciones.
Conclusión
En resumen, hemos desarrollado una novedad de aplicación para smartphones que permite a los usuarios digitalizar fácilmente recibos en papel al escanearlos con sus teléfonos. Nuestro enfoque aprovecha técnicas modernas de detección de objetos, que han demostrado ser más efectivas que los métodos tradicionales. Al generar datos sintéticos y entrenar nuestro modelo en un conjunto diverso de imágenes, podemos lograr una alta precisión en la detección de esquinas de recibos incluso en condiciones desafiantes.
Esta aplicación ayudará a agilizar el proceso de gestión de recibos, haciéndolo más accesible y fácil de usar. En el futuro, nuestro objetivo es seguir mejorando la app abordando problemas más complejos relacionados con la detección y corrección de recibos. Agradecemos los comentarios sobre nuestro trabajo y esperamos hacer esta herramienta aún mejor para los usuarios.
Título: Automatic Detection and Rectification of Paper Receipts on Smartphones
Resumen: We describe the development of a real-time smartphone app that allows the user to digitize paper receipts in a novel way by "waving" their phone over the receipts and letting the app automatically detect and rectify the receipts for subsequent text recognition. We show that traditional computer vision algorithms for edge and corner detection do not robustly detect the non-linear and discontinuous edges and corners of a typical paper receipt in real-world settings. This is particularly the case when the colors of the receipt and background are similar, or where other interfering rectangular objects are present. Inaccurate detection of a receipt's corner positions then results in distorted images when using an affine projective transformation to rectify the perspective. We propose an innovative solution to receipt corner detection by treating each of the four corners as a unique "object", and training a Single Shot Detection MobileNet object detection model. We use a small amount of real data and a large amount of automatically generated synthetic data that is designed to be similar to real-world imaging scenarios. We show that our proposed method robustly detects the four corners of a receipt, giving a receipt detection accuracy of 85.3% on real-world data, compared to only 36.9% with a traditional edge detection-based approach. Our method works even when the color of the receipt is virtually indistinguishable from the background. Moreover, our method is trained to detect only the corners of the central target receipt and implicitly learns to ignore other receipts, and other rectangular objects. Including synthetic data allows us to train an even better model. These factors are a major advantage over traditional edge detection-based approaches, allowing us to deliver a much better experience to the user.
Autores: Edward Whittaker, Masashi Tanaka, Ikuo Kitagishi
Última actualización: 2023-03-10 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2303.05763
Fuente PDF: https://arxiv.org/pdf/2303.05763
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.
Enlaces de referencia
- https://www.overleaf.com/project/61f5e89ad8d3c0567b951736
- https://kdd.org/kdd2022/cfpAppliedDS.html
- https://dl.acm.org/ccs.cfm
- https://www.icloud.com/notes/
- https://www.expensify.com/
- https://www.zoho.com/expense/
- https://apps.apple.com/jp/app/wu-liao-jia-ji-bu-manefowado/id594145971
- https://docs.opencv.org/4.x/da/d54/group
- https://www.pyimagesearch.com/2014/08/25/
- https://rrc.cvc.uab.es/?ch=13
- https://developer.apple.com/documentation/vision
- https://developers.google.com/vision
- https://developers.google.com/ml-kit
- https://www.pyimagesearch.com/2014/09/01/
- https://drive.google.com/drive/folders/
- https://github.com/tensorflow/models/tree/master/
- https://github.com/aleju/imgaug
- https://github.com/tzutalin/labelImg
- https://download.tensorflow.org/models/object