Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle# Interaction homme-machine

Révolutionner la numérisation des reçus avec une nouvelle appli

Une appli qui simplifie le scan et le stockage des tickets avec détection automatique.

― 8 min lire


Appli de scan de reçusAppli de scan de reçusintelligentscan facile.Simplifier la gestion des reçus avec un
Table des matières

Dans le monde d'aujourd'hui, beaucoup de paiements passent du cash aux méthodes digitales. Pourtant, les reçus en papier sont encore souvent donnés après des achats dans des magasins physiques. Ces reçus sont importants car ils remplissent plusieurs fonctions. Ils prouvent l'achat, ce qui peut être utile en cas de vol ou pour retourner des articles. Ils aident aussi à documenter les dépenses pour les employeurs ou les autorités fiscales. En plus, les reçus en papier contiennent des infos détaillées souvent pas dispo avec les paiements digitaux, comme les articles achetés, l'heure et le lieu de l'achat, et les remises utilisées. Donc, il est peu probable que les reçus en papier disparaissent complètement de sitôt.

Solutions Existantes

Il existe plusieurs applis pour smartphone qui aident à capturer et numériser les reçus en papier. Parmi les plus populaires, on trouve Apple Notes, Expensify et Zoho. L'appli Money Forward ME compte plus de 12 millions d'utilisateurs au Japon et traite des millions d'Images de reçus chaque mois. La plupart de ces apps demandent à l'utilisateur de bien aligner le reçu dans une zone précise sur l'écran de son téléphone. Ce processus peut être fastidieux et sujet à des erreurs. Par exemple, appuyer sur le bouton pour prendre une photo peut involontairement déplacer la position de la caméra, ce qui donne une image floue. Les utilisateurs peuvent aussi galérer à prendre une photo en hauteur s'ils doivent se lever pour bien aligner le reçu. Donc, une méthode automatique pour détecter et corriger les images de reçus rendrait le processus plus facile pour l'utilisateur et améliorerait aussi la précision des tâches suivantes, comme lire et gérer le texte sur le reçu.

Notre Proposition

Cet article parle d'une nouvelle appli pour smartphone qui permet aux utilisateurs de numériser rapidement les reçus en papier en "faisant passer" leur téléphone au-dessus des reçus. L'appli détecte et corrige automatiquement les images des reçus, rendant le stockage super facile pour les utilisateurs. Une étape essentielle dans ce processus est la correction de l'image, qui nécessite une Détection précise des coins du reçu.

Défis de Détection

Les méthodes traditionnelles pour détecter les bords et les coins des images ont souvent du mal avec les reçus en papier. Les reçus du monde réel ont des bords inégaux, et les couleurs peuvent être similaires à l'arrière-plan, ce qui complique leur détection. Une détection de coins inexacte peut entraîner des images déformées lors de la correction de la perspective. Notre approche consiste à traiter chaque coin du reçu comme un objet séparé. On utilise un Modèle moderne de détection d'objet qui combine de vraies images de reçus et des DonnéesSynthétiques créées pour imiter des scénarios du monde réel.

Génération de Données

Collecter un grand nombre d'images de reçus réels peut être coûteux et long. Pour contourner ça, on génère des données synthétiques en combinant de vraies images de reçus avec divers arrière-plans. On commence par prendre un ensemble d'images scannées de reçus réels, en s'assurant qu'elles soient en position verticale avec un minimum d'arrière-plan visible. On applique ensuite des transformations aléatoires, comme des rotations et des déplacements, pour simuler comment les utilisateurs pourraient prendre des photos sous différents angles et positions.

Pour créer les données synthétiques, on choisit des arrière-plans variés sur lesquels les utilisateurs pourraient placer leurs reçus. De cette façon, on peut entraîner le modèle à reconnaître les reçus contre divers arrière-plans, y compris ceux qui pourraient avoir des couleurs ou des textures similaires. En générant un ensemble d'images comprenant plusieurs reçus en positions aléatoires, on s'assure que le modèle apprend à ignorer les objets perturbateurs et à se concentrer sur le reçu cible.

Techniques d'Augmentation

Une fois qu'on a nos reçus synthétiques, on applique une série de transformations pour générer une variété d'images différentes. Ça inclut le changement d'échelle, le déplacement des positions, et l'application de rotations pour créer une variété de perspectives. Ça aide à simuler des scénarios réels où la caméra de l'utilisateur pourrait ne pas être parfaitement positionnée.

En appliquant ces transformations, on crée non seulement un jeu de données plus large mais on aide aussi le modèle à apprendre à identifier les coins des reçus même s'ils ne sont pas clairement visibles ou parfaitement alignés.

Entraînement du Modèle

On entraîne notre modèle en utilisant à la fois des données réelles et synthétiques. Pour notre processus d'entraînement, on utilise un framework de deep learning populaire qui nous permet d'alimenter nos données étiquetées et d'ajuster les paramètres du modèle pour améliorer sa précision. Le modèle apprend à reconnaître les quatre coins d'un reçu comme des objets uniques, plutôt que de rechercher le reçu entier comme une seule entité.

Pendant l'entraînement, on suit les performances du modèle et on fait des ajustements au besoin. Notre objectif est que le modèle atteigne une haute précision dans la détection des coins même dans des conditions difficiles, comme un faible contraste ou des reçus superposés.

Évaluation du Modèle

Pour évaluer à quel point notre modèle fonctionne bien, on compare ses performances aux méthodes traditionnelles de détection des bords. On trouve que notre approche est significativement plus précise. Par exemple, alors que les méthodes traditionnelles n'identifient correctement les coins qu'environ 36 % du temps, notre modèle atteint une précision de plus de 85 %. Cette amélioration est cruciale pour s'assurer que les utilisateurs peuvent faire confiance à l'appli pour reconnaître et stocker leurs reçus correctement.

Expérience Utilisateur

Un des principaux objectifs de notre appli est de simplifier l'expérience utilisateur. Au lieu d'exiger que les utilisateurs alignent parfaitement leurs reçus, l'appli leur permet d'adopter une approche plus détendue en passant simplement leur téléphone au-dessus des reçus. Ça réduit la frustration et la probabilité d'erreurs.

On prévoit d'intégrer cette fonctionnalité de détection de reçus dans l'appli Money Forward ME, fournissant aux utilisateurs un moyen fluide de gérer leurs reçus. Les utilisateurs n'auront pas à se soucier de l'alignement exact, rendant le processus plus agréable et moins stressant.

Améliorations Futures

Bien que notre modèle actuel montre des résultats prometteurs, on reconnait le potentiel d'améliorations supplémentaires. Un domaine qu'on souhaite explorer est la capacité à détecter des coins qui pourraient ne pas être complètement visibles, soit parce qu'ils sont cachés ou endommagés. On prévoit aussi d'examiner comment rectifier les images des reçus qui sont courbés ou pliés.

En continuant à améliorer notre modèle et en utilisant des données du monde réel plus variées, on espère obtenir des performances encore meilleures. Ça rendra plus facile pour les utilisateurs de capturer et gérer leurs reçus, peu importe les conditions.

Conclusion

En résumé, on a développé une nouvelle appli pour smartphone qui permet aux utilisateurs de numériser facilement des reçus en papier en les scannant avec leurs téléphones. Notre approche utilise des techniques modernes de détection d'objets, qui se sont révélées plus efficaces que les méthodes traditionnelles. En générant des données synthétiques et en entraînant notre modèle sur un ensemble d'images diversifié, on peut atteindre une haute précision dans la détection des coins des reçus même dans des conditions difficiles.

Cette appli aidera à simplifier le processus de gestion des reçus, le rendant plus accessible et convivial. À l'avenir, on vise à améliorer encore l'appli en s'attaquant à des problèmes plus complexes liés à la détection et à la correction des reçus. On apprécie les retours sur notre travail et on a hâte de rendre cet outil encore meilleur pour les utilisateurs.

Source originale

Titre: Automatic Detection and Rectification of Paper Receipts on Smartphones

Résumé: We describe the development of a real-time smartphone app that allows the user to digitize paper receipts in a novel way by "waving" their phone over the receipts and letting the app automatically detect and rectify the receipts for subsequent text recognition. We show that traditional computer vision algorithms for edge and corner detection do not robustly detect the non-linear and discontinuous edges and corners of a typical paper receipt in real-world settings. This is particularly the case when the colors of the receipt and background are similar, or where other interfering rectangular objects are present. Inaccurate detection of a receipt's corner positions then results in distorted images when using an affine projective transformation to rectify the perspective. We propose an innovative solution to receipt corner detection by treating each of the four corners as a unique "object", and training a Single Shot Detection MobileNet object detection model. We use a small amount of real data and a large amount of automatically generated synthetic data that is designed to be similar to real-world imaging scenarios. We show that our proposed method robustly detects the four corners of a receipt, giving a receipt detection accuracy of 85.3% on real-world data, compared to only 36.9% with a traditional edge detection-based approach. Our method works even when the color of the receipt is virtually indistinguishable from the background. Moreover, our method is trained to detect only the corners of the central target receipt and implicitly learns to ignore other receipts, and other rectangular objects. Including synthetic data allows us to train an even better model. These factors are a major advantage over traditional edge detection-based approaches, allowing us to deliver a much better experience to the user.

Auteurs: Edward Whittaker, Masashi Tanaka, Ikuo Kitagishi

Dernière mise à jour: 2023-03-10 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2303.05763

Source PDF: https://arxiv.org/pdf/2303.05763

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires