Revolutionierung der Quittungsdigitalisierung mit einer neuen App
Eine App, die das Scannen und Speichern von Quittungen durch automatische Erkennung vereinfacht.
― 6 min Lesedauer
Inhaltsverzeichnis
In der heutigen Welt gehen viele Zahlungen von Bargeld zu digitalen Methoden über. Trotzdem gibt's in physischen Geschäften immer noch oft Papierquittungen nach dem Kauf. Die sind wichtig, weil sie mehrere Zwecke erfüllen. Sie bieten einen Kaufnachweis, was bei Diebstahl oder Rückgaben hilfreich sein kann. Ausserdem helfen sie, Ausgaben für Arbeitgeber oder das Finanzamt zu dokumentieren. Zusätzlich enthalten Papierquittungen detaillierte Informationen, die oft nicht über digitale Zahlungsmethoden verfügbar sind, wie gekaufte Artikel, Zeitpunkt und Ort des Kaufs sowie genutzte Rabatte. Daher ist es unwahrscheinlich, dass Papierquittungen so schnell ganz verschwinden.
Bestehende Lösungen
Es gibt mehrere Smartphone-Apps, die helfen, Papierquittungen festzuhalten und zu digitalisieren. Beliebte Apps sind Apple Notes, Expensify und Zoho. Die Money Forward ME-App hat über 12 Millionen Nutzer in Japan und verarbeitet jeden Monat Millionen von Quittungsbildern. Die meisten dieser Apps verlangen von den Nutzern, dass sie die Quittung richtig in einem bestimmten Bereich auf dem Bildschirm ausrichten. Dieser Prozess kann mühsam und fehleranfällig sein. Zum Beispiel kann das Drücken des Buttons zum Fotografieren unbeabsichtigt die Kameraposition verschieben, was zu einem verschwommenen Bild führt. Nutzer haben möglicherweise auch Schwierigkeiten, ein Überkopf-Foto zu machen, wenn sie aufstehen müssen, um die Quittung richtig auszurichten. Daher würde eine automatische Methode zur Erkennung und Korrektur von Quittungsbildern den Prozess für die Nutzer erleichtern und auch die Genauigkeit weiterer Aufgaben wie das Lesen und Verwalten des Quittungstextes verbessern.
Unser Vorschlag
In diesem Papier geht es um eine neue Smartphone-Anwendung, die es Nutzern ermöglicht, Papierquittungen schnell zu digitalisieren, indem sie ihr Handy einfach über die Quittungen „winken“. Die App erkennt und korrigiert die Quittungsbilder automatisch, was es den Nutzern leicht macht, sie zu speichern. Ein wichtiger Schritt in diesem Prozess ist die Korrektur des Bildes, die eine präzise Erkennung der Ecken der Quittung erfordert.
Herausforderungen bei der Erkennung
Traditionelle Methoden zur Erkennung von Kanten und Ecken in Bildern haben oft Schwierigkeiten mit Papierquittungen. Quittungen aus der realen Welt haben unebene Kanten, und Farben können sich mit dem Hintergrund ähneln, was die Erkennung erschwert. Ungenaue Eckenerkennung kann zu verzerrten Bildern führen, wenn versucht wird, die Perspektive zu korrigieren. Unser Ansatz besteht darin, jede Ecke der Quittung als separates Objekt zu behandeln. Wir verwenden ein modernes Objekterkennungsmodell, das echte Bilder von Quittungen mit synthetischen Daten kombiniert, die reale Szenarien nachahmen.
Datenerzeugung
Die Sammlung eines grossen Sets von realen Quittungsbildern kann teuer und zeitaufwendig sein. Um dies zu überwinden, erzeugen wir synthetische Daten, indem wir echte Quittungsbilder mit verschiedenen Hintergründen kombinieren. Zuerst nehmen wir eine Reihe von gescannten Bildern echter Quittungen, wobei wir darauf achten, dass sie in vertikaler Position mit minimalem Hintergrund gezeigt werden. Dann wenden wir zufällige Transformationen wie Drehungen und Verschiebungen an, um zu simulieren, wie Nutzer Fotos aus verschiedenen Winkeln und Positionen aufnehmen könnten.
Um die synthetischen Daten zu erstellen, wählen wir unterschiedliche Hintergründe, auf denen Nutzer ihre Quittungen ablegen könnten. So kann das Modell lernen, Quittungen vor einer Vielzahl von Hintergründen zu erkennen, einschliesslich solcher, die ähnliche Farben oder Texturen haben. Indem wir eine Bildersammlung generieren, die mehrere Quittungen in zufälligen Positionen enthält, stellen wir sicher, dass das Modell lernt, störende Objekte zu ignorieren und sich auf die Zielquittung zu konzentrieren.
Augmentationstechniken
Sobald wir unsere synthetischen Quittungen haben, wenden wir eine Reihe von Transformationen an, um eine Vielzahl unterschiedlicher Bilder zu erzeugen. Dazu gehört das Ändern des Massstabs, das Verschieben der Positionen und das Anwenden von Drehungen, um verschiedene Perspektiven zu schaffen. Das hilft, reale Szenarien zu simulieren, in denen die Kamera des Nutzers möglicherweise nicht perfekt positioniert ist.
Durch solche Transformationen schaffen wir nicht nur einen umfangreicheren Datensatz, sondern helfen dem Modell auch zu lernen, wie man die Quittungsecken erkennt, selbst wenn sie nicht klar sichtbar oder perfekt ausgerichtet sind.
Training des Modells
Wir trainieren unser Modell mit sowohl realen als auch synthetischen Daten. Für unseren Trainingsprozess verwenden wir ein beliebtes Deep-Learning-Framework, das es uns ermöglicht, unsere markierten Daten einzuspeisen und die Modellparameter anzupassen, um die Genauigkeit zu verbessern. Das Modell lernt, die vier Ecken einer Quittung als einzigartige Objekte zu erkennen, anstatt die gesamte Quittung als eine Einheit zu betrachten.
Während des Trainings überwachen wir die Leistung des Modells und nehmen Anpassungen vor, wenn nötig. Unser Ziel ist es, dass das Modell auch unter schwierigen Bedingungen wie niedrigen Kontrasten oder Überlappungen eine hohe Genauigkeit bei der Erkennung von Ecken erreicht.
Bewertung des Modells
Um zu bewerten, wie gut unser Modell funktioniert, vergleichen wir seine Leistung mit traditionellen Kantenerkennungsmethoden. Wir stellen fest, dass unser Ansatz deutlich genauer ist. Während traditionelle Methoden Ecken nur etwa 36 % der Zeit korrekt identifizieren, erreicht unser Modell eine Genauigkeit von über 85 %. Diese Verbesserung ist entscheidend, um sicherzustellen, dass Nutzer der App vertrauen können, dass ihre Quittungen korrekt erkannt und gespeichert werden.
Nutzererfahrung
Eines der Hauptziele unserer Anwendung ist es, die Nutzererfahrung zu vereinfachen. Anstatt dass die Nutzer ihre Quittungen perfekt ausrichten müssen, erlaubt die App ihnen, einen entspannteren Ansatz zu wählen, indem sie ihr Handy über die Quittungen schwenken. Das verringert Frustration und die Wahrscheinlichkeit von Fehlern.
Wir planen, diese Funktion zur Quittungserkennung in die Money Forward ME-App zu integrieren, um den Nutzern eine nahtlose Möglichkeit zu bieten, ihre Quittungen zu verwalten. Nutzer müssen sich keine Gedanken über die genaue Positionierung oder Ausrichtung machen, was den Prozess angenehmer und weniger stressig macht.
Zukünftige Verbesserungen
Obwohl unser aktuelles Modell vielversprechende Ergebnisse zeigt, erkennen wir das Potenzial für weitere Verbesserungen. Ein Bereich, den wir untersuchen möchten, ist die Fähigkeit, Ecken zu erkennen, die möglicherweise nicht vollständig sichtbar sind, weil sie verdeckt oder beschädigt sind. Ausserdem planen wir, zu untersuchen, wie man Bilder von Quittungen, die gekrümmt oder gefaltet sind, korrigieren kann.
Durch die kontinuierliche Verbesserung unseres Modells und die Verwendung vielfältigerer Daten aus der realen Welt hoffen wir, eine noch bessere Leistung zu erzielen. Das wird es den Nutzern erleichtern, ihre Quittungen zu erfassen und zu verwalten, unabhängig von den Bedingungen.
Fazit
Zusammenfassend haben wir eine neuartige Smartphone-Anwendung entwickelt, die es Nutzern ermöglicht, Papierquittungen einfach zu digitalisieren, indem sie sie mit ihren Handys scannen. Unser Ansatz nutzt moderne Objekterkennungstechniken, die sich als effektiver erwiesen haben als traditionelle Methoden. Durch die Generierung synthetischer Daten und das Training unseres Modells mit einer vielfältigen Bildersammlung können wir eine hohe Genauigkeit bei der Erkennung von Quittungsecken selbst unter schwierigen Bedingungen erreichen.
Diese Anwendung wird den Prozess der Verwaltung von Quittungen optimieren und ihn zugänglicher und benutzerfreundlicher machen. In Zukunft wollen wir die App weiter verbessern, indem wir komplexere Probleme im Zusammenhang mit der Quittungserkennung und -korrektur angehen. Wir schätzen das Feedback zu unserer Arbeit und freuen uns darauf, dieses Tool für die Nutzer noch besser zu machen.
Titel: Automatic Detection and Rectification of Paper Receipts on Smartphones
Zusammenfassung: We describe the development of a real-time smartphone app that allows the user to digitize paper receipts in a novel way by "waving" their phone over the receipts and letting the app automatically detect and rectify the receipts for subsequent text recognition. We show that traditional computer vision algorithms for edge and corner detection do not robustly detect the non-linear and discontinuous edges and corners of a typical paper receipt in real-world settings. This is particularly the case when the colors of the receipt and background are similar, or where other interfering rectangular objects are present. Inaccurate detection of a receipt's corner positions then results in distorted images when using an affine projective transformation to rectify the perspective. We propose an innovative solution to receipt corner detection by treating each of the four corners as a unique "object", and training a Single Shot Detection MobileNet object detection model. We use a small amount of real data and a large amount of automatically generated synthetic data that is designed to be similar to real-world imaging scenarios. We show that our proposed method robustly detects the four corners of a receipt, giving a receipt detection accuracy of 85.3% on real-world data, compared to only 36.9% with a traditional edge detection-based approach. Our method works even when the color of the receipt is virtually indistinguishable from the background. Moreover, our method is trained to detect only the corners of the central target receipt and implicitly learns to ignore other receipts, and other rectangular objects. Including synthetic data allows us to train an even better model. These factors are a major advantage over traditional edge detection-based approaches, allowing us to deliver a much better experience to the user.
Autoren: Edward Whittaker, Masashi Tanaka, Ikuo Kitagishi
Letzte Aktualisierung: 2023-03-10 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2303.05763
Quell-PDF: https://arxiv.org/pdf/2303.05763
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.overleaf.com/project/61f5e89ad8d3c0567b951736
- https://kdd.org/kdd2022/cfpAppliedDS.html
- https://dl.acm.org/ccs.cfm
- https://www.icloud.com/notes/
- https://www.expensify.com/
- https://www.zoho.com/expense/
- https://apps.apple.com/jp/app/wu-liao-jia-ji-bu-manefowado/id594145971
- https://docs.opencv.org/4.x/da/d54/group
- https://www.pyimagesearch.com/2014/08/25/
- https://rrc.cvc.uab.es/?ch=13
- https://developer.apple.com/documentation/vision
- https://developers.google.com/vision
- https://developers.google.com/ml-kit
- https://www.pyimagesearch.com/2014/09/01/
- https://drive.google.com/drive/folders/
- https://github.com/tensorflow/models/tree/master/
- https://github.com/aleju/imgaug
- https://github.com/tzutalin/labelImg
- https://download.tensorflow.org/models/object