新しいアプリでレシートのデジタル化を革命化する
自動検出でレシートのスキャンと保存を簡単にするアプリ。
― 1 分で読む
今の時代、現金での支払いからデジタルな方法に移行する支払いが多くなってるけど、実店舗での購入後には紙の領収書がまだ普通に渡されてるよね。この領収書は大事な役割があって、購入の証明になったり、盗難や返品の際に役立つんだ。経費を記録するためや、税務署用にも必要だしね。それに、紙の領収書には購入した品目や時間、場所、使った割引など、デジタル決済方法では得られない詳細な情報が含まれてるから、紙の領収書が完全になくなることはなさそうだよ。
既存の解決策
紙の領収書をデジタル化するためのスマホアプリはいくつかあって、Apple Notes、Expensify、Zohoなどが人気だね。日本で12百万以上のユーザーを持つMoney Forward MEアプリは、毎月何百万枚もの領収書画像を処理してる。多くのアプリは、ユーザーが領収書を画面の特定のエリアに正しく合わせる必要があるから、このプロセスは面倒でエラーが起こりやすいんだ。たとえば、写真を撮るボタンを押すとカメラの位置がずれて、ぼやけた画像になることもあるし、ちゃんと合わせるために立ち上がらなきゃならない場合は上からの写真を撮るのが難しいこともある。だから、領収書画像を自動で検出・修正する方法があれば、ユーザーにとって楽になるし、テキストの読み取りや管理といったさらなる作業の精度も向上すると思う。
私たちの提案
この論文では、ユーザーが領収書の上にスマホを「振る」ことで、紙の領収書を迅速にデジタル化できる新しいスマホアプリについて話してる。このアプリは、自動で領収書画像を検出して修正してくれて、ユーザーが簡単に保存できる。画像の修正はこのプロセスの重要なステップで、領収書の角を正確に検出する必要があるんだ。
検出の課題
従来の画像内でのエッジや角を検出する方法は、紙の領収書にはあまりうまくいかないんだ。実際の領収書は不均一なエッジを持っていて、色が背景と似ている場合が多くて、それが検出を難しくしてる。角の検出が不正確だと、視点を修正しようとしたときに画像が歪んでしまうこともある。私たちのアプローチは、領収書の各角を別のオブジェクトとして扱うこと。実際の領収書の画像とリアルなシナリオを模した合成データを組み合わせた近代的な物体検出モデルを使ってるんだ。
データ生成
大量の実際の領収書画像を集めるのは高くつくし時間もかかる。そこで、実際の領収書画像とさまざまな背景を組み合わせて合成データを生成するんだ。まず、実際の領収書のスキャン画像を確保し、背景を最小限にして垂直の状態にする。そして、ユーザーが異なる角度や位置から写真を撮るシミュレーションをするために、回転やシフトなどのランダムな変換を適用する。
合成データを作成するために、ユーザーが領収書を置く可能性のある多様な背景を選び、さまざまな背景に対して領収書を認識できるようにモデルを訓練する。ランダムな位置に複数の領収書が含まれる画像セットを生成することで、モデルが干渉物を無視して、ターゲットの領収書に集中できるようにしてる。
増強技術
合成領収書が用意できたら、さまざまな画像を生成するために一連の変換を適用する。スケールを変更したり、位置をシフトさせたり、回転を加えたりして多様な視点を作り出す。これにより、ユーザーのカメラが完璧に位置していない実生活のシナリオをシミュレートできるようにするんだ。
こうした変換を適用することで、データセットを広げるだけでなく、角が明確に見えない場合や完全に整列していない場合でも、モデルが領収書の角を特定する方法を学ぶ手助けをすることができる。
モデルの訓練
私たちは実データと合成データの両方を使ってモデルを訓練する。訓練プロセスでは、ラベル付けされたデータを供給し、モデルのパラメータを調整して精度を向上させることができる人気の深層学習フレームワークを使用している。モデルは、領収書の4つの角をユニークなオブジェクトとして認識するように学ぶのではなく、領収書全体を単一のエンティティとして探すようになってる。
訓練中はモデルのパフォーマンスを監視して、必要に応じて調整を加える。私たちの目標は、低コントラストや重なり合った領収書などの困難な条件でも、角の検出に高い精度を達成することなんだ。
モデルの評価
モデルの性能を評価するために、従来のエッジ検出方法と比較するんだ。私たちのアプローチはかなり精度が高いことが分かったよ。たとえば、従来の方法では36%程度しか角を正しく認識できないのに対し、私たちのモデルは85%以上の精度を達成してる。この改善は、ユーザーがアプリに信頼を置いて、領収書を正しく認識して保存できるようにするために重要なんだ。
ユーザー体験
私たちのアプリケーションの主な目標の1つは、ユーザーの体験を簡素化すること。ユーザーに領収書を完璧に整列させることを求めるのではなく、アプリを使うことでスマホを領収書の上にスイープするだけで済むようにする。これにより、フラストレーションやエラーの可能性が減るんだ。
この領収書検出機能をMoney Forward MEアプリに統合する計画で、ユーザーが自分の領収書を管理するためのシームレスな方法を提供するつもり。ユーザーは正確な位置合わせや整列について心配する必要がなくなって、プロセスがもっと楽しく、ストレスが少なくなるよ。
今後の改善
現在のモデルは promising な結果を示してるけど、さらなる改善の可能性も認識してる。特に、隠れているか壊れているために完全に見えない角を検出する能力を探求したいと思ってる。そして、曲がったり折れ曲がったりした領収書の画像を修正する方法も調査する予定。
モデルを引き続き強化し、より多様な実データを使用して、さらなる性能向上を目指してく。これにより、ユーザーが条件に関係なく領収書をキャプチャして管理するのが簡単になるといいな。
結論
要するに、私たちはユーザーがスマホで領収書を簡単にデジタル化できる新しいアプリケーションを開発したよ。私たちのアプローチは近代的な物体検出技術を活用していて、従来の方法よりも効果的だと証明されてる。合成データを生成し、多様な画像セットでモデルを訓練することで、困難な条件でも領収書の角を高精度で検出することが可能になったんだ。
このアプリケーションは領収書管理のプロセスを合理化して、もっとアクセスしやすくてユーザーフレンドリーにすることができる。将来的には、領収書の検出や修正に関する複雑な問題に取り組んで、さらにアプリを改善していくつもり。私たちの作業へのフィードバックに感謝し、ユーザーのためにこのツールをもっと良くしていくのを楽しみにしてるよ。
タイトル: Automatic Detection and Rectification of Paper Receipts on Smartphones
概要: We describe the development of a real-time smartphone app that allows the user to digitize paper receipts in a novel way by "waving" their phone over the receipts and letting the app automatically detect and rectify the receipts for subsequent text recognition. We show that traditional computer vision algorithms for edge and corner detection do not robustly detect the non-linear and discontinuous edges and corners of a typical paper receipt in real-world settings. This is particularly the case when the colors of the receipt and background are similar, or where other interfering rectangular objects are present. Inaccurate detection of a receipt's corner positions then results in distorted images when using an affine projective transformation to rectify the perspective. We propose an innovative solution to receipt corner detection by treating each of the four corners as a unique "object", and training a Single Shot Detection MobileNet object detection model. We use a small amount of real data and a large amount of automatically generated synthetic data that is designed to be similar to real-world imaging scenarios. We show that our proposed method robustly detects the four corners of a receipt, giving a receipt detection accuracy of 85.3% on real-world data, compared to only 36.9% with a traditional edge detection-based approach. Our method works even when the color of the receipt is virtually indistinguishable from the background. Moreover, our method is trained to detect only the corners of the central target receipt and implicitly learns to ignore other receipts, and other rectangular objects. Including synthetic data allows us to train an even better model. These factors are a major advantage over traditional edge detection-based approaches, allowing us to deliver a much better experience to the user.
著者: Edward Whittaker, Masashi Tanaka, Ikuo Kitagishi
最終更新: 2023-03-10 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2303.05763
ソースPDF: https://arxiv.org/pdf/2303.05763
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://www.overleaf.com/project/61f5e89ad8d3c0567b951736
- https://kdd.org/kdd2022/cfpAppliedDS.html
- https://dl.acm.org/ccs.cfm
- https://www.icloud.com/notes/
- https://www.expensify.com/
- https://www.zoho.com/expense/
- https://apps.apple.com/jp/app/wu-liao-jia-ji-bu-manefowado/id594145971
- https://docs.opencv.org/4.x/da/d54/group
- https://www.pyimagesearch.com/2014/08/25/
- https://rrc.cvc.uab.es/?ch=13
- https://developer.apple.com/documentation/vision
- https://developers.google.com/vision
- https://developers.google.com/ml-kit
- https://www.pyimagesearch.com/2014/09/01/
- https://drive.google.com/drive/folders/
- https://github.com/tensorflow/models/tree/master/
- https://github.com/aleju/imgaug
- https://github.com/tzutalin/labelImg
- https://download.tensorflow.org/models/object