Revolucionando a digitalização de recibos com um novo app
Um app que simplifica a digitalização e armazenamento de recibos através da detecção automática.
― 7 min ler
Índice
Hoje em dia, muitos pagamentos estão mudando de dinheiro para métodos digitais. Porém, os recibos de papel ainda são bastante comuns após compras em lojas físicas. Esses recibos são importantes porque servem para várias coisas. Eles provêm prova de compra, que pode ser útil em casos de roubo ou para devolver produtos. Também ajudam a documentar despesas para empregadores ou autoridades fiscais. Além disso, os recibos de papel contêm informações detalhadas que muitas vezes não estão disponíveis pelos métodos de pagamento digitais, como os itens comprados, hora e local da compra, e quaisquer descontos aplicados. Portanto, parece improvável que os recibos de papel desapareçam completamente tão cedo.
Soluções Existentes
Existem vários aplicativos para smartphone que ajudam a capturar e digitalizar recibos de papel. Alguns populares incluem Apple Notes, Expensify e Zoho. O app Money Forward ME tem mais de 12 milhões de usuários no Japão e processa milhões de Imagens de recibos todo mês. A maioria desses aplicativos exige que o usuário alinhe bem o recibo em uma área específica na tela do celular. Esse processo pode ser chato e sujeito a erros. Por exemplo, pressionar o botão para tirar a foto pode mudar a posição da câmera, resultando em uma imagem borrada. Os usuários também podem ter dificuldades para tirar uma foto de cima se precisarem se levantar para alinhar o recibo corretamente. Portanto, um método automático para detectar e corrigir imagens de recibos tornaria o processo mais fácil para o usuário e também melhoraria a precisão de outras tarefas, como ler e gerenciar o texto no recibo.
Nossa Proposta
Esse texto discute um novo aplicativo para smartphone que permite aos usuários digitalizar rapidamente recibos de papel "movendo" o celular sobre os recibos. O app detecta e corrige automaticamente as imagens dos recibos, facilitando o armazenamento para os usuários. Uma etapa essencial nesse processo é a correção da imagem, que requer a Detecção precisa dos cantos do recibo.
Desafios na Detecção
Métodos tradicionais para detectar bordas e cantos em imagens costumam ter dificuldades com recibos de papel. Recibos do mundo real têm bordas irregulares, e as cores podem ser similares ao fundo, o que complica a detecção. A detecção imprecisa dos cantos pode levar a imagens distorcidas ao tentar corrigir a perspectiva. Nossa abordagem envolve tratar cada canto do recibo como um objeto separado. Usamos um Modelo moderno de detecção de objetos que combina imagens reais de recibos e DadosSintéticos criados para imitar cenários do mundo real.
Geração de Dados
Coletar um grande conjunto de imagens reais de recibos pode ser caro e demorado. Para superar isso, geramos dados sintéticos combinando imagens reais de recibos com vários fundos. Primeiro, tiramos um conjunto de imagens digitalizadas de recibos reais, garantindo que estejam em posição vertical com o mínimo de fundo exposto. Em seguida, aplicamos transformações aleatórias, como rotações e deslocamentos, para simular como os usuários poderiam tirar fotos de diferentes ângulos e posições.
Para criar os dados sintéticos, escolhemos fundos diversos em que os usuários poderiam colocar seus recibos. Assim, conseguimos treinar o modelo para reconhecer recibos contra uma variedade de fundos, incluindo aqueles que podem ter cores ou texturas parecidas. Gerando um conjunto de imagens que inclui vários recibos em posições aleatórias, garantimos que o modelo aprenda a ignorar objetos interferentes e focar no recibo alvo.
Técnicas de Aumento
Uma vez que temos nossos recibos sintéticos, aplicamos uma série de transformações para gerar uma variedade de imagens diferentes. Isso inclui mudar a escala, deslocar as posições e aplicar rotações para criar diferentes perspectivas. Isso ajuda a simular cenários da vida real em que a câmera do usuário pode não estar perfeitamente posicionada.
Ao aplicar essas transformações, não só criamos um conjunto de dados mais extenso, mas também ajudamos o modelo a aprender como identificar cantos de recibos mesmo quando não estão claramente visíveis ou perfeitamente alinhados.
Treinando o Modelo
Treinamos nosso modelo usando tanto dados reais quanto sintéticos. Para nosso processo de treinamento, usamos uma estrutura popular de aprendizado profundo que nos permite alimentar nossos dados rotulados e ajustar os parâmetros do modelo para melhorar a precisão. O modelo aprende a reconhecer os quatro cantos de um recibo como objetos únicos, em vez de procurar o recibo inteiro como uma única entidade.
Durante o treinamento, monitoramos o desempenho do modelo e fazemos ajustes conforme necessário. Nosso objetivo é que o modelo alcance alta precisão na detecção de cantos, mesmo em condições desafiadoras, como baixo contraste ou recibos sobrepostos.
Avaliação do Modelo
Para avaliar o desempenho do nosso modelo, comparamos sua performance com métodos tradicionais de detecção de bordas. Descobrimos que nossa abordagem é significativamente mais precisa. Por exemplo, enquanto os métodos tradicionais podem identificar corretamente os cantos apenas cerca de 36% das vezes, nosso modelo alcança uma precisão de mais de 85%. Essa melhoria é crucial para garantir que os usuários possam confiar no app para reconhecer e armazenar seus recibos corretamente.
Experiência do Usuário
Um dos principais objetivos do nosso aplicativo é simplificar a experiência do usuário. Em vez de exigir que os usuários alinhem perfeitamente seus recibos, o app permite que eles adotem uma abordagem mais relaxada, passando o celular sobre os recibos. Isso reduz a frustração e a probabilidade de erros.
Planejamos integrar esse recurso de detecção de recibos no aplicativo Money Forward ME, proporcionando aos usuários uma maneira tranquila de gerenciar seus recibos. Os usuários não precisarão se preocupar com o posicionamento ou alinhamento exato, tornando o processo mais agradável e menos estressante.
Melhorias Futuras
Embora nosso modelo atual mostre resultados promissores, reconhecemos o potencial para melhorias adicionais. Uma área que queremos explorar é a capacidade de detectar cantos que podem não estar totalmente visíveis, seja porque estão ocultos ou danificados. Também planejamos investigar como retificar imagens de recibos que estão curvados ou amassados.
Ao continuar a melhorar nosso modelo e usar dados mais variados do mundo real, esperamos alcançar um desempenho ainda melhor. Isso facilitará para os usuários capturar e gerenciar seus recibos, independentemente das condições.
Conclusão
Em resumo, desenvolvemos um aplicativo inovador para smartphone que permite aos usuários digitalizar facilmente recibos de papel ao escaneá-los com seus celulares. Nossa abordagem aproveita técnicas modernas de detecção de objetos, que se mostraram mais eficazes do que métodos tradicionais. Ao gerar dados sintéticos e treinar nosso modelo em um conjunto diversificado de imagens, conseguimos alta precisão na detecção de cantos de recibos mesmo em condições desafiadoras.
Esse aplicativo ajudará a agilizar o processo de gerenciamento de recibos, tornando-o mais acessível e amigável. No futuro, pretendemos aprimorar ainda mais o app enfrentando questões mais complexas relacionadas à detecção e correção de recibos. Agradecemos o feedback sobre nosso trabalho e estamos ansiosos para tornar essa ferramenta ainda melhor para os usuários.
Título: Automatic Detection and Rectification of Paper Receipts on Smartphones
Resumo: We describe the development of a real-time smartphone app that allows the user to digitize paper receipts in a novel way by "waving" their phone over the receipts and letting the app automatically detect and rectify the receipts for subsequent text recognition. We show that traditional computer vision algorithms for edge and corner detection do not robustly detect the non-linear and discontinuous edges and corners of a typical paper receipt in real-world settings. This is particularly the case when the colors of the receipt and background are similar, or where other interfering rectangular objects are present. Inaccurate detection of a receipt's corner positions then results in distorted images when using an affine projective transformation to rectify the perspective. We propose an innovative solution to receipt corner detection by treating each of the four corners as a unique "object", and training a Single Shot Detection MobileNet object detection model. We use a small amount of real data and a large amount of automatically generated synthetic data that is designed to be similar to real-world imaging scenarios. We show that our proposed method robustly detects the four corners of a receipt, giving a receipt detection accuracy of 85.3% on real-world data, compared to only 36.9% with a traditional edge detection-based approach. Our method works even when the color of the receipt is virtually indistinguishable from the background. Moreover, our method is trained to detect only the corners of the central target receipt and implicitly learns to ignore other receipts, and other rectangular objects. Including synthetic data allows us to train an even better model. These factors are a major advantage over traditional edge detection-based approaches, allowing us to deliver a much better experience to the user.
Autores: Edward Whittaker, Masashi Tanaka, Ikuo Kitagishi
Última atualização: 2023-03-10 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.05763
Fonte PDF: https://arxiv.org/pdf/2303.05763
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.overleaf.com/project/61f5e89ad8d3c0567b951736
- https://kdd.org/kdd2022/cfpAppliedDS.html
- https://dl.acm.org/ccs.cfm
- https://www.icloud.com/notes/
- https://www.expensify.com/
- https://www.zoho.com/expense/
- https://apps.apple.com/jp/app/wu-liao-jia-ji-bu-manefowado/id594145971
- https://docs.opencv.org/4.x/da/d54/group
- https://www.pyimagesearch.com/2014/08/25/
- https://rrc.cvc.uab.es/?ch=13
- https://developer.apple.com/documentation/vision
- https://developers.google.com/vision
- https://developers.google.com/ml-kit
- https://www.pyimagesearch.com/2014/09/01/
- https://drive.google.com/drive/folders/
- https://github.com/tensorflow/models/tree/master/
- https://github.com/aleju/imgaug
- https://github.com/tzutalin/labelImg
- https://download.tensorflow.org/models/object