Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Inteligência Artificial

DocParser: Uma Nova Forma de Extrair Informações de Documentos

O DocParser melhora a extração de informações de documentos sem depender da tecnologia OCR.

― 6 min ler


O DocParser Transforma aO DocParser Transforma aExtração de Documentosextração de informações.Novo modelo acelera o processo de
Índice

Extrair informações de documentos complexos cheios de imagens, gráficos e diferentes layouts é uma tarefa difícil. Muitas indústrias precisam dessas informações para processar dados de faturas, formulários e recibos rapidamente. No passado, a maioria dos métodos usava um processo em duas etapas. Primeiro, esses métodos utilizavam tecnologia para ler o texto do documento (isso é frequentemente chamado de Reconhecimento Óptico de Caracteres, ou OCR). Depois, eles extraíam detalhes importantes do texto. No entanto, essa abordagem tem desvantagens significativas, pois depende de sistemas externos que podem atrasar o processo e torná-lo menos eficiente.

Recentemente, pesquisadores têm trabalhado em maneiras de extrair informações de documentos sem depender do OCR. Essa nova abordagem promete melhor desempenho e velocidade. Um modelo novo é chamado DocParser. Diferente dos modelos anteriores, o DocParser consegue reconhecer e extrair eficientemente características importantes do texto e das imagens nos documentos sem depender do OCR.

Desafios na Extração de Informações

A extração de informações de documentos visualmente ricos ganhou muita atenção devido à sua aplicação em várias áreas. Os modelos atuais que dependem do OCR enfrentam vários problemas:

  1. Dependência de Sistemas Externos: Esses métodos precisam de um motor OCR separado, o que pode retardar o processo. Se o sistema OCR tiver dificuldades com o layout do documento, toda a extração pode falhar.

  2. Necessidade de Treinamento: Treinar um sistema OCR requer muitos dados rotulados e recursos computacionais. Isso pode ser demorado e caro.

  3. Correção de Erros: Depois de usar o OCR, erros ainda podem ocorrer no texto. Corrigir esses erros adiciona custos e tempo extras.

  4. Uso Limitado de Informações Visuais: Os métodos em duas etapas muitas vezes não utilizam todas as características visuais no documento, já que se concentram principalmente no texto.

Devido a essas limitações, há uma necessidade urgente de modelos mais eficientes que possam lidar com todo o processo de uma vez.

O Modelo DocParser

O DocParser visa resolver os problemas dos métodos dependentes de OCR usando uma abordagem totalmente diferente. Ele usa um design de ponta a ponta que processa o documento como um todo, em vez de dividi-lo em etapas. Isso permite que o DocParser capture efetivamente tanto pequenos detalhes (como caracteres individuais) quanto padrões maiores (como palavras e frases).

Arquitetura do DocParser

O design do DocParser consiste em duas partes principais: um Codificador Visual e um Decodificador Textual.

  1. Codificador Visual: Esta parte do modelo trabalha com a imagem do documento. Primeiro, ela divide a imagem em pequenas partes, que podem representar partes de caracteres ou outros componentes. O codificador usa diferentes camadas para analisar o documento em estágios. Camadas iniciais se concentram em reconhecer pequenos detalhes nos caracteres, enquanto camadas posteriores buscam relações entre caracteres e palavras em todo o documento.

  2. Decodificador Textual: Depois que o codificador processa a informação visual, ele passa os dados para o decodificador. O decodificador trabalha com um token de tarefa para produzir a saída final, que consiste em campos de informação extraídos (como nomes, datas e valores) automaticamente.

Essa estrutura permite que o DocParser alcance alta precisão, enquanto também é mais rápido que os métodos anteriores.

Treinando o Modelo

Para treinar o DocParser de forma eficaz, os pesquisadores implementam um processo de treinamento em duas etapas.

  1. Etapa de Transferência de Conhecimento: Nessa etapa, eles começam ensinando o codificador a produzir um mapa de características específico, que define como o modelo reconhece e processa a informação visual. Essa etapa envolve o uso de um grande número de documentos para ajudar o codificador a aprender bem.

  2. Etapa de Leitura de Documentos Mascarados: Aqui, eles treinam o modelo para entender o contexto nos documentos mascarando algumas partes da imagem e ensinando o modelo a prever o que está faltando. Isso incentiva o modelo a aprender a relação entre imagens e texto, melhorando sua capacidade geral de extrair informações.

Após a conclusão das tarefas de treinamento, o DocParser passa por uma fase de ajuste fino, onde é testado com vários conjuntos de dados para verificar seu desempenho.

Resultados e Desempenho

O desempenho do DocParser foi testado em vários conjuntos de dados de referência. Os resultados mostram que ele supera muitos métodos existentes em termos de velocidade e precisão. Algumas descobertas principais incluem:

  • Pontuação F1 a Nível de Campo: Essa pontuação mostra quão bem o modelo extrai informações específicas. O DocParser obteve pontuações altas em vários conjuntos de dados, indicando que pode extrair informações precisas de forma confiável.

  • Velocidade de Processamento: O DocParser opera significativamente mais rápido do que métodos que dependem do OCR. Isso é crucial para indústrias que precisam processar grandes quantidades de documentos rapidamente.

  • Taxa de Precisão de Documentos: Essa métrica mede quantos documentos foram processados completamente sem erros. O DocParser demonstrou um desempenho forte, indicando que pode lidar efetivamente com documentos complexos.

No geral, os resultados destacam que o DocParser não só é eficaz em extrair informações detalhadas, mas também o faz em um tempo mais curto em comparação com métodos mais antigos.

Comparação com Outros Modelos

Comparar o DocParser a modelos existentes como Donut e LayoutLM-v3 mostra vantagens distintas. Enquanto esses métodos requerem etapas adicionais de OCR, o DocParser oferece uma abordagem mais simplificada, resultando em menos erros e processamento mais rápido. Isso torna o DocParser particularmente benéfico para empresas que precisam automatizar o processamento de documentos.

Conclusão

O DocParser é uma solução avançada para extrair informações de documentos complexos sem depender de sistemas OCR externos. Sua arquitetura e abordagem de treinamento únicas permitem que ele capture com sucesso detalhes relevantes, além de ser eficiente. Dado seu desempenho em vários conjuntos de dados, o DocParser é bem adequado para aplicações do mundo real, oferecendo uma avenida promissora para desenvolvimentos futuros na tecnologia de processamento de documentos.

Com pesquisas e desenvolvimentos contínuos, a capacidade de extrair e utilizar informações de uma variedade de documentos só continuará a melhorar, facilitando para as indústrias se adaptarem a um ambiente dinâmico onde o processamento de dados é fundamental. Com seu design inovador e capacidades comprovadas, o DocParser se destaca como uma opção líder nesse campo.

Fonte original

Título: DocParser: End-to-end OCR-free Information Extraction from Visually Rich Documents

Resumo: Information Extraction from visually rich documents is a challenging task that has gained a lot of attention in recent years due to its importance in several document-control based applications and its widespread commercial value. The majority of the research work conducted on this topic to date follow a two-step pipeline. First, they read the text using an off-the-shelf Optical Character Recognition (OCR) engine, then, they extract the fields of interest from the obtained text. The main drawback of these approaches is their dependence on an external OCR system, which can negatively impact both performance and computational speed. Recent OCR-free methods were proposed to address the previous issues. Inspired by their promising results, we propose in this paper an OCR-free end-to-end information extraction model named DocParser. It differs from prior end-to-end approaches by its ability to better extract discriminative character features. DocParser achieves state-of-the-art results on various datasets, while still being faster than previous works.

Autores: Mohamed Dhouib, Ghassen Bettaieb, Aymen Shabou

Última atualização: 2023-05-01 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2304.12484

Fonte PDF: https://arxiv.org/pdf/2304.12484

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes