Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Visão computacional e reconhecimento de padrões

Melhorando o Reconhecimento de Entidades em Imagens de Documentos

Novo método baseado em grafo melhora a extração de entidades de diversos tipos de documentos.

― 6 min ler


Reconhecimento deReconhecimento deEntidades via Método deGráficoextração de entidades em documentos.Um novo método aumenta a precisão na
Índice

O Reconhecimento de Entidades em imagens de Documentos é importante para extrair informações específicas de vários tipos de documentos, como formulários, recibos e tabelas. Métodos tradicionais costumam se basear apenas na análise do texto, mas essa abordagem ignora o layout e as relações espaciais presentes nesses documentos. Este artigo apresenta um novo método que usa uma abordagem baseada em grafos para melhorar o reconhecimento de entidades em imagens de documentos, especialmente quando há poucos Dados de Treinamento disponíveis.

Problema com Métodos Existentes

Técnicas recentes tentaram utilizar informações de layout usando coordenadas de caixas delimitadoras, que ajudam a definir onde cada pedaço de texto está localizado. Embora esse método seja simples e eficaz, ele tem suas fraquezas. Documentos podem sofrer alterações, como deslocamentos, rotações ou escalas, o que pode mudar significativamente as coordenadas do texto. Isso significa que se apenas nos basearmos nessas coordenadas, podemos não identificar com precisão as entidades que queremos extrair.

Método Proposto

Para resolver esses problemas, propomos uma nova abordagem que enfatiza as posições relativas dos Tokens (ou segmentos de texto) em um documento. Em vez de usar apenas coordenadas de caixas delimitadoras, observamos como os tokens estão conectados entre si para formar um grafo. Nesse modelo, cada token é um nó, e criamos arestas entre os tokens com base em suas relações espaciais.

Construção do Grafo

Construímos esses grafos usando dois métodos:

  1. k-vizinhos mais próximos no espaço: Para cada token, conectamos ao token mais próximo com base na distância no documento.
  2. k-vizinhos mais próximos em ângulos: Esse método considera a direção em que estamos olhando para os tokens. Encontramos os tokens mais próximos com base em vários ângulos a partir da posição de cada token.

Ao criar grafos dessa forma, garantimos que nosso modelo ainda possa representar com precisão as relações entre os tokens, mesmo que o documento seja deslocado, rotacionado ou escalado.

Integração com Modelos de Linguagem

Depois, combinamos esses grafos com modelos de linguagem existentes, que são pré-treinados para entender texto. A nova estrutura que formamos permite que o modelo aproveite tanto a informação de layout quanto as relações entre as palavras. Essa combinação ajuda a melhorar a precisão do reconhecimento de entidades.

Benefícios da Nova Abordagem

Nosso método tem várias vantagens:

  • Robustez: É menos afetado por alterações de imagem. As relações topológicas que usamos podem manter seu significado mesmo quando o documento sofre manipulações comuns.
  • Eficiência em Configurações de Poucos Exemplos: O método funciona bem mesmo com dados de treinamento limitados. Isso permite que o modelo generalize melhor para novos documentos que não foram vistos.

Experimentos e Resultados

Para validar nossa abordagem, realizamos experimentos em dois conjuntos de dados, que incluem vários tipos de documentos e um rico conjunto de anotações. Comparamos nosso novo método com modelos tradicionais usando LayoutLMv2 e LayoutLMv3.

Visão Geral dos Conjuntos de Dados

  1. FUNSD: Este conjunto de dados contém formulários que foram digitalizados e anotados. Inclui diferentes tipos de rótulos, como "cabeçalho", "pergunta" e "resposta".
  2. CORD: Este conjunto consiste em recibos e inclui vários rótulos que ajudam a categorizar as informações encontradas nos documentos.

Métricas de Avaliação

Usamos métricas padrão para avaliar o desempenho, como precisão, recall e a pontuação F1. Essas métricas nos ajudam a entender quão precisamente nossos modelos identificam entidades em comparação com as anotações feitas por humanos.

Resultados

Nossos experimentos mostraram várias descobertas importantes:

  • Nosso modelo baseado em grafos superou significativamente os modelos tradicionais em ambos os conjuntos de dados.
  • As melhorias foram especialmente notáveis em condições de poucos exemplos, onde o número de amostras de treinamento era limitado.
  • Quando alteramos as imagens dos documentos através de deslocamentos, escalas ou rotações, nosso modelo manteve um desempenho superior em comparação com as linhas de base.

Estudos de Caso

Incluímos também estudos de caso específicos para mostrar a eficácia do nosso modelo. Em um exemplo do conjunto de dados FUNSD, o modelo tradicional classificou incorretamente alguns tokens, enquanto nosso modelo identificou corretamente as relações entre eles. Da mesma forma, em um exemplo do CORD, nosso método reconheceu com precisão um rótulo complexo que confundiu os modelos de referência.

Conclusão

Este estudo apresenta uma nova forma de abordar o reconhecimento de entidades em imagens de documentos usando uma abordagem baseada em grafos que destaca as relações entre os tokens. Ao integrar isso com modelos de linguagem poderosos, damos grandes passos para superar as limitações dos métodos anteriores, especialmente em situações desafiadoras envolvendo manipulação de imagens e dados de treinamento limitados.

Trabalhos Futuros

Olhando para o futuro, planejamos aplicar nossa estrutura a outros tipos de modelos e explorar mais recursos que poderiam beneficiar o reconhecimento de entidades. Queremos incluir relações semânticas, além das topológicas, para aprimorar ainda mais as capacidades do nosso método. Também reconhecemos que a estrutura de nossos grafos pode variar significativamente com base nos tipos de documentos, e vamos investigar como essas diferenças afetam o desempenho.

Considerações Éticas

Nosso trabalho utiliza conjuntos de dados disponíveis publicamente e se baseia em modelos de código aberto. Estamos comprometidos com a transparência em nossa pesquisa e planejamos compartilhar nosso código e metodologias. Não prevemos nenhuma preocupação ética surgindo de nossa abordagem.

Resumo dos Modelos de Referência

Comparamos nosso modelo com vários modelos conhecidos que se destacam na área de reconhecimento de entidades:

  • BERT: Este modelo foca no texto e é treinado para prever palavras mascaradas enquanto entende as relações entre frases.
  • RoBERTa: Uma versão aprimorada do BERT, treinada com mais dados e métodos de pré-treinamento melhorados.
  • LayoutLM: Este modelo combina informações de layout com texto, permitindo considerar embeddings espaciais.
  • LayoutLMv2 e LayoutLMv3: Esses modelos melhoram ainda mais o LayoutLM integrando informações visuais e otimizando o alinhamento entre texto e imagens.

Em conclusão, nosso método proposto mostra resultados promissores que podem levar a um melhor reconhecimento de entidades em documentos, tornando-o mais resistente a alterações e mais adequado para aplicações do mundo real.

Fonte original

Título: Towards Few-shot Entity Recognition in Document Images: A Graph Neural Network Approach Robust to Image Manipulation

Resumo: Recent advances of incorporating layout information, typically bounding box coordinates, into pre-trained language models have achieved significant performance in entity recognition from document images. Using coordinates can easily model the absolute position of each token, but they might be sensitive to manipulations in document images (e.g., shifting, rotation or scaling), especially when the training data is limited in few-shot settings. In this paper, we propose to further introduce the topological adjacency relationship among the tokens, emphasizing their relative position information. Specifically, we consider the tokens in the documents as nodes and formulate the edges based on the topological heuristics from the k-nearest bounding boxes. Such adjacency graphs are invariant to affine transformations including shifting, rotations and scaling. We incorporate these graphs into the pre-trained language model by adding graph neural network layers on top of the language model embeddings, leading to a novel model LAGER. Extensive experiments on two benchmark datasets show that LAGER significantly outperforms strong baselines under different few-shot settings and also demonstrate better robustness to manipulations.

Autores: Prashant Krishnan, Zilong Wang, Yangkun Wang, Jingbo Shang

Última atualização: 2024-02-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.14828

Fonte PDF: https://arxiv.org/pdf/2305.14828

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes