Simple Science

Ciência de ponta explicada de forma simples

# Informática# Inteligência Artificial# Computação e linguagem# Visão computacional e reconhecimento de padrões# Recuperação de informação

Melhorando a Extração de Informações de Documentos Não Estruturados

Este estudo melhora a extração de informações chave usando um novo modelo para documentos não estruturados.

Furkan Pala, Mehmet Yasin Akpınar, Onur Deniz, Gülşen Eryiğit

― 10 min ler


Avançando na Extração deAvançando na Extração deInformações de Documentosdocumentos não estruturados.Um modelo novo melhora a extração de
Índice

Documentos são uma parte importante da nossa vida cotidiana. Eles ajudam a se comunicar e a manter registros. Esses documentos podem ser escritos, impressos ou digitais, e geralmente são usados para fins oficiais ou para compartilhar informações. A gente pode classificar os documentos com base na estrutura deles. Alguns documentos são super organizados, com tabelas e elementos visuais claros, enquanto outros têm alguma organização, mas não seguem regras rígidas. Documentos não estruturados, por outro lado, não têm um formato claro e são principalmente compostos por texto.

Extrair informações úteis desses documentos automaticamente é fundamental, especialmente no setor financeiro. Instituições financeiras, como bancos, lidam com uma grande quantidade de documentos todos os dias. Automatizar o processo de obter informações desses documentos pode economizar um tempão e esforço. Usando técnicas de Processamento de Linguagem Natural (NLP) e Visão Computacional, os bancos conseguem agilizar suas operações e focar mais nas tarefas importantes, como ajudar clientes e tomar decisões.

Quando se trata de extrair informações, é importante pensar sobre a estrutura e o conteúdo de um documento. Isso pode afetar muito a nossa capacidade de puxar as informações necessárias. Métodos e tecnologias diferentes podem ser necessários dependendo do tipo de documento. Por exemplo, documentos não estruturados podem exigir um entendimento mais profundo da língua, já que não têm um formato claro. Por outro lado, documentos estruturados podem permitir uma extração mais fácil, já que a informação normalmente está organizada em um formato conhecido, como uma tabela ou um formulário.

Usar sistemas multimodais para Extração de Informações Chave (KIE) pode ser especialmente útil, pois esses sistemas podem combinar insights de texto, layout e características visuais dos documentos. Embora já tenha rolado bastante pesquisa sobre documentos estruturados, documentos não estruturados ainda são uma área em crescimento. Isso se deve principalmente aos desafios que esses documentos apresentam e à disponibilidade limitada de datasets para estudá-los.

Recentemente, temos visto mais datasets públicos sendo lançados, especialmente para documentos estruturados e semi-estruturados. Isso gerou um aumento na popularidade de modelos baseados em transformadores, como BERTgrid e ViBERTgrid. Esses modelos conseguem encontrar seções importantes em um documento usando informações sobre sua posição. Porém, eles ainda não foram testados a fundo com documentos não estruturados.

Propósito do Estudo

Esse estudo tem como objetivo ver como os transformadores multimodais podem trabalhar com documentos não estruturados. Apresentamos um novo modelo chamado ViBERTgrid BiLSTM-CRF, que combina as habilidades do ViBERTgrid com outro modelo conhecido como BiLSTM-CRF. O ViBERTgrid é útil para gerar representações visuais e embeddings de palavras ricas, enquanto o BiLSTM-CRF permite uma melhor compreensão da sintaxe e do contexto em textos mais longos.

Vamos avaliar nosso modelo em um dataset de ordens de transferência de dinheiro não estruturadas, assim como em um dataset de recibos semi-estruturados chamado SROIE. Adicionalmente, estamos lançando um novo conjunto de anotações em nível de token para o dataset SROIE para facilitar seu uso em modelos multimodais. Nossas principais contribuições são:

  1. Melhoramos o desempenho do ViBERTgrid em documentos não estruturados ao adicionar uma camada BiLSTM-CRF.
  2. Mostramos que esse novo modelo também funciona bem em documentos semi-estruturados.
  3. Compartilhamos publicamente as anotações em nível de token do dataset SROIE para que outros possam usar.

Vamos estruturar o artigo de uma forma direta. A próxima seção revisa pesquisas anteriores sobre extração de informações de documentos. Depois disso, explicaremos os detalhes da arquitetura ViBERTgrid BiLSTM-CRF. Em seguida, cobriremos nossa configuração experimental e apresentaremos os resultados que obtivemos. Por último, vamos resumir nossas descobertas principais e sugerir possíveis direções para pesquisas futuras.

Trabalho Relacionado

O processo de extrair informações de documentos pode envolver várias tarefas, incluindo classificar documentos, reconhecer texto por meio de reconhecimento óptico de caracteres (OCR), identificar entidades nomeadas e extrair relacionamentos. A maioria dos métodos atuais trata a extração de informações chave como uma questão de etiquetagem de sequência, usando técnicas de reconhecimento de entidade nomeada (NER) para abordar o problema.

No entanto, alguns datasets de KIE não têm anotações detalhadas para cada token, o que leva os pesquisadores a desenvolverem suas próprias soluções. Para resolver essa questão, estamos fornecendo uma camada de anotação em nível de token para o dataset SROIE neste estudo.

Antes da popularidade das redes neurais profundas, os campos aleatórios condicionais (CRFs) eram uma abordagem comum para NER. CRFs modelam dependências entre previsões usando uma máquina de estados finita. Contudo, quando ficou claro que entender palavras exige mais contexto do que apenas os vizinhos imediatos, as redes neurais recorrentes (RNNs) e suas versões, como redes de memória de longo e curto prazo (LSTM) e unidades recorrentes com portas (GRUs), ganharam destaque. Modelos BiLSTM-CRF mostraram ser robustos para etiquetar sequências, aproveitando tanto o contexto passado quanto o futuro no texto.

Com a chegada de grandes modelos de linguagem como ELMo, BERT e GPT-3, as tarefas de NER viram melhorias significativas. Esses modelos são treinados em enormes quantidades de texto e podem desenvolver representações ricas da linguagem. Eles podem ser ajustados para tarefas específicas e aprendem significados de palavras em relação ao contexto ao redor, levando a previsões mais precisas.

Usar modelos multimodais que combinam texto, layout e informações visuais para NER é um campo de pesquisa promissor. Esses modelos podem tirar proveito de características visuais, como a organização de texto e imagens em documentos, para melhorar sua precisão. Por exemplo, esses modelos podem usar a posição de entidades em uma tabela para identificar e extrair informações de forma mais eficaz.

Alguns pesquisadores trabalharam em representar documentos com um método chamado Chargrid, que transforma cada página em uma grade de caracteres. Embora seja útil para documentos estruturados, esse método pode não ser tão eficaz para documentos não estruturados. Um método mais recente, BERTgrid, representa documentos como grades de embeddings de pedaços de palavras obtidos do BERT. Usando essa abordagem, o modelo pode acessar mais facilmente a estrutura espacial e o significado do documento, levando a uma análise melhor.

Embora o BERTgrid tenha se mostrado eficaz, ele não usa totalmente a capacidade do modelo BERT, pois seus parâmetros não são ajustados durante o treinamento. O ViBERTgrid busca resolver isso combinando BERTgrid com uma rede neural convolucional (CNN) para analisar tanto as características visuais quanto as informações textuais ao mesmo tempo. Ao permitir o treinamento conjunto de ambas as redes, o ViBERTgrid ganha embeddings de palavras mais específicos ao contexto.

Arquitetura ViBERTgrid BiLSTM-CRF

Introduzimos uma versão modificada da arquitetura ViBERTgrid projetada para melhorar seu desempenho em tarefas de KIE. O modelo ViBERTgrid BiLSTM-CRF consiste em três partes principais:

  1. A arquitetura adaptada que combina ViBERTgrid com uma camada BiLSTM-CRF.
  2. Uma rede backbone multimodal que cria o mapa de características ViBERTgrid.
  3. Uma cabeça de classificação para prever rótulos para cada palavra no documento. Existem duas variações dessa cabeça de classificação: uma com a camada BiLSTM-CRF e outra sem.

Para criar a representação ViBERTgrid, primeiro geramos a representação BERTgrid e a combinamos com camadas intermediárias da CNN. O BERTgrid pega uma imagem de documento como entrada e usa OCR para identificar palavras e suas posições. Cada palavra é tokenizada em pedaços menores, permitindo que o modelo capture nuances de linguagem mais sutis.

A combinação de informações visuais da CNN com características textuais do BERTgrid ajuda a criar uma compreensão mais abrangente do documento. Isso permite que o modelo esteja mais preparado para extrair informações-chave de forma eficaz.

Configuração Experimental

Nós avaliamos a eficácia do modelo proposto em dois datasets: SROIE e dois conjuntos de documentos de ordens de transferência de dinheiro da Turquia (UTD e UMTD). O dataset SROIE contém recibos e é bem reconhecido em estudos de extração de informações semi-estruturadas. Ele tem quatro tipos de entidades: empresa, data, endereço e total. Melhoramos esse dataset por meio de anotações manuais para garantir que os rótulos de palavras corresponderam aos dados de OCR.

O dataset UTD compreende documentos bancários reais, enquanto o dataset UMTD inclui várias transações em um único documento. Usamos divisões específicas fornecidas em pesquisas anteriores para treinamento, validação e teste.

Para treinar os modelos, empregamos diferentes estratégias de otimização e usamos dois otimizadores AdamW separados para os componentes BERT e CNN. Também implementamos medidas para evitar overfitting, como ajustar a taxa de aprendizado quando as pontuações de validação não melhoravam.

Para avaliar o desempenho do modelo, usamos o script de avaliação oficial do SROIE para obter as pontuações F1. Para os datasets UTD e UMTD, aplicamos a técnica de avaliação de pontuação F1 em nível de entidade. Treinamos e testamos cada modelo várias vezes para garantir a confiabilidade dos nossos resultados.

Resultados

Nossos resultados mostram o desempenho do ViBERTgrid original e das versões melhoradas com BiLSTM-CRF no dataset SROIE. Aplicamos técnicas para limpar as previsões de ambos os modelos e eliminar resultados indesejados, como tokens irrelevantes.

Quando olhamos as pontuações, percebemos que a adição da camada BiLSTM-CRF deu um pequeno impulso ao desempenho no dataset SROIE. No entanto, essa melhoria não foi estatisticamente significativa, sugerindo que os benefícios da nova camada podem ser mais pronunciados em documentos não estruturados do que nos layouts semi-estruturados do SROIE.

Para os documentos transacionais não estruturados, fizemos observações significativas. O modelo ViBERTgrid sem melhorias não teve um desempenho tão bom quanto um modelo puramente textual no dataset UTD. Porém, quando incluímos a camada BiLSTM-CRF, o desempenho do modelo aumentou drasticamente, resultando em melhores pontuações F1.

As melhorias também foram evidentes nos documentos de múltiplas transações, onde uma camada BiLSTM-CRF levou a pontuações mais altas em todos os setups de teste. No entanto, em situações com layouts semelhantes a tabelas, os ganhos não foram estatisticamente significativos.

Discussão e Conclusão

Por meio deste estudo, conseguimos insights valiosos sobre como características visuais podem influenciar a extração de informações de documentos financeiros não estruturados. Embora os resultados iniciais mostrassem que o modelo ViBERTgrid original não era tão eficaz com documentos não estruturados em comparação com um modelo puramente textual, a introdução da camada BiLSTM-CRF levou a melhorias notáveis.

No geral, o modelo ViBERTgrid BiLSTM-CRF mostrou benefícios claros, alcançando melhores resultados em documentos não estruturados enquanto mantinha o desempenho em formatos semi-estruturados. Além disso, ao liberar anotações em nível de token para o dataset SROIE, visamos apoiar o desenvolvimento de modelos multimodais mais eficazes.

Olhando para o futuro, esperamos investigar mais o papel da nossa arquitetura em relação a outras tarefas, especialmente em relação à extração de relacionamentos. Isso pode fornecer insights mais profundos e comparações com modelos multimodais existentes.

Também queremos expressar gratidão à nossa equipe e revisores por suas valiosas contribuições e feedback durante todo esse processo de pesquisa.

Artigos semelhantes