Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Inteligência Artificial

Enfrentando Desafios na Extração de Informações Chave

Analisando redundância em conjuntos de dados KIE pra melhorar a avaliação do modelo.

― 7 min ler


Problemas de RedundânciaProblemas de Redundânciano Conjunto de Dados KIEdo modelo KIE.Pesquisas revelam falhas nos benchmarks
Índice

O estudo de como os computadores podem ler e entender documentos tá ficando cada vez mais importante, já que as empresas dependem de informações digitais. Uma parte grande disso é conhecida como Extração de Informações Chave (KIE), que significa pegar detalhes específicos de documentos. Modelos recentes, tipo o LayoutLM, melhoraram como a KIE funciona, mas ainda enfrentam desafios, especialmente ao lidar com documentos reais que nem sempre têm rótulos ou exemplos claros.

O Problema

Pesquisas mostraram que os benchmarks comuns para testar KIE muitas vezes têm muitas semelhanças entre os documentos usados para treinamento e os usados para testes. Isso é um problema porque dificulta saber se um modelo realmente é bom em entender novos documentos ou se tá apenas decorando os que já viu. Benchmarks importantes como SROIE e FUNSD têm muitos tipos de documentos semelhantes, facilitando para os modelos preverem resultados sem entender de verdade.

Redundância de Informação

Nossa pesquisa focou em estudar quanto de informação se repete nesses benchmarks. No SROIE, descobrimos que cerca de 75% dos documentos de teste eram muito parecidos com os documentos de treinamento. Para o FUNSD, o número era 16%. Essa sobreposição significa que os modelos podem parecer bons nesses testes, mas podem não funcionar bem em documentos reais e diversos que encontram no dia a dia.

Pra resolver isso, criamos novas maneiras de selecionar documentos para teste. Esses métodos são desenhados pra criar uma mistura melhor de documentos que não repetem os mesmos templates. Percebemos que quando modelos que não são feitos pra análise de documentos enfrentaram esses novos samples, eles tiveram um desempenho pior, enquanto modelos multi-modais, que lidam com diferentes tipos de dados, caíram em desempenho, mas não tão drasticamente.

Entendimento de Documentos Visualmente-Ricos

O campo do Entendimento de Documentos Visualmente-Ricos (VrDU) visa transformar documentos em informações estruturadas ao olhar pro texto, layout e características visuais. Se você pensar em um documento de negócio como um recibo ou um formulário, geralmente tá cheio de diferentes tipos de informação que precisam ser processados. O desafio é que os documentos podem vir em muitos formatos, dificultando a criação de sistemas que funcionem em todos os tipos.

Muitos modelos avançados foram desenvolvidos que primeiro aprendem com muitos documentos e depois são ajustados pra tarefas específicas. Embora esses modelos mostrem potencial quando testados em benchmarks, eles frequentemente têm dificuldade em situações do mundo real onde os documentos podem não seguir os mesmos padrões ou formatos.

Trabalhos Relacionados

O viés em datasets já foi estudado em várias áreas de processamento de linguagem natural (NLP). Notou-se que alguns datasets têm muita sobreposição nas palavras usadas para treinamento e teste. Essa sobreposição pode fazer com que os modelos sejam superestimados em sua eficácia. Por exemplo, em tarefas como Reconhecimento de Entidade Nomeada e co-referência, pesquisadores já apontaram como palavras similares podem confundir os modelos, fazendo eles parecerem melhores do que realmente são.

A pesquisa atual aborda essas questões especificamente em relação à KIE de documentos. Focando na redundância em benchmarks comuns, nossa intenção é iluminar como eles podem ser melhorados.

Modelos de Extração de Informação

No passado, diferentes métodos eram usados pra analisar documentos, tratando texto e layout separadamente. No entanto, com o avanço da tecnologia, modelos mais novos agora conseguem combinar efetivamente as informações de texto e layout, permitindo um desempenho melhor na compreensão dos documentos.

Vários modelos, especialmente aqueles baseados em arquiteturas Transformer, mostraram resultados impressionantes em tarefas relacionadas à leitura de documentos. Por exemplo, modelos LayoutLM integram dados de texto e layout pra uma compreensão melhor. Esses modelos avaliam documentos não só pelas palavras que contêm, mas também por como essa informação está organizada visualmente.

Os Datasets

Nosso foco é principalmente em SROIE e FUNSD porque eles oferecem diferentes tipos de documentos pra avaliação.

O SROIE é projetado em torno de recibos digitalizados e contém 1.000 recibos anotados pra análise. O desafio desse benchmark tá na tarefa de reconhecer e extrair dados chave desses recibos. O FUNSD, por outro lado, envolve formulários digitalizados barulhentos, onde o objetivo é extrair e estruturar o texto contido neles. Ambos os benchmarks foram críticos em avaliações passadas de modelos de extração de informação.

Declaração do Problema

Definimos o processo de extrair informações chave de documentos como uma tarefa onde cada palavra ou token é classificado. Usando técnicas de etiquetagem bem conhecidas, podemos agrupar os tokens em diferentes categorias - é assim que os modelos aprendem o que cada pedaço de informação representa.

No entanto, benchmarks tradicionais muitas vezes seguem um padrão onde os dados de treinamento e teste compartilham muitas semelhanças. Isso pode enganar os modelos fazendo-os achar que estão se saindo bem quando na verdade apenas estão relembrando informações que já viram. Em ambientes de negócios reais, isso pode levar a um desempenho ruim porque os documentos podem variar bastante.

Reamostragem dos Datasets

Pra tornar o processo de teste mais eficaz, olhamos de perto para os documentos nos datasets SROIE e FUNSD. Nossa intenção foi agrupar documentos semelhantes e então atualizar as divisões de treinamento e teste pra minimizar essas semelhanças. No SROIE, descobrimos que muitos recibos da mesma empresa compartilhavam layouts e dados comuns.

Ao garantir que os mesmos tipos de documentos não aparecessem em ambos os conjuntos de treinamento e teste, conseguimos criar uma avaliação mais justa dos modelos. Para o FUNSD, aplicamos uma abordagem similar pra agrupar formulários com o mesmo layout, garantindo que as amostras de teste não refletissem as amostras de treinamento.

Configuração Experimental

Nas nossas experiências, usamos uma configuração consistente pra avaliar os modelos. Usamos um tamanho de lote específico e um método de treinamento chamado otimização Adam, ajustando a taxa de aprendizado ao longo do tempo. Essa estrutura nos permitiu comparar como diferentes modelos se saíram com os conjuntos originais e nossos dados recém-organizados.

Resultados nos Datasets Originais

Usando os datasets originais, testamos vários modelos. Modelos baseados em texto mostraram resultados mais fracos em comparação com modelos multi-modais quando se tratava de extrair informações de formulários. No dataset FUNSD, os modelos multi-modais alcançaram pontuações significativamente mais altas porque eles consideram informações visuais e textuais juntos.

Apesar de ser menos evidente no SROIE, a tendência ainda mostrava que modelos multi-modais geralmente se saíram melhor do que modelos só de texto.

Resultados nos Datasets Reamostrados

Depois de reamostrar os datasets FUNSD e SROIE pra reduzir a sobreposição, encontramos alguns resultados notáveis. Para o FUNSD, modelos que dependiam apenas de texto tiveram uma queda maior no desempenho em comparação com os modelos multi-modais. Isso demonstrou como dados visuais e baseados em layout podem ser críticos pro sucesso na compreensão de formulários.

No SROIE, a queda também foi evidente para modelos baseados em texto, reforçando que quando os modelos enfrentaram um dataset menos redundante, eles tiveram mais dificuldades. Nossas descobertas ilustram que as configurações originais permitiram que os modelos decorassem respostas ao invés de realmente entender os dados que estavam processando.

Conclusão

Essa pesquisa destaca os problemas com a redundância de informação presente em datasets de teste como SROIE e FUNSD. Nossas descobertas sugerem que esses benchmarks podem enganar sobre o quão bem os modelos vão se sair em situações do mundo real. Ajustando esses datasets pra evitar sobreposição, oferecemos uma avaliação mais precisa da capacidade de um modelo de generalizar e lidar com diferentes tipos de documentos.

Esse trabalho sublinha a necessidade de métodos melhorados de avaliação de modelos de extração de informação, especialmente num mundo em constante mudança onde os tipos de documentos e seus formatos podem variar bastante. Nossa abordagem oferece um caminho a seguir para pesquisas e desenvolvimentos futuros na análise de documentos.

Fonte original

Título: Information Redundancy and Biases in Public Document Information Extraction Benchmarks

Resumo: Advances in the Visually-rich Document Understanding (VrDU) field and particularly the Key-Information Extraction (KIE) task are marked with the emergence of efficient Transformer-based approaches such as the LayoutLM models. Despite the good performance of KIE models when fine-tuned on public benchmarks, they still struggle to generalize on complex real-life use-cases lacking sufficient document annotations. Our research highlighted that KIE standard benchmarks such as SROIE and FUNSD contain significant similarity between training and testing documents and can be adjusted to better evaluate the generalization of models. In this work, we designed experiments to quantify the information redundancy in public benchmarks, revealing a 75% template replication in SROIE official test set and 16% in FUNSD. We also proposed resampling strategies to provide benchmarks more representative of the generalization ability of models. We showed that models not suited for document analysis struggle on the adjusted splits dropping on average 10,5% F1 score on SROIE and 3.5% on FUNSD compared to multi-modal models dropping only 7,5% F1 on SROIE and 0.5% F1 on FUNSD.

Autores: Seif Laatiri, Pirashanth Ratnamogan, Joel Tang, Laurent Lam, William Vanhuffel, Fabien Caspani

Última atualização: 2023-04-28 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2304.14936

Fonte PDF: https://arxiv.org/pdf/2304.14936

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes