Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Avanço na Detecção de Mesas com Aprendizado Semi-Supervisionado

Uma nova abordagem melhora a detecção de tabelas usando menos dados rotulados.

― 7 min ler


Avanço na Detecção deAvanço na Detecção deTabelasSemi-Supervisionadaexemplos rotulados.Detecção melhorada usando menos
Índice

A Detecção de Tabelas é um processo importante que ajuda a identificar tabelas em imagens de documentos. Isso é especialmente útil em várias áreas como educação, pesquisa e negócios. Com o aumento dos documentos digitais, a necessidade de detectar e analisar tabelas em grandes volumes de texto tá crescendo. Métodos tradicionais para encontrar tabelas dependiam muito de regras fixas, que funcionavam bem para formatos de tabela padrão, mas tinham dificuldades com tabelas mais complexas ou com formatos diferentes.

A Mudança para Aprendizado Profundo

Avanços recentes em aprendizado profundo melhoraram bastante a detecção de tabelas. Esses novos métodos não dependem de regras fixas, mas aprendem com exemplos. No entanto, para treinar esses modelos com sucesso, é necessário ter muitos dados rotulados. Quanto mais exemplos um modelo vê durante o treinamento, melhor ele fica em identificar tabelas.

Dado o desafio de obter dados rotulados suficientes, métodos de Aprendizado semi-supervisionado foram introduzidos. Esses métodos podem usar tanto dados rotulados quanto não rotulados. Eles geralmente usam um sistema de dois detectores. Um detector gera rótulos para os dados não rotulados, e o segundo usa esses rótulos junto com alguns dados rotulados para fazer previsões.

Desafios com Métodos Tradicionais

Métodos mais antigos, incluindo reconhecimento óptico de caracteres e sistemas baseados em regras, tinham suas limitações. Eles frequentemente dependiam de estruturas documentais específicas, o que significava que não se saíam bem com designs novos ou variados, como tabelas sem bordas. Além disso, criar os Conjuntos de dados rotulados necessários pode ser demorado e caro. É aí que entram as abordagens semi-supervisionadas, visando reduzir a dependência de conjuntos extensos de dados rotulados enquanto ainda alcançam detecções precisas.

A Abordagem Proposta

Para melhorar o processo de detecção de tabelas, foi introduzido um novo método semi-supervisionado usando o transformador deformável. Essa abordagem busca lidar com a necessidade de muitos exemplos rotulados enquanto melhora o desempenho geral da detecção. O transformador deformável é projetado para se ajustar a diferentes tamanhos e formatos de tabelas, o que ajuda a tornar o processo de detecção mais eficiente.

Nesse novo método, existem duas partes principais: um módulo professor e um módulo aluno. O módulo professor gera Pseudo-rótulos para os dados não rotulados, e o módulo aluno usa esses pseudo-rótulos junto com uma pequena quantidade de dados rotulados para melhorar seu desempenho. Essa relação permite uma melhoria contínua, já que ambos os módulos aprendem um com o outro.

Como Funciona

O processo começa com o módulo professor, que aprende a partir de imagens não rotuladas enquanto aplica uma leve augmentação de dados para melhorar a precisão. O módulo aluno, por outro lado, trabalha com imagens rotuladas e não rotuladas usando técnicas de augmentação mais fortes. Assim, enfrenta cenários de aprendizado mais desafiadores, o que ajuda a se adaptar melhor.

O módulo professor fornece continuamente previsões para o módulo aluno, permitindo que ele refine seus pseudo-rótulos ao longo do tempo. Essa interação cria um loop de treinamento eficaz, onde ambos os módulos se beneficiam do conhecimento um do outro.

Vantagens do Uso do Transformador Deformável

Uma das grandes vantagens de usar o transformador deformável é que ele elimina a necessidade de geração de propostas de objetos tradicionais e etapas de pós-processamento, como a redução de previsões sobrepostas. O transformador deformável é flexível e pode se adaptar a vários tamanhos e orientações de tabelas nas imagens. Essa flexibilidade resulta em um desempenho mais robusto na detecção de tabelas.

Além disso, o mecanismo pode ajustar dinamicamente seu foco em diferentes partes da imagem de entrada. Isso significa que ele pode identificar melhor tabelas que podem não se encaixar em formatos ou estruturas padrão, melhorando assim a precisão geral.

Avaliação do Novo Método

Para avaliar a eficácia dessa nova abordagem semi-supervisionada, foram realizados experimentos usando vários conjuntos de dados que são comumente usados na área. Os principais conjuntos de dados incluíram TableBank, PubLayNet, DocBank e ICDAR-19. Cada um desses conjuntos tem uma rica variedade de imagens de documentos contendo tabelas.

O novo método foi comparado com abordagens existentes semi-supervisionadas e supervisionadas. Os resultados mostraram que ele superou métodos anteriores, alcançando melhor precisão e consistência na detecção de tabelas. Por exemplo, no conjunto de dados TableBank, ele teve um desempenho significativamente melhor do que os métodos anteriores baseados em CNN.

Métricas de Desempenho

Para avaliar o desempenho do método de detecção de tabelas semi-supervisionado, várias métricas foram usadas. A precisão mede quantas das tabelas previstas estavam corretas. O recall avalia quantas das tabelas reais foram detectadas. A F1-score combina tanto a precisão quanto o recall em uma única medida, proporcionando uma visão mais abrangente do desempenho.

A Interseção sobre a União (IoU) é outra métrica importante que determina a sobreposição entre as caixas delimitadoras previstas para tabelas e as caixas da verdade de base. Pontuações mais altas de IoU indicam melhor desempenho na detecção de tabelas.

Resultados e Discussão

Os experimentos demonstraram que o método semi-supervisionado que emprega o transformador deformável mostrou uma melhoria significativa em diferentes razões de rotulagem. Em testes que usaram apenas 10% dos dados rotulados, o método ainda conseguiu alcançar um desempenho comparável aos modelos supervisionados tradicionais que dependiam de rotulagem completa.

Os resultados no conjunto de dados TableBank destacaram a eficiência desse método: Ele alcançou uma média de precisão que superou benchmarks estabelecidos anteriormente. Isso indica não só uma melhor taxa de detecção, mas também um modelo mais generalizável que pode se adaptar a diferentes formatos e layouts de tabelas.

Além disso, enquanto muitos métodos tradicionais lutavam com tabelas complexas, essa nova abordagem conseguiu manter alta precisão mesmo diante de estruturas de tabela variadas.

Conclusão

O desenvolvimento de um método de detecção de tabelas semi-supervisionado usando transformadores deformáveis marca um passo importante à frente. Ele permite uma detecção precisa de tabelas sem a grande dependência de vastas quantidades de dados rotulados. Esse método abre novas possibilidades para mais pesquisas e aplicações em análise de documentos, especialmente para sistemas automatizados que precisam lidar com uma variedade diversificada de tipos e layouts de documentos.

Essa abordagem não só se destaca em termos de desempenho, mas também proporciona um caminho mais eficiente para lidar com o volume crescente de documentos que exigem análise de tabelas. À medida que a demanda por sistemas automatizados cresce, também aumenta a necessidade de modelos capazes de se adaptar a diferentes estruturas e formatos, tornando essa pesquisa crítica para avanços futuros em tecnologias de detecção de tabelas.

Em trabalhos futuros, será essencial explorar como aprimorar ainda mais esse método e testá-lo em conjuntos de dados ainda mais diversos. O objetivo será criar sistemas que possam operar efetivamente com ainda menos dados rotulados e continuar a melhorar as capacidades das tecnologias de análise de documentos.

Fonte original

Título: Towards End-to-End Semi-Supervised Table Detection with Deformable Transformer

Resumo: Table detection is the task of classifying and localizing table objects within document images. With the recent development in deep learning methods, we observe remarkable success in table detection. However, a significant amount of labeled data is required to train these models effectively. Many semi-supervised approaches are introduced to mitigate the need for a substantial amount of label data. These approaches use CNN-based detectors that rely on anchor proposals and post-processing stages such as NMS. To tackle these limitations, this paper presents a novel end-to-end semi-supervised table detection method that employs the deformable transformer for detecting table objects. We evaluate our semi-supervised method on PubLayNet, DocBank, ICADR-19 and TableBank datasets, and it achieves superior performance compared to previous methods. It outperforms the fully supervised method (Deformable transformer) by +3.4 points on 10\% labels of TableBank-both dataset and the previous CNN-based semi-supervised approach (Soft Teacher) by +1.8 points on 10\% labels of PubLayNet dataset. We hope this work opens new possibilities towards semi-supervised and unsupervised table detection methods.

Autores: Tahira Shehzadi, Khurram Azeem Hashmi, Didier Stricker, Marcus Liwicki, Muhammad Zeshan Afzal

Última atualização: 2023-05-07 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2305.02769

Fonte PDF: https://arxiv.org/pdf/2305.02769

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes