Extraindo Figuras e Legendas de Artigos Históricos
Um método pra recuperar visuais de literatura científica escaneada.
― 9 min ler
Índice
Muitos artigos científicos publicados antes do final dos anos 90 têm imagens e gráficos que agora estão presos em páginas escaneadas. Embora alguns métodos tenham sido desenvolvidos para extrair essas visuais, ainda falta uma técnica forte e confiável.
Neste trabalho, apresentamos um método que usa uma técnica de Detecção de Objetos para identificar Figuras e suas Legendas nas versões escaneadas dos artigos após serem processadas com Reconhecimento Óptico de Caracteres (OCR). Nosso método combina imagens em escala de cinza e os resultados do processo de OCR para encontrar visuais nesses documentos mais antigos.
Focamos em uma medida específica chamada Interseção sobre União (IOU), que nos ajuda a entender quão bem nosso método localiza essas visuais. Definimos um padrão alto para o que consideramos uma boa identificação-um IOU de 0.9. Ao aplicar nosso método à literatura de astronomia armazenada em um grande arquivo científico, conseguimos altas pontuações para identificar figuras e legendas com precisão.
Contexto
Com o aumento das publicações científicas, os pesquisadores precisam de maneiras automatizadas para lidar com esses volumes crescentes de literatura e dados. Dados acessíveis e bem organizados são cruciais para a comunidade científica, especialmente para iniciativas de ciência aberta. No entanto, muitas figuras, tabelas e fórmulas em documentos de antes da era digital são difíceis de acessar, a menos que novos métodos sejam desenvolvidos para extrair essas informações.
Extrair várias partes dos artigos, como tabelas e figuras, é essencial para gerenciar dados científicos. Nos últimos anos, a precisão desses métodos melhorou muito. A maioria dos documentos modernos está em um formato que pode ser facilmente minerado para informações. Infelizmente, documentos mais antigos costumam ser imagens escaneadas, o que apresenta desafios para as técnicas de extração.
Alguns métodos comuns se concentram em analisar formatos PDF mais novos, que armazenam documentos de uma maneira que permite fácil extração de imagens e texto. No entanto, ao lidar com artigos escaneados mais antigos, esses métodos têm dificuldades. Em vez disso, confiamos na tecnologia OCR para converter o texto nessas imagens em um formato utilizável.
Embora muitos avanços tenham sido feitos para novos artigos, ainda há muito trabalho a ser feito para melhorar o processo de extração de documentos escaneados mais antigos. Conjuntos de dados disponíveis para avaliar métodos de extração tendem a se concentrar em artigos mais recentes, o que cria uma lacuna para a literatura mais antiga. Além disso, diferentes conjuntos de dados costumam ter definições variadas sobre o que constitui figuras, legendas e tabelas, o que pode levar a inconsistências no desempenho da extração.
Visão Geral da Metodologia
Neste trabalho, propomos uma nova abordagem para extrair figuras e legendas de páginas escaneadas da literatura científica, especialmente na área de astronomia. Nosso método envolve usar técnicas modernas de detecção de objetos combinadas com métodos heurísticos para identificar visuais e suas legendas.
Nosso modelo utiliza técnicas de aprendizado profundo que analisam tanto as imagens das páginas escaneadas quanto as informações produzidas pelo processo de OCR. O foco principal é alcançar alta precisão na busca e pareamento de figuras com suas legendas.
O processo começa com o método OCR, que converte as imagens escaneadas em texto. Em seguida, usamos várias características derivadas da saída do OCR e das imagens em escala de cinza originais para treinar nosso modelo de detecção de objetos.
Estruturamos nossa abordagem em várias etapas-chave:
- Aquisição de Dados: Coletando literatura científica antiga armazenada em um grande arquivo.
- Processamento OCR: Convertendo imagens escaneadas em texto usando tecnologia OCR.
- Extração de Características: Derivando características úteis tanto das imagens escaneadas quanto da saída do OCR.
- Detecção de Objetos: Treinando um modelo para identificar figuras e suas legendas.
- Pós-Processamento: Refinando os resultados para melhorar a precisão e confiabilidade.
Coleta de Dados
O conjunto de dados usado para este projeto vem de um arquivo específico de literatura de astronomia publicada antes da era digital, especialmente dos anos anteriores a 1997. Essa coleção inclui artigos de revistas conhecidas, abrangendo uma ampla gama de publicações ao longo de várias décadas.
Focamos em artigos que acreditávamos conter figuras relevantes com base em certos métodos heurísticos. Depois de anotar os dados, acabamos com um número substancial de páginas, cada uma contendo figuras, legendas, tabelas e fórmulas matemáticas.
Processamento OCR
Para a fase de processamento OCR, usamos um software avançado para converter páginas escaneadas em texto. O objetivo era extrair texto de uma forma que mantivesse o layout do documento original o máximo possível.
Nossa abordagem utilizou parâmetros específicos para garantir que todo texto fosse capturado de forma eficaz, independentemente do seu formato ou posicionamento na página. Embora o OCR possa frequentemente produzir erros e perder certos caracteres, ainda é o nosso melhor método para extrair texto de documentos escaneados.
Cada página escaneada foi convertida em formatos TIFF e JPEG para processamento adicional. Notamos que usar imagens TIFF geralmente resulta em menos erros de reconhecimento em comparação com outros formatos.
No entanto, o processo OCR também pode gerar resultados ruidosos, tornando alguns limpezas necessárias. Muitos fatores, como baixo contraste ou imagens inclinadas, podem afetar negativamente a precisão do OCR. Isso requer esforços contínuos para refinar e melhorar as tecnologias OCR.
Extração de Características
Depois de obter texto através do OCR, extraímos várias características que poderiam melhorar o desempenho do nosso modelo de detecção de objetos. Essas características derivavam tanto das saídas do OCR quanto das imagens em escala de cinza originais.
Algumas características críticas que consideramos incluem:
- Tamanhos de fonte: Diferenças no tamanho da fonte podem ajudar a identificar figuras e legendas.
- Estruturas de layout: O arranjo de blocos de texto e formatos de parágrafo fornece pistas sobre a organização da página.
- Elementos de texto: Características específicas, como pontuação e contagem de letras, podem ser úteis.
As características extraídas foram escaladas para atender aos requisitos do modelo e, em seguida, processadas para prepará-las para o treinamento.
Modelo de Detecção de Objetos
Para a fase de detecção de objetos, escolhemos um modelo de aprendizado profundo bem conceituado, conhecido por sua eficiência em reconhecer objetos. O modelo processa uma variedade de características derivadas tanto das imagens escaneadas quanto dos resultados do OCR.
Nosso modelo baseado em YOLO usa uma arquitetura específica que permite detectar e classificar vários elementos na página, incluindo figuras e legendas. Ao treinar o modelo em nosso conjunto de dados anotado, buscamos otimizar sua capacidade de encontrar visuais com alta precisão.
Focamos em medir o sucesso através da métrica interseção sobre união (IOU), estabelecendo um padrão alto para o que consideramos uma detecção bem-sucedida.
Técnicas de Pós-Processamento
Após executar o modelo de detecção inicial, seguimos com uma série de etapas de pós-processamento voltadas a refinar nossos resultados. Isso envolveu integrar caixas encontradas com as caixas de palavras do OCR e quaisquer informações adicionais obtidas através de métodos heurísticos.
O objetivo desse pós-processamento era aumentar a precisão das caixas delimitadoras em torno das figuras e legendas identificadas. Realizamos várias operações, incluindo a expansão de caixas e o pareamento de figuras com suas respectivas legendas, para garantir o máximo de detecções corretas possível.
Resultados
Ao aplicar nosso método à literatura histórica de astronomia, obtivemos resultados promissores. As pontuações F1 indicaram uma alta taxa de sucesso na detecção de figuras e suas legendas. Especificamente, constatamos que nosso método melhorou as técnicas existentes, especialmente para literatura mais antiga, onde os métodos de extração anteriormente tiveram dificuldades.
A análise mostrou que nosso modelo superou alguns dos outros modelos prevalentes na área, especialmente em relação à identificação de legendas de figuras.
Além disso, avaliamos quão bem nosso modelo se generaliza para outros conjuntos de dados que contêm teses eletrônicas e publicações recentes. Embora algumas limitações tenham sido notadas, nosso modelo apresentou um desempenho relativamente bom, especialmente na captura de dados de legendas.
Discussão
Os resultados sugerem que nosso método oferece uma ferramenta valiosa para extrair figuras e legendas da literatura científica mais antiga. As melhorias de desempenho que observamos sobre outras técnicas destacam a importância de combinar métodos de aprendizado profundo com o processamento tradicional de OCR.
No entanto, as limitações observadas também indicam que mais trabalho é necessário, especialmente na expansão de conjuntos de dados de treinamento e no refinamento dos métodos de extração. Isso permitirá lidar melhor com os diversos layouts e estilos encontrados em documentos históricos.
Futuras iniciativas também se concentrarão em aprimorar a capacidade de generalização do modelo para garantir que ele possa processar efetivamente uma gama mais ampla de literatura científica em diferentes campos.
Conclusão
Nosso trabalho sobre a extração de figuras e legendas da literatura científica mais antiga representa um passo importante para tornar os dados históricos mais acessíveis. Ao aproveitar tecnologias modernas como detecção de objetos e OCR, podemos ajudar os pesquisadores a acessar informações valiosas presas no passado.
À medida que a quantidade de literatura científica continua a crescer, desenvolver métodos de extração versáteis e robustos será crucial para preservar e curar o conhecimento. Com mais refinamento e testes, nossa abordagem tem o potencial de melhorar significativamente a acessibilidade de dados na comunidade científica.
Título: The Digitization of Historical Astrophysical Literature with Highly-Localized Figures and Figure Captions
Resumo: Scientific articles published prior to the "age of digitization" in the late 1990s contain figures which are "trapped" within their scanned pages. While progress to extract figures and their captions has been made, there is currently no robust method for this process. We present a YOLO-based method for use on scanned pages, after they have been processed with Optical Character Recognition (OCR), which uses both grayscale and OCR-features. We focus our efforts on translating the intersection-over-union (IOU) metric from the field of object detection to document layout analysis and quantify "high localization" levels as an IOU of 0.9. When applied to the astrophysics literature holdings of the NASA Astrophysics Data System (ADS), we find F1 scores of 90.9% (92.2%) for figures (figure captions) with the IOU cut-off of 0.9 which is a significant improvement over other state-of-the-art methods.
Autores: Jill P. Naiman, Peter K. G. Williams, Alyssa Goodman
Última atualização: 2023-02-22 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2302.11583
Fonte PDF: https://arxiv.org/pdf/2302.11583
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.springer.com/journal/00799/submission-guidelines?IFA
- https://urldefense.com/v3/__
- https://www.editorialmanager.com/ijdl/__;!!DZ3fjg!_RacJSb7PaeO93Wqw0ZudR3BOdawmsG-8kFLaO_cGY-lK3P9SXcbdMOPg7739j6mP7xHlc4dnM6RHKf3qyLTSw
- https://ctan.org/pkg/changepage
- https://ctan.org/pkg/lipsum
- https://ui.adsabs.harvard.edu/
- https://babel.hathitrust.org/cgi/mb?a=listis&c=2062901859
- https://github.com/ReadingTimeMachine
- https://www.xpdfreader.com/pdfimages-man.html
- https://www.astroexplorer.org/
- https://pypi.org/project/pytesseract/
- https://pypi.org/project/opencv-python/
- https://kba.cloud/hocr-spec/1.2/
- https://stackoverflow.com/questions/57033120/bounding-boxes-around-characters-for-tesseract-4-0-0-beta-1
- https://github.com/jahongir7174/YOLOv5-tf
- https://github.com/jmpap/YOLOV2-Tensorflow-2.0
- https://dspace.mit.edu/
- https://pubmed.ncbi.nlm.nih.gov/
- https://allenai.github.io/scispacy/