Avaliação de Ferramentas de Extração de Informação de PDF
Uma avaliação completa das ferramentas para extrair dados de PDFs acadêmicos.
― 7 min ler
Índice
Arquivos PDF são super usados em documentos acadêmicos. Extrair informações desses arquivos é essencial pra tarefas como indexação, busca e análise de pesquisas. Mas pegar dados úteis de PDFs pode ser complicadíssimo por causa do jeito que eles são feitos. O PDF foi criado pra manter os documentos com a mesma aparência em diferentes dispositivos e softwares, o que significa que, muitas vezes, eles não têm uma estrutura e um significado claro no conteúdo.
Tem vários ferramentas disponíveis pra extrair informações de documentos PDF. Essas ferramentas foram se desenvolvendo com o tempo, passando de métodos simples baseados em regras pra técnicas mais complexas de estatística e aprendizado de máquina. Mesmo assim, escolher a ferramenta certa continua sendo um desafio, porque muitas delas só conseguem lidar com tipos limitados de conteúdo, e algumas já estão ultrapassadas. Avaliações passadas dessas ferramentas geralmente focavam só em tipos específicos de informação e usavam conjuntos de dados pequenos, dificultando uma comparação eficaz do desempenho delas.
Pra lidar com esses problemas, montamos uma estrutura pra avaliar ferramentas de extração de PDF usando um conjunto de dados diverso e abrangente. Esse conjunto inclui uma variedade de tipos de conteúdo e é composto por um grande número de documentos. Com essa nova estrutura de avaliação, avaliamos dez ferramentas diferentes que conseguem extrair várias formas de informação de arquivos PDF acadêmicos.
Desafios da Extração de Informação
Os PDFs têm uma estrutura única que pode tornar a extração de informações uma tarefa complicada. Embora existam várias ferramentas disponíveis, elas muitas vezes não funcionam bem juntas ou só conseguem lidar com tipos específicos de dados. Algumas ferramentas podem não ter sido atualizadas há bastante tempo, deixando elas menos eficazes do que opções mais novas.
Além disso, as ferramentas que foram avaliadas no passado geralmente olham só pra algumas informações. Por exemplo, elas podem focar apenas em extrair títulos de documentos e nomes de autores, mas ignoram outras partes importantes do artigo. Os resultados dessas avaliações muitas vezes não são comparáveis porque usam conjuntos de dados diferentes ou focam em áreas de conteúdo distintas.
Os benchmarks existentes para essas ferramentas também estão desatualizados e não consideram os avanços tecnológicos recentes. Pra preencher essa lacuna, juntamos uma nova estrutura de avaliação que considera uma gama mais ampla de tipos de conteúdo em um grande e diversificado conjunto de dados.
A Estrutura de Avaliação
Nossa estrutura de avaliação é baseada em um conjunto de dados bem conhecido que contém vários elementos encontrados em artigos acadêmicos. Esse conjunto inclui documentos de múltiplas áreas, garantindo uma ampla representação da escrita acadêmica. Usamos esse conjunto pra fazer benchmark do desempenho de dez ferramentas de extração de informação disponíveis gratuitamente.
Cada ferramenta foi avaliada pela sua capacidade de extrair diferentes tipos de informação, como Metadados de documentos, Referências bibliográficas, tabelas e outros elementos de conteúdo como listas e equações. Ao usar um conjunto de dados grande e variado, queremos dar uma ideia mais realista de como essas ferramentas se saem em cenários do mundo real.
Ferramentas de Extração de Informação
As ferramentas que avaliamos foram feitas pra extrair diferentes tipos de conteúdo de PDFs:
- Extração de Metadados: Inclui ferramentas que conseguem puxar informações básicas como títulos, autores e resumos de documentos.
- Extração de Referências: Essas ferramentas ajudam a identificar e analisar citações e referências bibliográficas em campos estruturados.
- Extração de Tabelas: Ferramentas dessa categoria focam em extrair dados de tabelas encontradas dentro dos PDFs.
- Extração Geral: Inclui ferramentas que extraem vários elementos como parágrafos, seções, figuras e legendas.
Pra cada ferramenta, coletamos dados sobre quão eficaz ela foi ao realizar essas tarefas. Comparando os resultados, conseguimos identificar quais ferramentas funcionam melhor pra tipos específicos de conteúdo.
Resultados da Avaliação
Nossos resultados mostraram que diferentes ferramentas têm forças e fraquezas variadas quando se trata de extrair tipos específicos de informação.
Extração de Metadados
Quando o assunto é extrair metadados como títulos e nomes de autores, uma ferramenta se destacava bem mais. Ela obteve pontuações altíssimas na extração de títulos e resumos, mas seu desempenho na extração de autores não foi tão bom. Outras ferramentas estavam quase lá, mas tinham lacunas notáveis na capacidade de extrair certos tipos de metadados.
Extração de Referências
Na extração de referências, a mesma ferramenta que se destacou também foi a melhor. Ela analisou referências bibliográficas de forma eficaz e superou as outras ferramentas nessa tarefa. Algumas outras ferramentas estavam perto, mas uma delas teve muita dificuldade, indicando que nem todas as ferramentas são apropriadas pra essa tarefa específica de extração.
Extração de Tabelas
A extração de tabelas foi um desafio maior para todas as ferramentas envolvidas. A melhor ferramenta nessa categoria obteve uma pontuação respeitável, mas o desempenho geral foi notavelmente inferior ao de outros tipos de conteúdo. Isso deve-se à complexidade das tabelas, que frequentemente exigem um entendimento do layout e da estrutura do conteúdo.
Extração Geral
Nas tarefas de extração geral, que incluem puxar parágrafos e seções, uma ferramenta claramente se destacou, alcançando uma pontuação significativamente mais alta. Outras ferramentas que só focaram em tarefas específicas se saíram mal na área de extração geral. Algumas ferramentas também conseguiram extrair legendas e rodapés até certo ponto, embora a maioria tenha tido dificuldade com listas e equações.
Conclusão e Direções Futuras
Com nossa avaliação extensa, estabelecemos um novo benchmark pra avaliar ferramentas de extração de informação voltadas pra documentos PDF acadêmicos. Usando um conjunto de dados grande e diverso, conseguimos identificar as forças e fraquezas de dez ferramentas diferentes.
Enquanto algumas ferramentas se destacaram bastante na extração de metadados e referências, o desempenho geral na extração de tabelas e outros elementos foi fraco. Isso sugere uma área significativa para melhorias no futuro.
No futuro, esperamos diversificar ainda mais nosso conjunto de dados, incluindo uma variedade de tipos de documentos e elementos de conteúdo. Além disso, planejamos atualizar e estender nossas avaliações continuamente conforme novas ferramentas forem desenvolvidas e as existentes forem melhoradas. A extração de tipos de conteúdo complexos continuará sendo um foco, e explorar métodos inovadores, como combinar diferentes técnicas de extração, pode resultar em um desempenho geral melhor nas ferramentas futuras.
A estrutura de avaliação que criamos pode facilmente acomodar novas ferramentas e atualizações, tornando-se um recurso flexível para pesquisa contínua nessa área. Queremos apoiar o desenvolvimento contínuo e a integração de tecnologias de extração de informações pra melhorar a acessibilidade do conteúdo acadêmico.
Título: A Benchmark of PDF Information Extraction Tools using a Multi-Task and Multi-Domain Evaluation Framework for Academic Documents
Resumo: Extracting information from academic PDF documents is crucial for numerous indexing, retrieval, and analysis use cases. Choosing the best tool to extract specific content elements is difficult because many, technically diverse tools are available, but recent performance benchmarks are rare. Moreover, such benchmarks typically cover only a few content elements like header metadata or bibliographic references and use smaller datasets from specific academic disciplines. We provide a large and diverse evaluation framework that supports more extraction tasks than most related datasets. Our framework builds upon DocBank, a multi-domain dataset of 1.5M annotated content elements extracted from 500K pages of research papers on arXiv. Using the new framework, we benchmark ten freely available tools in extracting document metadata, bibliographic references, tables, and other content elements from academic PDF documents. GROBID achieves the best metadata and reference extraction results, followed by CERMINE and Science Parse. For table extraction, Adobe Extract outperforms other tools, even though the performance is much lower than for other content elements. All tools struggle to extract lists, footers, and equations. We conclude that more research on improving and combining tools is necessary to achieve satisfactory extraction quality for most content elements. Evaluation datasets and frameworks like the one we present support this line of research. We make our data and code publicly available to contribute toward this goal.
Autores: Norman Meuschke, Apurva Jagdale, Timo Spinde, Jelena Mitrović, Bela Gipp
Última atualização: 2023-03-17 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.09957
Fonte PDF: https://arxiv.org/pdf/2303.09957
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://orcid.org/0000-0003-4648-8198
- https://orcid.org/0000-0003-3471-4127
- https://orcid.org/0000-0003-3220-8749
- https://orcid.org/0000-0001-6522-3019
- https://pdf-benchmark.gipplab.org
- https://github.com/CrossRef/pdfextract
- https://github.com/BMKEG/lapdftext
- https://github.com/eliask/pdfssa4met
- https://github.com/dimatura/pdfmeat
- https://github.com/knmnyn/ParsCit
- https://github.com/WING-NUS/Neural-ParsCit
- https://github.com/abhinavkashyap/sciwing
- https://www.adobe.io/apis/documentcloud/dcsdk/pdf-extract.html
- https://www.adobe.com/de/sensei.html
- https://github.com/adobe/pdfservices-python-sdk-samples
- https://tika.apache.org/
- https://github.com/chrismattmann/tika-python
- https://github.com/camelot-dev/camelot
- https://github.com/pdfminer/pdfminer.six
- https://github.com/itext
- https://github.com/chulwoopack/docstrum
- https://github.com/cjlin1/libsvm
- https://mallet.cs.umass.edu/sequences.php
- https://www.crummy.com/software/BeautifulSoup/bs4/doc/
- https://github.com/kermitt2/grobid
- https://github.com/kermitt2/delft
- https://GROBID.readthedocs.io/en/latest/Troubleshooting/
- https://pdfbox.apache.org/
- https://github.com/jalan/pdftotext
- https://github.com/ad-freiburg/pdfact
- https://github.com/pymupdf/PyMuPDF
- https://mupdf.com/
- https://github.com/tesseract-ocr/tesseract
- https://github.com/inspirehep/refextract
- https://linux.die.net/man1/pdftotext
- https://github.com/allenai/science-parse
- https://github.com/chezou/tabula-py
- https://github.com/doc-analysis/DocBank
- https://github.com/jsvine/pdfplumber
- https://doc-analysis.github.io/docbank-page/index.html
- https://grobid.readthedocs.io/en/latest/Principles/
- https://github.com/kermitt2/grobid/issues/340
- https://github.com/elifesciences/sciencebeam-pipelines