Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Bases de dados

SIMARA: Um Novo Recurso para Pesquisa Histórica

Um banco de dados feito pra extrair informações chave de documentos escritos à mão.

― 6 min ler


Revolucionando o Acesso aRevolucionando o Acesso aDocumentos Históricosinformações de arquivos manuscritos.A SIMARA melhora a extração de
Índice

A SIMARA é uma nova base de dados criada pra ajudar a extrair informações importantes de documentos manuscritos. O foco tá nos finding aids, que são documentos que ajudam a entender arquivos mais antigos. A ideia é facilitar o acesso de pesquisadores e do público em geral a informações históricas de forma mais eficaz.

O que são Finding Aids?

Finding aids são documentos especiais feitos por arquivos. Eles contêm metadados, que são infos que descrevem outros documentos. Por exemplo, eles dão detalhes como título, data e identificadores únicos dos materiais arquivados. Esses finding aids são cruciais porque guiam os usuários até os documentos arquivados relevantes.

A Importância do Acesso Digital

Nos últimos anos, muitos documentos históricos foram digitalizados, ou seja, escaneados e disponibilizados em formato digital. Porém, uma porcentagem significativa dos documentos nos arquivos ainda existe só em formato físico. Isso torna essencial escolher quais documentos serão digitalizados com base na sua utilidade. Os finding aids são prioridade pra digitalização porque servem como o principal ponto de entrada pra acessar informações arquivadas.

Desafios na Processação de Documentos Históricos

Quando se processam documentos históricos, os métodos tradicionais geralmente focam em criar transcrições de texto. Mas, com os finding aids, o objetivo é diferente. A tarefa principal é extrair as informações essenciais contidas nesses documentos de forma clara e organizada. Isso requer um processamento especializado que vai além de simplesmente transcrever conteúdo.

A Necessidade de Automação

Dada a grande quantidade de documentos históricos manuscritos, digitar e codificar informações manualmente pode levar anos. Portanto, usar métodos automáticos pra converter esses materiais em dados digitais é essencial. É aí que a SIMARA entra.

Descrição do Conjunto de Dados SIMARA

A base de dados SIMARA inclui imagens de finding aids junto com as informações que eles contêm. O conjunto de dados consiste em várias séries de documentos que datam do século 18 ao 20. Cada documento foi cuidadosamente anotado no nível da página, com campos essenciais identificados pra extração.

Estrutura do Conjunto de Dados SIMARA

O conjunto de dados é organizado em diferentes séries com base no tipo de arquivo. Cada série tem seus próprios desafios devido a variações em estilos de caligrafia, layouts e o contexto histórico dos documentos.

Série E

A série E contém registros de decisões feitas pelos conselhos do rei dos séculos 17 e 18. Tem 40.480 fichas que analisam cada decisão. A escrita francesa antiga torna essa série mais difícil de ler.

Série L

A série L é composta por documentos da igreja de Saint-Martin-des-Champs, em Paris. Inclui 623 fichas detalhando cartas medievais. O layout e as correções feitas ao longo do tempo podem complicar a leitura dessas fichas.

Série M

A série M trata dos Cavaleiros de Malta e contém documentos que provam seu status nobre. Essa série tem 4.847 fichas organizadas alfabeticamente e escritas na década de 1950, apresentando poucos desafios de leitura.

Série X1a

A série X1a inclui registros de julgamentos pelo Parlamento, a corte mais alta da França, com 101.036 fichas analisando julgamentos do século 18. Escrita no século 20, essa série é fácil de processar.

Série Y

A série Y apresenta escrituras notariais registradas no Châtelet, uma instituição parisiense. Consiste em 61.878 fichas analisando esses documentos. Os desafios incluem a qualidade da digitalização, estilo de caligrafia e densidade do layout.

Arquivo Douët d'Arcq

Esse arquivo indexa várias séries relacionadas a documentos históricos, incluindo arquivos reais e registros de igrejas parisiense, totalizando 118.093 fichas criadas em meados do século 19.

Como o Conjunto de Dados SIMARA Foi Criado

Criar a base de dados SIMARA envolveu uma abordagem diferente dos métodos tradicionais. Em vez de usar múltiplos modelos pra diferentes tarefas, a mesma interface de anotação foi usada tanto pra criar quanto pra validar os dados. Isso agilizou o processo e garantiu consistência na qualidade dos dados.

O Papel dos Anotadores

Os anotadores eram responsáveis por digitar os dados verdadeiros enquanto consultavam as imagens dos finding aids. Esse sistema permitiu uma abordagem colaborativa, onde os anotadores poderiam confirmar ou corrigir sugestões feitas pelo modelo durante a fase de produção.

Treinamento de Modelos para Extração de Informações

Um aspecto chave da SIMARA é treinar modelos pra extrair informações de forma mais eficaz. Vários modelos foram treinados com diferentes conjuntos de documentos pra melhorar com o tempo. Esses modelos são avaliados com base no desempenho em reconhecer texto manuscrito e extrair informações relevantes.

Entendendo o Desempenho dos Modelos

O desempenho dos modelos é avaliado usando métricas padrão como Taxa de Erro de Caracteres (CER) e Taxa de Erro de Palavras (WER). O objetivo geral é melhorar a extração de informações chave-valor dos documentos.

Resultados e Descobertas

Os resultados iniciais mostram que, à medida que a quantidade de dados de treinamento aumenta, o desempenho do modelo tende a melhorar. A avaliação de diferentes séries revela que algumas séries são mais fáceis de reconhecer que outras. Por exemplo, séries que contêm muitos exemplos no conjunto de treinamento tendem a ter um desempenho melhor.

Avaliação Detalhada da Extração de Chave-Valor

A extração de informações chave-valor dos documentos indica que dados numéricos, como datas e números de série, podem ser capturados com alta precisão. No entanto, alguns campos, especialmente aqueles menos representados nos dados de treinamento, podem não ter um desempenho tão bom.

Aplicações Futuras da SIMARA

O desenvolvimento da base de dados SIMARA representa um avanço significativo na área de processamento de documentos históricos. Ao fornecer um novo tipo de tarefa focada na extração de chave-valor, a SIMARA oferece uma estrutura pra futuras pesquisas e melhorias de modelos.

Conclusão

A SIMARA é um recurso valioso tanto pra pesquisadores quanto pra arquivistas. Ao focar na extração de informações cruciais de documentos manuscritos, ela visa melhorar o acesso a registros históricos. O desenvolvimento contínuo e a avaliação de modelos treinados com esse conjunto de dados podem levar a melhores ferramentas pra processar documentos históricos no futuro, tornando as informações arquivadas mais acessíveis a todos.

Fonte original

Título: SIMARA: a database for key-value information extraction from full pages

Resumo: We propose a new database for information extraction from historical handwritten documents. The corpus includes 5,393 finding aids from six different series, dating from the 18th-20th centuries. Finding aids are handwritten documents that contain metadata describing older archives. They are stored in the National Archives of France and are used by archivists to identify and find archival documents. Each document is annotated at page-level, and contains seven fields to retrieve. The localization of each field is not available in such a way that this dataset encourages research on segmentation-free systems for information extraction. We propose a model based on the Transformer architecture trained for end-to-end information extraction and provide three sets for training, validation and testing, to ensure fair comparison with future works. The database is freely accessible at https://zenodo.org/record/7868059.

Autores: Solène Tarride, Mélodie Boillet, Jean-François Moufflet, Christopher Kermorvant

Última atualização: 2023-04-26 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2304.13606

Fonte PDF: https://arxiv.org/pdf/2304.13606

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes