Aprimorando a Anotação de Cartas na Diplomática
Um novo método aumenta a eficiência na anotação de cartas medievais por meio da automação.
― 7 min ler
Índice
A Diplomática é o estudo de documentos medievais, especialmente as cartas, que são documentos legais dessa época. Esse campo geralmente exige uma análise bem detalhada dos aspectos visuais e escritos desses documentos. Quando pessoas que não são experts tentam anotar esses documentos, o trabalho delas precisa ser conferido e corrigido por profissionais.
No nosso trabalho, apresentamos um método novo para anotar cartas de forma mais eficaz. A gente foca em dividir as tarefas de segmentar esses documentos em áreas de interesse, parecido com como objetos são detectados em imagens. Esse método pode economizar tempo para os experts e pode gerar resultados que, às vezes, são melhores do que as técnicas tradicionais.
A gente também explora como criar uma estrutura clara para os diferentes tipos de anotações, pra maximizar o tempo e o esforço de quem está anotando os documentos. Usando cartões de calibração nas imagens, a gente adiciona informações sobre o tamanho real dos itens em pixels e treina modelos para fazer previsões com base nessas imagens.
A Importância da Diplomática e Paleografia
O estudo das cartas não é só sobre o texto; envolve também muitos aspectos visuais. Isso inclui examinar selos, detectar falsificações, identificar documentos e datá-los. Analisar esses elementos visuais é crucial e exige ferramentas especiais de análise de imagem. Embora os dados obtidos da diplomática tenham sido incluídos em conjuntos de dados históricos maiores, análises específicas para cartas não foram amplamente realizadas.
Estudos recentes mostraram que reconhecer entidades nomeadas diretamente em imagens pode dar resultados melhores do que usar um processo mais complexo em duas etapas. Nosso foco em analisar um grande número de cartas, especialmente do arquivo online monasterium.net, destaca a necessidade de automatizar essa análise devido ao grande volume de documentos.
O Desafio de Arquivos Grandes
Monasterium.net é um recurso importante que contém uma vasta coleção de cartas europeias, especialmente da Europa central. Com milhares de documentos de vários países, a natureza dos dados é bem variada, e muitos detalhes sobre como os documentos foram coletados não estão disponíveis. Isso significa que é essencial realizar uma análise automatizada de imagens para entender melhor essas coleções.
Tradicionalmente, muito do trabalho na diplomática requer atenção individual significativa a cada documento. No entanto, as cartas do final do período medieval somam centenas de milhares. Isso torna impraticável para um acadêmico analisar cada uma delas de forma minuciosa. Assim, há uma necessidade clara de assistência através da análise automática.
O conceito de "leitura distante" é usado para descrever a análise automática de texto sem precisar examinar cada documento individualmente, e "visão distante" se estende a análise visual. Esses métodos podem ser difíceis de testar e validar, o que requer um conhecimento mais profundo dos dados envolvidos e de quaisquer preconceitos nas ferramentas usadas.
Uso Eficiente do Tempo dos Especialistas
Nosso objetivo principal é reduzir o tempo que os experts precisam gastar nas tarefas de anotação, ao mesmo tempo garantindo que ainda consigamos resultados valiosos. A meta é criar um processo que minimize o tempo gasto em cada imagem enquanto maximiza o quanto de trabalho útil é feito.
Para alcançar isso, apresentamos uma ferramenta chamada FRAT (Fast Rectangle Annotation Tool). Essa ferramenta permite que os usuários marquem retângulos em áreas de interesse nas imagens das cartas. Os usuários também podem adicionar descrições e comentários a cada retângulo. A ferramenta é feita pra ser fácil de usar, permitindo anotações rápidas com o mínimo de esforço.
Análise de Layout e Criação de Conjuntos de Dados
Para entender melhor as imagens disponíveis no monasterium.net, selecionamos uma amostra aleatória de 1.000 cartas. Nós analisamos várias características, incluindo largura, altura e se havia selos presentes. Ao analisar esse conjunto de dados, buscamos obter insights sobre a qualidade e as características dos documentos.
As cartas costumam ter um layout padrão. Geralmente, elas têm um único bloco de texto dominante com informações adicionais ao redor. Nossa abordagem envolve definir retângulos em torno de áreas relevantes, que podem ser categorizadas em diferentes classes, como selos ou áreas de texto.
Usando um método de detecção de objetos, treinamos um modelo para reconhecer essas áreas com base em imagens anotadas. Os resultados mostraram uma alta precisão para a maioria das classes, indicando que o sistema funciona bem na identificação de áreas de interesse dentro das cartas.
Apresentando a Ferramenta de Anotação FRAT
FRAT é uma ferramenta leve criada para anotar imagens de documentos de forma rápida e eficiente. Os usuários podem marcar objetos nas imagens selecionando dois pontos para definir retângulos. Essa ferramenta permite adicionar transcrições e comentários para melhor contexto.
FRAT foi projetada para ser amigável, facilitando a navegação e operação. Ela acomoda diferentes tarefas de anotação e permite exportar dados para formatos populares usados na análise de imagem.
Dentro do FRAT, há dois modos principais: um para rotular objetos e outro para transcrever texto. Esses modos ajudam os usuários a alternar entre anotar elementos visuais e trabalhar com o texto presente nos documentos.
Prevendo a Resolução da Imagem
Muitas das imagens das cartas incluem cartões de calibração, que podem ajudar a estimar a resolução das imagens. Isso é importante ao avaliar a qualidade dos documentos e relacionar objetos visuais a tamanhos do mundo real.
Ao analisar os cartões de calibração, conseguimos inferir o tamanho dos pixels e relacioná-lo a medições físicas. Esse processo nos permite estimar a resolução mesmo quando as condições de aquisição originais não são conhecidas.
Desenvolvemos uma rede chamada ResResNet que prevê a resolução com base em partes da imagem. Esse modelo pode analisar imagens de diferentes tamanhos e utilizar segmentos recortados para fazer previsões de forma eficaz.
Resultados e Insights
Nossos resultados mostram que nossos métodos de previsão são eficazes. Analisamos as estimativas de resolução e as comparamos com a verdade conhecida, encontrando uma forte correlação. Embora o método básico usando cartões de calibração tenha funcionado bem, nosso modelo ResResNet foi mais confiável no geral.
A análise mostrou que nossa abordagem poderia lidar efetivamente com imagens que não possuem cartões de calibração, demonstrando o potencial de nossos métodos em vários cenários. O sucesso da nossa análise baseada em textura sugere que os documentos históricos contêm informações sensíveis a escala, indicando como vários fatores podem ser usados para prever a resolução.
Conclusão
Esse estudo destaca a importância de práticas de anotação eficientes na área da diplomática. Ao focar em otimizar o uso do tempo e dos recursos dos especialistas, queremos agilizar a análise de um grande número de cartas medievais.
As ferramentas e métodos desenvolvidos aqui são projetados para enfrentar os desafios impostos por grandes conjuntos de dados. Nossas descobertas demonstram que a análise automática de imagens pode complementar a expertise dos acadêmicos, levando a uma maior eficiência e eficácia no estudo de documentos históricos. Pesquisas futuras vão explorar ainda mais o potencial dessas ferramentas para melhorar nossa compreensão das técnicas de análise de documentos.
Título: Efficient Annotation of Medieval Charters
Resumo: Diplomatics, the analysis of medieval charters, is a major field of research in which paleography is applied. Annotating data, if performed by laymen, needs validation and correction by experts. In this paper, we propose an effective and efficient annotation approach for charter segmentation, essentially reducing it to object detection. This approach allows for a much more efficient use of the paleographer's time and produces results that can compete and even outperform pixel-level segmentation in some use cases. Further experiments shed light on how to design a class ontology in order to make the best use of annotators' time and effort. Exploiting the presence of calibration cards in the image, we further annotate the data with the physical length in pixels and train regression neural networks to predict it from image patches.
Autores: Anguelos Nicolaou, Daniel Luger, Franziska Decker, Nicolas Renet, Vincent Christlein, Georg Vogeler
Última atualização: 2023-06-24 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.14071
Fonte PDF: https://arxiv.org/pdf/2306.14071
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://www.springer.com/gp/computer-science/lncs
- https://www.springer.com/lncs
- https://github.com/anguelos/frat
- https://pypi.org/project/frat/
- https://anonymous.4open.science/r/yolov5-2D5D/README.diplomatics.md
- https://github.com/ultralytics/yolov5
- https://github.com/anguelos/yolov5/tree/master/bin
- https://github.com/anguelos/resolution_regressor