Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem# Bibliotecas digitais# Aprendizagem de máquinas

Melhorando a OCR para Documentos Históricos Búlgaros

Esse projeto melhora a correção de texto em documentos históricos búlgaros usando tecnologia OCR.

― 5 min ler


Corrigindo OCR paraCorrigindo OCR paraTextos Búlgarosdocumentos históricos búlgaros.Aumentando a precisão da OCR para
Índice

A digitalização de documentos históricos é super importante pra manter a herança cultural viva. Uma parte essencial desse processo é transformar imagens escaneadas desses documentos em texto usando Reconhecimento Óptico de Caracteres (OCR). Essa tecnologia ajuda a tornar o texto pesquisável e mais fácil de trabalhar. Mas nem sempre é moleza. Ferramentas OCR padrão muitas vezes têm dificuldade com estilos de escrita antigos e layouts complicados, resultando em erros no texto. Por causa disso, muitas vezes é necessário um passo extra pra corrigir o texto gerado pelo OCR.

A Necessidade de Análise Pós-OCR

Muitas bibliotecas e museus estão se esforçando pra converter seus documentos em papel em formas digitais, o que facilita o acesso e preserva a história. No entanto, documentos escritos com regras antigas de ortografia podem confundir os sistemas de OCR, resultando em erros de reconhecimento. Esses erros podem afetar o desempenho de aplicativos que dependem de texto preciso, como Reconhecimento de Entidade Nomeada e resumo de texto. Mesmo pequenos erros podem levar a problemas maiores, com pesquisas mostrando que até um pequeno aumento nos erros pode diminuir a confiabilidade dos dados.

Sistemas modernos de OCR conseguem ler cerca de 99% dos caracteres em documentos de boa qualidade. Pra línguas como o búlgaro, onde as regras de ortografia antigas podem não coincidir com o uso contemporâneo, o desempenho pode cair. A falta de dados de treinamento suficientes pra os sistemas de OCR aprenderem também complica a situação, especialmente pra documentos históricos búlgaros.

Foco nas Ortografias Históricas Búlgaras

Nesse projeto, a gente foca especificamente na ortografia búlgaro-histórica. Criamos um conjunto de dados de referência pra ajudar a avaliar a correção do texto produzido pelo OCR. O conjunto inclui documentos escritos na ortografia Drinov, que foi usada no século 19. Pra conseguir mais dados, desenvolvemos uma maneira de gerar amostras sintéticas tanto nas ortografias Drinov quanto Ivanchev usando textos búlgaros modernos.

Usando modelos de linguagem avançados e uma estrutura especial, adicionamos mecanismos pra melhorar a precisão da correção do texto pós-OCR. Nosso método mostrou reduzir os erros cometidos durante o reconhecimento e melhorou a qualidade dos documentos em 25%. Isso é um grande avanço em relação aos modelos anteriores.

Criando o Conjunto de Dados de Referência

Criar esse conjunto de dados de referência é uma parte importante do nosso trabalho. A ortografia Drinov não é muito usada e não existia um conjunto de dados específico pra ela. Reunimos jornais antigos da Biblioteca Nacional e trabalhamos pra anotar os documentos, garantindo que eles tivessem relação com as saídas modernas do OCR.

Como o búlgaro passou por várias reformas linguísticas, essa variedade ortográfica é um problema. Nosso conjunto de dados ajuda a fornecer um jeito padronizado de avaliar sistemas de OCR pra esse contexto histórico específico.

O Processo de Correção de Erros

Depois de estabelecer o conjunto de dados, focamos no processo de correção de erros em si. O primeiro passo é detectar se uma palavra foi reconhecida corretamente pelo sistema OCR. Se uma palavra estiver em um dicionário pré-definido, a gente considera que tá correta. Se não estiver, é marcada como erro. Essa classificação é feita usando diferentes modelos, incluindo alguns treinados em várias línguas.

O próximo passo envolve corrigir os erros detectados. Usamos métodos diferentes pra isso. Um método simples é encontrar palavras que são similares aos erros detectados com base na frequência com que aparecem no dicionário. Métodos mais avançados utilizam modelos de nível de caracteres que aproveitam mecanismos de atenção pra garantir uma correção melhor dos erros.

Utilizando Dados Sintéticos

Pra melhorar ainda mais nosso modelo, geramos dados sintéticos. Esses dados foram criados transformando a ortografia búlgaro-contemporânea em versões históricas usando regras de transformação específicas. Depois, adicionamos ruído, simulando erros do mundo real que os sistemas de OCR poderiam cometer. Isso ajuda nosso modelo a aprender melhor, expondo-o a uma variedade de possíveis erros.

Avaliando o Desempenho

Estabelecemos métricas rigorosas de avaliação pra avaliar o desempenho dos nossos modelos. Pra detecção de erros, olhamos pra precisão, recall e F1-score. Pra correção de erros, avaliamos as melhorias na qualidade do texto comparando as saídas originais do OCR com as versões corrigidas.

Nas nossas experiências, descobrimos que nosso melhor modelo alcançou notas altas nas ortografias Ivanchev e Drinov. Isso mostra a capacidade do modelo de se adaptar e melhorar com a introdução de dados sintéticos.

Tipos de Erros e Análise

Apesar das melhorias, notamos que alguns erros permaneceram, especialmente aqueles relacionados à Segmentação de Palavras. Esses erros acontecem quando o OCR reconhece mal onde uma palavra termina e outra começa. Destacamos vários tipos de erros cometidos pelo motor de OCR e discutimos a necessidade de uma pesquisa focada em corrigir erros de segmentação de palavras.

Conclusão e Próximos Passos

No nosso trabalho, mostramos um novo método pra corrigir erros de texto em documentos históricos búlgaros após o processamento do OCR. Nossa abordagem levou a melhorias mensuráveis na qualidade do texto e tem relevância pra outras línguas eslavas devido às suas características semelhantes.

Daqui pra frente, planejamos enfrentar os desafios dos erros de segmentação de palavras. Ao melhorar nossas capacidades nessa área, esperamos aprimorar ainda mais a qualidade das saídas do OCR e contribuir pra uma compreensão mais efetiva dos documentos históricos.

Resumindo, nosso trabalho contribui pra preservar a história cultural através de práticas de digitalização melhores e fornece recursos valiosos pra futuras pesquisas nessa área.

Fonte original

Título: Post-OCR Text Correction for Bulgarian Historical Documents

Resumo: The digitization of historical documents is crucial for preserving the cultural heritage of the society. An important step in this process is converting scanned images to text using Optical Character Recognition (OCR), which can enable further search, information extraction, etc. Unfortunately, this is a hard problem as standard OCR tools are not tailored to deal with historical orthography as well as with challenging layouts. Thus, it is standard to apply an additional text correction step on the OCR output when dealing with such documents. In this work, we focus on Bulgarian, and we create the first benchmark dataset for evaluating the OCR text correction for historical Bulgarian documents written in the first standardized Bulgarian orthography: the Drinov orthography from the 19th century. We further develop a method for automatically generating synthetic data in this orthography, as well as in the subsequent Ivanchev orthography, by leveraging vast amounts of contemporary literature Bulgarian texts. We then use state-of-the-art LLMs and encoder-decoder framework which we augment with diagonal attention loss and copy and coverage mechanisms to improve the post-OCR text correction. The proposed method reduces the errors introduced during recognition and improves the quality of the documents by 25\%, which is an increase of 16\% compared to the state-of-the-art on the ICDAR 2019 Bulgarian dataset. We release our data and code at \url{https://github.com/angelbeshirov/post-ocr-text-correction}.}

Autores: Angel Beshirov, Milena Dobreva, Dimitar Dimitrov, Momchil Hardalov, Ivan Koychev, Preslav Nakov

Última atualização: Aug 31, 2024

Idioma: English

Fonte URL: https://arxiv.org/abs/2409.00527

Fonte PDF: https://arxiv.org/pdf/2409.00527

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes