Melhorando OCR com Técnicas de Dados Sintéticos
Este artigo analisa como dados sintéticos melhoram o desempenho da correção de erros em OCR.
― 7 min ler
Índice
Este artigo fala sobre o uso de Dados Sintéticos para melhorar os resultados do Reconhecimento Óptico de Caracteres (OCR), que é uma tecnologia que converte imagens de texto em texto real. Vamos focar em como diferentes aspectos da criação de dados sintéticos, como a quantidade de dados que temos, como mudamos os dados e os métodos que usamos para gerar dados sintéticos, podem impactar o desempenho dos modelos que corrigem erros de OCR.
Importância do OCR
Bibliotecas digitais, como o Internet Archive, têm uma tonelada de livros históricos importantes em formatos de imagem. Muitos desses livros estão escritos em idiomas que não são muito falados hoje em dia. Mas, como estão em formato de imagem, não são fáceis de ler ou pesquisar. É aí que o OCR entra em cena. O OCR ajuda a converter essas imagens em texto, tornando-as mais acessíveis.
Infelizmente, o OCR não é perfeito. O texto resultante do OCR frequentemente contém erros, especialmente quando lidamos com textos antigos ou em fontes incomuns. Esses erros podem diminuir a utilidade desses textos.
Correção pós-OCR
Necessidade deDepois que obtemos a saída do OCR, precisamos corrigir os erros para tornar o texto útil. A correção pós-OCR é essencial por vários motivos. Primeiro, ajuda a preservar o patrimônio cultural. Segundo, torna o conhecimento e a informação mais acessíveis. Por último, dados históricos corrigidos são cruciais para treinar modelos que entendem a linguagem, especialmente para tarefas que envolvem história e cultura.
Tradicionalmente, os dados de treinamento pós-OCR eram coletados através de crowdsourcing, o que pode ser demorado e caro. Com o avanço da tecnologia, diferentes modelos de Aprendizado Profundo usando a arquitetura Transformer se tornaram populares para esse tipo de tarefa. Esses modelos se saem melhor quando treinados com mais dados. Os dados sintéticos começaram a ter um papel maior nessa área. No entanto, grande parte do trabalho existente sobre geração de dados sintéticos depende de dados já disponíveis, e nenhuma comparação completa foi feita para ver como diferentes métodos de criação de dados sintéticos afetam os resultados das tarefas pós-OCR.
Objetivos do Estudo
Este artigo pretende analisar de perto o impacto do volume de dados e das técnicas de alteração de dados no desempenho dos modelos pós-OCR. Também vamos apresentar um novo método que usa técnicas avançadas de visão computacional para avaliar a similaridade entre caracteres no texto, ajudando na construção de dados sintéticos.
Trabalhos Relacionados
Vários sistemas de OCR, como Google Vision API e Tesseract, são populares. Estudos anteriores analisaram os tipos de erros gerados pelos sistemas de OCR. Embora muitos ignorem a correção pós-OCR, essa é uma tarefa vital em Processamento de Linguagem Natural (NLP). Alguns métodos se concentram em corrigir erros nos níveis de caracteres e palavras, usando dicionários e regras para encontrar erros. Outros sugeriram dicionários únicos para textos especializados, como históricos. Alguns até exploraram alinhar e mesclar saídas de diferentes digitalizações para corrigir erros.
Recentemente, mais estudos enquadraram a tarefa de corrigir erros de OCR como um problema que pode ser resolvido usando métodos de sequência para sequência. Diferentes modelos, incluindo os populares como BERT e BART, foram aplicados. Esses estudos mostraram que modelos pré-treinados podem superar métodos tradicionais.
O Papel dos Dados no Desempenho do Modelo
Dados são cruciais para o sucesso em aprendizado profundo. Muitos pesquisadores estão trabalhando em estratégias que otimizam o uso de dados ao invés de mudar o modelo em si. Gerando dados sintéticos, os pesquisadores podem melhorar efetivamente o desempenho do modelo. Técnicas como filtragem, aumento de dados e injeção de ruído ajudam a criar dados de treinamento mais diversos.
Dados sintéticos são usados em várias tarefas de NLP, incluindo correção gramatical e identificação de idiomas. Uma maneira comum de criar dados sintéticos para desruído de texto é através da injeção de ruído, onde erros são adicionados a textos limpos para criar pares para treinamento. Alguns estudos adicionam erros artificiais de OCR a sentenças aleatoriamente, enquanto outros se concentram em idiomas de baixo recurso.
No campo da correção de OCR, alguns se concentraram em entender as formas visuais dos caracteres, conhecidos como glifos. Seus métodos muitas vezes envolvem o uso de diferentes modelos para melhorar a precisão das saídas de OCR. Avaliando a similaridade dos glifos, os pesquisadores podem entender melhor como corrigir erros.
Métodos para Gerar Dados Sintéticos
Este artigo apresenta três métodos comuns para gerar dados sintéticos em tarefas pós-OCR antes de introduzir um novo método baseado na similaridade de glifos.
Injeção Aleatória
- Esse método cria texto sintético de OCR inserindo erros aleatoriamente em dados limpos. Nesse processo, caracteres menos comuns são filtrados e várias taxas de erro são definidas para controlar a quantidade de ruído adicionada.
Criação de Imagens
- Esse método gera imagens de texto sintético que imitam cenários de OCR do mundo real. Transformando cada parte de texto limpa em uma imagem e introduzindo ruído aleatório, conseguimos simular como o texto pode aparecer em condições reais. As imagens são então processadas com um sistema de OCR para gerar output.
Injeção do Mundo Real
- Esse método insere erros de OCR em dados com base na ocorrência deles em situações da vida real. Analisando conjuntos de dados existentes e aplicando uma técnica que alinha o texto de OCR com o texto original limpo, os pesquisadores podem gerar dados que refletem erros típicos de OCR.
Similaridade de Glifos
- Este é o novo método que introduzimos. Este método foca em erros que acontecem entre caracteres que parecem similares. Analisando as similaridades visuais dos caracteres e usando técnicas específicas para combinar essas similaridades, conseguimos criar dados sintéticos que refletem saídas reais de OCR.
Configuração Experimental
Em nossos experimentos, focamos em várias línguas, desde as com muitos recursos até línguas de baixo recurso. Os dados para essas línguas são coletados de várias fontes. Dividimos os dados limpos em conjuntos de treinamento, validação e teste, usando diferentes técnicas para gerar dados sintéticos.
Em seguida, comparamos o quão bem diferentes modelos se saem com diferentes métodos de criação de dados sintéticos. Também avaliamos as melhorias feitas por modelos pré-treinados em relação a modelos mais novos construídos do zero.
Resultados
Nossos achados indicam que o desempenho dos modelos melhora com um melhor volume de dados e aumento. Os melhores resultados ocorrem com um nível específico de aumento. Enquanto o método baseado em similaridade de glifos mostrou potencial, métodos tradicionais usando ruído aleatório também resultaram em resultados benéficos.
Modelos pré-treinados superaram significativamente aqueles treinados do zero. Para línguas ricas em recursos, os dados sintéticos gerados através da similaridade de glifos resultaram em reduções consideráveis nas taxas de erro. No entanto, para línguas de baixo recurso, a eficiência desse método variou.
Conclusão
Em resumo, usar dados sintéticos através de vários métodos, especialmente aqueles baseados em similaridade de glifos, pode melhorar muito o desempenho dos modelos em tarefas de correção pós-OCR. Modelos pré-treinados demonstraram sua superioridade na produção de resultados precisos. Olhando para o futuro, há potencial para esses métodos melhorarem ainda mais as aplicações de OCR, especialmente para línguas com menos recursos. A abordagem discutida aqui pode contribuir significativamente para tornar textos históricos mais acessíveis e preservar o patrimônio cultural através de melhor tecnologia.
Título: Advancing Post-OCR Correction: A Comparative Study of Synthetic Data
Resumo: This paper explores the application of synthetic data in the post-OCR domain on multiple fronts by conducting experiments to assess the impact of data volume, augmentation, and synthetic data generation methods on model performance. Furthermore, we introduce a novel algorithm that leverages computer vision feature detection algorithms to calculate glyph similarity for constructing post-OCR synthetic data. Through experiments conducted across a variety of languages, including several low-resource ones, we demonstrate that models like ByT5 can significantly reduce Character Error Rates (CER) without the need for manually annotated data, and our proposed synthetic data generation method shows advantages over traditional methods, particularly in low-resource languages.
Autores: Shuhao Guan, Derek Greene
Última atualização: 2024-08-13 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2408.02253
Fonte PDF: https://arxiv.org/pdf/2408.02253
Licença: https://creativecommons.org/licenses/by-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.