Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Melhorando OCR com Técnicas de Dados Sintéticos

Este artigo analisa como dados sintéticos melhoram o desempenho da correção de erros em OCR.

― 7 min ler


Correção de OCR com DadosCorreção de OCR com DadosSintéticosmétodos avançados de dados sintéticos.Melhorando o desempenho de OCR com
Índice

Este artigo fala sobre o uso de Dados Sintéticos para melhorar os resultados do Reconhecimento Óptico de Caracteres (OCR), que é uma tecnologia que converte imagens de texto em texto real. Vamos focar em como diferentes aspectos da criação de dados sintéticos, como a quantidade de dados que temos, como mudamos os dados e os métodos que usamos para gerar dados sintéticos, podem impactar o desempenho dos modelos que corrigem erros de OCR.

Importância do OCR

Bibliotecas digitais, como o Internet Archive, têm uma tonelada de livros históricos importantes em formatos de imagem. Muitos desses livros estão escritos em idiomas que não são muito falados hoje em dia. Mas, como estão em formato de imagem, não são fáceis de ler ou pesquisar. É aí que o OCR entra em cena. O OCR ajuda a converter essas imagens em texto, tornando-as mais acessíveis.

Infelizmente, o OCR não é perfeito. O texto resultante do OCR frequentemente contém erros, especialmente quando lidamos com textos antigos ou em fontes incomuns. Esses erros podem diminuir a utilidade desses textos.

Necessidade de Correção pós-OCR

Depois que obtemos a saída do OCR, precisamos corrigir os erros para tornar o texto útil. A correção pós-OCR é essencial por vários motivos. Primeiro, ajuda a preservar o patrimônio cultural. Segundo, torna o conhecimento e a informação mais acessíveis. Por último, dados históricos corrigidos são cruciais para treinar modelos que entendem a linguagem, especialmente para tarefas que envolvem história e cultura.

Tradicionalmente, os dados de treinamento pós-OCR eram coletados através de crowdsourcing, o que pode ser demorado e caro. Com o avanço da tecnologia, diferentes modelos de Aprendizado Profundo usando a arquitetura Transformer se tornaram populares para esse tipo de tarefa. Esses modelos se saem melhor quando treinados com mais dados. Os dados sintéticos começaram a ter um papel maior nessa área. No entanto, grande parte do trabalho existente sobre geração de dados sintéticos depende de dados já disponíveis, e nenhuma comparação completa foi feita para ver como diferentes métodos de criação de dados sintéticos afetam os resultados das tarefas pós-OCR.

Objetivos do Estudo

Este artigo pretende analisar de perto o impacto do volume de dados e das técnicas de alteração de dados no desempenho dos modelos pós-OCR. Também vamos apresentar um novo método que usa técnicas avançadas de visão computacional para avaliar a similaridade entre caracteres no texto, ajudando na construção de dados sintéticos.

Trabalhos Relacionados

Vários sistemas de OCR, como Google Vision API e Tesseract, são populares. Estudos anteriores analisaram os tipos de erros gerados pelos sistemas de OCR. Embora muitos ignorem a correção pós-OCR, essa é uma tarefa vital em Processamento de Linguagem Natural (NLP). Alguns métodos se concentram em corrigir erros nos níveis de caracteres e palavras, usando dicionários e regras para encontrar erros. Outros sugeriram dicionários únicos para textos especializados, como históricos. Alguns até exploraram alinhar e mesclar saídas de diferentes digitalizações para corrigir erros.

Recentemente, mais estudos enquadraram a tarefa de corrigir erros de OCR como um problema que pode ser resolvido usando métodos de sequência para sequência. Diferentes modelos, incluindo os populares como BERT e BART, foram aplicados. Esses estudos mostraram que modelos pré-treinados podem superar métodos tradicionais.

O Papel dos Dados no Desempenho do Modelo

Dados são cruciais para o sucesso em aprendizado profundo. Muitos pesquisadores estão trabalhando em estratégias que otimizam o uso de dados ao invés de mudar o modelo em si. Gerando dados sintéticos, os pesquisadores podem melhorar efetivamente o desempenho do modelo. Técnicas como filtragem, aumento de dados e injeção de ruído ajudam a criar dados de treinamento mais diversos.

Dados sintéticos são usados em várias tarefas de NLP, incluindo correção gramatical e identificação de idiomas. Uma maneira comum de criar dados sintéticos para desruído de texto é através da injeção de ruído, onde erros são adicionados a textos limpos para criar pares para treinamento. Alguns estudos adicionam erros artificiais de OCR a sentenças aleatoriamente, enquanto outros se concentram em idiomas de baixo recurso.

No campo da correção de OCR, alguns se concentraram em entender as formas visuais dos caracteres, conhecidos como glifos. Seus métodos muitas vezes envolvem o uso de diferentes modelos para melhorar a precisão das saídas de OCR. Avaliando a similaridade dos glifos, os pesquisadores podem entender melhor como corrigir erros.

Métodos para Gerar Dados Sintéticos

Este artigo apresenta três métodos comuns para gerar dados sintéticos em tarefas pós-OCR antes de introduzir um novo método baseado na similaridade de glifos.

  1. Injeção Aleatória

    • Esse método cria texto sintético de OCR inserindo erros aleatoriamente em dados limpos. Nesse processo, caracteres menos comuns são filtrados e várias taxas de erro são definidas para controlar a quantidade de ruído adicionada.
  2. Criação de Imagens

    • Esse método gera imagens de texto sintético que imitam cenários de OCR do mundo real. Transformando cada parte de texto limpa em uma imagem e introduzindo ruído aleatório, conseguimos simular como o texto pode aparecer em condições reais. As imagens são então processadas com um sistema de OCR para gerar output.
  3. Injeção do Mundo Real

    • Esse método insere erros de OCR em dados com base na ocorrência deles em situações da vida real. Analisando conjuntos de dados existentes e aplicando uma técnica que alinha o texto de OCR com o texto original limpo, os pesquisadores podem gerar dados que refletem erros típicos de OCR.
  4. Similaridade de Glifos

    • Este é o novo método que introduzimos. Este método foca em erros que acontecem entre caracteres que parecem similares. Analisando as similaridades visuais dos caracteres e usando técnicas específicas para combinar essas similaridades, conseguimos criar dados sintéticos que refletem saídas reais de OCR.

Configuração Experimental

Em nossos experimentos, focamos em várias línguas, desde as com muitos recursos até línguas de baixo recurso. Os dados para essas línguas são coletados de várias fontes. Dividimos os dados limpos em conjuntos de treinamento, validação e teste, usando diferentes técnicas para gerar dados sintéticos.

Em seguida, comparamos o quão bem diferentes modelos se saem com diferentes métodos de criação de dados sintéticos. Também avaliamos as melhorias feitas por modelos pré-treinados em relação a modelos mais novos construídos do zero.

Resultados

Nossos achados indicam que o desempenho dos modelos melhora com um melhor volume de dados e aumento. Os melhores resultados ocorrem com um nível específico de aumento. Enquanto o método baseado em similaridade de glifos mostrou potencial, métodos tradicionais usando ruído aleatório também resultaram em resultados benéficos.

Modelos pré-treinados superaram significativamente aqueles treinados do zero. Para línguas ricas em recursos, os dados sintéticos gerados através da similaridade de glifos resultaram em reduções consideráveis nas taxas de erro. No entanto, para línguas de baixo recurso, a eficiência desse método variou.

Conclusão

Em resumo, usar dados sintéticos através de vários métodos, especialmente aqueles baseados em similaridade de glifos, pode melhorar muito o desempenho dos modelos em tarefas de correção pós-OCR. Modelos pré-treinados demonstraram sua superioridade na produção de resultados precisos. Olhando para o futuro, há potencial para esses métodos melhorarem ainda mais as aplicações de OCR, especialmente para línguas com menos recursos. A abordagem discutida aqui pode contribuir significativamente para tornar textos históricos mais acessíveis e preservar o patrimônio cultural através de melhor tecnologia.

Mais de autores

Artigos semelhantes