Simple Science

Ciência de ponta explicada de forma simples

# Informática# Computação e linguagem

Aprimorando a Precisão de OCR com Treinamento em Dados Sintéticos

Pesquisas mostram que dados sintéticos podem melhorar os métodos de correção de erros de OCR.

Jonathan Bourne

― 8 min ler


Dados Sintéticos paraDados Sintéticos paraCorreção de OCRaumenta muito a precisão do OCR.O treinamento com dados sintéticos
Índice

OCR (Reconhecimento Óptico de Caracteres) é uma tecnologia usada pra converter imagens de texto em texto que máquinas conseguem ler. É super útil pra transformar documentos históricos em formatos digitais, permitindo que a galera busque e acesse materiais arquivados com facilidade. Mas, geralmente, o OCR erra bastante, o que pode diminuir a utilidade desses documentos. Isso é especialmente verdade pra jornais e periódicos antigos onde os layouts podem ser complexos e difíceis de entender.

Pra resolver os erros do OCR, pesquisadores estão focando em usar Modelos de Linguagem Generativa (LMs) pra melhorar a qualidade do texto convertido. Esses modelos aproveitam o contexto tanto do texto incorreto quanto do contexto social e cultural ao redor pra corrigir os erros. Esse método é chamado de Correção de OCR Aproveitando Contexto (CLOCR-C). Um desafio significativo nesse campo é conseguir dados de Treinamento de alta qualidade pra tornar os modelos eficazes.

Dados Sintéticos para Treinamento

Uma solução promissora envolve usar dados sintéticos gerados por um Modelo de Linguagem. Criando textos falsos que imitam documentos históricos reais, os pesquisadores conseguem um monte de material de treinamento sem as dificuldades ligadas à coleta de dados reais. Este artigo discute como um método que simula erros de OCR-através de um processo de corrupção de caracteres-pode melhorar as habilidades dos modelos de corrigir erros nas saídas do OCR.

Os resultados mostram que usar dados sintéticos pode reduzir significativamente as taxas de erro de caracteres e palavras no texto produzido pelo OCR. Testes indicam que modelos treinados com dados sintéticos se saíram melhor do que aqueles treinados com dados reais. Isso sugere que dados sintéticos podem ser um recurso valioso pra ajustar modelos que corrigem erros do OCR.

A Importância da Qualidade dos Dados

Quando se trata de treinar modelos de linguagem, o tipo e a qualidade dos dados usados podem afetar muito os resultados finais. Pesquisas indicam que usar dados menos corrompidos-ou seja, dados com menos erros introduzidos-é muitas vezes melhor do que usar dados super corrompidos, onde muitos erros foram injetados. Além disso, a corrupção de caracteres precisa ser não uniforme. Isso significa que alguns caracteres devem ter mais chance de serem alterados do que outros, levando a um desempenho geral melhor.

Uma das descobertas principais desse estudo foi que ter mais tokens por observação nos dados de treinamento leva a melhores resultados comparado a ter um número maior de observações com menos tokens cada. Isso ilustra a importância da densidade dos dados pra treinar modelos de forma eficaz.

O Papel dos Modelos de Linguagem

Modelos de linguagem, especialmente os baseados na arquitetura de transformadores, se tornaram populares pra correção pós-OCR. Eles conseguem manter um contexto básico pro texto, o que ajuda a entender melhor o significado e as relações entre as palavras. Com a capacidade de aprender com exemplos, esses modelos podem fornecer correções baseadas em contexto, melhorando a precisão das saídas do OCR.

Ajustar esses modelos envolve treinamento adicional em dados especificamente relacionados à tarefa desejada-nesse caso, corrigir erros de OCR. Trabalhos recentes mostraram que focar apenas em um pequeno subconjunto de parâmetros do modelo pode levar a melhorias significativas sem precisar de um monte de poder computacional.

O Processo de Corrupção de Markov

Pra criar dados sintéticos de treinamento, é usado um processo de corrupção baseado em um modelo de Markov. Esse modelo simula os tipos de erros que sistemas de OCR poderiam naturalmente produzir, permitindo que pesquisadores gerem materiais de treinamento que refletem de perto as saídas reais do OCR. A abordagem envolve usar uma rede de corrupção em nível de caracteres que pode alterar caracteres aleatoriamente com base em probabilidades aprendidas.

Esse modelo de corrupção pode imitar vários tipos de erros de OCR, incluindo substituições, deleções e inserções de caracteres. O resultado é um conjunto de dados de texto corrompido que mantém a estrutura principal e o conteúdo dos documentos originais enquanto também reflete os erros típicos que o OCR poderia cometer.

Gerando Artigos Sintéticos

Os artigos sintéticos usados nesse estudo foram gerados usando prompts que guiam um modelo de linguagem pra produzir texto em formatos específicos, como artigos de jornal ou entradas de diário. Ao fornecer variáveis descritivas relacionadas ao estilo, sentimento e complexidade, uma gama diversificada de textos pode ser criada pra servir como material de treinamento eficaz.

Com um total de 11.000 textos sintéticos gerados, esses artigos oferecem muitas oportunidades pra treinar o modelo de linguagem a entender uma variedade ampla de contextos históricos e estilos de escrita. Esse corpus extenso permite uma avaliação robusta e treinamento dos modelos encarregados de corrigir erros de OCR.

Treinamento de Modelos e Experimentos

O treinamento de modelos de linguagem focou em três áreas distintas: explorando diferentes níveis de corrupção nos dados, investigando o impacto do comprimento do texto versus o número de observações, e comparando modelos treinados em dados sintéticos contra aqueles treinados em conjuntos de dados históricos reais.

  1. Explorando Níveis de Corrupção: Ajustando o nível de corrupção nos dados de treinamento, a pesquisa buscou encontrar o equilíbrio ideal que melhoraria o desempenho. Experimentos variaram a extensão dos erros de caracteres, permitindo que os pesquisadores avaliassem como diferentes níveis de corrupção afetavam as habilidades dos modelos de corrigir erros durante o OCR.

  2. Comprimento do Texto vs. Observações: Outra parte crítica da pesquisa examinou como o comprimento de cada observação de texto e o tamanho total do conjunto de treinamento influenciaram o desempenho do modelo. Os resultados indicaram que observações mais longas com menos amostras totais forneciam melhores resultados, enfatizando a importância do contexto nos dados de treinamento.

  3. Comparando Conjuntos de Dados Sintéticos vs. Reais: Finalmente, o desempenho de modelos treinados com dados sintéticos foi comparado àqueles que dependiam de conjuntos de dados históricos reais. As descobertas mostraram que materiais de treinamento sintéticos ofereciam vantagens notáveis em relação aos conjuntos de dados tradicionais, especialmente em termos de redução de erros.

Resultados e Descobertas

Os resultados dos experimentos revelaram várias percepções importantes:

  • Melhoria nas Taxas de Erro: A redução significativa em tanto nas taxas de erro de caracteres quanto de palavras demonstrou a eficácia de usar dados sintéticos no treinamento de modelos. Modelos que foram ajustados com dados corrompidos superaram aqueles que se basearam em conjuntos de dados reais.

  • Impacto dos Níveis de Corrupção: Treinar em um nível balanceado de corrupção-especialmente com uma taxa de erro de caracteres (CER) entre 5% e 20%-foi benéfico, enquanto corrupção excessiva levou a um desempenho pior.

  • Distribuição de Dados Importa: A forma como a corrupção foi distribuída nos dados de treinamento também teve um papel crucial no desempenho. Descobriu-se que concentrar erros em palavras específicas em vez de distribuí-los uniformemente pelo texto produzia resultados melhores.

  • Lições sobre Observações: Além disso, as descobertas reafirmaram que menos, mas observações mais longas tendiam a resultar em melhor desempenho dos modelos comparado a um número maior de observações mais curtas.

Recomendações para Futuro Treinamento

Baseado nas descobertas, várias recomendações surgiram pra quem procura treinar modelos eficazes pra correção de OCR:

  • Entender a natureza dos seus dados e o nível de corrupção pra ajustar dados sintéticos de forma eficaz.
  • Priorizar níveis baixos de corrupção pra melhorar o desempenho, mirando uma CER em torno de 5%-20%.
  • Treinar em modelos onde os erros estão agrupados em menos palavras, pois isso pode gerar melhores resultados.
  • Usar menos observações que contenham mais tokens pra melhorar o desempenho geral.

Conclusão

A pesquisa destacou o potencial de usar dados sintéticos pra treinar modelos de linguagem no contexto de correção de OCR. Ao utilizar modelos de corrupção avançados, tornou-se possível criar materiais de treinamento de alta qualidade que melhoraram significativamente o desempenho dos modelos. Os experimentos realizados revelaram que equilibrar cuidadosamente os níveis de corrupção, entender o impacto do comprimento das observações e aproveitar dados sintéticos pode levar a processos de correção de OCR mais eficientes e eficazes.

Esse estudo abre caminhos pra pesquisas futuras em otimização de modelos pra correções de OCR, oferecendo um caminho mais claro pra recuperar textos históricos valiosos com maior precisão. As percepções obtidas vão ajudar quem está trabalhando em projetos de arquivamento digital, oferecendo orientações práticas pra melhorar os esforços na preservação de documentos históricos.

Fonte original

Título: Scrambled text: training Language Models to correct OCR errors using synthetic data

Resumo: OCR errors are common in digitised historical archives significantly affecting their usability and value. Generative Language Models (LMs) have shown potential for correcting these errors using the context provided by the corrupted text and the broader socio-cultural context, a process called Context Leveraging OCR Correction (CLOCR-C). However, getting sufficient training data for fine-tuning such models can prove challenging. This paper shows that fine-tuning a language model on synthetic data using an LM and using a character level Markov corruption process can significantly improve the ability to correct OCR errors. Models trained on synthetic data reduce the character error rate by 55% and word error rate by 32% over the base LM and outperform models trained on real data. Key findings include; training on under-corrupted data is better than over-corrupted data; non-uniform character level corruption is better than uniform corruption; More tokens-per-observation outperforms more observations for a fixed token budget. The outputs for this paper are a set of 8 heuristics for training effective CLOCR-C models, a dataset of 11,000 synthetic 19th century newspaper articles and scrambledtext a python library for creating synthetic corrupted data.

Autores: Jonathan Bourne

Última atualização: 2024-09-29 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2409.19735

Fonte PDF: https://arxiv.org/pdf/2409.19735

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Artigos semelhantes