Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Améliorer la précision de l'OCR avec l'entraînement sur des données synthétiques

Des recherches montrent que les données synthétiques peuvent améliorer les méthodes de correction des erreurs OCR.

― 9 min lire


Données synthétiques pourDonnées synthétiques pourla correction OCRde l'OCR.synthétiques booste grave la précisionL'entraînement avec des données
Table des matières

L'OCR (Reconnaissance Optique de Caractères) est une technologie qui permet de convertir des images de texte en texte lisible par machine. C'est super utile pour transformer des documents historiques en formats numériques, ce qui permet aux gens de chercher et d'accéder facilement à des matériaux archivés. Mais l'OCR fait souvent des erreurs, ce qui peut réduire l'utilité de ces documents. C'est particulièrement vrai pour les vieux journaux et périodiques où les mises en page peuvent être complexes et difficiles à interpréter.

Pour corriger les erreurs de l'OCR, les chercheurs se concentrent sur l'utilisation de Modèles de Langage Génératifs (LM) pour améliorer la qualité du texte converti. Ces modèles s'appuient sur le contexte du texte incorrect et sur le contexte social et culturel environnant pour aider à corriger les erreurs. Cette méthode s'appelle Correction OCR par Leverage du Contexte (CLOCR-C). Un gros défi dans ce domaine est d'obtenir suffisamment de données d'Entraînement de bonne qualité pour rendre les modèles efficaces.

Données synthétiques pour l'Entraînement

Une solution prometteuse consiste à utiliser des données synthétiques générées par un modèle de langage. En créant du texte fictif qui imite de vrais documents historiques, les chercheurs peuvent obtenir une grande quantité de matériel d'entraînement sans les difficultés liées à la collecte de données réelles. Cet article discute de la façon dont une méthode qui simule les erreurs d'OCR – via un processus de Corruption de caractères – peut améliorer les capacités des modèles à corriger les erreurs dans les résultats de l'OCR.

Les résultats montrent que l'utilisation de données synthétiques peut réduire considérablement les taux d'erreur de caractères et de mots dans le texte produit par l'OCR. Les tests indiquent que les modèles entraînés sur des données synthétiques ont mieux performé que ceux entraînés sur des données réelles. Cela suggère que les données synthétiques peuvent être une ressource précieuse pour peaufiner les modèles destinés à corriger les erreurs de l'OCR.

L'Importance de la Qualité des Données

Lorsque l'on entraîne des modèles de langage, le type et la qualité des données utilisées peuvent avoir un grand impact sur les résultats finaux. Des recherches indiquent que l'utilisation de données peu corrompues – c'est-à-dire avec moins d'erreurs introduites – est souvent meilleure que l'utilisation de données trop corrompues, où trop d'erreurs ont été injectées. De plus, la corruption des caractères doit être non uniforme. Cela signifie que certains caractères devraient être plus susceptibles d'être altérés que d'autres, ce qui conduit à de meilleures performances globales.

Une des découvertes clés de cette étude était que le fait d'avoir plus de tokens par observation dans les données d'entraînement mène à de meilleurs résultats par rapport à un plus grand nombre d'observations avec moins de tokens chacune. Cela illustre l'importance de la densité des données dans l'entraînement efficace des modèles.

Le Rôle des Modèles de Langage

Les modèles de langage, en particulier ceux basés sur l'architecture des transformateurs, sont devenus populaires pour la correction post-OCR. Ils peuvent conserver un contexte de base pour le texte, ce qui leur permet de mieux comprendre le sens et les relations entre les mots. Avec la capacité d'apprendre à partir d'exemples, ces modèles peuvent fournir des corrections basées sur le contexte, améliorant la précision des sorties de l'OCR.

Le fine-tuning de ces modèles implique un entraînement supplémentaire sur des données spécifiquement liées à la tâche souhaitée – dans ce cas, corriger les erreurs de l'OCR. Des travaux récents ont montré que se concentrer uniquement sur un petit sous-ensemble de paramètres du modèle peut mener à des améliorations significatives sans nécessiter une puissance de calcul massive.

Le Processus de Corruption de Markov

Pour créer des données d'entraînement synthétiques, un processus de corruption basé sur un modèle de Markov est utilisé. Ce modèle simule les types d'erreurs que les systèmes OCR pourraient naturellement produire, permettant aux chercheurs de générer des matériaux d'entraînement qui reflètent de près les sorties réelles de l'OCR. L'approche implique l'utilisation d'un réseau de corruption au niveau des caractères qui peut altérer aléatoirement des caractères en fonction de probabilités apprises.

Ce modèle de corruption peut imiter divers types d'erreurs d'OCR, y compris des substitutions, des suppressions et des insertions de caractères. Le résultat est un ensemble de données de texte corrompu qui conserve la structure et le contenu de base des documents originaux tout en reflétant également les erreurs typiques que l'OCR pourrait faire.

Génération d'Articles Synthétiques

Les articles synthétiques utilisés dans cette recherche ont été générés à l'aide de prompts qui guident un modèle de langage pour produire du texte dans des formats spécifiques, comme des articles de journaux ou des entrées de journal. En fournissant des variables descriptives liées au style, au sentiment et à la complexité, une large gamme de textes peut être créée pour servir de données d'entraînement efficaces.

Avec un total de 11 000 textes synthétiques générés, ces articles offrent de nombreuses opportunités pour entraîner le modèle de langage à comprendre une grande variété de contextes historiques et de styles d'écriture. Ce corpus étendu permet une évaluation et un entraînement robustes des modèles chargés de corriger les erreurs de l'OCR.

Entraînement du Modèle et Expérimentations

L'entraînement des modèles de langage s'est concentré sur trois domaines distincts : explorer différents niveaux de corruption dans les données, examiner l'impact de la longueur du texte par rapport au nombre d'observations et comparer les modèles entraînés sur des données synthétiques avec ceux entraînés sur de véritables ensembles de données historiques.

  1. Explorer les Niveaux de Corruption : En ajustant le niveau de corruption dans les données d'entraînement, la recherche visait à trouver l'équilibre optimal qui améliorerait la performance. Les expériences variaient l'étendue des erreurs de caractères, permettant aux chercheurs d'évaluer comment différents niveaux de corruption affectaient les capacités des modèles à corriger les erreurs lors de l'OCR.

  2. Longueur du Texte vs. Observations : Un autre point critique de la recherche examinait comment la longueur de chaque observation de texte et la taille totale de l'ensemble d'entraînement influençaient la performance du modèle. Les résultats indiquaient que des observations plus longues avec moins d'échantillons au total offraient de meilleurs résultats, soulignant l'importance du contexte dans les données d'entraînement.

  3. Comparer Données Synthétiques et Réelles : Enfin, la performance des modèles entraînés sur des données synthétiques a été comparée à ceux dépendant d'ensembles de données historiques réelles. Les résultats ont montré que les matériaux d'entraînement synthétiques offraient des avantages notables par rapport aux ensembles de données traditionnels, en particulier en termes de réduction des erreurs.

Résultats et Conclusions

Les résultats des expériences ont révélé plusieurs informations importantes :

  • Amélioration des Taux d'Erreur : La réduction significative des taux d'erreur de caractères et de mots a démontré l'efficacité de l'utilisation de données synthétiques dans l'entraînement des modèles. Les modèles qui avaient été ajustés sur des données corrompues ont surpassé ceux qui reposaient sur des ensembles de données réelles.

  • Impact des Niveaux de Corruption : S'entraîner sur un niveau de corruption équilibré – surtout avec un taux d'erreur de caractères (CER) entre 5 % et 20 % – était bénéfique, tandis qu'une corruption excessive entraînait de moins bonnes performances.

  • La Distribution des Données Compte : La manière dont la corruption était distribuée dans les données d'entraînement a également joué un rôle crucial dans la performance. On a constaté que concentrer les erreurs sur des mots spécifiques plutôt que de les répartir uniformément dans le texte produisait de meilleurs résultats.

  • Leçons sur les Observations : De plus, les conclusions ont confirmé que moins d'observations mais plus longues avaient tendance à offrir de meilleures performances du modèle par rapport à un plus grand nombre d'observations plus courtes.

Recommandations pour l'Entraînement Futur

Au vu des résultats, plusieurs recommandations ont émergé pour les praticiens souhaitant entraîner des modèles efficaces pour la correction de l'OCR :

  • Comprendre la nature de vos données et le niveau de corruption pour ajuster efficacement les données synthétiques.
  • Prioriser de faibles niveaux de corruption pour améliorer la performance, en visant un CER d'environ 5 % à 20 %.
  • S'entraîner sur des modèles où les erreurs sont groupées sur moins de mots, car cela peut donner de meilleurs résultats.
  • Utiliser moins d'observations contenant plus de tokens pour améliorer la performance globale.

Conclusion

La recherche a mis en lumière le potentiel de l'utilisation de données synthétiques pour entraîner des modèles de langage dans le contexte de la correction de l'OCR. En utilisant des modèles de corruption avancés, il est devenu possible de créer des matériaux d'entraînement de haute qualité qui améliorent considérablement les performances des modèles. Les expériences menées ont révélé que le fait d'équilibrer soigneusement les niveaux de corruption, de comprendre l'impact de la longueur des observations et de tirer parti des données synthétiques peut mener à des processus de correction de l'OCR plus efficaces et efficients.

Cette étude ouvre des voies pour de futures recherches sur l'optimisation des modèles pour les corrections d'OCR, offrant un chemin plus clair pour récupérer des textes historiques précieux avec une plus grande précision. Les connaissances acquises aideront ceux qui travaillent sur des projets d'archivage numérique, offrant des conseils pratiques pour améliorer leurs efforts de préservation des documents historiques.

Source originale

Titre: Scrambled text: training Language Models to correct OCR errors using synthetic data

Résumé: OCR errors are common in digitised historical archives significantly affecting their usability and value. Generative Language Models (LMs) have shown potential for correcting these errors using the context provided by the corrupted text and the broader socio-cultural context, a process called Context Leveraging OCR Correction (CLOCR-C). However, getting sufficient training data for fine-tuning such models can prove challenging. This paper shows that fine-tuning a language model on synthetic data using an LM and using a character level Markov corruption process can significantly improve the ability to correct OCR errors. Models trained on synthetic data reduce the character error rate by 55% and word error rate by 32% over the base LM and outperform models trained on real data. Key findings include; training on under-corrupted data is better than over-corrupted data; non-uniform character level corruption is better than uniform corruption; More tokens-per-observation outperforms more observations for a fixed token budget. The outputs for this paper are a set of 8 heuristics for training effective CLOCR-C models, a dataset of 11,000 synthetic 19th century newspaper articles and scrambledtext a python library for creating synthetic corrupted data.

Auteurs: Jonathan Bourne

Dernière mise à jour: 2024-09-29 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.19735

Source PDF: https://arxiv.org/pdf/2409.19735

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus de l'auteur

Articles similaires