Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Bibliothèques numériques# Apprentissage automatique

Améliorer l'OCR pour les documents historiques bulgares

Ce projet améliore la correction de texte dans des documents historiques bulgares en utilisant la technologie OCR.

― 6 min lire


Correction de l'OCR pourCorrection de l'OCR pourles textes bulgaresles documents historiques bulgares.Améliorer la précision de l'OCR pour
Table des matières

La numérisation des documents historiques est super importante pour garder le patrimoine culturel vivant. Un truc clé dans ce process, c'est de transformer les images scannées de ces documents en texte grâce à la Reconnaissance Optique de Caractères (OCR). Cette techno permet de rendre le texte searchable et plus facile à manipuler. Mais bon, c'est pas toujours simple. Les outils OCR standards galèrent souvent avec les styles d'écriture anciens et les mises en page compliquées, ce qui fout un peu le bazar dans le texte. Du coup, il faut souvent une étape supplémentaire pour corriger le texte généré par l'OCR.

Le Besoin d'une Analyse Post-OCR

Beaucoup de bibliothèques et de musées bossent pour convertir leurs documents papier en formes numériques, ce qui facilite l'accès et préserve l'histoire. Mais les documents écrits avec les anciennes règles d'orthographe peuvent embrouiller les systèmes OCR, entraînant des erreurs de reconnaissance. Ces erreurs peuvent affecter les applis qui dépendent d'un texte précis, comme la Reconnaissance d'Entités Nommées et la résumation de texte. Même de petites erreurs peuvent causer de gros soucis, des recherches montrant qu'une petite hausse des erreurs peut faire chuter la fiabilité des données.

Les systèmes OCR modernes peuvent lire environ 99 % des caractères dans des documents de bonne qualité. Pour des langues comme le bulgare, où les anciennes règles d'orthographe peuvent ne pas coller avec l'usage contemporain, la performance peut chuter. Le manque de données d'entraînement suffisantes pour que les systèmes OCR puissent apprendre complique encore plus la tâche, surtout pour les documents historiques bulgares.

Focus sur les Orthographes Historiques Bulgares

Dans ce projet, on se concentre spécifiquement sur l'orthographe historique bulgare. On a créé un dataset de référence pour évaluer la correction du texte produit par l'OCR. Ce dataset comprend des documents écrits en orthographe Drinov, utilisée au 19ème siècle. Pour avoir plus de données, on a développé un moyen de générer des échantillons synthétiques dans les orthographes Drinov et Ivanchev en utilisant des textes bulgares modernes.

Avec des modèles de langage avancés et un cadre spécial, on a ajouté des mécanismes pour améliorer la précision de la correction de texte post-OCR. Notre méthode a montré qu'on pouvait réduire les erreurs faites pendant la reconnaissance et améliorer la qualité des documents de 25 %. C'est un sacré avancement par rapport aux modèles précédents.

Création du Dataset de Référence

Créer ce dataset de référence est une partie importante de notre travail. L'orthographe Drinov n'est pas très courante, et il n'existait pas de dataset spécifique pour elle. On a rassemblé d'anciens journaux à la Bibliothèque Nationale et travaillé pour annoter les documents, en s'assurant qu'ils correspondent aux sorties modernes de l'OCR.

Comme le bulgare a subi plusieurs réformes linguistiques, cette variété orthographique pose un problème. Notre dataset aide à fournir une méthode standardisée pour évaluer les systèmes OCR dans ce contexte historique spécifique.

Le Processus de Correction d'erreurs

Après avoir établi le dataset, on s'est concentrés sur le processus de correction d'erreurs lui-même. La première étape est de détecter si un mot a été reconnu correctement par le système OCR. Si un mot est trouvé dans un dictionnaire prédéfini, on le considère comme correct. Sinon, on le marque comme une erreur. Cette classification se fait en utilisant différents modèles, dont certains sont entraînés sur plusieurs langues.

La prochaine étape consiste à corriger les erreurs détectées. On a utilisé différentes méthodes pour ça. Une méthode simple consiste à trouver des mots similaires aux erreurs détectées en fonction de leur fréquence d'apparition dans le dictionnaire. Des méthodes plus avancées utilisent des modèles au niveau des caractères qui emploient des mécanismes d'attention pour assurer une meilleure correction des erreurs.

Utilisation de Données synthétiques

Pour améliorer notre modèle, on a généré des données synthétiques. Ces données ont été créées en transformant l'orthographe contemporaine bulgare en versions historiques grâce à des règles de transformation spécifiques. Ensuite, on a ajouté du bruit, simulant des erreurs réelles que les systèmes OCR pourraient faire. Ça aide notre modèle à mieux apprendre en l'exposant à une variété d'erreurs potentielles.

Évaluation des Performances

On a établi des métriques d'évaluation rigoureuses pour évaluer les performances de nos modèles. Pour la détection des erreurs, on a examiné la précision, le rappel et le score F1. Pour la correction des erreurs, on a évalué les améliorations de la qualité du texte en comparant les sorties originales de l'OCR avec les versions corrigées.

Dans nos expériences, on a constaté que notre meilleur modèle obtenait de bons scores sur les orthographes Ivanchev et Drinov. Ça montre la capacité du modèle à s'adapter et à s'améliorer avec l'introduction de données synthétiques.

Types d'Erreurs et Analyse

Malgré les améliorations, on a remarqué que certaines erreurs persistaient, principalement celles liées à la Segmentation des mots. Ces erreurs se produisent quand l'OCR se trompe sur où un mot se termine et où un autre commence. On a décrit divers types d'erreurs commises par le moteur OCR et discuté de la nécessité de recherches ciblées pour corriger les erreurs de segmentation des mots.

Conclusion et Prochaines Étapes

Dans notre travail, on a montré une nouvelle méthode pour corriger les erreurs de texte dans les documents historiques bulgares après traitement par l'OCR. Notre approche a conduit à des améliorations mesurables de la qualité du texte et est pertinente pour d'autres langues slaves en raison de leurs caractéristiques similaires.

Pour l'avenir, on prévoit de s'attaquer aux défis des erreurs de segmentation des mots. En améliorant nos capacités dans ce domaine, on espère encore améliorer la qualité des sorties OCR et contribuer à une meilleure compréhension des documents historiques.

En résumé, notre travail contribue à préserver l'histoire culturelle grâce à de meilleures pratiques de numérisation et fournit des ressources précieuses pour de futures recherches dans ce domaine.

Source originale

Titre: Post-OCR Text Correction for Bulgarian Historical Documents

Résumé: The digitization of historical documents is crucial for preserving the cultural heritage of the society. An important step in this process is converting scanned images to text using Optical Character Recognition (OCR), which can enable further search, information extraction, etc. Unfortunately, this is a hard problem as standard OCR tools are not tailored to deal with historical orthography as well as with challenging layouts. Thus, it is standard to apply an additional text correction step on the OCR output when dealing with such documents. In this work, we focus on Bulgarian, and we create the first benchmark dataset for evaluating the OCR text correction for historical Bulgarian documents written in the first standardized Bulgarian orthography: the Drinov orthography from the 19th century. We further develop a method for automatically generating synthetic data in this orthography, as well as in the subsequent Ivanchev orthography, by leveraging vast amounts of contemporary literature Bulgarian texts. We then use state-of-the-art LLMs and encoder-decoder framework which we augment with diagonal attention loss and copy and coverage mechanisms to improve the post-OCR text correction. The proposed method reduces the errors introduced during recognition and improves the quality of the documents by 25\%, which is an increase of 16\% compared to the state-of-the-art on the ICDAR 2019 Bulgarian dataset. We release our data and code at \url{https://github.com/angelbeshirov/post-ocr-text-correction}.}

Auteurs: Angel Beshirov, Milena Dobreva, Dimitar Dimitrov, Momchil Hardalov, Ivan Koychev, Preslav Nakov

Dernière mise à jour: 2024-08-31 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2409.00527

Source PDF: https://arxiv.org/pdf/2409.00527

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires