Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Améliorer l'OCR avec des techniques de données synthétiques

Cet article examine comment les données synthétiques améliorent la performance de correction des erreurs OCR.

Shuhao Guan, Derek Greene

― 8 min lire


Correction OCR avec desCorrection OCR avec desdonnées synthétiquesdonnées synthétiques.utilisant des méthodes avancées deAméliorer la performance de l'OCR en
Table des matières

Cet article parle de l'utilisation de Données synthétiques pour améliorer les résultats de la Reconnaissance Optique de Caractères (OCR), une technologie qui transforme des images de texte en vrai texte. On se concentre sur comment différents aspects de la création de données synthétiques, comme la quantité de données qu'on a, comment on modifie les données et les méthodes utilisées pour générer des données synthétiques, peuvent influencer la performance des modèles qui corrigent les erreurs d'OCR.

Importance de l'OCR

Les bibliothèques numériques, comme l'Internet Archive, ont une tonne de livres historiques importants au format image. Beaucoup de ces livres sont écrits dans des langues qui ne sont plus très parlées aujourd'hui. Mais comme ils sont en format image, c'est pas facile à lire ou à chercher. C'est là qu'intervient l'OCR. L'OCR aide à convertir ces images en texte, ce qui les rend plus accessibles.

Malheureusement, l'OCR n'est pas parfait. Le texte résultant de l'OCR contient souvent des erreurs, surtout avec des vieux textes ou des textes dans des polices inhabituelles. Ces erreurs peuvent réduire l'utilité de ces textes.

Besoin de Correction Post-OCR

Une fois qu'on a le résultat de l'OCR, il faut corriger les erreurs pour que le texte soit utile. La correction post-OCR est essentielle pour plusieurs raisons. D'abord, ça aide à préserver le patrimoine culturel. Ensuite, ça rend le savoir et les informations plus accessibles. Enfin, les données textuelles historiques corrigées sont cruciales pour entraîner des modèles qui comprennent le langage, surtout pour des tâches liées à l'histoire et à la culture.

Traditionnellement, les données d'entraînement post-OCR sont collectées via le crowdsourcing, ce qui peut être à la fois long et coûteux. Avec l'avancée de la technologie, différents modèles d'Apprentissage profond utilisant l'architecture Transformer sont devenus populaires pour ce genre de tâche. Ces modèles fonctionnent mieux lorsqu'ils sont entraînés sur plus de données. Les données synthétiques commencent à jouer un rôle plus important dans ce domaine. Pourtant, beaucoup des travaux existants sur la génération de données synthétiques reposent sur des données déjà disponibles, et aucune comparaison approfondie n'a été faite pour voir comment différentes méthodes de création de données synthétiques influencent les résultats des tâches post-OCR.

Objectifs de l'Étude

Cet article vise à examiner de près l'impact du volume de données et des techniques de modification des données sur la performance des modèles post-OCR. On va aussi introduire une nouvelle méthode qui utilise des techniques avancées de vision par ordinateur pour évaluer la similarité entre les caractères dans le texte, ce qui aide à construire des données synthétiques.

Travaux Connus

Différents systèmes OCR, comme Google Vision API et Tesseract, sont populaires. Des études passées ont examiné les types d'erreurs générées par ces systèmes OCR. Bien que beaucoup négligent la correction post-OCR, c'est une tâche vitale en traitement du langage naturel (NLP). Certaines méthodes se concentrent sur la correction des erreurs au niveau des caractères et des mots, en utilisant des dictionnaires et des règles pour repérer les erreurs. D'autres ont proposé des dictionnaires uniques pour des textes spécialisés, comme ceux d'histoire. Certains ont même exploré l'alignement et la fusion des résultats de différentes scans pour corriger les erreurs.

Récemment, plus d'études ont présenté la tâche de correction des erreurs d'OCR comme un problème pouvant être résolu avec des méthodes de séquence à séquence. Différents modèles, y compris des plus connus comme BERT et BART, ont été appliqués. Ces études ont montré que les modèles pré-entraînés peuvent dépasser les méthodes traditionnelles.

Rôle des Données dans la Performance des Modèles

Les données sont cruciales pour réussir en apprentissage profond. Beaucoup de chercheurs travaillent sur des stratégies qui optimisent l'utilisation des données plutôt que de changer le modèle lui-même. En générant des données synthétiques, les chercheurs peuvent améliorer efficacement la performance des modèles. Des techniques comme le filtrage, l'augmentation de données et l'injection de bruit aident à créer des données d'entraînement plus diversifiées.

Les données synthétiques sont utilisées dans diverses tâches NLP, y compris la correction grammaticale et l'identification des langues. Une méthode courante pour créer des données synthétiques pour le débruitage de texte est l'injection de bruit, où des erreurs sont ajoutées à un texte propre pour créer des paires pour l'entraînement. Certaines études ajoutent des erreurs OCR artificielles aux phrases de manière aléatoire, tandis que d'autres se concentrent sur des langues à faibles ressources.

Dans le domaine de la correction OCR, certains se sont concentrés sur la compréhension des formes visuelles des caractères, appelées glyphes. Leurs méthodes impliquent souvent l'utilisation de différents modèles pour améliorer l'exactitude des sorties OCR. En évaluant la similarité des glyphes, les chercheurs peuvent mieux comprendre comment corriger les erreurs.

Méthodes de Génération de Données Synthétiques

Cet article présente trois méthodes courantes pour générer des données synthétiques dans des tâches post-OCR avant d'introduire une nouvelle méthode basée sur la similarité des glyphes.

  1. Injection Aléatoire

    • Cette méthode crée un texte OCR synthétique en insérant aléatoirement des erreurs dans des données propres. Dans ce processus, les caractères moins courants sont filtrés et différents taux d'erreur sont définis pour contrôler la quantité de bruit ajoutée.
  2. Création d'Image

    • Cette méthode génère des images de texte synthétiques qui imitent les scénarios OCR du monde réel. En transformant chaque morceau de texte propre en image et en introduisant du bruit aléatoire, on peut simuler comment le texte pourrait apparaître dans des conditions réelles. Les images sont ensuite traitées avec un système OCR pour générer un résultat.
  3. Injection du Monde Réel

    • Cette méthode intègre des erreurs OCR dans les données en fonction de leur occurrence dans des situations réelles. En analysant des ensembles de données existants et en appliquant une technique qui aligne le texte OCR avec le texte propre d'origine, les chercheurs peuvent générer des données qui reflètent les erreurs OCR typiques.
  4. Similarité des Glyphes

    • C'est la nouvelle méthode qu'on introduit. Cette méthode se concentre sur les erreurs qui se produisent entre des caractères qui se ressemblent. En analysant les similarités visuelles des caractères et en utilisant des techniques spécifiques pour faire correspondre ces similarités, on peut créer des données synthétiques qui reflètent les sorties OCR réelles.

Mise en Place Expérimentale

Dans nos expériences, on se concentre sur plusieurs langues, allant de celles avec des ressources riches à des langues à faibles ressources. Les données pour ces langues sont recueillies à partir de diverses sources. On divise les données propres en ensembles d'entraînement, de validation et de test, en utilisant différentes techniques pour générer des données synthétiques.

Ensuite, on compare la performance de différents modèles avec différentes méthodes de création de données synthétiques. On évalue aussi les améliorations apportées par les modèles pré-entraînés par rapport aux nouveaux modèles construits de zéro.

Résultats

Nos découvertes montrent que la performance des modèles s'améliore avec un meilleur volume de données et une augmentation. Les meilleurs résultats se produisent avec un certain niveau d'augmentation. Bien que la méthode basée sur la similarité des glyphes montre des promesses, les méthodes traditionnelles utilisant du bruit aléatoire ont aussi donné des résultats bénéfiques.

Les modèles pré-entraînés ont largement dépassé ceux entraînés de zéro. Pour les langues à ressources riches, les données synthétiques générées par la similarité des glyphes ont entraîné des réductions considérables des taux d'erreur. Toutefois, pour les langues à faibles ressources, l'efficacité de cette méthode variait.

Conclusion

En résumé, l'utilisation de données synthétiques par diverses méthodes, particulièrement celles basées sur la similarité des glyphes, peut grandement améliorer la performance des modèles dans les tâches de correction post-OCR. Les modèles pré-entraînés ont démontré leur supériorité en produisant des résultats précis. À l'avenir, ces méthodes ont le potentiel d'améliorer encore davantage les applications OCR, notamment pour les langues avec moins de ressources. L'approche discutée ici peut contribuer de manière significative à rendre les textes historiques plus accessibles et à préserver le patrimoine culturel grâce à une meilleure technologie.

Articles similaires