Nouveau jeu de données améliore l'analyse de manuscrits
U-DIADS-Bib simplifie la segmentation des manuscrits anciens grâce à la collaboration d'experts.
― 11 min lire
Table des matières
L'intérêt pour le patrimoine culturel a augmenté dans la communauté tech, ce qui a conduit à plus de collaborations entre les informaticiens et les chercheurs en humanités. Ce travail d'équipe aide les deux parties. Les chercheurs peuvent analyser des documents historiques plus facilement, tandis que les informaticiens apprennent à travailler avec ces données précieuses. Une tâche importante pour les chercheurs qui étudient les manuscrits anciens est de reconnaître leur structure, y compris comment le contenu est organisé sur la page. Ça les aide à mieux comprendre les manuscrits et à voir des connexions entre différents textes.
Dans le domaine tech, cette tâche est connue sous le nom de segmentation de page. C'est une partie d'un domaine plus large appelé analyse de mise en page de documents, qui inclut aussi le déchiffrement des lignes de texte et la détection des lignes de base du texte. Pour relever ces défis efficacement, une quantité significative de données sur les manuscrits est nécessaire. Plus précisément, des données "Ground Truth" (GT) précises sont vitales. GT fait référence aux annotations correctes qui montrent comment les pages doivent être divisées en différentes sections.
Avoir un GT précis est nécessaire pour entraîner des modèles informatiques et évaluer leur performance. Cette capacité à mesurer la performance de manière fiable permet de comparer différentes approches. Les cartes GT doivent être précises, ce qui peut être difficile. Deux problèmes principaux se posent lors de leur création : cela prend beaucoup de temps et nécessite des connaissances spécifiques que seuls les experts possèdent. En plus, les manuscrits anciens peuvent avoir des apparences assez différentes les uns des autres. Des facteurs comme le vieillissement, les différences de mise en page, les taches d'encre et les problèmes de numérisation peuvent rendre la création d'annotations fiables délicate. Par conséquent, toute automatisation utilisée dans la segmentation peut introduire du bruit, ce qui conduit à de mauvais résultats.
Il existe de nombreux ensembles de données disponibles pour les tâches de segmentation de pages, mais ils souvent insuffisants. Ils manquent soit de détails, ne distinguant que le texte et l'arrière-plan, soit ils n'incluent que quelques classes de mise en page. De plus, beaucoup de ces ensembles de données se concentrent sur un seul type de système d'écriture, comme le latin ou l'arabe, ce qui limite leur utilité.
Pour résoudre ces problèmes, un nouvel ensemble de données nommé U-DIADS-Bib a été créé. Cet ensemble de données fournit une segmentation détaillée, précise et sans bruit des documents. Il a été développé grâce à la coopération entre des experts en vision par ordinateur et des humanistes. Les chercheurs ont aidé à définir quels aspects des manuscrits étaient essentiels pour l'étude, tandis que les spécialistes de la vision par ordinateur ont veillé à ce que les GT soient cohérents et de haute qualité. Cette collaboration a donné lieu à six classes claires : arrière-plan, texte principal, paratexte, décoration, titre et en-têtes de chapitres.
Les manuscrits sélectionnés incluent ceux en alphabet latin et en alphabet consonantique syriaque. Cette variété pose un défi à cause des différences dans leurs systèmes d'écriture. Un problème majeur rencontré au début de ce projet était le processus long de segmentation manuelle des images pour créer les GT.
Pour réduire la charge de travail des chercheurs, un nouveau pipeline de segmentation a été développé. Ce pipeline utilise un mélange de travail manuel et de sortie de modèle d'apprentissage machine pour créer une segmentation approximative de l'ensemble du dataset. Des experts humains affinent ensuite ces sorties pour créer les cartes GT finales. Cette méthode s'avère beaucoup plus rapide que de partir de zéro.
En plus, pour encourager la recherche qui nécessite moins d'exemples, une version peu d'exemples de l'ensemble de données (U-DIADS-BibFS) a été créée. Cette version permet le développement de modèles qui peuvent fonctionner efficacement avec peu de données d'entraînement, ce qui est souvent une nécessité dans le monde réel.
Comprendre l'ensemble de données U-DIADS-Bib
U-DIADS-Bib se compose de 200 images issues de quatre manuscrits différents, avec 50 images de chacun. Les experts ont sélectionné ces manuscrits en fonction de leur complexité de mise en page et de leurs éléments distincts. Les manuscrits incluent principalement des bibles latines et syriaques du 6e au 12e siècle.
Les images de chaque manuscrit ont été choisies pour représenter diverses classes de segmentation qui ont été convenues par les humanistes et les informaticiens. Les images ont été obtenues d'une bibliothèque numérique et offrent un large éventail de mises en page historiques.
Voici un bref aperçu des manuscrits sélectionnés :
Latin 2 est connu comme la Deuxième Bible de Charles le Chauve. Elle a été créée entre 871 et 877 apr. J.-C. et se compose de 444 pages de parchemin disposées en deux colonnes.
Latin 14396 a été produite entre 1145 et 1150 à l'Abbaye de Saint-Victor à Paris. Elle contient des textes bibliques d'Ezra à l'Apocalypse, composés de 170 pages de parchemin avec une mise en page à deux colonnes.
Latin 16746 a été créée entre 1170 et 1190 à l'Abbaye de Saint Bertin. Ce manuscrit, qui contient le Nouveau Testament, a également un format à deux colonnes et se compose de 176 pages de parchemin.
Syriaque 341 provient probablement du Monastère de Baquqa en Irak et a été produit entre le 6e et le 7e siècle ap. J.-C. Il contient l'Ancien Testament dans la version syriaque Peshitta et présente une mise en page complexe à trois colonnes, composée de 256 pages.
L'ensemble de données présente six classes de segmentation, qui incluent :
Texte Principal : Cela concerne la zone d'écriture principale et inclut les signes de ponctuation. La mise en page peut être structurée en une ou deux colonnes.
Décoration : Cette classe couvre divers éléments décoratifs, y compris des miniatures, des initiales décorées et des éléments graphiques plus simples.
Titre : Fait référence aux phrases de début et de fin indiquées par des couleurs d'encre distinctes ou des styles uniques.
En-têtes de Chapitre : Ces petites rubriques aident à localiser des chapitres spécifiques dans le texte.
Paratexte : Cette classe inclut diverses annotations en dehors du texte principal, comme des gloses, des corrections et d'autres notes.
Arrière-plan : Représente l'arrière-plan de la page et tout contour visible dans les images numérisées.
Ces catégories ont été choisies sur la base de discussions avec des experts en humanités, qui ont fourni des perspectives sur ce qui était pertinent pour l'étude des manuscrits. Cette classification aide à éviter des interprétations rigides et ouvre la porte à des applications plus larges dans différents domaines académiques.
Processus de création du Ground Truth
La création de l'ensemble de données U-DIADS-Bib a impliqué un effort collaboratif entre informaticiens et humanistes. L'annotation manuelle est cruciale pour produire des GT précis, mais c'est aussi un travail qui prend beaucoup de temps, surtout en traitant des éléments de mise en page complexes dans les manuscrits.
Pour obtenir des annotations de qualité tout en gérant efficacement le temps, un pipeline de segmentation unique a été développé. Le processus commence par sélectionner 50 images de chaque manuscrit qui représentent toutes les classes de segmentation. Un sous-ensemble de 10 images est ensuite traité à l'aide d'une méthode de seuillage pour fournir une version binaire préliminaire pour les annotateurs humains.
Une fois que les images binaires sont prêtes, des experts segmentent manuellement ces images au niveau des pixels. Ce travail détaillé établit une base pour entraîner des modèles d'apprentissage machine. Ces modèles produiront par la suite une segmentation approximative pour l'ensemble du jeu de données.
Après l'entraînement du modèle, il est exécuté sur l'ensemble du jeu de données pour créer des annotations. Une fois ces sorties générées, des experts les affinent et les corrigent méticuleusement, en veillant à ce qu'elles s'alignent avec les images originales. Bien que le processus utilise un soutien machine, les décisions finales sont toujours prises par des experts humains, empêchant ainsi d'éventuels biais ou erreurs.
L'ensemble de données contient des images de haute qualité enregistrées au format JPEG, avec des images GT correspondantes au format PNG. Les annotations sont codées par couleur pour représenter différentes classes, assurant ainsi la clarté. L'ensemble de données final inclut un total de 50 images originales pour chaque manuscrit, ainsi que leurs données GT respectives.
Évaluation de la performance
Pour analyser la performance du système, une série de modèles de deep learning populaires ont été testés sur l'ensemble de données. Les modèles sélectionnés incluent FCN, Lite Reduced Atrous Spatial Pyramid Pooling (LRASPP), DeepLabV3, DeepLabV3+ et Pyramid Scene Parsing Network (PSPNet).
Lors des tests, une moyenne pondérée et une moyenne macro de divers métriques de performance, telles que la précision, le rappel, l'intersection sur union (IoU) et le F1-Score, ont été calculées. Ces métriques mesurent à quel point les modèles peuvent identifier avec précision les différentes régions sémantiques.
Les modèles ont été entraînés avec une configuration qui impliquait l'optimiseur Adam, un taux d'apprentissage et une décroissance de poids. L'entraînement a été surveillé, avec un mécanisme d'arrêt précoce si la performance ne s'améliorait pas au bout d'un certain nombre d'époques.
Les résultats de cette évaluation ont montré que les modèles ont performé différemment selon les manuscrits. Chaque manuscrit présentait des défis uniques en ce qui concerne les classes de segmentation qui étaient plus difficiles à identifier. Le modèle DeepLabV3+, en particulier, a affiché la meilleure performance dans l'ensemble, indiquant son efficacité à tirer parti des informations globales et locales.
Approche Few-Shot Learning
En plus de l'ensemble de données principal, une version peu d'exemples (U-DIADS-BibFS) a été créée pour souligner l'importance de l'entraînement avec des données limitées. Cette configuration consistait en 43 images par manuscrit, avec seulement trois images dédiées à l'entraînement.
Les résultats pour le réglage peu d'exemples ont été analysés de manière similaire à l'ensemble de données complet, en utilisant des moyennes pondérées et macro. Le modèle actuel à la pointe de la technologie a bien performé sur différentes métriques. Cependant, la performance a généralement diminué par rapport à l'ensemble de données complet, avec des baisses notables de précision pour plusieurs classes de manuscrits.
Le réglage peu d'exemples met en évidence les défis rencontrés lors du travail avec peu de données. Cependant, il démontre également le potentiel de développer des méthodes efficaces qui peuvent bien fonctionner dans ces contraintes.
Conclusion et Perspectives Futures
U-DIADS-Bib est une avancée significative dans le domaine de l'analyse de mise en page de documents, répondant aux lacunes précédentes trouvées dans les ensembles de données existants. Il offre une approche détaillée et précise qui permet le développement de systèmes fiables pour une utilisation pratique.
La combinaison d'annotations manuelles avec des processus automatisés a alléger le fardeau des experts humains, leur permettant de produire de grandes quantités de données de haute qualité efficacement. Malgré les avancées réalisées, des défis demeurent pour identifier certaines classes de mise en page, notamment dans des contextes avec moins de données.
Les futurs travaux se concentreront sur l'expansion de l'ensemble de données pour inclure divers types de documents et caractéristiques, ce qui peut favoriser des recherches et innovations supplémentaires. L'objectif est de peaufiner la classification des paratextes et d'introduire de nouvelles tâches de segmentation pour créer une ressource plus complète pour l'analyse de mise en page de documents.
De plus, explorer des techniques visant à améliorer la performance de segmentation et à réduire les tailles d'échantillons d'entraînement requises sera un axe clé. Cela inclut l'examen de modules spécifiques axés sur les caractéristiques et l'optimisation des structures de modèle. Le but est de favoriser le développement de méthodes qui peuvent s'adapter bien à une variété de manuscrits historiques et modernes.
Titre: U-DIADS-Bib: a full and few-shot pixel-precise dataset for document layout analysis of ancient manuscripts
Résumé: Document Layout Analysis, which is the task of identifying different semantic regions inside of a document page, is a subject of great interest for both computer scientists and humanities scholars as it represents a fundamental step towards further analysis tasks for the former and a powerful tool to improve and facilitate the study of the documents for the latter. However, many of the works currently present in the literature, especially when it comes to the available datasets, fail to meet the needs of both worlds and, in particular, tend to lean towards the needs and common practices of the computer science side, leading to resources that are not representative of the humanities real needs. For this reason, the present paper introduces U-DIADS-Bib, a novel, pixel-precise, non-overlapping and noiseless document layout analysis dataset developed in close collaboration between specialists in the fields of computer vision and humanities. Furthermore, we propose a novel, computer-aided, segmentation pipeline in order to alleviate the burden represented by the time-consuming process of manual annotation, necessary for the generation of the ground truth segmentation maps. Finally, we present a standardized few-shot version of the dataset (U-DIADS-BibFS), with the aim of encouraging the development of models and solutions able to address this task with as few samples as possible, which would allow for more effective use in a real-world scenario, where collecting a large number of segmentations is not always feasible.
Auteurs: Silvia Zottin, Axel De Nardin, Emanuela Colombi, Claudio Piciarelli, Filippo Pavan, Gian Luca Foresti
Dernière mise à jour: 2024-01-16 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2401.08425
Source PDF: https://arxiv.org/pdf/2401.08425
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.