Amélioration de l'identification des écrivains dans les papyrus grecs anciens
Une nouvelle méthode améliore l'identification des auteurs dans les manuscrits anciens grâce à l'analyse des caractères.
― 6 min lire
Table des matières
L'étude des papyrus grecs anciens, qui sont des manuscrits écrits sur papyrus, joue un rôle important pour comprendre les documents historiques. Un défi dans ce domaine est d'identifier les écrivains de ces documents. L'écriture peut changer avec le temps, et les papyrus peuvent être endommagés, rendant difficile l'appariement des écrits à leurs auteurs. Cet article se concentre sur l'amélioration de l'identification des écrivains en utilisant une nouvelle méthode qui regarde les caractères individuels dans l'écriture plutôt que de se fier uniquement à de petites sections de texte.
Récupération d'Auteur
La récupération d'auteur (RA) est la tâche de trouver des documents écrits par la même personne qu'un échantillon donné. Cela est utile dans de nombreux domaines, y compris la criminalistique et les humanités numériques. Dans le contexte des documents historiques, en particulier les papyrus grecs, identifier l'auteur peut être compliqué. La qualité des papyrus peut se dégrader avec le temps, ce qui pose des défis supplémentaires. Il y a un potentiel à utiliser la RA pour aider à organiser et mieux comprendre les documents historiques, surtout dans les cas où les styles des écrivains ont changé ou se sont dégradés.
Notre Approche
Cet article présente une nouvelle approche de la RA en se concentrant sur des caractères individuels, en particulier un trigramme courant, "kai," qui signifie "et" en grec. Au lieu de rassembler des caractéristiques à partir de petites sections d'écriture, cette méthode utilise ces caractères spécifiques pour construire une description globale de chaque page. L’objectif est d’améliorer la précision de la RA tout en réduisant la quantité d’écriture nécessaire à l’analyse.
Jeu de Données
La recherche utilise un jeu de données appelé GRK-120, qui comprend 120 documents attribués à 23 écrivains différents. Ce jeu de données est crucial pour former et tester les nouvelles méthodes de RA. Dans ce jeu de données, les caractères ont été annotés pour aider à identifier les plus courants et utiles pour l'analyse.
Annotations au Niveau des Caractères
L'accent mis sur des caractères spécifiques, en particulier le trigramme "kai," permet de meilleures performances dans les tâches de RA. En utilisant seulement quelques-uns de ces caractères, environ 15 par page, la méthode obtient tout de même de bonnes performances, améliorant considérablement la précision par rapport aux méthodes qui reposent sur de plus grandes zones de texte. Cette concentration sur les caractéristiques au niveau des caractères offre une nouvelle perspective dans le domaine de l'analyse des documents.
Comparaison aux Méthodes Traditionnelles
La plupart des méthodes de RA existantes utilisent généralement de petits morceaux d’écriture extraits en se basant sur des points clés identifiés dans le texte. Ces morceaux contiennent habituellement juste quelques traits d'écriture. En revanche, cette nouvelle approche agrège des caractéristiques basées sur des caractères spécifiques. Cette méthode montre une performance de récupération améliorée lors de l'analyse de documents historiques, en particulier ceux de qualité variable.
Résultats
Les résultats de l'évaluation montrent que l'utilisation de caractéristiques basées sur les caractères surpasse les méthodes traditionnelles basées sur des morceaux SIFT. La nouvelle approche non seulement atteint une performance globale meilleure mais nécessite également beaucoup moins de données. Alors qu'une méthode traditionnelle pourrait utiliser des milliers de morceaux pour un seul document, l'approche basée sur les caractères n’a besoin que d'environ 11 caractères spécifiques pour obtenir des résultats comparables. Cette efficacité peut changer la donne dans l'étude des papyrus grecs, où les données peuvent être rares.
Qualité des Caractères
La qualité des caractères utilisés dans l'analyse varie. Les caractères sont étiquetés en fonction de leur état de préservation, avec des étiquettes indiquant à quel point ils peuvent être reconnus. Même les caractères endommagés peuvent contribuer à la performance, ce qui suggère que cette méthode peut être bénéfique dans des scénarios où l'écriture disponible n'est pas de haute qualité.
Évaluation de la performance
Pour évaluer l'efficacité de la nouvelle méthode, la recherche utilise un processus d'évaluation standard, où différents documents sont utilisés comme requêtes contre une collection plus large. Ce processus aide à mesurer à quel point la nouvelle approche récupère des documents correspondant à un écrivain donné. Les indicateurs de performance clés utilisés incluent la précision moyenne (mAP) et divers métriques de précision.
Aperçus sur la Similarité
Les résultats fournissent également des aperçus sur les similarités entre différents écrivains en fonction des caractéristiques des caractères. En comparant visuellement les similarités, des motifs émergent qui pourraient aider les chercheurs à comprendre les styles de différents écrivains. Cela apporte un nouveau niveau d'analyse dans le domaine de la paléographie, l'étude de l'écriture ancienne.
Agrégation de Caractères
La méthode d'agrégation de caractères montre des promesses pour améliorer la performance de la RA. Il est clair que certains caractères ont plus de pouvoir discriminant que d'autres, les rendant plus efficaces pour identifier les écrivains. L'étude montre que l'intégration de ces caractères peut entraîner des améliorations significatives dans l'identification de la paternité à travers divers documents.
Directions Futures
Bien que la méthode actuelle repose sur des annotations manuelles, il y a un potentiel pour des travaux futurs d'incorporer la détection et la classification automatiques des caractères. Cela pourrait éliminer le besoin pour des chercheurs humains d'annoter des caractères individuels, simplifiant le processus d’analyse. De plus, explorer l'utilisation d'autres caractères communs au-delà de "kai" pourrait encore améliorer la performance de la tâche de RA.
Conclusion
Cette recherche introduit un changement significatif dans l'approche d'identification des écrivains de papyrus grecs anciens. En se concentrant sur des caractères individuels plutôt que sur des morceaux de texte, l'étude démontre une amélioration de la performance et de l'efficacité dans les tâches de RA. Au fur et à mesure que cette méthode continue de se développer, elle a le potentiel de faire des contributions majeures aux domaines de la papyrologie et de l'analyse de documents, offrant de nouveaux aperçus dans le contexte historique de ces textes importants. Les résultats soulignent l'importance des caractéristiques au niveau des caractères pour comprendre et analyser les écrits anciens, ouvrant la voie à de futures avancées en technologie et en méthodologie dans ce domaine.
Titre: KaiRacters: Character-level-based Writer Retrieval for Greek Papyri
Résumé: This paper presents a character-based approach for enhancing writer retrieval performance in the context of Greek papyri. Our contribution lies in introducing character-level annotations for frequently used characters, in our case the trigram kai and four additional letters (epsilon, kappa, mu, omega), in Greek texts. We use a state-of-the-art writer retrieval approach based on NetVLAD and compare a character-level-based feature aggregation method against the current default baseline of using small patches located at SIFT keypoint locations for building the page descriptors. We demonstrate that by using only about 15 characters per page, we are able to boost the performance up to 4% mAP (a relative improvement of 11%) on the GRK-120 dataset. Additionally, our qualitative analysis offers insights into the similarity scores of SIFT patches and specific characters. We publish the dataset with character-level annotations, including a quality label and our binarized images for further research.
Auteurs: Marco Peer, Robert Sablatnig, Olga Serbaeva, Isabelle Marthot-Santaniello
Dernière mise à jour: 2024-07-10 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2407.07536
Source PDF: https://arxiv.org/pdf/2407.07536
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.