Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Bases de données

SIMARA : Une nouvelle ressource pour la recherche historique

Une base de données conçue pour extraire des infos clés de documents manuscrits.

― 6 min lire


Révolutionner l'accès auxRévolutionner l'accès auxdocuments historiquespartir d'archives manuscrites.SIMARA améliore l'extraction d'infos à
Table des matières

SIMARA est une nouvelle base de données conçue pour extraire des infos importantes des documents manuscrits. L'idée, c'est de se concentrer sur les aides à la recherche, qui aident à comprendre les archives plus anciennes. Le but, c'est de faciliter l'accès à l'info historique pour les chercheurs et le public.

C'est quoi les Aides à la Recherche ?

Les aides à la recherche, c'est des documents spéciaux créés par les archives. Elles contiennent des métadonnées, c'est-à-dire des infos qui décrivent d'autres documents. Par exemple, elles donnent des détails comme le titre, la date et des identifiants uniques pour les documents archivés. Ces aides sont super importantes parce qu'elles guident les utilisateurs vers les documents d'archives pertinents.

L'Importance de l'Accès Numérique

Ces dernières années, beaucoup de documents historiques ont été numérisés, donc scannés et rendus accessibles en format digital. Mais un bon pourcentage des documents dans les archives existe encore seulement en version papier. Du coup, il faut bien choisir quels documents numériser selon leur utilité. Les aides à la recherche sont prioritaires pour la numérisation, car elles servent de point d'entrée principal pour accéder à l'info archivistique.

Les Défis de Traitement des Documents Historiques

Quand on traite des documents historiques, les méthodes traditionnelles se concentrent souvent sur la transcription de texte. Mais avec les aides à la recherche, le but est différent. La tâche principale, c'est d'extraire les infos essentielles contenues dans ces documents de manière claire et organisée. Ça nécessite un traitement spécialisé qui va au-delà de la simple transcription.

Le Besoin d'Automatisation

Vu la quantité énorme de documents historiques manuscrits, taper et encoder l'info à la main peut prendre des années. Donc, utiliser des méthodes automatiques pour convertir ces matériaux en données digitales est essentiel. C'est là que SIMARA entre en jeu.

Description du Dataset SIMARA

La base de données SIMARA inclut des images des aides à la recherche avec les infos qu'elles contiennent. Le dataset comprend plusieurs séries de documents allant du 18e au 20e siècle. Chaque document a été soigneusement annoté au niveau des pages, avec des champs essentiels identifiés pour extraction.

Structure du Dataset SIMARA

Le dataset est organisé en différentes séries selon le type d'archives. Chaque série a ses propres défis à cause des variations dans les styles d'écriture, les mises en page et le contexte historique des documents.

Série E

La série E contient des décisions prises par les conseils du roi des 17e et 18e siècles. Elle a 40 480 cartes d'index qui analysent chaque décision. L'écriture française ancienne rend cette série plus difficile à lire.

Série L

La série L consiste en documents de l'église de Saint-Martin-des-Champs à Paris. Elle inclut 623 cartes d'index détaillant des chartes médiévales. La mise en page et les corrections faites au fil du temps peuvent compliquer la lecture de ces cartes.

Série M

La série M concerne les Chevaliers de Malte et contient des documents prouvant leur statut noble. Cette série a 4 847 cartes arrangées par ordre alphabétique et écrites dans les années 1950, ce qui la rend plutôt facile à lire.

Série X1a

La série X1a comprend des jugements du Parlement, la plus haute cour de France, avec 101 036 cartes analysant des procès du 18e siècle. Écrite au 20e siècle, cette série est simple à traiter.

Série Y

La série Y présente des actes notariaux enregistrés au Châtelet, une institution parisienne. Elle consiste en 61 878 cartes analysant ces documents. Les défis incluent la qualité de la numérisation, le style d'écriture et la densité de la mise en page.

Dossier Douët d'Arcq

Ce dossier indexe plusieurs séries de documents historiques, y compris des archives royales et des enregistrements d'églises parisiennes, totalisant 118 093 cartes créées au milieu du 19e siècle.

Comment le Dataset SIMARA a été Créé

Créer le dataset SIMARA a impliqué une approche différente des méthodes traditionnelles. Plutôt que d'utiliser plusieurs modèles pour différentes tâches, la même interface d'annotation a été utilisée pour créer et valider les données. Ça a simplifié le processus et assuré la cohérence de la qualité des données.

Le Rôle des Annotateurs

Les annotateurs étaient responsables de la saisie des données de référence tout en se basant sur les images des aides à la recherche. Ce système a permis une approche collaborative, où les annotateurs pouvaient confirmer ou corriger les suggestions faites par le modèle pendant la phase de production.

Formation des Modèles pour l'Extraction d'Infos

Un aspect clé de SIMARA, c'est de former des modèles pour extraire les infos plus efficacement. Différents modèles ont été entraînés en utilisant plusieurs ensembles de documents pour s'améliorer avec le temps. Ces modèles sont évalués en fonction de leur performance à reconnaître le texte manuscrit et à extraire les infos pertinentes.

Comprendre la Performance des Modèles

La performance des modèles est évaluée à l'aide de métriques standards comme le taux d'erreur de caractère (CER) et le taux d'erreur de mot (WER). L'objectif global est d'améliorer l'extraction d'infos clés des documents.

Résultats et Conclusions

Les premiers résultats montrent qu'à mesure que la quantité de données d'entraînement augmente, la performance du modèle tend à s'améliorer. L'évaluation des différentes séries révèle que certaines séries sont plus faciles à reconnaître que d'autres. Par exemple, les séries contenant de nombreux exemples dans l'ensemble d'entraînement tendent à mieux performer.

Évaluation Detaillée de l'Extraction des Clés-Valeurs

L'extraction des infos clés des documents indique que les données numériques, comme les dates et les numéros de série, peuvent être capturées avec une grande précision. Cependant, certains champs, en particulier ceux moins représentés dans les données d'entraînement, peuvent ne pas bien performer.

Applications Futures de SIMARA

Le développement de la base de données SIMARA représente un grand pas en avant dans le domaine du traitement des documents historiques. En fournissant un nouveau type de tâche axé sur l'extraction des clés-valeurs, SIMARA offre un cadre pour de futures recherches et améliorations de modèle.

Conclusion

SIMARA est une ressource précieuse pour les chercheurs et les archivistes. En se concentrant sur l'extraction d'infos cruciales des documents manuscrits, elle vise à améliorer l'accès aux archives historiques. Le développement et l'évaluation continus des modèles entraînés sur ce dataset peuvent mener à de meilleurs outils pour traiter des documents historiques à l'avenir, rendant ainsi l'info archivistique plus accessible à tous.

Source originale

Titre: SIMARA: a database for key-value information extraction from full pages

Résumé: We propose a new database for information extraction from historical handwritten documents. The corpus includes 5,393 finding aids from six different series, dating from the 18th-20th centuries. Finding aids are handwritten documents that contain metadata describing older archives. They are stored in the National Archives of France and are used by archivists to identify and find archival documents. Each document is annotated at page-level, and contains seven fields to retrieve. The localization of each field is not available in such a way that this dataset encourages research on segmentation-free systems for information extraction. We propose a model based on the Transformer architecture trained for end-to-end information extraction and provide three sets for training, validation and testing, to ensure fair comparison with future works. The database is freely accessible at https://zenodo.org/record/7868059.

Auteurs: Solène Tarride, Mélodie Boillet, Jean-François Moufflet, Christopher Kermorvant

Dernière mise à jour: 2023-04-26 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2304.13606

Source PDF: https://arxiv.org/pdf/2304.13606

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires