Projet Socface : Analyse des données du recensement français
Un projet pour traiter et partager 100 ans de recensements français.
― 6 min lire
Table des matières
- C'est quoi le projet Socface ?
- Pourquoi ce projet est important ?
- Le travail impliqué dans Socface
- Collecte de données
- Traitement des images
- Défis rencontrés
- Variabilité des documents
- Archives dispersées
- Besoins en informatique haute performance
- Comment le projet fonctionne
- Collecte et normalisation des données
- Reconnaissance de texte manuscrit
- Flux de travail d'extraction d'information
- Résultats obtenus
- Directions futures
- Conclusion
- Source originale
- Liens de référence
Le projet Socface vise à rassembler et analyser des informations provenant des registres de Recensement français s'étalant de 1836 à 1936. Cet effort cherche à extraire des détails sur les individus et leurs foyers en utilisant une technologie avancée. L'objectif final est de rendre les informations extraites accessibles au public, permettant à chacun d'explorer des millions de dossiers.
C'est quoi le projet Socface ?
Le projet Socface regroupe les efforts d'archivistes, de démographes et d'informaticiens pour traiter et analyser les documents de recensement. Tous les cinq ans, ces listes de recensement sont compilées et incluent des détails essentiels comme les noms, les années de naissance et les professions. Le but du projet est de construire une base de Données complète de toutes les personnes vivant en France pendant cette période, qui sera utilisée pour étudier les changements sociaux au fil du temps. De plus, le projet prévoit de rendre ces dossiers disponibles pour une consultation publique.
Pourquoi ce projet est important ?
Les données de recensement peuvent fournir des perspectives précieuses sur les structures sociales et économiques du passé. En rendant ces dossiers Publics, les chercheurs et les historiens peuvent analyser des motifs et des changements dans la société, comme la migration, les conditions économiques et les évolutions démographiques. Le projet Socface peut améliorer notre connaissance de l'histoire et faciliter l'accès à des dossiers importants.
Le travail impliqué dans Socface
Pour atteindre ses objectifs, le projet Socface a développé une approche systématique pour collecter et traiter les données. Cela inclut la recherche d'images dans divers Archives départementales, la collaboration sur les annotations de documents, l'entraînement de modèles pour reconnaître le texte manuscrit et le traitement de millions d'images.
Collecte de données
Le projet consiste à collecter des listes de recensement manuscrites provenant de plus de 100 archives locales à travers la France. Les données collectées varient en qualité et en format, donc développer une méthode standardisée pour organiser et traiter l'information est crucial. Une plateforme web appelée Socface-Spider a été créée pour aider à l'organisation et à la normalisation des données.
Traitement des images
Une fois les données collectées, elles passent par différentes étapes de traitement. Cela inclut l'exécution d'algorithmes avancés pour reconnaître le texte sur les images. Ces algorithmes peuvent trier différents formats de tableaux et extraire les informations nécessaires sur les individus. Le projet a réussi à traiter des centaines de milliers d'images grâce à ces méthodes.
Défis rencontrés
Variabilité des documents
Un des principaux défis est la variabilité des documents au fil des ans. Les tableaux de recensement ont changé de format et d'apparence d'une année à l'autre, ce qui rend difficile le développement d'un modèle de reconnaissance unique. De plus, la qualité du texte manuscrit peut varier énormément, compliquant encore plus le processus.
Archives dispersées
Le matériel d'archives est éparpillé à travers de nombreux services locaux plutôt que d'être stocké en un seul endroit central. Cette décentralisation rend difficile la collecte de toutes les images nécessaires et leur traitement efficace. Le projet doit surmonter ce défi pour s'assurer que toutes les données pertinentes sont accessibles et analysées.
Besoins en informatique haute performance
Le projet Socface traite une immense quantité de données, avec environ 30 millions d'images à traiter. L'accès à des ressources de supercomputing est essentiel, car les configurations informatiques standard ne peuvent pas gérer un tel volume. Des solutions doivent être développées pour permettre le traitement efficace de ces images en utilisant des ressources computationnelles avancées.
Comment le projet fonctionne
Collecte et normalisation des données
La première étape du workflow consiste à collecter et organiser les images et les métadonnées des archives. Différents services d'archives utilisent divers systèmes, ce qui peut conduire à des incohérences. Socface-Spider facilite l'importation de données dans plusieurs formats et garantit la cohérence entre tous les dossiers.
Reconnaissance de texte manuscrit
Un des points forts du projet est le développement d'un modèle d'apprentissage profond conçu pour reconnaître les tableaux Manuscrits. Ce modèle peut traiter des pages entières à la fois, lui permettant d'extraire et de catégoriser l'information sans avoir besoin d'étapes séparées pour identifier les lignes ou les colonnes.
Flux de travail d'extraction d'information
Le flux de travail pour extraire des informations des données de recensement implique une série d'étapes. Il commence par la classification des pages des documents pour s'assurer que seules les pages pertinentes sont traitées. Le modèle reconnaît ensuite le texte et l'organise selon les foyers et les données individuelles.
Résultats obtenus
Le projet Socface a connu des résultats prometteurs dans le traitement des dossiers de recensement. Les méthodes développées ont géré efficacement une large gamme de types de documents et de styles d'écriture. Le succès global se reflète dans le volume de données traitées et l'accessibilité de l'information au public.
Directions futures
Malgré ses réussites, le projet a des domaines à améliorer. Un axe clé sera de traiter des registres entiers tout en conservant le contexte des pages précédentes. Cela aidera à créer une compréhension plus complète des foyers et de leur composition. Il y a aussi des projets d'améliorer les capacités du modèle pour mieux reconnaître les adresses, ce qui améliorera encore la qualité des données.
Conclusion
Le projet Socface représente un effort significatif pour collecter et analyser un siècle de données de recensement en France. En utilisant des technologies avancées de reconnaissance de documents et de traitement de données, le projet aide à éclairer les structures sociales historiques. Avec un accent sur l'accès public aux dossiers, il ouvre de nouvelles opportunités de recherche et de compréhension de la riche histoire de la France.
Titre: The Socface Project: Large-Scale Collection, Processing, and Analysis of a Century of French Censuses
Résumé: This paper presents a complete processing workflow for extracting information from French census lists from 1836 to 1936. These lists contain information about individuals living in France and their households. We aim at extracting all the information contained in these tables using automatic handwritten table recognition. At the end of the Socface project, in which our work is taking place, the extracted information will be redistributed to the departmental archives, and the nominative lists will be freely available to the public, allowing anyone to browse hundreds of millions of records. The extracted data will be used by demographers to analyze social change over time, significantly improving our understanding of French economic and social structures. For this project, we developed a complete processing workflow: large-scale data collection from French departmental archives, collaborative annotation of documents, training of handwritten table text and structure recognition models, and mass processing of millions of images. We present the tools we have developed to easily collect and process millions of pages. We also show that it is possible to process such a wide variety of tables with a single table recognition model that uses the image of the entire page to recognize information about individuals, categorize them and automatically group them into households. The entire process has been successfully used to process the documents of a departmental archive, representing more than 450,000 images.
Auteurs: Mélodie Boillet, Solène Tarride, Manon Blanco, Valentin Rigal, Yoann Schneider, Bastien Abadie, Lionel Kesztenbaum, Christopher Kermorvant
Dernière mise à jour: 2024-06-03 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2404.18706
Source PDF: https://arxiv.org/pdf/2404.18706
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://socface.site.ined.fr/
- https://pyslurm.github.io/
- https://readcoop.eu/transkribus/
- https://escriptorium.paris.inria.fr/
- https://callico.teklia.com/
- https://arkindex.pages.teklia.com/spider/ingest/run/
- https://docs.ultralytics.com/tasks/classify/
- https://arkindex.teklia.com/element/50a46a03-020c-4441-bbf8-f3c78b1f386f