Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes

Extraction d'informations généalogiques des registres paroissiaux du Québec

Une méthode pour rassembler l'histoire familiale à partir de documents historiques au Québec.

― 9 min lire


Généalogie à partir desGénéalogie à partir desregistres paroissiaux duQuébecdonnées sur l'histoire familiale.Approche innovante pour extraire des
Table des matières

Cet article décrit une méthode pour extraire des informations Généalogiques à partir de registres paroissiaux manuscrits au Québec. Ces registres contiennent des détails essentiels sur les individus et les familles, utiles pour étudier l'histoire de la population québécoise.

Aperçu du Workflow

Le processus commence avec des images des registres paroissiaux. La première tâche est d'identifier les parties de ces images qui contiennent des informations importantes. La méthode extrait ensuite des détails personnels à travers une série d'étapes. Ces étapes incluent la classification des pages, la détection des lignes de texte, la reconnaissance du texte manuscrit, l'identification des noms et des événements, et enfin la classification des événements en naissances, mariages ou décès. Pour cela, divers modèles d'apprentissage automatique sont utilisés et comparés.

Une fois les informations rassemblées, des experts appliquent des règles de validation pour s'assurer que les données sont cohérentes avec le type d'événement qu'elles représentent. Les enregistrements invalides peuvent être filtrés, garantissant ainsi que seules des informations fiables sont conservées.

Plus de deux millions de pages des registres paroissiaux du Québec entre les XIXe et XXe siècles ont été traitées. Sur un échantillon de ces pages, 3,2 millions d'événements ont été identifiés, dont 74 % considérés comme complets et valides. Ces informations validées sont ensuite stockées dans la base de données BALSAC, qui aide à relier les relations familiales et généalogiques à grande échelle.

Le Projet BALSAC

Depuis 50 ans, le projet BALSAC travaille à la création d'une base de données complète de la population québécoise. Il a commencé par rassembler des informations provenant des registres paroissiaux et civils, en se concentrant principalement sur les naissances, les mariages et les décès. Ces données aident à reconstruire l'histoire de la population québécoise depuis le XVIIe siècle jusqu'à aujourd'hui.

Ces dernières années, le projet a élargi son champ d'action pour inclure des registres de naissances et de décès afin de créer une vue plus complète des familles. Au fur et à mesure que la base de données grandissait, il est devenu évident que la transcription manuelle n'était plus suffisante. Les avancées en apprentissage automatique ont offert des solutions prometteuses pour reconnaître le texte manuscrit dans les documents historiques. Cela a encouragé l'équipe de BALSAC à adopter cette technologie pour améliorer le processus de transcription.

L'objectif est de créer i-BALSAC, une nouvelle infrastructure pour l'étude de la population québécoise en intégrant des données généalogiques, génomiques et géographiques. Ce projet, qui devrait se terminer en 2023, comprend trois composants principaux : la collecte de données démographiques et génétiques, le développement d'outils pour gérer et analyser ces données, et la création d'un portail web pour un accès public.

Registres Manuscrits du Québec

Dans le cadre d'i-BALSAC, des certificats de naissance et de décès des registres québécois entre 1850 et 1916 seront intégrés dans la base de données BALSAC. Les images de haute qualité de ces documents ont été obtenues en partenariat avec la Bibliothèque et Archives nationales du Québec. Cela comprend presque 2 millions de pages numérisées provenant de milliers de registres à travers différentes paroisses.

L'objectif ultime est de traiter ces images pour identifier des informations clés telles que noms, dates, lieux et professions. Ces données seront reliées pour créer une vue d'ensemble des individus et des familles. La collecte de données s'étend sur des décennies, ce qui signifie qu'il y a des variations significatives dans les styles d'écriture et les mises en page des différentes registres. Ces différences posent des défis pour les techniques d'apprentissage automatique, qui reposent sur des données d'entraînement représentant la diversité des documents.

Contributions du Workflow

Cette méthode vise à atteindre trois objectifs principaux :

  1. Créer un workflow complet pour extraire des informations personnelles à partir de documents historiques, du traitement d'image à l'intégration dans la base de données.
  2. Comparer différents modèles d'apprentissage automatique à chaque étape du workflow et identifier les défis clés dans l'Extraction d'informations.
  3. Établir des règles pour vérifier et standardiser le contenu, ainsi qu'un indicateur non supervisé pour l'estimation de la qualité.

Approches d'Extraction d'Information

Il existe deux méthodes principales pour extraire des informations des documents :

Workflow en Une Étape

Dans un workflow en une étape, l'extraction d'information se fait en une seule fois en fusionnant l'information des images, du texte et des mises en page des documents. Cette méthode s'appuie sur des modèles pré-entraînés pour extraire des caractéristiques des différentes sources, puis les utilise pour prédire les données nécessaires.

Cette approche est efficace pour les documents structurés où l'information peut être dérivée à la fois du texte et de la mise en page. Cependant, ça peut ne pas bien fonctionner avec des documents moins structurés, comme les registres historiques, où le texte porte la plupart du sens.

Workflow par Étapes

Le workflow par étapes décompose le processus d'extraction en tâches gérables. Chaque tâche, comme la classification des pages, la détection des lignes de texte, la reconnaissance du texte manuscrit et l'identification des entités, peut être abordée séparément. Cela permet à l'équipe de se concentrer sur des défis spécifiques et facilite les mises à jour et la maintenance de chaque composant.

Étapes Détailées dans le Workflow

Le workflow complet se compose de plusieurs étapes pour extraire des informations personnelles à partir de registres scannés.

Détection des Lignes de Texte

À la première étape, les lignes de texte sont détectées à partir des images. Différents modèles sont comparés pour leur efficacité à identifier le texte dans les documents historiques. La qualité de la détection du texte est cruciale, car elle impacte le succès global des tâches suivantes.

Reconnaissance du Texte Manuscrit

Après avoir identifié les lignes de texte, la prochaine étape est de reconnaître le texte manuscrit. Deux modèles différents sont évalués pour leur capacité à transcrire le texte avec précision. Les sorties de cette étape doivent être exactes, car elles sont critiques pour le traitement ultérieur, y compris l'identification des noms et des types d'événements.

Reconnaissance d'Entités Nommées

Le texte reconnu est ensuite analysé pour localiser des pièces spécifiques d'informations généralement trouvées dans les registres, comme des noms et des dates. L'objectif est d'extraire des données pertinentes qui peuvent être utilisées pour construire des arbres généalogiques et comprendre les relations entre les individus.

Détection et Classification des Actes

À l'étape suivante, le workflow classe le texte identifié en actes, tels que des naissances, mariages ou décès. Chaque acte doit être correctement segmenté du texte et classé de manière appropriée, car cela donne du contexte à l'information extraite.

Gestion de la Variabilité des Données

Étant donné la large gamme de documents et la variabilité dans la façon dont l'information est enregistrée, créer des données d'entraînement qui représentent avec précision cette diversité est essentiel. Les données d'entraînement comprennent des images transcrites et annotées qui fournissent collectivement un échantillon représentatif pour développer et affiner les modèles d'apprentissage automatique.

L'ensemble de données annotées doit capturer divers éléments, y compris les pages, les actes, les lignes et les mots, tout en tenant compte des différents styles et mises en page selon les registres concernés.

Contrôle de Qualité et Validation

Une fois les informations extraites, un processus de contrôle qualité vérifie l'exactitude et la cohérence des données. Cela se fait par des procédures automatisées ainsi que par une supervision humaine pour s'assurer que chaque information s'inscrit dans la structure spécifique des actes enregistrés.

Vérification et Standardisation du Contenu

Le contenu des registres est standardisé pour assurer la cohérence et l'exactitude. Les champs clés, comme les dates et les noms, doivent être correctement formatés avant l'intégration dans la base de données BALSAC.

Enfin, toute incohérence ou erreur est signalée pour révision, garantissant que seuls les enregistrements valides soient liés aux individus dans la base de données.

Résultats et Implications

Après la mise en œuvre de ce workflow, des progrès significatifs ont été réalisés dans l'extraction des données généalogiques des registres paroissiaux du Québec. Des milliers d'actes ont été reconnus et validés, avec de nombreux enregistrements prêts pour une intégration dans la base de données BALSAC.

Dans l'ensemble, cet effort représente un grand pas en avant dans l'utilisation de la technologie pour la recherche historique et la généalogie. En automatisant le processus d'extraction, les chercheurs peuvent désormais accéder à d'énormes quantités de données plus efficacement qu'auparavant.

Défis et Perspectives Futures

Bien que le workflow montre des promesses, plusieurs défis demeurent. L'exactitude de la reconnaissance du texte et de l'extraction d'informations doit être continuellement améliorée, surtout que la variabilité des écritures peut entraîner des erreurs de transcription.

De plus, le projet souligne l'importance de développer des processus de validation robustes qui peuvent s'adapter à différents types de documents et à la qualité variable des données. La recherche continue se concentrera sur l'affinement de ces processus pour garantir que la base de données reste fiable et complète.

À mesure que le projet BALSAC avance, il vise à intégrer davantage les données généalogiques avec des informations génétiques et géographiques, créant une compréhension plus riche de l'histoire de la population québécoise. Les possibilités d'élargir ce travail à d'autres régions géographiques et types de documents historiques sont vastes et offrent un grand potentiel pour la recherche généalogique future.

Source originale

Titre: Large Scale Genealogical Information Extraction From Handwritten Quebec Parish Records

Résumé: This paper presents a complete workflow designed for extracting information from Quebec handwritten parish registers. The acts in these documents contain individual and family information highly valuable for genetic, demographic and social studies of the Quebec population. From an image of parish records, our workflow is able to identify the acts and extract personal information. The workflow is divided into successive steps: page classification, text line detection, handwritten text recognition, named entity recognition and act detection and classification. For all these steps, different machine learning models are compared. Once the information is extracted, validation rules designed by experts are then applied to standardize the extracted information and ensure its consistency with the type of act (birth, marriage, and death). This validation step is able to reject records that are considered invalid or merged. The full workflow has been used to process over two million pages of Quebec parish registers from the 19-20th centuries. On a sample comprising 65% of registers, 3.2 million acts were recognized. Verification of the birth and death acts from this sample shows that 74% of them are considered complete and valid. These records will be integrated into the BALSAC database and linked together to recreate family and genealogical relations at large scale.

Auteurs: Solène Tarride, Martin Maarand, Mélodie Boillet, James McGrath, Eugénie Capel, Hélène Vézina, Christopher Kermorvant

Dernière mise à jour: 2023-04-27 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2304.14044

Source PDF: https://arxiv.org/pdf/2304.14044

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires