Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Computer Vision und Mustererkennung

Genealogische Informationen aus den Pfarrunterlagen von Quebec extrahieren

Eine Methode, um Familiengeschichte aus historischen Dokumenten in Quebec zu sammeln.

― 7 min Lesedauer


Genealogie aus denGenealogie aus denPfarrakten von QuebecFamilienstammdaten.Innovativer Ansatz zur Extraktion von
Inhaltsverzeichnis

Dieser Artikel beschreibt eine Methode zur Extraktion genealogischer Informationen aus handschriftlichen Pfarrakten in Quebec. Diese Akten enthalten wichtige Details über Einzelpersonen und Familien, die nützlich sind, um die Geschichte der Bevölkerung Quebecs zu erforschen.

Überblick über den Workflow

Der Prozess beginnt mit Bildern der Pfarrakten. Die erste Aufgabe besteht darin, die Teile dieser Bilder zu identifizieren, die wichtige Informationen enthalten. Die Methode extrahiert dann persönliche Details durch eine Reihe von Schritten. Diese Schritte umfassen das Klassifizieren der Seiten, das Erkennen von Textzeilen, das Erkennen handschriftlicher Texte, das Identifizieren von Namen und Ereignissen und schliesslich die Klassifizierung der Ereignisse als Geburten, Ehen oder Todesfälle. Dazu werden verschiedene Modelle des maschinellen Lernens verwendet und verglichen.

Sobald die Informationen gesammelt sind, wenden Experten Validierungsregeln an, um sicherzustellen, dass die Daten mit der Art des Ereignisses, das sie darstellen, übereinstimmen. Ungültige Einträge können herausgefiltert werden, sodass nur zuverlässige Informationen behalten werden.

Mehr als zwei Millionen Seiten aus den Pfarrakten Quebecs aus dem 19. und 20. Jahrhundert wurden verarbeitet. Aus einer Stichprobe dieser Seiten wurden 3,2 Millionen Ereignisse identifiziert, von denen 74 % als vollständig und gültig gelten. Diese validierten Informationen werden dann in der BALSAC-Datenbank gespeichert, die hilft, familiäre und genealogische Beziehungen im grossen Massstab zu verknüpfen.

Das BALSAC-Projekt

Seit 50 Jahren arbeitet das BALSAC-Projekt daran, eine umfassende Datenbank der Bevölkerung Quebecs zu erstellen. Es begann mit der Sammlung von Informationen aus Pfarr- und Zivilstandsregistern, wobei der Fokus hauptsächlich auf Geburten, Ehen und Todesfällen lag. Diese Daten helfen, die Geschichte der Bevölkerung Quebecs vom 17. Jahrhundert bis heute zu rekonstruieren.

In den letzten Jahren wurde das Projekt erweitert, um Geburts- und Sterberegister aufzunehmen, um ein umfassenderes Bild von Familien zu erstellen. Mit dem Wachstum der Datenbank wurde klar, dass die manuelle Transkription nicht mehr ausreichend war. Fortschritte im maschinellen Lernen boten vielversprechende Lösungen für das Erkennen handschriftlicher Texte in historischen Dokumenten. Dies ermutigte das BALSAC-Team, diese Technologie zu nutzen, um den Transkriptionsprozess zu verbessern.

Das Ziel ist, i-BALSAC zu schaffen, eine neue Infrastruktur zur Erforschung der Bevölkerung Quebecs durch die Integration genealogischer, genomischer und geografischer Daten. Dieses Projekt, das voraussichtlich 2023 abgeschlossen wird, hat drei Hauptkomponenten: das Sammeln von demografischen und genetischen Daten, die Entwicklung von Tools zur Verwaltung und Analyse dieser Daten und die Erstellung eines Webportals für den öffentlichen Zugang.

Handschriftliche Akten von Quebec

Im Rahmen von i-BALSAC werden Geburts- und Sterbeurkunden aus den Quebec-Akten zwischen 1850 und 1916 in die BALSAC-Datenbank integriert. Die hochqualitativen Bilder dieser Dokumente wurden in Zusammenarbeit mit der Bibliothèque et Archives nationales du Québec beschafft. Das umfasst fast 2 Millionen digitalisierte Seiten aus Tausenden von Registern aus verschiedenen Pfarreien.

Das letztendliche Ziel ist es, diese Bilder zu verarbeiten, um wichtige Informationen wie Namen, Daten, Orte und Berufe zu identifizieren. Diese Daten werden verknüpft, um ein umfassendes Bild von Einzelpersonen und Familien zu erstellen. Die Datensammlung erstreckt sich über Jahrzehnte, was bedeutet, dass es erhebliche Variationen in den Handschriftstilen und Seitenlayouts in verschiedenen Registern gibt. Diese Unterschiede stellen Herausforderungen für Techniken des maschinellen Lernens dar, die auf Trainingsdaten angewiesen sind, die die Vielfalt der Dokumente repräsentieren.

Beiträge des Workflows

Diese Methode zielt darauf ab, drei Hauptziele zu erreichen:

  1. Ein komplettes Workflow zur Extraktion persönlicher Informationen aus historischen Dokumenten zu erstellen, von der Bildverarbeitung bis zur Datenbankintegration.
  2. Verschiedene Modelle des maschinellen Lernens in jedem Schritt des Workflows zu vergleichen und wichtige Herausforderungen bei der Informationsgewinnung zu identifizieren.
  3. Regeln zur Überprüfung und Standardisierung von Inhalten sowie eine unüberwachte Metrik zur Qualitätsbewertung festzulegen.

Ansätze zur Informationsgewinnung

Es gibt zwei Hauptmethoden zur Extraktion von Informationen aus Dokumenten:

Einstufiger Workflow

In einem einstufigen Workflow wird die Informationsgewinnung in einem Schritt durchgeführt, indem Informationen aus Bildern, Texten und Dokumentenlayouts zusammengeführt werden. Diese Methode verlässt sich auf vortrainierte Modelle, um Merkmale aus den verschiedenen Quellen zu extrahieren und sie dann zu verwenden, um die benötigten Daten vorherzusagen.

Dieser Ansatz ist effizient für strukturierte Dokumente, bei denen Informationen sowohl aus dem Text als auch aus dem Layout abgeleitet werden können. Bei weniger strukturierten Dokumenten, wie z.B. historischen Akten, wo der Text die meiste Bedeutung trägt, könnte es jedoch weniger gut funktionieren.

Schritt-für-Schritt-Workflow

Der Schritt-für-Schritt-Workflow unterteilt den Extraktionsprozess in handhabbare Schritte. Jede Aufgabe, wie das Klassifizieren von Seiten, das Erkennen von Textzeilen, das Erkennen handschriftlichen Textes und das Identifizieren von Entitäten, kann separat behandelt werden. Dies ermöglicht dem Team, sich auf spezifische Herausforderungen zu konzentrieren und erleichtert die Aktualisierung und Wartung jeder Komponente.

Detaillierte Schritte im Workflow

Der vollständige Workflow besteht aus mehreren Phasen, um persönliche Informationen aus gescannten Registern zu extrahieren.

Texterkennung

In der ersten Phase werden Textzeilen aus den Bildern erkannt. Verschiedene Modelle werden hinsichtlich ihrer Effektivität beim Identifizieren von Text in historischen Dokumenten verglichen. Die Qualität der Texterkennung ist entscheidend, da sie den Gesamterfolg der nachfolgenden Aufgaben beeinflusst.

Handgeschriebene Texterkennung

Nach der Identifizierung der Textzeilen ist der nächste Schritt die Erkennung des handschriftlichen Textes. Zwei verschiedene Modelle werden hinsichtlich ihrer Fähigkeit bewertet, den Text genau zu transkribieren. Die Ausgaben dieser Phase müssen genau sein, da sie für die weitere Verarbeitung, einschliesslich der Identifizierung von Namen und Ereignistypen, entscheidend sind.

Erkennung benannter Entitäten

Der erkannte Text wird dann analysiert, um spezifische Informationen zu lokalisieren, die typischerweise in den Akten vorkommen, wie Namen und Daten. Das Ziel ist es, relevante Daten zu extrahieren, die für den Aufbau von Stammbaum-Daten und das Verständnis von Beziehungen zwischen Einzelpersonen verwendet werden können.

Akt-Identifizierung und -Klassifizierung

Im nächsten Schritt klassifiziert der Workflow den identifizierten Text in Akte, wie Geburten, Ehen oder Todesfälle. Jede Akte muss genau vom Text abgetrennt und angemessen klassifiziert werden, da dies den Kontext der extrahierten Informationen liefert.

Verwaltung der Datenvariabilität

Angesichts der breiten Palette von Dokumenten und der Variabilität, wie Informationen aufgezeichnet werden, ist es wichtig, Trainingsdaten zu erstellen, die diese Vielfalt genau widerspiegeln. Die Trainingsdaten bestehen aus transkribierten und annotierten Bildern, die zusammen eine repräsentative Stichprobe für die Entwicklung und Verfeinerung der Modelle des maschinellen Lernens bieten.

Der annotierte Datensatz muss verschiedene Elemente erfassen, darunter Seiten, Akte, Linien und Wörter, während darauf geachtet wird, unterschiedliche Handschriftstile und Layouts je nach den betroffenen Registern zu berücksichtigen.

Qualitätskontrolle und Validierung

Sobald die Informationen extrahiert sind, überprüft ein Qualitätskontrollprozess die Genauigkeit und Konsistenz der Daten. Dies geschieht sowohl durch automatisierte Verfahren als auch durch menschliche Aufsicht, um sicherzustellen, dass jedes Informationsstück in die spezifische Struktur der erfassten Akte passt.

Inhaltsüberprüfung und -standardisierung

Inhalte aus den Akten werden standardisiert, um Konsistenz und Genauigkeit zu gewährleisten. Wichtige Felder wie Daten und Namen müssen vor der Integration in die BALSAC-Datenbank korrekt formatiert werden.

Und schliesslich werden alle Inkonsistenzen oder Fehler zur Überprüfung gekennzeichnet, sodass nur gültige Einträge mit einzelnen Personen in der Datenbank verknüpft werden.

Ergebnisse und Auswirkungen

Nach der Implementierung dieses Workflows wurden bedeutende Fortschritte bei der Extraktion genealogischer Daten aus den Pfarrakten Quebecs erzielt. Tausende von Akten wurden erkannt und validiert, viele Datensätze sind bereit für die Integration in die BALSAC-Datenbank.

Insgesamt stellt dieser Aufwand einen grossen Schritt nach vorne in der Nutzung von Technologie für historische Forschung und Genealogie dar. Durch die Automatisierung des Extraktionsprozesses können Forscher jetzt viel effizienter auf grosse Datenmengen zugreifen als zuvor.

Herausforderungen und zukünftige Richtungen

Obwohl der Workflow vielversprechend ist, bleiben mehrere Herausforderungen bestehen. Die Genauigkeit der Texterkennung und Informationsgewinnung muss kontinuierlich verbessert werden, insbesondere da die Variabilität in der Handschrift zu Fehlern bei der Transkription führen kann.

Darüber hinaus hebt das Projekt die Bedeutung der Entwicklung robuster Validierungsprozesse hervor, die sich an verschiedene Dokumenttypen und variierende Datenqualitäten anpassen können. Laufende Forschung wird sich darauf konzentrieren, diese Prozesse zu verfeinern, um sicherzustellen, dass die Datenbank zuverlässig und umfassend bleibt.

Während das BALSAC-Projekt voranschreitet, zielt es darauf ab, genealogische Daten weiter mit genetischen und geografischen Informationen zu integrieren, um ein reichhaltigeres Verständnis der Geschichte der Bevölkerung Quebecs zu schaffen. Die Möglichkeiten, diese Arbeit auf andere geografische Regionen und Arten historischer Dokumente auszuweiten, sind umfangreich und bieten grosses Potenzial für zukünftige genealogische Forschungen.

Originalquelle

Titel: Large Scale Genealogical Information Extraction From Handwritten Quebec Parish Records

Zusammenfassung: This paper presents a complete workflow designed for extracting information from Quebec handwritten parish registers. The acts in these documents contain individual and family information highly valuable for genetic, demographic and social studies of the Quebec population. From an image of parish records, our workflow is able to identify the acts and extract personal information. The workflow is divided into successive steps: page classification, text line detection, handwritten text recognition, named entity recognition and act detection and classification. For all these steps, different machine learning models are compared. Once the information is extracted, validation rules designed by experts are then applied to standardize the extracted information and ensure its consistency with the type of act (birth, marriage, and death). This validation step is able to reject records that are considered invalid or merged. The full workflow has been used to process over two million pages of Quebec parish registers from the 19-20th centuries. On a sample comprising 65% of registers, 3.2 million acts were recognized. Verification of the birth and death acts from this sample shows that 74% of them are considered complete and valid. These records will be integrated into the BALSAC database and linked together to recreate family and genealogical relations at large scale.

Autoren: Solène Tarride, Martin Maarand, Mélodie Boillet, James McGrath, Eugénie Capel, Hélène Vézina, Christopher Kermorvant

Letzte Aktualisierung: 2023-04-27 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2304.14044

Quell-PDF: https://arxiv.org/pdf/2304.14044

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel