Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache

Fortschritte in der Analyse historischer Dokumente

Ein Projekt zur Verbesserung der Informationsgewinnung aus Sterbeurkunden in Curacao.

― 7 min Lesedauer


Veränderung der AnalyseVeränderung der Analysevon Sterbeurkundenhistorischer Dokumente zu verbessern.Technologie nutzen, um die Extraktion
Inhaltsverzeichnis

Das REE-HDSC-Projekt konzentriert sich darauf, wie wir Informationen aus historischen Dokumenten besser extrahieren können, speziell aus Sterbeurkunden von Curaçao zwischen 1831 und 1950. Das Hauptziel ist es, automatisierte Texterkennung von handschriftlichem Text mit Techniken zur Informationsgewinnung zu kombinieren, um den Prozess schneller und genauer zu machen.

Projektübersicht

Die Grundidee von REE-HDSC ist es, eine Reihe von Sterbeurkunden zu analysieren, indem verschiedene Aufgaben durchgeführt werden, die helfen, die Informationen in diesen Dokumenten aufzuschlüsseln. Das Projekt umfasst das Erkennen verschiedener Elemente wie Namen, Daten und Orte aus den gescannten Dokumenten, die typischerweise sowohl gedruckten als auch handschriftlichen Text enthalten.

Schritte im Analyseprozess

Um die Komplexität der Analyse dieser Dokumente zu managen, teilt das Projekt den Prozess in sechs Hauptaufgaben auf:

  1. Layout-Analyse: Dabei wird verstanden, wie der Text auf den Urkunden angeordnet ist. Gibt es mehrere Spalten? Wie ist die Information strukturiert?

  2. Baseline-Erkennung: Diese Aufgabe identifiziert, wo sich die Textzeilen innerhalb des Dokuments befinden.

  3. Handschriftenerkennung: Dieser Schritt erkennt den tatsächlichen Text auf den Urkunden, einschliesslich sowohl gedruckter als auch handschriftlicher Elemente.

  4. Entitätserkennung: Hier identifiziert das Projekt wichtige Informationsbestandteile wie Namen, Daten und Berufe.

  5. Namenskorrektur: Diese Aufgabe stellt sicher, dass Namen aus verschiedenen Teilen der Urkunden korrekt zusammengeführt werden.

  6. Entitätenverknüpfung: Dieser letzte Schritt verbindet Informationen über dieselbe Person aus verschiedenen Urkunden.

Verwendete Werkzeuge

Das Projekt verwendet hauptsächlich eine Software namens Transkribus für die Layout-Analyse, Baseline-Erkennung und Handschriftenerkennung. Für die Extraktion spezifischer Informationen untersucht das Projekt den Einsatz von Machine-Learning-Techniken, regulären Ausdrücken und sogar ChatGPT für eine bessere Genauigkeit bei der Erkennung von Namen und Daten.

Qualitätskontrolle

Während das Projekt viele Schritte automatisiert, ist dennoch menschliche Aufsicht erforderlich. Das bedeutet, dass die extrahierten Informationen überprüft und bei Bedarf korrigiert werden müssen. Das Projekt zielt auch darauf ab, die Qualität der extrahierten Informationen automatisch zu bewerten.

Datenvorbereitung

Die im Projekt verwendeten Daten stammen aus zahlreichen Scans von Sterbeurkunden. Der erste Schritt besteht darin, die Daten zu bereinigen – Duplikate und nicht zugehörige Scans zu entfernen und die verfügbaren Daten nach Zeiträumen zu organisieren.

Datenstruktur

Die Urkunden sind nach Jahr und Bezirk organisiert. Interessanterweise hat sich die Anzahl der Bezirke im Laufe der Jahre verändert. In manchen Jahren gibt es sogar unerwartete zusätzliche Bezirke. Die Ordner sind mit spezifischen Formaten beschriftet, um die Dokumente im Blick zu behalten.

Datenbereinigung

Die Datenbereinigung hat zwei Hauptprobleme aufgedeckt: Nicht-Zertifikat-Scans und Duplikate. Nicht-Zertifikat-Scans wurden identifiziert und bearbeitet, während Duplikate ebenfalls aussortiert wurden, um einen genaueren Datensatz zu erhalten.

Automatische Texterkennung

Das Projekt zielt darauf ab, sowohl gedruckten als auch handschriftlichen Text effizient zu erkennen. Durch das Training verschiedener Modelle versucht das Projekt, die Genauigkeit der Erkennung handschriftlicher Elemente in den Urkunden zu verbessern.

Leistungsevaluation

Die Effektivität der Entitätserkennungsaufgaben wurde mit einer Stichprobe von Dokumenten getestet. Zunächst wurden reguläre Ausdrücke angewendet, aber später führte das Projekt ChatGPT ein, das eine bessere Leistung bei der genauen Extraktion von Namen und Daten zeigte.

Verbesserungsstrategien

Um die Genauigkeit bei der Erkennung verstorbener Namen zu erhöhen, ergriff das Projekt Massnahmen wie das Hinzufügen von mehr Trainingsdaten und die Nutzung von Namenslisten. Das Ziel war es, sicherzustellen, dass Namen korrekt identifiziert werden, da einige auf den Urkunden unvollständig oder falsch sein können.

Herausforderungen bei der Entitätenverknüpfung

Die Entitätenverknüpfung umfasst das Verbinden von Namen aus verschiedenen Urkunden. Namen können sehr ähnlich sein, was zu Verwirrung führen kann. Um diesen Prozess zu verbessern, überprüft das Projekt zusätzliche Informationen, wie Geburtsjahre, um die Genauigkeit der Verknüpfung unterschiedlicher Datensätze zu erhöhen.

Verbesserung der Namensanerkennung

Namen genau zu erkennen, ist herausfordernd wegen der Variationen und Fehler im handschriftlichen Text. Das Projekt trainiert seine Modelle kontinuierlich mit neuen Daten und sucht nach Möglichkeiten, die bestehenden Erkennungstechniken zu verbessern.

Zukünftige Richtungen

Das Projekt hat mehrere Vorschläge für zukünftige Arbeiten skizziert. Mehr Trainingsdaten zu erhöhen, bessere Methoden zum Lesen und Korrigieren von Text zu entwickeln und zu testen, wie menschliche Freiwillige auf computererzeugte Texte reagieren, sind alles Bereiche, die die Ergebnisse des Projekts verbessern können.

Fazit

Das REE-HDSC-Projekt hebt die Bedeutung der Kombination von Technologie und menschlicher Anstrengung hervor, um die Analyse historischer Dokumente zu verbessern. Indem die Herausforderungen der Informationsgewinnung aus Sterbeurkunden angegangen werden, hofft das Projekt, wertvolle Beiträge in den Bereichen Geschichte und Genealogie zu leisten.

Forschungsergebnisse

Das Projekt hat bedeutende Fortschritte beim Verständnis gemacht, wie man effektiv verschiedene Entitäten aus historischen Dokumenten extrahiert. Der organisierte Ansatz zur Analyse ermöglicht klarere Einsichten in die Wirksamkeit der verwendeten Methoden.

Layout-Analyse im Detail

Dieser Teil des Projekts konzentriert sich darauf, wie der Text auf Sterbeurkunden angeordnet ist. Jedes Seitenlayout wird sorgfältig analysiert, um sicherzustellen, dass die Informationen verarbeitet werden können, ohne den Kontext zu verlieren.

Baseline- und Linienerkennung

Es ist entscheidend, festzustellen, wo sich die Basislinie des gedruckten Textes befindet. Dies stellt sicher, dass, wenn der handschriftliche oder gedruckte Text gelesen wird, er mit seiner beabsichtigten Bedeutung ausgerichtet bleibt.

Techniken zur Handschriftenerkennung

Verschiedene Modelle werden getestet, um handschriftlichen Text zu erkennen. Während das Projekt voranschreitet, werden verschiedene Methoden verglichen, um herauszufinden, welche die genauesten Ergebnisse liefert.

Evaluierung der Erkennungsgenauigkeit

Das Projekt misst, wie gut verschiedene Modelle bei der Erkennung von Namen und Daten abschneiden. Diese Evaluierung ist entscheidend, um die Technologien, die im Projekt verwendet werden, zu verfeinern.

Verbesserung der Entitätserkennungsgenauigkeit

Die Strategien, die zur Verbesserung der Genauigkeit der Entitätserkennung implementiert wurden, beinhalten sowohl das Training neuer Modelle als auch die Verfeinerung bestehender. Das Ziel ist, ein hohes Mass an Präzision bei der Informationsgewinnung zu erreichen.

Herausforderungen

Verschiedene Herausforderungen tauchen auf, während das Projekt voranschreitet. Unleserliche Handschrift, unvollständige Namen und inkonsistente Daten können alle die Erkennungsbemühungen behindern. Das Projektteam muss diese Hindernisse sorgfältig navigieren.

Zusätzliche Daten sammeln

Um das Modelltraining zu verbessern, betont das Projekt die Bedeutung der Sammlung weiterer Beispieldaten. Dies hilft, das Verständnis der Modelle für verschiedene Schreibstile und Formate zu verbessern.

Empfehlungen für zukünftige Arbeiten

Empfehlungen für die Zukunft beinhalten die Erhöhung der Stichprobengrösse für das Training, die Durchführung weiterer Tests zur Sicherstellung der Qualität und die Überlegung, wie die Hilfe von Freiwilligen am besten in den Prozess integriert werden kann.

Fazit und Auswirkungen

Die Auswirkungen des REE-HDSC-Projekts gehen über die blosse Erkennung von Namen auf einer Seite hinaus. Es öffnet Türen zur Erforschung der umfangreichen Geschichte, die in diesen Dokumenten enthalten ist. Während das Projekt sich weiterentwickelt, strebt es an, zu einem grösseren Verständnis historischer Aufzeichnungen und deren Bedeutung beizutragen.

Technische Umsetzung

In diesem Abschnitt wird dargelegt, wie die Werkzeuge und Technologien implementiert wurden, um die Ziele des Projekts zu erreichen. Jeder Schritt ist entscheidend dafür, dass das endgültige Ergebnis den Erwartungen entspricht, die zu Beginn festgelegt wurden.

Abschliessende Gedanken

Mit kontinuierlicher Verbesserung und einem klaren Fokus auf die genaue Informationsgewinnung legt das REE-HDSC-Projekt ein starkes Fundament für zukünftige Arbeiten in ähnlichen Bereichen. Durch die effektive Kombination von Technologie und menschlicher Einsicht hofft das Projekt, den Weg für neue Entdeckungen in der historischen Forschung zu ebnen.

Mehr vom Autor

Ähnliche Artikel