Verbesserung der Handschriftenerkennung für historische Dokumente
Dieses Projekt verbessert die Transkriptionsmethoden für die Protokolle des Stadtrats von Belfort, Frankreich.
― 5 min Lesedauer
Inhaltsverzeichnis
- Die Herausforderung der handschriftlichen Texterkennung
- Trainingsstrategien
- Bedeutung der Qualität der Abschriften
- Der Datensatz
- Annotierungsprozess
- Sammlung von Annotationen
- Automatische Abschriften
- Datenaufteilungsstrategie
- Messung der Übereinstimmung
- Experimenteller Ansatz
- Ergebnisse der verschiedenen Strategien
- Auswirkungen des qualitätsorientierten Trainings
- Verzerrung in der Aufteilungsstrategie
- Zukünftige Richtungen
- Fazit
- Originalquelle
- Referenz Links
Handschriftliche Texterkennung (HTR) ist eine Methode, die hilft, handgeschriebene Texte in digitale Form zu bringen. Das ist wichtig, um alte Dokumente einfacher lesbar und durchsuchbar zu machen. In diesem Zusammenhang betrachten wir ein Projekt zur Abschrift von Gemeinderatsprotokollen der Stadt Belfort in Frankreich, die zwischen 1790 und 1946 erstellt wurden. Die grösste Herausforderung ist, dass die Abschriften oft ungenau sind, aufgrund verschiedener Faktoren wie Schreibstile und dem Alter der Dokumente.
Die Herausforderung der handschriftlichen Texterkennung
Bei der handschriftlichen Texterkennung kommt es häufig vor, dass verschiedene Leute dieselbe Textzeile abschreiben, aber ihre Interpretationen variieren können. Diese Unterschiede können Verwirrung stiften, wenn Modelle trainiert werden sollen, um Handschrift zu erkennen. Das Ziel ist, den besten Weg zu finden, ein Modell mit diesen unterschiedlichen Abschriften zu trainieren, insbesondere wenn einige davon möglicherweise nicht genau sind.
Trainingsstrategien
Um die Leistung der HTR-Modelle zu verbessern, haben wir verschiedene Ansätze untersucht, um sie mit mehreren Abschriften zu trainieren. Wir haben drei Hauptstrategien getestet:
- Einzelne Abschrift-Auswahl: Diese Methode beinhaltet, nur eine Abschrift aus allen verfügbaren zu wählen.
- Verwendung aller Abschriften: Das bedeutet, alle Abschriften für jede Textzeile während des Trainings zu behalten.
- Konsensabschrift: Bei diesem Ansatz wird eine kombinierte Abschrift erstellt, indem gemeinsame Elemente in allen verfügbaren Abschriften gesucht werden.
Bedeutung der Qualität der Abschriften
Die Qualität der Abschriften spielt eine grosse Rolle dafür, wie gut das Modell arbeitet. Um die Zuverlässigkeit der Abschriften zu schätzen, könnten zwei Personen dieselbe Zeile abschreiben. Wenn ihre Abschriften zu stark voneinander abweichen, wollen wir sie möglicherweise nicht für das Training des Modells verwenden.
Der Datensatz
Das Projekt verwendete einen Datensatz von Gemeinderatsprotokollen, der verschiedene Arten von Dokumenten wie Sitzungsnotizen und Agenden beinhaltete. Um Trainingsdaten zu sammeln, haben wir eine offene, kollaborative Annotation-Kampagne eingerichtet. Dadurch konnten Einzelpersonen am Abschreibprozess mit einem Online-Tool teilnehmen. Jede Textzeile wird hervorgehoben, und die Nutzer werden gebeten, sie genau abzuschreiben.
Annotierungsprozess
Bei der Annotation wurden Richtlinien festgelegt, um sicherzustellen, dass die gesammelten Abschriften konsistent blieben. Wenn eine Zeile zum Beispiel zu schwer zu lesen war, sollte der Annotator die Abschrift leer lassen. Wenn es Rechtschreibfehler oder Zeichensetzungsfehler gab, sollten diese korrigiert werden. Um die Qualität sicherzustellen, arbeiteten mehrere Personen an denselben Zeilen.
Sammlung von Annotationen
Während der Kampagne wurden insgesamt 24.105 Textzeilen transkribiert, wobei fast 37 % von zwei verschiedenen Personen erledigt wurden. Einige Zeilen waren jedoch herausfordernd, was dazu führte, dass eine Person eine ganze Zeile übersah, während eine andere sie abschloss. Diese Diskrepanz zeigt, wie wichtig mehrere Abschriften sind, um die beste Darstellung jeder Textzeile zu finden.
Automatische Abschriften
Um den Trainingsprozess weiter zu verbessern, haben wir auch automatische Handschriftenerkennungsmethoden verwendet, um zusätzliche Abschriften zu erstellen. Jede Zeile hatte daher entweder drei oder vier verschiedene Abschriften, was dazu beitrug, die gesammelten Daten zu verstärken.
Datenaufteilungsstrategie
Beim Training von Modellen ist es wichtig, die Daten in verschiedene Sets zu unterteilen: Trainings-, Validierungs- und Test-Sets. Das Test-Set dient dazu, zu bewerten, wie gut das Modell funktioniert. Es wurden spezifische Richtlinien festgelegt, um sicherzustellen, dass nur Zeilen, bei denen sich beide menschlichen Annotatoren einig waren, im Test-Set verwendet wurden. Zeilen, bei denen es irgendeine Form von Uneinigkeit gab, wurden in das Trainings-Set gelegt.
Messung der Übereinstimmung
Um zu messen, wie gut verschiedene Abschriften übereinstimmen, haben wir eine Übereinstimmungsbewertung berechnet. Diese Bewertung hilft uns zu verstehen, wie ähnlich die Abschriften sind und kann auf Probleme hinweisen, wie z. B. schlechte Handschrift oder Fehler bei der Abschrift.
Experimenteller Ansatz
In unseren Experimenten haben wir die verschiedenen zuvor genannten Trainingsstrategien verglichen. Wir wollten sehen, welche Methode dem Modell am besten beim Lernen hilft. Durch die Auswahl einer einzelnen Abschrift, die Verwendung mehrerer Annotationen oder die Erstellung einer Konsensabschrift haben wir die Auswirkungen jeder Methode auf die Genauigkeit des Modells bewertet.
Ergebnisse der verschiedenen Strategien
Unsere Tests zeigten, dass die Verwendung mehrerer Abschriften die Leistung des Modells im Allgemeinen verbesserte. Als wir die Ergebnisse verglichen, fanden wir heraus, dass Modelle, die mit allen verfügbaren Abschriften trainiert wurden, besser abschnitten als solche, die nur eine verwendeten. Die effektivste Methode, das Modell zu trainieren, war, automatische Abschriften zusammen mit menschlichen einzubeziehen.
Auswirkungen des qualitätsorientierten Trainings
Wir haben auch untersucht, wie sich das Entfernen von niedrigen Qualitätsabschriften auf die Leistung des Modells auswirkte. In der Praxis führte das Filtern unzuverlässiger Proben zu einer schlechteren Leistung, da es die Anzahl der Trainingsbeispiele reduzierte. Modelle brauchen genug Daten, um zu lernen, auch wenn einige davon Rauschen enthalten.
Verzerrung in der Aufteilungsstrategie
Die Methode, die wir zur Aufteilung der Daten verwendet haben, könnte Verzerrungen einführen. Das Test-Set, das aus Zeilen bestand, bei denen beide Annotatoren übereinstimmten, war tendenziell einfacher als das Trainings-Set. Diese Diskrepanz führte dazu, dass die Leistung des Modells im Test-Set besser zu sein schien, als sie tatsächlich war. Im Gegensatz dazu zeigte eine zufällige Aufteilung der Daten niedrigere Leistungskennzahlen, was verdeutlichte, wie die ursprüngliche Methode einen falschen Eindruck von Effektivität vermitteln könnte.
Zukünftige Richtungen
Unsere Forschung deutet auf verschiedene Möglichkeiten hin, den Annotierungsprozess zu verbessern und das HTR-Modelltraining zu optimieren. Für zukünftige Projekte schlagen wir vor, Funktionen einzubauen, die es den Annotatoren ermöglichen, zusammenzuarbeiten, sich gegenseitig zu korrigieren und die geleistete Arbeit zu validieren. Der Einsatz von Tools zur Bewertung der Bildqualität kann auch helfen, verschwommene Bilder herauszufiltern, die den Abschreibprozess erschweren.
Fazit
Die handschriftliche Texterkennung bleibt eine komplexe Aufgabe, insbesondere bei historischen Dokumenten. Durch die Nutzung verschiedener Strategien zur Handhabung von Abschriften und die Berücksichtigung der Qualität der Annotationen können wir bedeutende Fortschritte erzielen. Die Erkenntnisse aus unserer Arbeit können zukünftige Bemühungen zur Verbesserung der Transkription historischer Dokumente leiten und sie der Öffentlichkeit zugänglicher machen.
Titel: Handwritten Text Recognition from Crowdsourced Annotations
Zusammenfassung: In this paper, we explore different ways of training a model for handwritten text recognition when multiple imperfect or noisy transcriptions are available. We consider various training configurations, such as selecting a single transcription, retaining all transcriptions, or computing an aggregated transcription from all available annotations. In addition, we evaluate the impact of quality-based data selection, where samples with low agreement are removed from the training set. Our experiments are carried out on municipal registers of the city of Belfort (France) written between 1790 and 1946. % results The results show that computing a consensus transcription or training on multiple transcriptions are good alternatives. However, selecting training samples based on the degree of agreement between annotators introduces a bias in the training data and does not improve the results. Our dataset is publicly available on Zenodo: https://zenodo.org/record/8041668.
Autoren: Solène Tarride, Tristan Faine, Mélodie Boillet, Harold Mouchère, Christopher Kermorvant
Letzte Aktualisierung: 2023-06-19 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2306.10878
Quell-PDF: https://arxiv.org/pdf/2306.10878
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.acm.org/publications/taps/whitelist-of-latex-packages
- https://dl.acm.org/ccs.cfm
- https://callico.teklia.com
- https://zenodo.org/record/8041668
- https://demo.arkindex.org/element/669e7b54-b1a6-4ee8-bc46-12297536cf39?from=8386385d-d200-4df4-a7eb-6f6a21bae9cc&highlight=038c9e0c-819a-47b6-84c8-7771e43061c1
- https://toloka.ai/docs/crowd-kit/reference/crowdkit.aggregation.texts.rover.ROVER/
- https://github.com/jpuigcerver/PyLaia