Verbesserung der Keyword-Erkennung in handgeschriebenen Dokumenten
Ein neuer Ansatz verbessert das Keyword-Spotting in historischen Handschriften durch selbstüberwachtes Lernen.
― 5 min Lesedauer
Inhaltsverzeichnis
Keyword-Spoting bedeutet, spezifische Wörter in handschriftlichen Dokumenten zu finden. Viele historische Dokumente sind nicht einfach zu durchsuchen, weil sie keine richtige Indizierung haben. Traditionelle Methoden, um Text aus Bildern zu erkennen, wie manuelle Transkription, sind langsam und teuer. Aktuelle optische Zeichenerkennungssysteme (OCR) funktionieren gut mit modernen Drucktexten, haben aber Probleme mit alten handschriftlichen Dokumenten, die oft verschiedene Probleme wie Verblassen, unterschiedliche Schreibstile und Störgeräusche haben.
Eine Lösung ist, Wörter in Bildern basierend auf ihrem Aussehen zuzuordnen. Diese Methode erfordert nicht, dass alle Wörter erkannt werden; stattdessen konzentriert sie sich darauf, wo ein bestimmtes Wort im Dokument erscheinen könnte. Forscher haben verschiedene Strategien für diese Aufgabe entwickelt, entweder indem sie jedes isolierte Wort betrachten oder die ganze Seite verarbeiten.
Die Herausforderungen bei der Analyse handschriftlicher Dokumente
Wörter in handschriftlichen Dokumenten zu finden, ist ein herausforderndes Forschungsgebiet. Frühere Methoden basierten auf handgefertigten Merkmalen und verwendeten keine Lerntechniken. Mit den Fortschritten im maschinellen Lernen, insbesondere mit konvolutionalen neuronalen Netzwerken (CNNs), hat sich die Leistung verbessert, aber es gab immer noch Einschränkungen. CNNs sind empfindlich gegenüber Änderungen der Orientierung und haben Schwierigkeiten, breitere Beziehungen innerhalb des Textes zu erfassen.
In letzter Zeit haben Transformer Aufmerksamkeit erregt, weil sie effektiv in der Verarbeitung von Sprache und Bildern sind. Ihr Selbstaufmerksamkeitsmerkmal hilft, wesentliche Beziehungen zwischen Wörtern besser zu erfassen als CNNs. Allerdings benötigen Transformer riesige Mengen an beschrifteten Daten, um gut zu funktionieren, und es ist oft schwierig, genügend beschriftete Datensätze zu bekommen, besonders bei historischen Dokumenten.
Die vorgeschlagene Methode: Selbstüberwachtes Lernen
Um diese Herausforderungen zu überwinden, wurde ein neuartiger Ansatz namens ST-KeyS entwickelt. Diese Methode verwendet selbstüberwachtes Lernen, um Keyword-Spoting zu analysieren, ohne viele beschriftete Daten zu brauchen. Stattdessen konzentriert sie sich darauf, aus der grossen Menge an unbeschrifteten Daten zu lernen, die verfügbar sind.
Das System hat zwei Hauptteile:
Pretraining-Phase: In dieser Phase wird ein maskierter Autoencoder verwendet, um zu lernen, wie man die Bilder der Wörter ohne Beschriftungen darstellt. Teile des Bildes werden zufällig verborgen, und das Modell wird trainiert, die fehlenden Teile basierend auf dem, was es sehen kann, vorherzusagen.
Feinabstimmungsphase: Nachdem das Modell gelernt hat, die Wörter aus unbeschrifteten Daten darzustellen, wird es mit einem kleineren Satz von beschrifteten Daten feinabgestimmt. Dieser Schritt ist entscheidend, um das Modell genauer im Erkennen von Schlüsselwörtern zu machen.
Die Feinabstimmung kombiniert die visuellen Merkmale, die aus den Bildern extrahiert wurden, mit den textuellen Informationen, um ein robustes Erkennungssystem zu schaffen.
Die Schritte im Detail
Pretraining-Phase
In der Pretraining-Phase lernt das Modell aus unbeschrifteten Bildern. Der Prozess beginnt damit, jedes Bild in kleinere Stücke zu zerlegen. Ein erheblicher Teil dieser Stücke (75%) wird zufällig verborgen. Das Modell versucht dann, das ursprüngliche Bild aus den sichtbaren Teilen wiederherzustellen. Diese Methode ermöglicht es dem Modell, wichtige Merkmale zu lernen, auch wenn es das gesamte Bild nicht sehen kann.
Der Encoder, der in dieser Phase verwendet wird, ist so gestaltet, dass er nur die sichtbaren Teile des Bildes verarbeitet. Er erfasst die wichtigen Muster innerhalb dieser Teile, und der Decoder verwendet diese gelernten Informationen, um die verborgenen Teile wiederherzustellen.
Feinabstimmungsphase
Sobald das Modell nützliche Darstellungen gelernt hat, geht es in die Feinabstimmungsphase. Dieser Schritt verwendet eine siamesische Netzwerkarchitektur, die es dem Modell ermöglicht, zwei Bilder direkt zu vergleichen. So lernt das Modell besser, zwischen ähnlichen und unterschiedlichen Bildern zu unterscheiden.
Zusätzlich wird eine PHOC-Embedding-Technik verwendet, um eine textuelle Darstellung basierend auf den im Wort vorhandenen Zeichen zu erstellen. Indem die visuellen Merkmale aus Bildern mit den PHOC-Attributen ausgerichtet werden, kann das Modell Schlüsselwörter genauer erkennen.
Verwendete Datensätze zur Bewertung
Die vorgeschlagene Methode wurde an mehreren Datensätzen getestet, die handschriftliche Dokumente enthalten. Der IAM-Datensatz besteht aus verschiedenen handschriftlichen englischen Dokumenten, die ideal für das Pretraining des Systems sind. Weitere Datensätze, die für Feinabstimmung und Tests verwendet wurden, sind Botany, Alvermann Konzilsprotokolle und George Washington. Diese Datensätze wurden wegen ihrer historischen Bedeutung und der unterschiedlichen Herausforderungen, die sie bieten, ausgewählt.
Bewertung und Ergebnisse
Die vorgeschlagene Methode wurde an ihrer Fähigkeit gemessen, Schlüsselwörter in den verschiedenen Datensätzen zu erkennen. Die Leistung wurde anhand des mittleren Durchschnitts der Präzision (mAP) bewertet, einem standardisierten Mass, das bei Informationsabruf-Tasks verwendet wird.
Ergebnisse auf ICFHR-Datensätzen
Bei Tests an den Botany- und Alvermann-Datensätzen zeigte ST-KeyS vielversprechende Ergebnisse und übertraf andere Methoden wie traditionelle PHOC-Modelle. Das Modell schnitt auch gut bei verschiedenen Schreibstilen und historischen Variationen im Text ab.
Ergebnisse auf dem George Washington-Datensatz
In einer fokussierteren Bewertung mit dem George Washington-Datensatz erzielte ST-KeyS einen beeindruckenden mAP-Wert von 95,70%. Diese Leistung hob die Fähigkeit des Modells hervor, bedeutungsvolle Merkmale aus den Bildern effektiv zu extrahieren, was seine Vorteile gegenüber älteren Methoden, die auf handgefertigten Merkmalen basierten, zeigte.
Qualitative Ergebnisse
Die qualitative Analyse der Leistung des Modells zeigte seine Stärke darin, die richtigen Wortbilder abzurufen, trotz der Anwesenheit ähnlicher Wörter und Stile. Einige Misserfolge wurden aufgrund von unklaren Buchstaben oder ähnlich aussehenden Wörtern festgestellt, die das Modell verwirren können.
Vorteile der vorgeschlagenen Methode
ST-KeyS sticht hervor, weil es gut mit minimalen beschrifteten Daten funktioniert, während es gleichzeitig einen selbstüberwachten Lernansatz verwendet. Diese Methode ermöglicht es ihm, sich an verschiedene Datensätze anzupassen, ohne umfangreiche Beschriftungen zu benötigen, was die anhaltende Herausforderung des Datenmangels in diesem Bereich anspricht.
Zukünftige Arbeiten
Die Forschung skizzierte das Potenzial für weitere Verbesserungen, wie die Integration eines Sprachmodells zur Verfeinerung der Ergebnisse und die Erkundung segmentierungsfreier Methoden. Es besteht auch Interesse, diesen Ansatz auf andere Bereiche anzuwenden, einschliesslich Handschriftenerkennungsaufgaben.
Die ST-KeyS-Methode hat gezeigt, dass selbstüberwachtes Lernen sowohl effektiv als auch effizient für das Keyword-Spotting in historischen handschriftlichen Dokumenten sein kann und eine Grundlage für zukünftige Fortschritte in diesem Bereich legt.
Titel: ST-KeyS: Self-Supervised Transformer for Keyword Spotting in Historical Handwritten Documents
Zusammenfassung: Keyword spotting (KWS) in historical documents is an important tool for the initial exploration of digitized collections. Nowadays, the most efficient KWS methods are relying on machine learning techniques that require a large amount of annotated training data. However, in the case of historical manuscripts, there is a lack of annotated corpus for training. To handle the data scarcity issue, we investigate the merits of the self-supervised learning to extract useful representations of the input data without relying on human annotations and then using these representations in the downstream task. We propose ST-KeyS, a masked auto-encoder model based on vision transformers where the pretraining stage is based on the mask-and-predict paradigm, without the need of labeled data. In the fine-tuning stage, the pre-trained encoder is integrated into a siamese neural network model that is fine-tuned to improve feature embedding from the input images. We further improve the image representation using pyramidal histogram of characters (PHOC) embedding to create and exploit an intermediate representation of images based on text attributes. In an exhaustive experimental evaluation on three widely used benchmark datasets (Botany, Alvermann Konzilsprotokolle and George Washington), the proposed approach outperforms state-of-the-art methods trained on the same datasets.
Autoren: Sana Khamekhem Jemni, Sourour Ammar, Mohamed Ali Souibgui, Yousri Kessentini, Abbas Cheddad
Letzte Aktualisierung: 2023-03-06 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2303.03127
Quell-PDF: https://arxiv.org/pdf/2303.03127
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.