Wir stellen ShabbyPages vor: Ein neuer Datensatz für die Dokumentenverarbeitung
ShabbyPages bietet über 6.200 verschiedene Dokumentenbilder für eine verbesserte Verarbeitung an.
― 5 min Lesedauer
Inhaltsverzeichnis
Die Dokumentenverarbeitung ist 'ne wichtige Aufgabe, bei der Bilder von Dokumenten so aufbereitet werden, dass sie leichter zu lesen und zu nutzen sind. Zwei zentrale Prozesse in diesem Bereich sind Denoising und Binarisierung. Denoising bedeutet, unerwünschtes Rauschen aus Bildern zu entfernen, wie Unschärfen oder Schmierflecken, während Binarisierung ein Farbbild in eine klare Schwarz-Weiss-Version umwandelt. Ein grosses Problem, mit dem Forscher konfrontiert sind, ist, dass es nicht genug hochwertige Datensätze gibt, um die Computer-Modelle für diese Aufgaben zu trainieren.
Um dieses Problem zu lösen, wurde ein neuer Datensatz namens ShabbyPages erstellt. Dieser Datensatz enthält über 6.000 Bilder von Dokumenten. Jedes Dokument hat eine saubere Version und eine rauschige Version, um Modelle zu trainieren, die die Qualität der Dokumente verbessern. Die rauschigen Bilder sehen so aus, als wären sie verschiedenen Druck- und Scanprozessen ausgesetzt gewesen, die oft Rauschen einführen.
Überblick über den Datensatz
ShabbyPages umfasst mehr als 6.200 Bilder von Dokumenten. Diese Bilder decken verschiedene Sprachen ab und verwenden unterschiedliche Schriftarten und -grössen. Das ist anders als bei anderen Sets, die oft zu klein oder nicht vielfältig genug sind, um gute Modelle zu trainieren. Zum Beispiel haben andere bekannte Datensätze vielleicht nur 10 bis 20 Bilder, was für ein gründliches Training nicht ausreicht.
Im Gegensatz dazu bietet ShabbyPages eine viel grössere Stichprobe und enthält Dokumente aus verschiedenen Kulturen und Sprachen sowie Dokumente mit Grafiken wie Tabellen und Bildern. Diese Vielfalt macht es geeigneter für das Training effizienter Modelle.
So wurde ShabbyPages erstellt
Die Erstellung von ShabbyPages beinhaltete das Sammeln von Dokumenten aus dem Internet. Ein Team suchte nach verschiedenen Arten von kostenlosen und öffentlich zugänglichen Dokumenten und sammelte rund 600 einzigartige Dateien, die insgesamt 6202 Seiten umfassten. Es wurde darauf geachtet, dass keine persönlichen Informationen enthalten sind. Das ist wichtig für Datenschutz und ethische Gründe.
Um den Datensatz weiter zu verbessern, wurde auch eine Sammlung von Papiertexturen besorgt. Diese Texturen ahmen verschiedene Bedingungen nach, denen ein Dokument beim Drucken ausgesetzt sein könnte, wie Falten oder Flecken. Die gesammelten Texturen waren entweder gemeinfrei oder hatten Lizenzen, die ihre Nutzung erlaubten.
Umwandlungsprozess
Nachdem die Dokumente gesammelt wurden, wurde jede PDF-Datei in ein Bildformat umgewandelt. Das wurde mit einem speziellen Tool gemacht, das PDFs in Bilder aufteilt. Jedes Bild wurde in einer Auflösung erstellt, die eine detaillierte Ansicht ermöglicht, typischerweise 150 Punkte pro Zoll (dpi). Die meisten der resultierenden Bilder sind ziemlich gross und erfassen viele Details.
Erstellung der rauschigen Versionen
Um die rauschigen Versionen dieser Bilder zu erstellen, wurde ein spezielles Tool namens Augraphy verwendet. Dieses Tool ist dafür ausgelegt, eine Vielzahl realistischer Rausch-Effekte auf Dokumente anzuwenden, sodass die Arten von Problemen simuliert werden, die typischerweise bei Imaging-Prozessen wie Fotokopieren oder Scannen auftreten. Die Schöpfer von ShabbyPages wollten sicherstellen, dass das hinzugefügte Rauschen realistisch aussieht und eine Reihe potenzieller Probleme abdeckt, die in der realen Welt zu sehen sind.
Das Team entschied sich, bestimmte Transformationen nicht zu verwenden, die das Layout der Dokumente zu stark verändern würden, da sie eine klare Verbindung zwischen den rauschigen und sauberen Versionen beibehalten wollten. So behält ShabbyPages das ursprüngliche Layout und Format der Dokumente bei, während verschiedene Rauschelemente eingeführt werden.
Vielfalt im Datensatz
Eines der herausragenden Merkmale von ShabbyPages ist die Vielfalt. Der Datensatz umfasst eine breite Palette von Merkmalen, wie verschiedene Schriftarten, Grössen und Stile, sowie Dokumente mit grafischen Elementen. Im Vergleich zu anderen Datensätzen wie NoisyOffice, die nur begrenzte Merkmale und nur eine kleine Anzahl von Bildern haben, hebt sich ShabbyPages durch seinen Reichtum hervor.
Vielfalt ist entscheidend beim Training von Modellen, weil sie ihnen hilft, mit verschiedenen realen Bedingungen umzugehen. Je mehr unterschiedliche Arten von Dokumenten das Modell sieht, desto besser kann es verallgemeinern und mit neuen Dokumenten arbeiten, die es noch nicht gesehen hat.
Nützlichkeit von ShabbyPages
ShabbyPages wurde nicht nur erstellt, um mehr Daten zu haben; sein Hauptzweck ist es, das Training und die Tests von Dokumentenverarbeitungsmodellen zu unterstützen. Durch die Nutzung dieses Datensatzes können Forscher bessere Denoising- und Binarisierungsmodelle entwickeln. Die ersten Ergebnisse aus Tests dieser Modelle zeigen, dass die auf ShabbyPages trainierten Modelle bei anderen Datensätzen besser abschneiden als diejenigen, die auf kleineren oder weniger vielfältigen Datensätzen trainiert wurden.
Die Effektivität dieser Modelle hat signifikante Implikationen. Zum Beispiel bedeutet verbessertes Denoising, dass optische Zeichenerkennungssysteme (OCR), die Bilder von Text in maschinenlesbaren Text umwandeln, besser funktionieren können. Das ist entscheidend für Anwendungen von der Digitalisierung von Büchern bis hin zur Verarbeitung von Formularen.
Experimentierung mit ShabbyPages
Um die Effektivität von ShabbyPages zu demonstrieren, führten Forscher Experimente mit Computer-Modellen durch, die als NAFNets bekannt sind. Diese Modelle wurden sowohl auf ShabbyPages als auch auf einem anderen Datensatz namens NoisyOffice trainiert. Das Ziel war zu sehen, wie gut die Modelle die Bilder rauschfrei machen konnten, was sie taten, indem sie die Ergebnisse visuell und mit bestimmten Leistungsmetriken bewerteten.
Interessanterweise zeigten Modelle, die auf ShabbyPages trainiert wurden, eine viel bessere Fähigkeit, Bilder von NoisyOffice zu bereinigen, als umgekehrt. Das liegt wahrscheinlich an der grösseren Vielfalt in ShabbyPages, die es dem Modell ermöglicht, aus einem breiteren Spektrum an Beispielen zu lernen.
Fazit
ShabbyPages stellt einen bedeutenden Fortschritt im Bereich der Dokumentenverarbeitung dar. Durch die Bereitstellung eines grossen und vielfältigen Datensatzes ermöglicht es Forschern und Entwicklern, bessere Modelle zu erstellen, um Rauschen zu entfernen und die Lesbarkeit von Dokumenten zu verbessern. Der Erfolg von ShabbyPages deutet darauf hin, dass der Zugang zu einem reichhaltigen Trainingsdatensatz der Schlüssel zum Fortschritt in dieser Technologie ist.
Mit der fortschreitenden Verbesserung der rechnerischen Methoden werden Datensätze wie ShabbyPages eine wichtige Rolle bei der Verbesserung der Qualität von Dokumentenverarbeitungssystemen spielen. Das kann zu genaueren Ergebnissen führen, sei es in der OCR, der Datenauswertung oder anderen verwandten Aufgaben. Letztendlich kann ein solider Datensatz den Arbeitsablauf der Dokumentenverarbeitung optimieren und die Werkzeuge verbessern, die in verschiedenen Branchen eingesetzt werden.
Titel: ShabbyPages: A Reproducible Document Denoising and Binarization Dataset
Zusammenfassung: Document denoising and binarization are fundamental problems in the document processing space, but current datasets are often too small and lack sufficient complexity to effectively train and benchmark modern data-driven machine learning models. To fill this gap, we introduce ShabbyPages, a new document image dataset designed for training and benchmarking document denoisers and binarizers. ShabbyPages contains over 6,000 clean "born digital" images with synthetically-noised counterparts ("shabby pages") that were augmented using the Augraphy document augmentation tool to appear as if they have been printed and faxed, photocopied, or otherwise altered through physical processes. In this paper, we discuss the creation process of ShabbyPages and demonstrate the utility of ShabbyPages by training convolutional denoisers which remove real noise features with a high degree of human-perceptible fidelity, establishing baseline performance for a new ShabbyPages benchmark.
Autoren: Alexander Groleau, Kok Wei Chee, Stefan Larson, Samay Maini, Jonathan Boarman
Letzte Aktualisierung: 2023-03-17 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2303.09339
Quell-PDF: https://arxiv.org/pdf/2303.09339
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://www.kaggle.com/datasets
- https://huggingface.co/datasets
- https://tc11.cvc.uab.es/datasets/RDCL2019_1
- https://tc11.cvc.uab.es/datasets/Tobacco800_1
- https://tc11.cvc.uab.es/datasets/ICDAR2019-CROHME-TDF_1
- https://doi.org/10.1093/comjnl/bxz098
- https://arxiv.org/abs/1502.07058
- https://dblp.org/rec/journals/corr/HarleyUD15.bib
- https://dblp.org
- https://archive.ics.uci.edu/ml
- https://github.com/sparkfish/augraphy