Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Digitale Bibliotheken

Die Wiederbelebung lateinamerikanischer Zeitungen aus dem 19. Jahrhundert

Ein neuer Datensatz beleuchtet historische Zeitungen aus Lateinamerika.

― 6 min Lesedauer


LateinamerikanischeLateinamerikanischeZeitungsdatenbankhistorische Sprachforschung.Eine wichtige Ressource für die
Inhaltsverzeichnis

Dieser Artikel spricht über die Bedeutung, alte Zeitungen aus Lateinamerika zu studieren, insbesondere die, die im 19. Jahrhundert gedruckt wurden. Zeitungen sind wertvolle Ressourcen, die Einblicke in die politischen, wirtschaftlichen und kulturellen Ereignisse ihrer Zeit geben. Allerdings sind viele dieser Zeitungen nicht leicht zugänglich, weil sie nicht digitalisiert wurden oder schwer lesbar sind aufgrund veralteter Druckmethoden und schlechter Erhaltung.

Der Bedarf nach einem neuen Datensatz

Es fehlt an spezialisierten Sammlungen lateinamerikanischer Zeitungen, die Forscher für historische und sprachliche Studien nutzen können. Um diese Lücke zu schliessen, wurde ein neuer Datensatz erstellt, der Texte aus verschiedenen Zeitungen des 19. Jahrhunderts enthält. Dieser Datensatz konzentriert sich hauptsächlich auf Zeitungen aus einer Region, die Teile des heutigen Kolumbien, Panamas, Venezuelas und Ecuadors umfasst.

Herausforderungen mit alten Zeitungen

Eine grosse Herausforderung bei alten Zeitungen ist, deren gedruckten Inhalte in digitale, maschinenlesbare Texte umzuwandeln. Dieser Prozess verlässt sich häufig auf die Technologie der Optischen Zeichenerkennung (OCR). Während OCR sich im Laufe der Zeit verbessert hat, hat sie immer noch Schwierigkeiten mit älteren Dokumenten, die verblasste Tinte, ungewöhnliche Schriftarten oder andere Probleme durch Alterung aufweisen. Fehler in der OCR können Probleme bei der späteren Analyse des Textes verursachen, sodass es notwendig ist, diese Fehler zu korrigieren.

Nutzung fortschrittlicher Technologien zur Korrektur

Um die Probleme mit OCR anzugehen, wurde ein grosses Sprachmodell (LLM) eingesetzt. Dieses Werkzeug kann helfen, Fehler zu identifizieren und zu beheben, die die traditionelle OCR möglicherweise übersieht. Durch die Anwendung dieses fortschrittlichen Modells verbesserte sich die Genauigkeit und Klarheit der digitalisierten Texte erheblich. Das Ziel war nicht nur, die Texte zu transkribieren, sondern sicherzustellen, dass sie zuverlässig und lesbar für zukünftige Forschungen sind.

Verwandte Projekte

Mehrere Projekte haben sich bemüht, historische Zeitungen auf der ganzen Welt zu digitalisieren und zu analysieren. Eine bedeutende Initiative in den USA ist "Chronicling America", die historische Zeitungen für den öffentlichen Zugang digitalisiert. Es gibt auch ein Projekt namens "Digging into Data Challenge", das die Sozialwissenschaften mit historischen Papieren verbindet. Trotz dieser Initiativen gibt es weiterhin eine Lücke für spezialisierte Sammlungen lateinamerikanischer Zeitungen aus dem 19. Jahrhundert.

Aufbau des Datensatzes

Der neue Datensatz besteht aus Tausenden von gescannten Seiten aus verschiedenen Zeitungen. Die Forscher haben diese Seiten aus den Hauptarchiven der kolumbianischen Zeitungen bezogen. Der Datensatz wurde sorgfältig kuratiert, um sicherzustellen, dass er effektiv für zukünftige Studien genutzt werden kann. Jeder Eintrag im Datensatz enthält wichtige Metadaten, wie den Titel der Zeitung, das Veröffentlichungsjahr und spezifische Texte von jeder Seite.

Verarbeitung der Daten

Zunächst wurden Bilder der Zeitungen verarbeitet, um Text von Illustrationen zu trennen. Das Azure AI Vision Model wurde dann genutzt, um OCR auf den Textbildern durchzuführen. Eine manuelle Überprüfung einer Stichprobe des Textes ergab, dass viele Teile der Dokumente schwer lesbar waren. Einige Seiten enthielten zahlreiche Fehler, bedingt durch die Druckweise, was die Transkription schwierig machte.

Strukturierung des Datensatzes für die Analyse

Nachdem die Daten verarbeitet wurden, wurden sie in ein strukturiertes Format organisiert, das die Analyse erleichtert. Jeder Eintrag im Datensatz hat eine Kennung, den Titel der Zeitung, das Jahr der Veröffentlichung, die Stadt und den Text selbst. Diese Methode ermöglicht es den Forschern, die Texte nach ihren Bedürfnissen zu sortieren und zu filtern.

Reinigung der Daten

Nachdem der Datensatz organisiert wurde, haben die Forscher Schritte unternommen, um doppelte Einträge und Texte, die hauptsächlich nicht-alphabetische Zeichen enthielten, zu entfernen. Das Ziel war es, sicherzustellen, dass der Datensatz sauber und nützlich für weitere Analysen ist. Diese Reinigungsphase ist entscheidend für jeden, der mit den Daten sinnvoll arbeiten möchte.

Die Rolle des LLM bei der Fehlerkorrektur

Die Verwendung eines grossen Sprachmodells zur Korrektur von OCR-Fehlern erfordert sorgfältige Überlegung. Da viele LLMs auf modernen Sprachen trainiert sind, können sie ältere Texte möglicherweise nicht immer genau behandeln. Daher mussten die Forscher Korrekturen, die vom LLM vorgenommen wurden, als echte OCR-Fehler oder einfach unterschiedliche Oberflächenformen von Wörtern klassifizieren, die typischerweise im 19. Jahrhundert verwendet wurden.

Arten von Korrekturen

Der Korrekturprozess umfasste die Identifizierung mehrerer Arten von Änderungen:

  1. Oberflächenformänderungen: Das sind Variationen in der Schreibweise von Wörtern, die den historischen Sprachgebrauch widerspiegeln. Zum Beispiel wurde die Verbindung "y" (und) in früheren Texten oft als "i" geschrieben. Diese Änderungen sind wichtig, um die Entwicklung der Sprache im Laufe der Zeit zu verstehen.

  2. OCR-Fehler: Das sind Fehler, die durch den OCR-Prozess selbst entstanden sind. Sie können durch das Misslesen bestimmter Zeichen oder Interpunktion auftreten. Es ist entscheidend, diese von legitimen historischen Variationen in der Wortform zu unterscheiden.

  3. Halluzinationen: Dieser Begriff bezieht sich auf Korrekturen, die vom LLM vorgenommen wurden und weder mit Oberflächenformen noch mit gültigen OCR-Fehlern übereinstimmen. Solche Korrekturen sollten aus dem endgültigen Datensatz ausgeschlossen werden, da sie den ursprünglichen Text falsch darstellen können.

Bedeutung genauer Korrekturen

Genau Korrekturen zu haben, ist entscheidend für Forscher, die historische Zeitungen analysieren möchten. Der Datensatz ist nicht nur eine einfache Sammlung von Texten; er spiegelt die spezifischen Sprachformen und Nutzungsmuster der Zeit wider. Diese Details zu verstehen, kann Einblicke in die Entwicklung der Sprache in Lateinamerika bieten.

Zukünftige Richtungen für den Datensatz

Der ursprüngliche Datensatz konzentriert sich auf Zeitungen aus der Region Nueva Granada, aber es gibt Pläne, ihn zu erweitern. Zukünftige Sammlungen werden Zeitungen aus anderen lateinamerikanischen Ländern einschliessen, um einen umfassenderen Datensatz zu schaffen. Dies wird eine tiefere Untersuchung der historischen und linguistischen Forschung in der Region ermöglichen.

Untersuchung von Sprachveränderungen im Laufe der Zeit

Neben der Erweiterung des Datensatzes planen die Forscher auch, die Veränderungen im Spanischen vom 19. Jahrhundert bis zur Gegenwart zu analysieren. Diese Studie kann Einblicke in die Entwicklung der spanischen Sprache in verschiedenen Regionen geben und Trends im Wortschatz, der Grammatik und der Nutzung aufzeigen.

Vorwärts zur Automatisierung

Während ein Grossteil der Arbeit zur Fehlerkorrektur manuell erledigt wurde, gibt es Interesse daran, automatisierte Prozesse zu entwickeln. Durch die Schaffung von Werkzeugen, die die OCR-Genauigkeit bewerten können, ohne ständige menschliche Aufsicht zu benötigen, kann die Effizienz des Korrekturrahmens verbessert werden. Dies würde es den Forschern ermöglichen, sich auf tiefere Analysen zu konzentrieren, anstatt sich in manuellen Korrekturen zu verlieren.

Fazit

Die Erstellung eines neuen Datensatzes von lateinamerikanischen Zeitungen des 19. Jahrhunderts stellt einen bedeutenden Fortschritt in der historischen und linguistischen Forschung dar. Durch sorgfältige Digitalisierung und Korrekturprozesse zielt dieser Datensatz darauf ab, das historische Erbe zu bewahren und gleichzeitig zukünftigen Wissenschaftlern zugänglich zu machen. Die fortlaufende Arbeit zur Verbesserung und Erweiterung dieser Ressource wird sicherstellen, dass sie ein wertvolles Werkzeug zum Verständnis der reichen Geschichte der spanischen Sprache und ihrer Entwicklung in Lateinamerika bleibt.

Mehr von den Autoren

Ähnliche Artikel