Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache

Neuer Datensatz zur Klassifizierung von Literatur des 19. Jahrhunderts

Ein Datensatz mit osmanisch-türkischen und russischen Texten zur Verbesserung der Forschung.

― 6 min Lesedauer


Die Klassifizierung derDie Klassifizierung derLiteratur des 19.JahrhundertsTexten.Osmanisch-Türkisch und RussischenNeuer Datensatz zur Analyse von
Inhaltsverzeichnis

Dieser Artikel behandelt einen neuen Datensatz zur Klassifizierung von Texten aus der osmanischen türkischen und russischen Literatur des 19. Jahrhunderts. Der Datensatz umfasst über 3000 Dokumente und ist so strukturiert, dass er Forschern in Bereichen wie der natürlichen Sprachverarbeitung und maschinellem Lernen hilft. Das Ziel ist, diese historischen Texte besser zu kategorisieren und zu verstehen, die aus wichtigen Literaturzeitschriften der damaligen Zeit stammen.

Beschreibung des Datensatzes

Der Datensatz ist einmalig, weil er sowohl osmanische türkische als auch russische Texte enthält. Experten haben diese Dokumente systematisch gesammelt und gekennzeichnet, indem sie einen speziellen Rahmen verwendet haben, der sich darauf konzentriert, wie die Texte strukturiert sind und was ihre Bedeutungen sind. Jeder Artikel wurde von Fachleuten kategorisiert, die auch bibliometrische Informationen einfügten, was hilft, den Kontext der Texte zu verstehen.

Bedeutung dieses Datensatzes

Forscher stehen oft vor Herausforderungen, wenn sie mit Texten aus weniger gebräuchlichen Sprachen arbeiten, besonders älteren. Viele moderne Werkzeuge konzentrieren sich hauptsächlich auf Sprachen mit viel verfügbaren Daten, wodurch weniger vertretene Sprachen benachteiligt werden. Dieser Datensatz soll diese Lücke schliessen, indem er Ressourcen zum Studium von Sprachen bereitstellt, die im Bereich der natürlichen Sprachverarbeitung nicht viel Beachtung gefunden haben.

Herausforderungen bei der Textklassifizierung

Im Umgang mit Sprachen, die weniger digitale Inhalte haben, stossen Forscher auf verschiedene Probleme, die ihre Fähigkeit zur effektiven Modellierung einschränken. Datenmangel macht es schwierig, zuverlässige Modelle zu erstellen, und die Art, wie Texte tokenisiert werden, kann die Verständlichkeit von Wörtern beeinflussen. Digitale Texte konzentrieren sich auch oft auf spezifische Themen, was Vorurteile in die Datensätze einführen kann.

Historischer Kontext

Die für diesen Datensatz gesammelten Texte stammen aus einer lebhaften Zeit der literarischen Produktion, die als das lange 19. Jahrhundert bekannt ist. In diesen Jahren stieg die Anzahl der Leser, und es entstanden Zeitschriften. Während russische Texte leichter verfügbar sind, bringt das Osmanische Türkisch aufgrund seiner reichen Geschichte und besonderen Sprachmerkmale einzigartige Herausforderungen mit sich. Das Osmanische Türkisch hatte verschiedene Einflüsse aus dem Persischen und Arabischen, und sein Schriftsystem war nicht standardisiert, was es von modernem Türkisch unterscheidet.

Datenbeschaffungsprozess

Die Sammlung der Texte bestand aus zwei Hauptschritten: der Auswahl der Artikel und der Sicherstellung, dass sie korrekt gekennzeichnet waren. Experten überprüften verschiedene Literaturzeitschriften, um bedeutende Artikel auszuwählen, die eine breite Palette von Ideen und kulturellen Perspektiven aus dieser Zeit repräsentieren. Viele Originaldokumente lagen in gedruckter Form vor, sodass sie digitalisiert werden mussten, um in modernen Kontexten verwendbar zu sein.

Digitalisierung

Um die Dokumente zu digitalisieren, wurde ein Verfahren namens Optische Zeichenerkennung (OCR) eingesetzt. Dieses Verfahren wandelt gedruckten Text in digitalen Text um, der leicht von Computern verarbeitet werden kann. Das Team verwendete Tools wie Google Lens für den OCR-Prozess, da andere OCR-Programme für das Osmanische Türkisch nicht geeignet waren. Nach der Digitalisierung überprüften und korrigierten Experten den Text, um die Genauigkeit sicherzustellen.

Annotierungsprozess

Nach der Digitalisierung mussten die Texte gekennzeichnet werden. Eine webbasierte Plattform wurde entwickelt, um den Experten zu helfen, jedes Dokument zu kategorisieren. Dieser Prozess erforderte sorgfältiges Lesen und Interpretieren des Inhalts. Jeder Experte hatte sich auf ein bestimmtes Gebiet spezialisiert, um sicherzustellen, dass die Texte im historischen und kulturellen Kontext verstanden wurden. Ein organisierter Überprüfungsprozess half, die Qualität der Annotierungen hoch zu halten.

Struktur des Datensatzes

Der Datensatz ist in einer hierarchischen Struktur mit mehreren Kategorien organisiert. Die erste Ebene kategorisiert Artikel allgemein als "Literarischer Text", "Kultureller Diskurs" oder "Sonstiges." Artikel in der Kategorie "Sonstiges" umfassen Nachrichtenartikel, Werbung und andere nicht-literarische Inhalte. Die zweite und dritte Ebene bieten spezifischere Unterkategorien, die die Klassifizierung weiter verfeinern.

Für den osmanischen Datensatz gibt es 1.819 Artikel mit einer durchschnittlichen Länge von etwa 1.005 Wörtern und 43 Sätzen pro Artikel. Der russische Datensatz besteht aus 1.058 Artikeln, die im Durchschnitt etwa 4.630 Wörter und 212 Sätze umfassen.

Modellexperimente

Forscher führten verschiedene Experimente mit dem Datensatz durch, um Basislinien für Textklassifizierungsaufgaben festzulegen. Sie verwendeten sowohl fortgeschrittene Sprachmodelle als auch einfachere Methoden, um die Leistungen zu vergleichen.

Modellauswahl

Bei der Auswahl der Modelle ist es wichtig, solche zu wählen, die für den Umgang mit mehreren Sprachen geeignet sind und grosse Datensätze effektiv verarbeiten können. Das Team entschied sich für Open-Source-Modelle wie Llama-2 und Falcon, die mit umfangreichen Trainingsdaten gebaut und eine Vielzahl von Sprachen verstehen können.

Training und Testing

Der Trainingsprozess umfasste die Aufteilung längerer Artikel in Abschnitte, die in die maximale Eingabgrösse des Modells passten. So konnte das Modell selbst dann Teile eines langen Artikels effektiv klassifizieren. Zum Testen verwendete das Team verschiedene Leistungskennzahlen, um zu bewerten, wie gut jedes Modell bei der Klassifizierung der Texte abschnitt.

Ergebnisse

Die ersten Ergebnisse der Experimente zeigen, dass einfachere Modelle oft ähnlich gut abschneiden wie komplexere, besonders bei den osmanischen Texten. Bei den russischen Texten schneidet Llama-2 in den meisten Aufgaben generell besser ab, während das einfachere Bag-of-Words-Modell ebenfalls starke Ergebnisse zeigte.

Die Ergebnisse heben hervor, dass auch wenn fortgeschrittene Modelle existieren, sie möglicherweise nicht immer besser sind als einfachere Methoden, insbesondere bei weniger gebräuchlichen Sprachen. Das legt nahe, dass weitere Forschung notwendig ist, um zu verbessern, wie gut diese Modelle Texte aus historischen Sprachen verarbeiten können.

Einschränkungen und Herausforderungen

Es gibt mehrere Herausforderungen, die mit dieser Arbeit verbunden sind. Erstens erfordert das Sammeln und Kennzeichnen der Daten einen erheblichen Aufwand und Expertenwissen, was eine Hürde für Forscher sein kann. Zweitens kann die begrenzte Menge an verfügbaren Daten die Fähigkeit zur effektiven Feinabstimmung der Modelle behindern. Lange Artikel müssen oft in kleinere Teile aufgeteilt werden, was den Prozess komplizieren kann.

Zudem fügt der kulturelle und historische Kontext dieser Texte zusätzliche Komplexität hinzu. Obwohl die Experten versucht haben, die Reichhaltigkeit der Periode einzufangen, kann es schwierig sein, eine ausgewogene Vertretung unter den verschiedenen Kategorien zu erreichen.

Fazit

Zusammenfassend stellt dieser Datensatz einen bedeutenden Schritt vorwärts dar, um historische Texte für die Forschung zugänglicher zu machen. Indem er die Lücken anspricht, die beim Studium weniger gebräuchlicher Sprachen existieren, hat er das Potenzial, vielen Bereichen wie Linguistik, Geschichte und Literatur zugute zu kommen. Der Datensatz wird es Forschern ermöglichen, bessere Modelle zur Klassifizierung und Analyse von Texten zu entwickeln, was letztlich zu einem tieferen Verständnis des kulturellen und intellektuellen Erbes aus der literarischen Welt des 19. Jahrhunderts in der Osmanischen und der russischen Literatur beitragen wird.

Originalquelle

Titel: A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts

Zusammenfassung: This paper introduces a multi-level, multi-label text classification dataset comprising over 3000 documents. The dataset features literary and critical texts from 19th-century Ottoman Turkish and Russian. It is the first study to apply large language models (LLMs) to this dataset, sourced from prominent literary periodicals of the era. The texts have been meticulously organized and labeled. This was done according to a taxonomic framework that takes into account both their structural and semantic attributes. Articles are categorized and tagged with bibliometric metadata by human experts. We present baseline classification results using a classical bag-of-words (BoW) naive Bayes model and three modern LLMs: multilingual BERT, Falcon, and Llama-v2. We found that in certain cases, Bag of Words (BoW) outperforms Large Language Models (LLMs), emphasizing the need for additional research, especially in low-resource language settings. This dataset is expected to be a valuable resource for researchers in natural language processing and machine learning, especially for historical and low-resource languages. The dataset is publicly available^1.

Autoren: Gokcen Gokceoglu, Devrim Cavusoglu, Emre Akbas, Özen Nergis Dolcerocca

Letzte Aktualisierung: 2024-07-21 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2407.15136

Quell-PDF: https://arxiv.org/pdf/2407.15136

Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel