Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Nouveau jeu de données pour la classification de la littérature du 19e siècle

Un jeu de données avec des textes ottomans turcs et russes pour améliorer la recherche.

― 7 min lire


Classer la littérature duClasser la littérature du19ème siècledes textes en turc ottoman et en russe.Nouveau jeu de données pour analyser
Table des matières

Cet article parle d'un nouveau jeu de données pour classer des textes de la littérature ottomane turque et russe du 19ème siècle. Le jeu de données contient plus de 3000 documents et est structuré pour aider les chercheurs dans des domaines comme le traitement du langage naturel et l'apprentissage automatique. L'objectif est de mieux catégoriser et comprendre ces textes historiques, qui proviennent de magazines littéraires importants de l'époque.

Description du jeu de données

Ce jeu de données est unique car il contient à la fois des textes ottomans turcs et russes. Des experts ont rassemblé et étiqueté ces documents de manière systématique en utilisant un cadre spécifique qui se concentre sur la structure des textes et leur signification. Chaque article a été catégorisé par des spécialistes, qui ont également inclus des informations bibliométriques, ce qui aide à comprendre le contexte des textes.

Importance de ce jeu de données

Les chercheurs rencontrent souvent des défis lorsqu'ils travaillent avec des textes de langues moins couramment utilisées, surtout les plus anciennes. Beaucoup d'outils à la pointe de la technologie se concentrent principalement sur les langues qui ont beaucoup de données disponibles, laissant celles moins représentées à un désavantage. Ce jeu de données vise à combler cette lacune en fournissant des ressources pour étudier des langues qui n'ont pas beaucoup d'attention dans le domaine du traitement du langage naturel.

Défis dans la classification des textes

Quand on traite des langues avec moins de contenu numérique, les chercheurs rencontrent divers problèmes qui limitent leur capacité à entraîner des modèles efficacement. La rareté des données rend difficile la création de modèles fiables, et la façon dont les textes sont découpés peut influencer la compréhension des mots. Les textes numériques ont aussi tendance à se concentrer sur des sujets spécifiques, ce qui peut introduire des biais dans les Jeux de données.

Contexte historique

Les textes collectés pour ce jeu de données proviennent d'une période dynamique de production littéraire, connue sous le nom de long 19ème siècle. Ces années ont vu une augmentation du nombre de lecteurs et l'essor des publications périodiques. Bien que les textes russes soient plus facilement disponibles, l'ottoman turc pose des défis uniques en raison de son histoire riche et de ses caractéristiques linguistiques distinctes. L'ottoman turc avait de nombreuses influences persanes et arabes, et son système d'écriture n'était pas standardisé, ce qui le rend différent du turc moderne.

Processus de collecte des données

La collecte de textes a impliqué deux étapes principales : sélectionner les articles et s'assurer qu'ils étaient correctement étiquetés. Des experts ont passé en revue divers magazines littéraires pour choisir des articles significatifs qui représentaient une large gamme d'idées et de perspectives culturelles de l'époque. De nombreux documents originaux étaient sous format papier, donc ils ont dû être numérisés pour être utilisables dans des contextes modernes.

Numérisation

Pour numériser les documents, on a utilisé un processus appelé Reconnaissance Optique de Caractères (OCR). Cette méthode convertit le texte imprimé en texte numérique qui peut être facilement traité par des ordinateurs. L'équipe a utilisé des outils comme Google Lens pour le processus OCR, car d'autres programmes OCR n'étaient pas adaptés à l'ottoman turc. Une fois numérisés, des experts ont révisé et corrigé le texte pour garantir son exactitude.

Processus d'annotation

Après la numérisation, les textes devaient être étiquetés. Une plateforme web a été développée pour aider les experts à catégoriser chaque document. Ce processus nécessitait une lecture attentive et une interprétation du contenu. Chaque expert était spécialisé dans un domaine spécifique, assurant que les textes étaient compris dans leur contexte historique et culturel. Un processus de révision organisé a aidé à maintenir des annotations de haute qualité.

Structure du jeu de données

Le jeu de données est organisé dans une structure hiérarchique avec plusieurs niveaux de catégories. Le premier niveau catégorise les articles de manière large comme "Texte littéraire", "Discours culturel" ou "Autre". Les articles de la catégorie "Autre" incluent des actualités, des publicités et d'autres contenus non littéraires. Les deuxième et troisième niveaux fournissent des sous-catégories plus spécifiques qui affinent encore la classification.

Pour le jeu de données ottoman, il y a 1 819 articles, avec une moyenne d'environ 1 005 mots et 43 phrases par article. Le jeu de données russe se compose de 1 058 articles, avec une moyenne d'environ 4 630 mots et 212 phrases chacun.

Expériences de modèle

Les chercheurs ont mené diverses expériences en utilisant le jeu de données pour établir des résultats de référence pour les tâches de classification des textes. Ils ont utilisé à la fois des modèles de langage avancés et des méthodes plus simples pour comparer les performances.

Sélection de modèle

Lors de la sélection des modèles, il est essentiel de choisir ceux qui sont adaptés pour traiter plusieurs langues et peuvent traiter de grands jeux de données efficacement. L'équipe a opté pour des modèles open-source comme Llama-2 et Falcon, qui sont construits avec des données d'entraînement étendues et peuvent comprendre une variété de langues.

Entraînement et test

Le processus d'entraînement impliquait de diviser des articles plus longs en morceaux qui s'inscrivaient dans la taille d'entrée maximale du modèle. De cette façon, même si un article était long, le modèle pouvait toujours classifier des parties. Pour les tests, l'équipe a utilisé divers indicateurs de performance pour évaluer l'efficacité de chaque modèle dans la classification des textes.

Résultats

Les résultats initiaux des expériences montrent que les modèles plus simples ont souvent des performances comparables à celles des modèles plus complexes, surtout pour les textes ottomans. Pour les textes russes, Llama-2 a généralement mieux performé dans la plupart des tâches, tandis que le modèle simple Bag of Words a également montré de bons résultats.

Les découvertes soulignent que même si des modèles avancés existent, ils ne surclassent pas toujours les méthodes plus simples, notamment lorsqu'il s'agit de langues moins communes. Cela suggère qu'il faut davantage de recherches pour améliorer la manière dont ces modèles peuvent traiter des textes de langues historiques.

Limitations et défis

Il y a plusieurs défis associés à ce travail. D'abord, la collecte et l'annotation des données nécessitent un effort et une expertise significatifs, ce qui peut représenter un obstacle pour les chercheurs. Ensuite, la quantité limitée de données disponibles peut entraver la possibilité de peaufiner les modèles efficacement. Les longs articles doivent souvent être divisés en parties plus petites pour la classification, ce qui peut compliquer le processus.

De plus, le contexte culturel et historique de ces textes ajoute des complexités. Bien que les experts aient fait un effort pour capturer la richesse de la période, il peut être difficile d'obtenir une représentation équilibrée parmi les différentes catégories.

Conclusion

En résumé, ce jeu de données représente un pas significatif vers la facilitation de l'accès aux textes historiques pour la recherche. En abordant les lacunes existantes dans l'étude des langues moins couramment utilisées, il a le potentiel de bénéficier à de nombreux domaines tels que la linguistique, l'histoire et la littérature. Le jeu de données permettra aux chercheurs de développer de meilleurs modèles pour classifier et analyser des textes, contribuant finalement à une compréhension plus profonde du patrimoine culturel et intellectuel des mondes littéraires ottoman et russe du 19ème siècle.

Source originale

Titre: A multi-level multi-label text classification dataset of 19th century Ottoman and Russian literary and critical texts

Résumé: This paper introduces a multi-level, multi-label text classification dataset comprising over 3000 documents. The dataset features literary and critical texts from 19th-century Ottoman Turkish and Russian. It is the first study to apply large language models (LLMs) to this dataset, sourced from prominent literary periodicals of the era. The texts have been meticulously organized and labeled. This was done according to a taxonomic framework that takes into account both their structural and semantic attributes. Articles are categorized and tagged with bibliometric metadata by human experts. We present baseline classification results using a classical bag-of-words (BoW) naive Bayes model and three modern LLMs: multilingual BERT, Falcon, and Llama-v2. We found that in certain cases, Bag of Words (BoW) outperforms Large Language Models (LLMs), emphasizing the need for additional research, especially in low-resource language settings. This dataset is expected to be a valuable resource for researchers in natural language processing and machine learning, especially for historical and low-resource languages. The dataset is publicly available^1.

Auteurs: Gokcen Gokceoglu, Devrim Cavusoglu, Emre Akbas, Özen Nergis Dolcerocca

Dernière mise à jour: 2024-07-21 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.15136

Source PDF: https://arxiv.org/pdf/2407.15136

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires