Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

Analyse des classificateurs dans l'écriture égyptienne ancienne

La recherche se concentre sur l'identification des classificateurs en égyptien ancien en utilisant des techniques modernes.

― 5 min lire


Classificateurs égyptiensClassificateurs égyptiensanciens exploréslangue.efficacement les classificateurs deDe nouveaux modèles visent à identifier
Table des matières

L’écriture égyptienne ancienne est connue pour sa complexité. Un aspect clé de ce système est l’utilisation des Classificateurs grapho. Ce sont des signes silencieux qui aident à clarifier le sens ou la prononciation des mots. Récemment, l’intérêt pour les classificateurs a augmenté, surtout avec le lancement de projets visant à analyser ces éléments dans différentes langues, y compris l’égyptien ancien.

L'étude des classificateurs dans les textes égyptiens anciens peut maintenant être abordée avec des techniques de Traitement du langage naturel (NLP). Les chercheurs ont commencé à développer des modèles qui peuvent aider à identifier ces classificateurs, même avec peu de données d’entraînement. L’accent est mis sur la création de modèles capables de mieux étiqueter les séquences dans le texte tout en s'attaquant aux défis spécifiques à l’égyptien ancien, comme la Tokenisation et la structure unique des textes.

La langue et l’écriture égyptiennes anciennes font partie des premières formes d’expression humaine. Une caractéristique notable est l’utilisation des classificateurs, aussi appelés déterminatifs dans les études plus anciennes. Ces signes hiéroglyphiques sont attachés aux mots pour mettre en valeur certains aspects de leur signification. Contrairement aux classificateurs dans les langues modernes parlées, ces signes n’étaient pas prononcés à voix haute.

L'étude informatique de l’égyptien ancien en est encore à ses débuts. Bien que des méthodes d'apprentissage automatique aient été appliquées à diverses langues anciennes, peu se sont penchées sur l’égyptien ancien, la plupart des recherches se concentrant sur des aspects techniques comme la reconnaissance de caractères. Cependant, le domaine des études sur les classificateurs a progressé grâce à de nouvelles plateformes conçues pour l’analyse des classificateurs dans différentes langues, anciennes et modernes. Ces plateformes visent à fournir une base comparative pour les chercheurs, facilitant l’examen des traditions de classification.

Les ressources disponibles pour l’étude se divisent en deux types principaux. Les corpus de texte intégral fournissent des annotations complètes pour les deux types de formes de mots dans des textes spécifiques. Les corpus thématiques se concentrent sur des types de données particuliers, comme les mots empruntés ou des classes lexicales spécifiques. Les corpus de texte intégral sont souvent plus informatifs mais nécessitent des textes numérisés existants pour l’annotation.

L'une des principales bases de données utilisées dans cette recherche est une collection de sorts connue sous le nom de Textes de la Tombe, qui remontent à la Première Période Intermédiaire et au Moyen Empire de l’Égypte ancienne. Ce corpus contient un mélange équilibré de données classifiées et non classifiées, reflétant l’usage de la langue à cette époque. Chaque point de données correspond à une forme de mot, ce qui est la pratique courante pour annoter les textes anciens.

Un défi majeur de cette recherche est d'identifier correctement les classificateurs dans ces textes. Les modèles développés utilisent des séquences de hiéroglyphes comme entrées et produisent des sorties qui identifient les classificateurs. Ce processus implique la tokenisation, où les signes sont séparés et marqués, permettant aux modèles d'apprendre les schémas associés aux classificateurs.

Les chercheurs ont mis en œuvre plusieurs modèles pour tester leur efficacité dans l'identification des classificateurs. Cela inclut des modèles neuronaux traditionnels qui fonctionnent avec des séquences de caractères et des modèles basés sur des transformateurs plus avancés. La performance de ces modèles est comparée à des approches de base plus simples qui se basent sur la fréquence des signes et d'autres statistiques.

Les résultats initiaux montrent que même si les modèles fonctionnent bien sur les données d’entraînement, il y a des défis à les appliquer à d'autres textes de périodes différentes. Les classificateurs sont abondants et variés, reflétant la complexité du système d'écriture. L'existence de classificateurs qui n'apparaissent qu'une ou deux fois dans les ensembles de données combinés complique la tâche.

Malgré les défis, la recherche montre des promesses dans le développement de modèles efficaces pour identifier les classificateurs dans l’écriture égyptienne ancienne. Bien que certains modèles aient eu du mal à être précis, d'autres ont montré la capacité de bien fonctionner même sur des ensembles de données de différents genres ou périodes. Cela suggère qu'il pourrait y avoir un potentiel de transfert de connaissances entre différentes langues et systèmes d'écriture.

La précision de ces modèles peut chuter considérablement lorsqu'ils sont appliqués à des textes hors domaine, ce qui indique que des travaux supplémentaires sont nécessaires pour améliorer la performance. Les recherches futures pourraient se concentrer sur une meilleure distinction entre différents types de classificateurs ou sur l'amélioration de l'entraînement des modèles pour inclure un plus large éventail d'exemples.

Les efforts pour identifier et analyser les classificateurs dans l’écriture égyptienne ancienne représentent une étape importante pour comprendre les complexités de cette langue ancienne. En utilisant l'apprentissage automatique et des techniques NLP, les chercheurs espèrent obtenir des insights plus profonds sur l'utilisation des classificateurs et leur signification dans la structure globale de la langue.

En résumé, l'identification des classificateurs dans les textes égyptiens anciens est un domaine en développement qui combine l'analyse linguistique avec des méthodes informatiques modernes. La recherche en cours vise à améliorer la précision des modèles et à enrichir notre compréhension des systèmes d'écriture anciens. À mesure que davantage de données deviennent disponibles et que les techniques s'affinent, le potentiel d'avancées significatives dans ce domaine continue de croître.

Source originale

Titre: Classifier identification in Ancient Egyptian as a low-resource sequence-labelling task

Résumé: The complex Ancient Egyptian (AE) writing system was characterised by widespread use of graphemic classifiers (determinatives): silent (unpronounced) hieroglyphic signs clarifying the meaning or indicating the pronunciation of the host word. The study of classifiers has intensified in recent years with the launch and quick growth of the iClassifier project, a web-based platform for annotation and analysis of classifiers in ancient and modern languages. Thanks to the data contributed by the project participants, it is now possible to formulate the identification of classifiers in AE texts as an NLP task. In this paper, we make first steps towards solving this task by implementing a series of sequence-labelling neural models, which achieve promising performance despite the modest amount of training data. We discuss tokenisation and operationalisation issues arising from tackling AE texts and contrast our approach with frequency-based baselines.

Auteurs: Dmitry Nikolaev, Jorke Grotenhuis, Haleli Harel, Orly Goldwasser

Dernière mise à jour: 2024-06-29 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2407.00475

Source PDF: https://arxiv.org/pdf/2407.00475

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Articles similaires