Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage

L'évolution de la langue turque depuis 1923

Une analyse des changements de vocabulaire et des règles d'écriture en turc depuis la formation de la république.

― 9 min lire


Changements de la langueChangements de la langueturque depuis 1923et des conventions d'écriture en turc.Examen des changements de vocabulaire
Table des matières

Au cours du dernier siècle, la langue turque a beaucoup changé. Ces changements sont surtout dus aux actions entreprises par le gouvernement. Cet article examine comment la langue turque s'est développée depuis que la Türkiye est devenue une république en 1923. On a créé une collection spéciale de textes turcs pour nous aider dans cette étude. Cette collection vient du Journal officiel de Türkiye et contient 45 375 documents qui expliquent diverses actions gouvernementales. Cette collection est importante pour analyser comment la langue a changé à cause des politiques de l'État.

Changements dans le vocabulaire et les règles d'écriture

Nos principales questions sont : Comment le vocabulaire turc a-t-il changé depuis les années 1920 ? Comment les règles d'écriture ont-elles évolué ? Notre analyse montre qu'avec le temps, le vocabulaire utilisé à différents moments devient de plus en plus différent. De nouveaux mots turcs remplacent des mots plus anciens. On a aussi remarqué des changements dans les règles d'écriture. Par exemple, l'utilisation des accents circonflexes a diminué, et les mots se terminant par "-b" et "-d" sont remplacés par des mots qui se terminent par "-p" et "-t."

Importance des changements linguistiques

Les langues évoluent toujours avec le temps. Cette évolution se produit pour des raisons naturelles, comme les changements de signification, et pour des raisons culturelles, comme les nouvelles technologies et les tendances sociales. Comprendre comment les langues changent au fil du temps est important, surtout en ce qui concerne les textes historiques.

La langue turque a suivi un chemin unique par rapport aux autres langues au cours du dernier siècle. Après que Türkiye est devenue une république en 1923, le gouvernement s'est concentré sur la modernisation culturelle et technologique. Deux grands changements ont eu lieu pendant cet effort de modernisation : un nouveau système d'écriture et une volonté de simplifier la langue. En 1928, le gouvernement a changé le système d'écriture turc du Perso-arabe à un alphabet latin de 29 lettres.

Le deuxième grand changement a été l'effort de simplification et de purification de la langue turque en remplaçant de nombreux mots d'origine persane et arabe par des mots turcs. Cet effort faisait aussi partie de la création d'une nouvelle identité nationale, avec la formation de l'Association de la langue turque en 1932.

Notre recherche sur les changements de la langue turque

Dans notre travail, on examine comment la langue turque a changé depuis les années 1920. On a commencé par construire une collection de textes turcs. Plus précisément, on a rassemblé des numéros du Journal officiel de Türkiye et des archives de la Grande Assemblée nationale de 1920 à 2022. Cette collection inclut des informations sur les actions gouvernementales comme les lois et les règlements, ce qui en fait une ressource précieuse pour étudier l'évolution de la langue turque et le rôle du gouvernement dans ce changement.

Cette collection contient 45 375 documents, 842 millions de mots et 211 000 mots uniques. Avec cette collection, on vise à répondre à deux questions principales.

Question de recherche 1 : Changements de vocabulaire

Comment le vocabulaire turc a-t-il changé depuis les années 1920 ? Pour analyser cela, on a divisé nos textes en périodes de dix ans pour comparer les mots utilisés dans chaque période. On a trouvé que le vocabulaire dans différentes périodes temporelles diverge de plus en plus à mesure que le temps entre elles augmente. La fréquence des nouveaux mots turcs a augmenté, tandis que la fréquence des mots plus anciens, en particulier ceux d'origine arabe ou persane, a diminué. Environ 75 % des mots qui étaient courants dans les années 1920 n'étaient pas utilisés entre 2010 et 2019.

Question de recherche 2 : Changements dans les conventions d'écriture

Comment les conventions d'écriture ont-elles changé depuis les années 1920 ? On a observé que l'utilisation des accents circonflexes a diminué de manière significative par rapport aux années 1920 et 1930. On a aussi noté un changement dans les terminaisons des mots au fil du temps en fonction de la phonologie turque. Plus précisément, on a trouvé que l'utilisation de mots se terminant par "-b" (comme "kitab", qui signifie livre) a diminué au fil du temps au profit de ceux se terminant par "-p" (comme "kitap"). Cependant, un schéma différent est apparu pour les mots se terminant par "-d" ou "-t" : le pourcentage de mots se terminant par "-d" par rapport à ceux se terminant par "-t" est resté similaire à ceux trouvés dans les années 1920, même s'il y a eu un déclin depuis les années 1990.

Aperçu de notre travail

Les principales contributions de notre travail sont les suivantes :

  1. On a créé une grande collection de textes turcs pour la recherche.
  2. On a étudié comment la langue turque a changé depuis les années 1920 en utilisant cette collection.
  3. On a partagé notre code et nos données pour soutenir d'autres recherches.

Contexte sur la langue turque

Le turc fait partie de la branche sud-ouest/Oghuz de la famille des langues turciques, qui inclut aussi des langues comme l'ouïghour, l'ouzbek, le kazakh et le kirghize. Une caractéristique principale du turc est l'harmonie vocalique, où les voyelles s'accordent en antériorité et en arrondi dans un mot. Le turc suit aussi des règles spécifiques, comme ne pas avoir de voyelles adjacentes dans les mots (sauf pour les mots empruntés) et éviter les consonnes occlusives voisées comme [b], [d] et [g] à la fin des mots.

Morphologiquement, le turc est une langue agglutinative. Cela signifie que des suffixes peuvent être ajoutés aux mots, créant de longues structures ressemblant à des perles sur un fil. L'ordre des mots commun en turc est Sujet-Objet-Verbe (SOV), mais des variations peuvent se produire, surtout dans la langue parlée.

Études connexes

La recherche sur le changement de la langue turque est limitée par rapport aux études sur des langues comme l'anglais. Différentes collections de textes turcs ont été créées, mais beaucoup se concentrent uniquement sur des textes postérieurs à 1990 et ne permettent pas d'analyse dans le temps. Le seul corpus diachronique existant pour le turc se compose de documents de sessions parlementaires de 1920 à 2015. Cependant, on a élargi cette collection jusqu'en 2022 en ajoutant des numéros du Journal officiel de Türkiye.

Méthodologie : Collecte de textes

Pour créer notre collection, on a rassemblé des données du Journal officiel de Türkiye, qui a été fondé le 7 octobre 1920. Il publie des informations sur les actions gouvernementales et des avis sur divers sujets. La fréquence de publication a changé au fil du temps, mais il sort maintenant tous les jours sauf les jours fériés.

Le contenu du Journal reflète les procédures gouvernementales, y compris les décisions prises par la Grande Assemblée nationale turque, les traités internationaux, et d'autres actions administratives importantes. Les 1053 premiers numéros ont été publiés en utilisant l'alphabet turc ottoman. Cependant, avec la réforme de l'alphabet en 1928, le Journal est passé aux lettres latines.

Pour collecter les documents, on a utilisé un outil de web scraping. On a transformé les fichiers PDF en texte brut pour faciliter l'analyse. Au cours de notre analyse, on a pris des mesures pour assurer la qualité du texte en filtrant les données bruyantes.

Analyse des changements de vocabulaire

On a comparé les changements de vocabulaire sur des périodes de dix ans, en regardant le nombre de mots uniques dans chaque période. On a trouvé que la taille du vocabulaire était relativement stable, bien qu'elle ait atteint un pic dans les années 1940 et ait chuté ces dernières années à cause de moins de documents.

Pour explorer la distance dans le vocabulaire entre différentes périodes temporelles, on a calculé des métriques comme la similarité de Jaccard et la divergence de Jensen-Shannon. Nos résultats ont montré que les Vocabulaires des documents des années 1990 étaient très différents de ceux des années 1920.

On a aussi examiné des mots spécifiques qui étaient couramment utilisés dans une période mais pas dans une autre. Beaucoup de nouveaux mots turcs ont remplacé des termes arabes et persans, et on a remarqué comment leur fréquence a changé au fil des décennies.

Conventions d'écriture au fil du temps

On a regardé les conventions d'écriture en turc, en se concentrant particulièrement sur les terminaisons de mots et l'utilisation des accents circonflexes. Notre analyse a montré que la fréquence des mots se terminant par "-b" a diminué au fil du temps, tout comme la fréquence des accents circonflexes.

Malgré la légende urbaine selon laquelle les accents circonflexes ont été éliminés de la langue, notre recherche a indiqué qu'ils sont encore utilisés, bien que moins fréquemment. Cela met en lumière les discussions en cours dans la société sur la manière dont le turc devrait être écrit.

Limitations de notre étude

Bien que nos résultats fournissent des insights précieux sur les changements de la langue turque au cours du siècle dernier, il y a des limites à notre recherche. Notre collection reflète principalement la langue utilisée dans les contextes gouvernementaux, ce qui peut ne pas représenter pleinement la diversité du turc. De plus, les outils qu'on a utilisés pour l'extraction de texte et la détection de lemme pourraient introduire des erreurs. Néanmoins, on a pris des mesures pour minimiser le bruit et améliorer nos résultats, en partageant nos données et notre code pour soutenir des explorations supplémentaires de ces changements.

Conclusion

La langue turque a subi des changements significatifs au cours du dernier siècle, principalement en raison des initiatives gouvernementales visant à la modernisation. Notre recherche met en lumière comment le vocabulaire a évolué, avec de nombreux mots plus anciens tombant en désuétude et de nouveaux mots entrant dans la langue. On a également noté des changements dans les conventions d'écriture, comme la diminution de l'utilisation des accents circonflexes et les changements dans les terminaisons de mots.

Ce travail ouvre la voie à des études plus détaillées sur des aspects spécifiques de la langue et vise à créer une compréhension plus approfondie de la réforme de la langue turque. Les efforts futurs incluront l'élargissement de notre collection pour inclure davantage de sources comme des journaux et des œuvres littéraires, offrant une perspective plus large sur le changement linguistique en Türkiye. De plus, on prévoit de développer un logiciel convivial pour permettre aux chercheurs d'accéder et d'analyser facilement notre collection.

Source originale

Titre: Turkronicles: Diachronic Resources for the Fast Evolving Turkish Language

Résumé: Over the past century, the Turkish language has undergone substantial changes, primarily driven by governmental interventions. In this work, our goal is to investigate the evolution of the Turkish language since the establishment of T\"urkiye in 1923. Thus, we first introduce Turkronicles which is a diachronic corpus for Turkish derived from the Official Gazette of T\"urkiye. Turkronicles contains 45,375 documents, detailing governmental actions, making it a pivotal resource for analyzing the linguistic evolution influenced by the state policies. In addition, we expand an existing diachronic Turkish corpus which consists of the records of the Grand National Assembly of T\"urkiye by covering additional years. Next, combining these two diachronic corpora, we seek answers for two main research questions: How have the Turkish vocabulary and the writing conventions changed since the 1920s? Our analysis reveals that the vocabularies of two different time periods diverge more as the time between them increases, and newly coined Turkish words take the place of their old counterparts. We also observe changes in writing conventions. In particular, the use of circumflex noticeably decreases and words ending with the letters "-b" and "-d" are successively replaced with "-p" and "-t" letters, respectively. Overall, this study quantitatively highlights the dramatic changes in Turkish from various aspects of the language in a diachronic perspective.

Auteurs: Togay Yazar, Mucahid Kutlu, İsa Kerem Bayırlı

Dernière mise à jour: 2024-05-16 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2405.10133

Source PDF: https://arxiv.org/pdf/2405.10133

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires