L'evoluzione della lingua turca dal 1923
Un'analisi dei cambiamenti nel vocabolario e nelle regole di scrittura in turco dalla formazione della repubblica.
― 8 leggere min
Indice
- Cambiamenti nel Vocabolario e nelle regole di scrittura
- Importanza dei cambiamenti linguistici
- La nostra ricerca sui cambiamenti della lingua turca
- Domanda di ricerca 1: Cambiamenti nel vocabolario
- Domanda di ricerca 2: Cambiamenti nelle convenzioni di scrittura
- Panoramica del nostro lavoro
- Contesto sulla lingua turca
- Studi correlati
- Metodologia: Raccolta di testi
- Analizzando i cambiamenti nel vocabolario
- Convenzioni di scrittura nel tempo
- Limitazioni del nostro studio
- Conclusione
- Fonte originale
- Link di riferimento
Negli ultimi cento anni, la lingua turca è cambiata parecchio. Questi cambiamenti sono stati per lo più dovuti a decisioni del governo. Questo articolo analizza come la lingua turca si è sviluppata da quando la Türkiye è diventata una repubblica nel 1923. Abbiamo creato una collezione speciale di testi turchi per aiutarci in questo studio. Questa collezione proviene dalla Gazzetta Ufficiale della Türkiye e contiene 45.375 documenti che spiegano varie Azioni del governo. Questa collezione è importante per analizzare come la lingua è cambiata a causa delle politiche statali.
Vocabolario e nelle regole di scrittura
Cambiamenti nelLe nostre domande principali sono: come è cambiato il vocabolario turco dagli anni '20? Come sono cambiate le regole di scrittura? La nostra analisi mostra che, col passare del tempo, il vocabolario usato in diversi periodi diventa sempre più diverso. Nuove parole turche stanno sostituendo le parole più vecchie. Abbiamo anche notato cambiamenti nelle regole di scrittura. Per esempio, l'uso degli accenti circonflessi è diminuito, e le parole che finiscono in "-b" e "-d" stanno venendo sostituite da parole che finiscono in "-p" e "-t."
Importanza dei cambiamenti linguistici
Le lingue evolvono sempre nel tempo. Questa evoluzione avviene per motivi naturali, come i cambiamenti di significato, e per motivi culturali, come le nuove tecnologie e le tendenze sociali. Capire come le lingue cambiano nel tempo è importante, specialmente per i testi storici.
La lingua turca ha seguito un percorso unico rispetto ad altre lingue nell'ultimo secolo. Dopo che la Türkiye è diventata una repubblica nel 1923, il governo si è concentrato sulla modernizzazione culturale e tecnologica. Due cambiamenti importanti sono avvenuti durante questo sforzo di modernizzazione: un nuovo sistema di scrittura e un impulso a semplificare la lingua. Nel 1928, il governo cambiò il sistema di scrittura turco da Perso-Arabo a un alfabeto latino con 29 lettere.
Il secondo grande cambiamento fu un tentativo di semplificare e purificare la lingua turca sostituendo molte parole di origine persiana e araba con parole turche. Questo sforzo faceva parte anche della creazione di una nuova identità nazionale, insieme alla formazione dell'Associazione della Lingua Turca nel 1932.
La nostra ricerca sui cambiamenti della lingua turca
Nel nostro lavoro, esaminiamo come la lingua turca è cambiata dagli anni '20. Abbiamo iniziato creando una collezione di testi turchi. Nello specifico, abbiamo raccolto le edizioni della Gazzetta Ufficiale della Türkiye e i registri dell'Assemblea Nazionale Grande dal 1920 al 2022. Questa collezione include informazioni su azioni del governo come leggi e regolamenti, rendendola una risorsa preziosa per studiare l'evoluzione della lingua turca e il ruolo del governo in questo cambiamento.
Questa collezione contiene 45.375 documenti, 842 milioni di parole e 211.000 parole uniche. Con questa collezione, miriamo a rispondere a due domande principali.
Domanda di ricerca 1: Cambiamenti nel vocabolario
Come è cambiato il vocabolario turco dagli anni '20? Per analizzare questo, abbiamo suddiviso i nostri testi in periodi di dieci anni per confrontare le parole usate in ciascun periodo. Abbiamo scoperto che il vocabolario nei diversi periodi temporali diverge sempre di più man mano che aumenta il tempo tra di loro. La frequenza delle nuove parole turche è aumentata, mentre la frequenza delle parole più vecchie, specialmente quelle di origine araba o persiana, è diminuita. Circa il 75% delle parole comuni negli anni '20 non sono state usate tra il 2010 e il 2019.
Domanda di ricerca 2: Cambiamenti nelle convenzioni di scrittura
Come sono cambiate le convenzioni di scrittura dagli anni '20? Abbiamo osservato che l'uso degli accenti circonflessi è diminuito significativamente rispetto agli anni '20 e '30. Abbiamo anche notato un cambiamento nelle finali delle parole nel tempo basato sulla fonologia turca. In particolare, abbiamo scoperto che l'uso delle parole che finiscono con "-b" (come "kitab", che significa libro) è diminuito nel tempo a favore di quelle che finiscono con "-p" (come "kitap"). Tuttavia, è emerso un modello diverso per le parole che finiscono in "-d" o "-t": la percentuale di parole che finiscono in "-d" rispetto a quelle che finiscono in "-t" è rimasta simile a quelle trovate negli anni '20, anche se c'è stata una diminuzione dal 1990.
Panoramica del nostro lavoro
I principali contributi del nostro lavoro sono i seguenti:
- Abbiamo creato una grande collezione di testi turchi per la ricerca.
- Abbiamo studiato come la lingua turca è cambiata dagli anni '20 usando questa collezione.
- Abbiamo condiviso il nostro codice e i dati per supportare ulteriori ricerche.
Contesto sulla lingua turca
Il turco è parte del ramo sud-occidentale/Oghuz della famiglia linguistica turca, che include anche lingue come uiguro, uzbeco, kazako e kirghiso. Una caratteristica principale del turco è l'armonia vocalica, dove le vocali si abbinano nella posizione e nella rotondità in una parola. Il turco segue anche regole specifiche, come non avere vocali adiacenti nelle parole (eccetto che per i prestiti) e evitare consonanti occlusive sonore come [b], [d] e [g] alla fine delle parole.
Morfologicamente, il turco è una lingua agglutinativa. Questo significa che ai nomi possono essere aggiunti suffissi, creando strutture lunghe simili a perline su un filo. L'ordine comune delle parole in turco è Soggetto-Oggetto-Verbo (SOV), ma possono verificarsi variazioni, soprattutto nel linguaggio parlato.
Studi correlati
La ricerca sui cambiamenti della lingua turca è limitata rispetto agli studi su lingue come l'inglese. Sono state create varie collezioni di testi turchi, ma molte si concentrano solo su testi post-1990 e non consentono un'analisi nel tempo. L'unico corpus diacronico esistente per il turco consiste in documenti delle sessioni parlamentari dal 1920 al 2015. Tuttavia, abbiamo ampliato questa collezione fino al 2022 aggiungendo le edizioni della Gazzetta Ufficiale della Türkiye.
Metodologia: Raccolta di testi
Per creare la nostra collezione, abbiamo raccolto dati dalla Gazzetta Ufficiale della Türkiye, fondata il 7 ottobre 1920. Pubblica informazioni sulle azioni governative e opinioni su vari temi. La frequenza di pubblicazione è cambiata nel tempo, ma ora esce quotidianamente tranne nei giorni festivi.
I contenuti della Gazzetta riflettono le procedure governative, comprese le decisioni del Grand National Assembly turco, i trattati internazionali e altre importanti azioni amministrative. I primi 1053 numeri sono stati pubblicati usando l'alfabeto turco ottomano. Tuttavia, con la riforma dell'alfabeto nel 1928, la Gazzetta è passata alle lettere latine.
Per raccogliere i documenti, abbiamo usato uno strumento di web scraping. Abbiamo trasformato i file PDF in testo semplice per facilitarne l'analisi. Durante la nostra analisi, abbiamo preso misure per garantire la qualità del testo filtrando i dati rumorosi.
Analizzando i cambiamenti nel vocabolario
Abbiamo confrontato i cambiamenti nel vocabolario in periodi di dieci anni, esaminando il numero di parole uniche in ciascun intervallo di tempo. Abbiamo trovato che la dimensione del vocabolario era relativamente stabile, anche se ha raggiunto un picco negli anni '40 e poi è diminuita negli anni più recenti a causa di meno documenti.
Per esplorare la distanza nel vocabolario tra i diversi periodi temporali, abbiamo calcolato metriche come la similarità di Jaccard e la Divergenza Jensen-Shannon. I nostri risultati hanno mostrato che i vocabolari dei documenti degli anni '90 erano molto diversi da quelli degli anni '20.
Abbiamo anche esaminato parole specifiche che erano comunemente usate in un periodo ma non in un altro. Molte parole turche appena coniate hanno sostituito termini arabi e persiani, e abbiamo notato come la loro frequenza sia cambiata nel corso dei decenni.
Convenzioni di scrittura nel tempo
Abbiamo analizzato le convenzioni in evoluzione della scrittura in turco, concentrandoci in particolare sulle finali delle parole e sull'uso degli accenti circonflessi. La nostra analisi ha mostrato che la frequenza delle parole che finiscono con "-b" è diminuita nel tempo, così come la frequenza degli accenti circonflessi.
Nonostante la leggenda urbana che gli accenti circonflessi siano stati rimossi dalla lingua, la nostra ricerca ha indicato che sono ancora usati, anche se meno frequentemente. Questo evidenzia le discussioni in corso nella società su come dovrebbe essere scritta la lingua turca.
Limitazioni del nostro studio
Anche se i nostri risultati forniscono preziose intuizioni sui cambiamenti della lingua turca nell'ultimo secolo, ci sono limitazioni nella nostra ricerca. La nostra collezione riflette principalmente il linguaggio usato nei contesti governativi, il che potrebbe non rappresentare completamente la diversità del turco. Inoltre, gli strumenti che abbiamo utilizzato per l'estrazione del testo e il riconoscimento dei lemmi potrebbero introdurre errori. Tuttavia, abbiamo adottato misure per ridurre il rumore e migliorare i nostri risultati, condividendo i nostri dati e codice per supportare ulteriori esplorazioni di questi cambiamenti.
Conclusione
La lingua turca ha subito cambiamenti significativi nell'ultimo secolo, principalmente a causa di iniziative governative volte alla modernizzazione. La nostra ricerca mette in evidenza come il vocabolario è cambiato, con molte parole più vecchie che non vengono più usate e nuove parole che entrano nella lingua. Abbiamo anche notato cambiamenti nelle convenzioni di scrittura, come la diminuzione nell'uso degli accenti circonflessi e i cambiamenti nelle finali delle parole.
Questo lavoro apre la strada a studi più dettagliati su aspetti specifici della lingua e mira a creare una comprensione più profonda della riforma della lingua turca. I futuri sforzi includeranno l'espansione della nostra collezione per includere più fonti come giornali e opere letterarie, fornendo una prospettiva più ampia sui cambiamenti linguistici in Türkiye. Inoltre, prevediamo di sviluppare software user-friendly per consentire ai ricercatori di accedere e analizzare facilmente la nostra collezione.
Titolo: Turkronicles: Diachronic Resources for the Fast Evolving Turkish Language
Estratto: Over the past century, the Turkish language has undergone substantial changes, primarily driven by governmental interventions. In this work, our goal is to investigate the evolution of the Turkish language since the establishment of T\"urkiye in 1923. Thus, we first introduce Turkronicles which is a diachronic corpus for Turkish derived from the Official Gazette of T\"urkiye. Turkronicles contains 45,375 documents, detailing governmental actions, making it a pivotal resource for analyzing the linguistic evolution influenced by the state policies. In addition, we expand an existing diachronic Turkish corpus which consists of the records of the Grand National Assembly of T\"urkiye by covering additional years. Next, combining these two diachronic corpora, we seek answers for two main research questions: How have the Turkish vocabulary and the writing conventions changed since the 1920s? Our analysis reveals that the vocabularies of two different time periods diverge more as the time between them increases, and newly coined Turkish words take the place of their old counterparts. We also observe changes in writing conventions. In particular, the use of circumflex noticeably decreases and words ending with the letters "-b" and "-d" are successively replaced with "-p" and "-t" letters, respectively. Overall, this study quantitatively highlights the dramatic changes in Turkish from various aspects of the language in a diachronic perspective.
Autori: Togay Yazar, Mucahid Kutlu, İsa Kerem Bayırlı
Ultimo aggiornamento: 2024-05-16 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2405.10133
Fonte PDF: https://arxiv.org/pdf/2405.10133
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://en.wikipedia.org/wiki/Ottoman_Turkish_alphabet
- https://tdk.gov.tr
- https://en.wikipedia.org/wiki/Replacement_of_loanwords_in_Turkish
- https://www.clarin.eu/resource-families/historical-corpora
- https://www5.tbmm.gov.tr/kutuphane/tutanak
- https://www.tbmm.gov.tr/Tutanaklar/TutanakMetinleri
- https://scrapy.org
- https://pypi.org/project/pypdf
- https://www.malumatfurus.org/sapka-isaretinin-kaldirildigi-iddiasi/