Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語

1923年以降のトルコ語の進化

トルコ共和国成立以来の語彙と文法ルールの変化の分析。

― 1 分で読む


1923年以降のトルコ語の1923年以降のトルコ語の変化る。トルコ語の語彙と文章のルールの変化を調べ
目次

過去1世紀でトルコ語はめっちゃ変わったんだ。これらの変化はほとんど政府の行動によるもので、この記事はトルコが1923年に共和国になってからの言語の発展を見てるんだ。私たちはこの研究のために特別なトルコ語のテキストコレクションを作ったよ。このコレクションはトルコの官報からのもので、政府のいろんな行動を説明する45,375の文書が含まれてる。これは国家政策による言語の変化を分析するのに重要なんだ。

語彙と書き方のルールの変化

私たちの主な質問は:1920年代以来、トルコ語の語彙はどう変わったの?書き方のルールはどう変わったの?分析した結果、時間が経つにつれて、異なる時期で使われる語彙がもっと違ってくることがわかった。新しいトルコ語の単語が古い単語に取って代わってるし、書き方のルールにも変化が見られるよ。例えば、サーカムフレックスアクセントの使用が減ってきてて、「-b」や「-d」で終わる単語が「-p」や「-t」で終わる単語に置き換わってる。

言語変化の重要性

言語は常に進化するもので、これは意味の変化や新しい技術、社会トレンドなどの文化的理由から起こるんだ。特に歴史的なテキストに関して、言語がどのように変わるかを理解することは重要だよ。

トルコ語は過去1世紀で他の言語とは異なる独自の道を歩んできた。1923年にトルコが共和国になった後、政府は文化と技術の近代化に力を入れたんだ。近代化の過程で大きな変化が2つあった:新しい書き方のシステムと、言語を簡素化する取り組み。1928年には、トルコの書き方がペルシャ・アラビア文字から29文字のラテン文字に変更されたんだ。

2つ目の大きな変化は、ペルシャ語やアラビア語由来の単語をトルコ語の単語に置き換えて言語を簡素化し、浄化する取り組みだった。これは新しい国民アイデンティティを作る一環でもあり、1932年にはトルコ語学会が設立されたんだ。

トルコ語の変化についての研究

私たちは1920年代以来、トルコ語がどう変わったかを調査してる。具体的には、トルコの官報の号や大国民議会の記録を1920年から2022年まで集めて、トルコ語の進化と政府の役割についての貴重なリソースを作ったんだ。

このコレクションには45,375の文書、8億4200万語、211,000のユニークな単語が入ってる。このコレクションを使って、2つの主な質問に答える予定だよ。

研究質問1:語彙の変化

1920年代以来、トルコ語の語彙はどう変わったの?これを分析するために、テキストを10年ごとに分けて、それぞれの時期で使われた単語を比較したんだ。異なる時期の語彙は、時間が経つほどもっと異なってくることがわかった。新しいトルコ語の単語の頻度は上がり、アラビア語やペルシャ語由来の古い単語の頻度は減っていった。1920年代に一般的だった単語の約75%は2010年から2019年の間には使われてなかったよ。

研究質問2:書き方のルールの変化

1920年代以来、書き方のルールはどう変わったの?1920年代や1930年代に比べて、サーカムフレックスアクセントの使用はかなり減ったことがわかった。また、トルコ語の音韻論に基づいて、単語の末尾の変化も見られたよ。具体的には、「-b」で終わる単語(例えば「kitab」、本の意味)の使用は減って、代わりに「-p」で終わる単語(「kitap」のように)が増えてきてるけど、「-d」や「-t」で終わる単語については、1920年代と同じくらいの割合が保たれてるんだ。

私たちの研究の概観

私たちの研究の主な貢献はこんな感じだよ:

  1. 研究用に大規模なトルコ語のテキストコレクションを作った。
  2. このコレクションを使って、1920年代以来のトルコ語の変化を研究した。
  3. さらなる研究を支援するために、私たちのコードとデータを共有した。

トルコ語の背景

トルコ語はトルコ語族の南西部/Oghuz系に属していて、ウイグル語、ウズベク語、カザフ語、キルギス語なども含まれてる。トルコ語の主な特徴は母音調和で、単語内の母音が前方性と円唇性で一致することなんだ。トルコ語は特定のルールに従ってて、単語内に隣接する母音がない(借用語を除く)し、単語の最後に声帯振動のある子音([b]、[d]、[g])を避けることが多いよ。

形態的には、トルコ語は膠着語。つまり、接尾辞を単語に追加することで、ビーズを紐に通したように長い構造が作れるんだ。トルコ語の一般的な語順は主語-目的語-動詞(SOV)だけど、特に口語では変化が見られることもあるよ。

関連研究

トルコ語の変化に関する研究は、英語などの言語と比べて少ないんだ。いくつかのトルコ語のテキストコレクションは作られてるけど、多くは1990年以降のテキストに焦点を当ててて、時間的な分析ができない。唯一の存在する時系列コーパスは、1920年から2015年の議会の会議記録だけなんだけど、私たちはトルコの官報の号を追加して2022年までこのコレクションを拡張したよ。

方法論:テキストの収集

私たちのコレクションを作るために、トルコの官報からデータを集めたんだ。これは1920年10月7日に設立されて、政府の行動やさまざまな問題に関する意見を公開してる。発行頻度は時々変化するけど、今は祝日以外は毎日出てるよ。

官報の内容は、トルコ大国民議会による決定、国際条約、その他の重要な行政行動を含む政府の手続きが反映されてる。最初の1053号はオスマン語のアルファベットで発行されてたけど、1928年のアルファベット改革により、ラテン文字に切り替わったんだ。

文書を集めるために、ウェブスクレイピングツールを使ったよ。PDFファイルをプレーンテキストに変換して、分析しやすくしたんだ。分析中、ノイズデータをフィルタリングするなどして、テキストの質を確保する措置を取った。

語彙の変化の分析

10年ごとに語彙の変化を比較して、各期間のユニークな単語の数を調べたよ。語彙のサイズは比較的安定してたけど、1940年代にピークを迎え、その後は文書が減少したことで最近は落ち着いてきた。

異なる時期の語彙の距離を探るために、ジャカード類似度やジェンセン・シャノン発散などの指標を計算した。結果として、1990年代の文書の語彙は1920年代のそれとかなり異なってることがわかったよ。

さらに、ある時期にはよく使われてた単語が、他の時期には使われてなかったことも調べたんだ。多くの新しく作られたトルコ語の単語がアラビア語やペルシャ語の用語に取って代わってて、その頻度が数十年でどう変わってきたかも見てみたよ。

書き方のルールの変化

トルコ語の書き方のルールの変化、特に単語の末尾やサーカムフレックスアクセントの使用に注目して調べた。分析の結果、「-b」で終わる単語の頻度が減少していること、サーカムフレックスアクセントの頻度も減っていることがわかったよ。

サーカムフレックスアクセントが言語から排除されたという都市伝説があるけど、私たちの研究は、実際にはまだ使われてることを示してる。ただ使用頻度は少なくなってるけど、トルコ語の書き方については社会での議論が続いていることを強調してるんだ。

研究の限界

私たちの発見は、過去1世紀のトルコ語の変化について貴重な洞察を提供するものだけど、研究には限界もあるんだ。私たちのコレクションは主に政府の文脈で使われる言語を反映していて、トルコ語の多様性を完全に表現しているわけではない。また、テキスト抽出や基本形の認識に使ったツールがエラーを引き起こす可能性もある。それでも、ノイズを最小限に抑えて結果を改善するための措置を取ったし、これらの変化のさらなる探求を支援するために、私たちのデータとコードを共有しているよ。

結論

トルコ語は過去1世紀の間に、主に近代化を目指した政府の取り組みのおかげでかなりの変化を遂げてきた。この研究は、語彙がどう変わってきたかを詳しく示してて、多くの古い単語が使われなくなり、新しい単語が言語に入ってきたことに気づいたよ。書き方のルールの変化、例えばサーカムフレックスアクセントの使用が減少してることや単語の末尾の変化も注目された。

この仕事は特定の言語の側面についてさらに詳細な研究を行うための扉を開いていて、トルコ語改革への理解を深めることを目指してる。今後の取り組みでは、新聞や文学作品などのより多くのソースを集めて、トルコの言語変化に関する広い視点を提供するつもりだよ。また、研究者が私たちのコレクションに簡単にアクセスして分析できるようなユーザーフレンドリーなソフトウェアも開発する予定なんだ。

オリジナルソース

タイトル: Turkronicles: Diachronic Resources for the Fast Evolving Turkish Language

概要: Over the past century, the Turkish language has undergone substantial changes, primarily driven by governmental interventions. In this work, our goal is to investigate the evolution of the Turkish language since the establishment of T\"urkiye in 1923. Thus, we first introduce Turkronicles which is a diachronic corpus for Turkish derived from the Official Gazette of T\"urkiye. Turkronicles contains 45,375 documents, detailing governmental actions, making it a pivotal resource for analyzing the linguistic evolution influenced by the state policies. In addition, we expand an existing diachronic Turkish corpus which consists of the records of the Grand National Assembly of T\"urkiye by covering additional years. Next, combining these two diachronic corpora, we seek answers for two main research questions: How have the Turkish vocabulary and the writing conventions changed since the 1920s? Our analysis reveals that the vocabularies of two different time periods diverge more as the time between them increases, and newly coined Turkish words take the place of their old counterparts. We also observe changes in writing conventions. In particular, the use of circumflex noticeably decreases and words ending with the letters "-b" and "-d" are successively replaced with "-p" and "-t" letters, respectively. Overall, this study quantitatively highlights the dramatic changes in Turkish from various aspects of the language in a diachronic perspective.

著者: Togay Yazar, Mucahid Kutlu, İsa Kerem Bayırlı

最終更新: 2024-05-16 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2405.10133

ソースPDF: https://arxiv.org/pdf/2405.10133

ライセンス: https://creativecommons.org/licenses/by/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事