英語とドイツ語の言語変化:160年の分析
この研究は、160年間の英語とドイツ語の文法の変化を分析してるよ。
― 1 分で読む
多くの研究が、人間の言語が複雑さを減らし、コミュニケーションを改善する方法を調べてきた。重要なポイントの一つは、構文的依存距離で、これは関連する単語が文の中でどれくらい離れているかを測るものだ。距離が短い方が通常は明確で理解しやすいとされている。この記事では、英語とドイツ語が過去160年間にわたって構文構造がどのように変わったかを、議会の討論を分析することで検証している。
そのために、スタンフォードCoreNLPとして知られる人気のあるものを含む、5つの異なるツールを使った依存構文解析器を活用した。これらのツールは、文中の単語間の関係を理解するのに役立つ。私たちの分析は、単語の距離だけでなく、文の構造に関連する他の要素、例えば文の木の高さや各単語が持つ接続の多様性についても見ている。
最近の多くの解析器は、歴史的データのエラーにあまり影響されてないが、結果は使用する解析器によって異なることが分かった。唯一の解析器に頼るのはリスクがあるってことだ。私たちの調査結果は、英語とドイツ語の間で構文の変化に大きな類似性があることを示していて、逆の傾向を持つケースはわずか4%だった。また、文の構造の変化は非常に短い文や非常に長い文で最も一般的だった。
依存関係の理解
言語の変化をよりよく理解するために、文がどのように構成されているかを確認した。各文は、依存関係と呼ばれる単語のペアとして見ることができる。例えば、「でも証拠はない」という文では、単語がどのように依存しているかをマッピングできる。私たちの分析によれば、人間の言語は関連する単語を近くに配置することを好むようで、これは依存距離最小化として知られているルールだ。
様々な研究がこの考えを支持していて、実際の文はランダムに配置された単語からなる文よりも依存距離が短いことが多い。依存距離が時間とともに減少していることを示す証拠もあり、関連する単語が近づいていることを意味している。
最近の研究では、さまざまな歴史的なテキストの依存構造を検証し、これらの距離がどのように変化したかを観察しようとした。これらの研究は、高価で時間がかかる人間による注釈を必要としないため、より多くの歴史データを分析できるという利点がある。しかし、これらの多くの研究は通常スタンフォードCoreNLP解析器という単一の解析器に依存していて、その結果の信頼性に疑問を投げかける。
私たちの研究では、最初にこれらの解析器が歴史的データをどれだけうまく扱えるかを確認した。これはしばしばスペルミスやOCRからのエラーが含まれている。異なる解析器が言語変化の傾向を同じく出すかどうかも確認した。
異なる指標の分析
距離だけでなく、より多くの指標を考慮するように分析を拡張した。以前の研究は通常、この線形距離だけに焦点を当てていたが、私たちは文の木の高さや単語間の接続の均等性など、さまざまな木グラフの特性を調べた。
ほとんどの研究は英語に集中していて、英語とドイツ語の両方を考慮した研究はほとんどない。この研究では、両言語の議会討論に特に焦点を当てていて、他の研究に比べて長い期間と一貫したジャンルをカバーしている。
研究の質問
私たちの主な目標は、以下の質問に答えることだった:
- 現代のテキストに基づいて訓練された解析器は、特にドイツ語の歴史的データを分析するのに信頼できるか?
- 構文変化の傾向は、単一の解析器を使って正確に予測できるか?
- 英語とドイツ語は構文変化のパターンが似ているのか、それとも異なるのか?
- 構文構造に関連する指標を考慮した場合、これらの言語はどのように変化するのか?
主要な発見と貢献
私たちの分析を通じて、いくつかの目標を達成しようとした:
- 政治的な議論から得たデータを使って、平均依存距離を含む15の指標がどのように進化したかを観察すること。
- これらの指標の傾向が、様々な解析器や両言語にわたって一貫しているかを確認すること。
- データのノイズの種類が解析器の性能や検出された言語変化にどう影響したかを分析すること。
私たちは、英語とは異なり、ドイツ語は平均依存距離において上昇傾向を示し、異なる解析器でも一貫していたことを発見した。一方、両言語は、特に長い文において、時間の経過とともに交差エッジの数が減少するなどの他の構文指標で似た傾向を示した。
興味深いことに、解析器の性能は一般的に良かったが、特定の指標に関しては必ずしも互いに合意していなかった。また、スペルミスやOCRエラーからのデータノイズは、解析器の性能に大きな影響を与えることはなかったことで、解析器が私たちの研究に適していることが確認された。
言語変化の比較
私たちの分析の主要なテーマの一つは、英語とドイツ語の構文構造が時間とともにどのように変化したかを比較することだった。私たちは、両言語にわたるさまざまな指標において構文の変化に大きな類似性があることを見つけ、逆の傾向を示すのはごくわずかだった。これは、調査された期間における両言語の構文変化における収束のようなものを示している。
また、文の長さが観察された変化に影響を与えることにも気づいた。例えば、短い文は長い文とは異なる傾向を持つことが多く、構文変化がすべての文の構造にわたって均一でない可能性があることを示唆している。
データの前処理
私たちのデータを分析のために準備するために、コーパスから文を抽出するための4ステップのプロセスを開発した。まず、段落レベルでテキストをクリーニングし、その後段落を文に分割した。次に、文トークナイザーからのエラーを修正し、不完全な文をフィルタリングした。このプロセスにより、私たちの分析が正しく形成された文に基づくことができた。
検証の際、私たちのチームは前処理データのサンプルを手動で確認して、間違いを修正した。ガイドラインに従うことで、最終的なデータセットが高品質で構文分析に適していることを確認することを目指した。
解析器の性能評価
私たちの解析器の信頼性を評価するために、既存のツリーバンクと特にキュレーションしたターゲットツリーバンクを使用して性能を評価した。解析器が単語の関係をどれだけ正確に割り当てたかを測定するために、非ラベル付け添付スコア(UAS)とラベル付け添付スコア(LAS)を見た。
結果は、多くの解析器が両方のデータタイプで良好に機能することを示した。しかし、いくつかの解析器は、依存ツリーにおける複数のルートやサイクルなどのエラーに苦労し、それが測定の不正確さにつながる可能性があることに気づいた。
データのノイズの影響
スペルミスやOCRエラーが解析器にどのように影響するかをテストするために、2セットの対抗データセットを生成した。歴史的なスペルやランダムな文字置き換えでテキストを意図的に変更することで、これらの変更が解析器の性能にどれほど影響したかを確認できた。
私たちの発見は、歴史的なスペルミスの影響は小さかったが、OCRエラーは解析器の精度により大きな影響を与えたことを示した。解析器の頑丈さはさまざまで、あるものはノイズの多い条件でより良い性能を示した。
依存関係の詳細な検討
基本的な指標を超えて、依存関係自身の構造に焦点を当てた。文の依存構造において何回交差が起きたかや、文の木がどれだけ深いかを調べた。これにより、構文の構造とその進化のより豊かな洞察が得られた。
例えば、異なる依存ペアがどのように相互作用し、その関係の性質を見た。依存関係がどれだけ頻繁に交差するかを分析することで、文の構造の複雑さを測定できた。
言語比較の結論
要約すると、この研究は、英語とドイツ語の構文構造が過去160年間にわたってどのように変化したかを分析した。複数の依存解析器を適用し、さまざまな指標を考慮することで、構造や長さが言語変化に与える影響を強調した。
私たちの研究は、両言語が似たような変化のパターンを示す一方で、ドイツ語は平均依存距離において興味深い上昇傾向を示したことを明らかにした。この結果は、言語の変化が徐々に行われるものであり、微妙であっても、コミュニケーションの効率性や構文構造の変化を反映していることを示唆している。
最後に、私たちは研究にいくつかの制限があることを認めた。例えば、議会の討論だけに焦点を当てているため、各言語の広範な傾向を完全に表していない可能性がある。今後の研究では、他のテキストジャンルを調べ、これらの構文変化の起源をさらに探るべきであり、言語の進化についてのより包括的な概要を提供することが期待される。
タイトル: Syntactic Language Change in English and German: Metrics, Parsers, and Convergences
概要: Many studies have shown that human languages tend to optimize for lower complexity and increased communication efficiency. Syntactic dependency distance, which measures the linear distance between dependent words, is often considered a key indicator of language processing difficulty and working memory load. The current paper looks at diachronic trends in syntactic language change in both English and German, using corpora of parliamentary debates from the last c. 160 years. We base our observations on five dependency parsers, including the widely used Stanford CoreNLP as well as 4 newer alternatives. Our analysis of syntactic language change goes beyond linear dependency distance and explores 15 metrics relevant to dependency distance minimization (DDM) and/or based on tree graph properties, such as the tree height and degree variance. Even though we have evidence that recent parsers trained on modern treebanks are not heavily affected by data 'noise' such as spelling changes and OCR errors in our historic data, we find that results of syntactic language change are sensitive to the parsers involved, which is a caution against using a single parser for evaluating syntactic language change as done in previous work. We also show that syntactic language change over the time period investigated is largely similar between English and German for the different metrics explored: only 4% of cases we examine yield opposite conclusions regarding upwards and downtrends of syntactic metrics across German and English. We also show that changes in syntactic measures seem to be more frequent at the tails of sentence length distributions. To our best knowledge, ours is the most comprehensive analysis of syntactic language change using modern NLP technology in recent corpora of English and German.
著者: Yanran Chen, Wei Zhao, Anne Breitbarth, Manuel Stoeckel, Alexander Mehler, Steffen Eger
最終更新: 2024-03-28 00:00:00
言語: English
ソースURL: https://arxiv.org/abs/2402.11549
ソースPDF: https://arxiv.org/pdf/2402.11549
ライセンス: https://creativecommons.org/licenses/by/4.0/
変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。
オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。
参照リンク
- https://github.com/mmhs013/pyMannKendall
- https://www.hansard-archive.parliament.uk/
- https://evanodell.com/projects/datasets/hansard-data/
- https://www.reichstagsprotokolle.de/
- https://www.parliament.uk/site-information/contact-us/
- https://hansard.parliament.uk/about
- https://www.presidency.ucsb.edu/
- https://www.english-corpora.org/coha/
- https://github.com/yzhangcs/parser
- https://github.com/XuezheMax/NeuroNLP2
- https://github.com/codogogo/towerparse
- https://universaldependencies.org/conll18/evaluation.html
- https://github.com/UniversalDependencies/UD_English-PUD/blob/master/README.md
- https://github.com/UniversalDependencies/UD_German-GSD/blob/master/README.md