Simple Science

最先端の科学をわかりやすく解説

# コンピューターサイエンス# 計算と言語

クネセトコーパス:イスラエル議会の言語学的観点

イスラエルの議会からの分析用の豊富なテキストコレクション。

― 1 分で読む


クネセト言語分析クネセト言語分析する。数十年にわたるイスラエルの議会言葉を調査
目次

クネセトコーパスは、イスラエルの国会からの大規模なテキストコレクションなんだ。1998年から2022年の間に行われた会議から、3,000万文以上が含まれてる。大きな会議、いわゆる全体会議と、小さな会議、委員会セッションが含まれてて、文は単語や構造について具体的な情報で詳細されてて、話者のバックグラウンド情報、たとえば誰かとか、政治的な立場なんかも含まれてるんだ。

コーパスの構造と構成

コーパスはクネセトの公式文書から成ってる。この文書は、Microsoft WordやPDFといった異なるフォーマットで提供されてて、会議のタイプ、年、会議形式ごとに整理されてる。イスラエルの国会であるクネセトは、1948年の設立以来、会議を記録してきたんだ。コーパスは主に、クネセトの第13回から第24回のセッションの文書を含んでて、1992年から2022年の年に焦点を当ててる。

私たちのコレクションは、スキャンした生の文書から始まって、それをデジタルフォーマットに変換したんだ。データの質を確保するために特に注意を払って、特に古い文書はスキャンのエラーがあったりするからね。分析のためには、主にデジタルで作成された文書に焦点を当てたよ。

コーパスと一緒に、クネセトのメンバーのデータベースも作った。このデータベースには、現役と過去のクネセトのメンバー、政治政党、そして彼らのさまざまな特性についての情報がたくさん含まれてる。

クネセトメンバーのデータベース

クネセトメンバーのデータベースには3つの主要なセクションがある。一つ目は、1,100人以上の現メンバーと元メンバーの人口統計情報で、名前、性別、生年月日、追加情報へのリンクが含まれてる。二つ目は、クネセトが設立されて以来存在した150以上の政治政党のリスト。各政党は活動していた年にリンクされてる。三つ目は、各メンバーが在職中に所属していた政党へのリンクだ。

データセットのモデリング

データを表現するために、シンプルなフォーマットであるJSONを選んだよ。各文書には、会議のプロトコル、個々の文、政治政党、参加した話者についての詳細がある。この表現によって、情報に簡単にアクセスできて理解しやすくなってる。

データ処理のステップ

データを準備するために、クリーンアップが必要だった。これには、空のファイルや重複を取り除くことが含まれる。次に、文書からテキストや関連情報を抽出した。まず、文書を構造化されたフォーマットに変換して、プロトコル番号、日付、話者の名前などの正確な詳細を集めるために内容を注意深く分析したんだ。

話者の名前をデータベース内のクネセトメンバーにリンクするシステムを作ったよ。文書内の名前の表記にバリエーションがあったりするから、これは簡単じゃなかった。名前を正確に一致させる方法を開発して、似たような名前や異なる綴りといったさまざまな課題に対処したんだ。

データ抽出の正確性を検証するために、いくつかの文書を手作業で確認した。結果は、話者の名前や他の重要な詳細をほぼすべてのケースで正確に特定できたことを示したよ。

言語的注釈

ヘブライ語は文法ルールや特徴がたくさんある言語なんだ。その複雑さを分析するために、確立されたガイドラインに従ってコーパスの一部に言語的詳細の注釈を付けた。これには、異なる形の単語や文内での文法的な役割の特定が含まれてる。

ヘブライ語データにはニュース記事や学術文献など、たくさんのリソースがあるけど、私たちのクネセトコーパスは、数十年にわたる議会の言葉に特化してるからユニークなんだ。

パースと言語モデル

コーパス内の言語を分析するために、ヘブライ語用に特別に設計されたモデルを使用したよ。これらのモデルは、文の構造や単語間の関係を特定するなど、さまざまな作業に役立つ。分析の結果、クネセトデータを含めることでこれらの言語モデルの性能が大幅に向上したことが分かった。

コーパスの保存と共有

クネセトコーパスを保存して共有するために、現代的なデータベースシステムを選んだ。これにより、大量の情報を効率的に保存できるだけでなく、ユーザーがデータを簡単に検索して分析できるようになった。さまざまなコーパスの側面を探索できる視覚的なダッシュボードも作成されたよ。

データセットへの公的アクセス

クネセトコーパスを一般に公開した。これには、生のデータ、処理された構造化データ、詳細な言語的注釈が含まれてる。ユーザーは、私たちが設定したデータベースやダッシュボードを通じてこの情報にアクセスできるから、研究や分析が簡単にできるんだ。

クネセトコーパスの利用ケース

クネセトコーパスは、政治学、法学、コミュニケーション、言語学などのさまざまな分野にとって貴重なリソースなんだ。その可能性を示すために、二つの主要な領域を探ったよ。

時間による言語スタイルの変化

一つの興味深い領域は、議会で使われる言語スタイルが年々どのように変わってきたかってこと。分析の結果、議会の言語は、よりフォーマルでない言語に向かっていて、クネセトの議論における語彙の多様性が減少している傾向が見られた。全体会議と委員会セッションにおける言語の豊かさを測定するために特定の方法を使った。結果は、委員会の会議で使われる言語が、よりフォーマルな全体会議と比べて多様性が少ないことを確認したんだ。

性別による言語の違い

もう一つの調査領域は、男性と女性のクネセトメンバーの言語使用の違い。先行研究では、男性と女性は異なるコミュニケーションスタイルを持つことが多いと示されている。私たちの分析は、男性と女性メンバーが議論するトピックや言語のスタイルにおける目立った違いを特定しようとしたんだ。

私たちの結果は、異なるパターンを明らかにしたよ。女性メンバーは社会問題に焦点を当てがちで、家族、健康、福祉に関する言葉をよく使ってた。一方で、男性メンバーは財政、車両、セキュリティに関する議論をすることが多かった。分析は、男性が女性と比べて特定のタイプの動詞を使う傾向が高いことを示して、スピーチのスタイルに違いがあることを示してる。

課題と制限

他の研究プロジェクトと同様に、クネセトコーパスには制限がある。寄与の大半は男性メンバーからのもので、これがクネセト内の全体的なコミュニケーションに関する結論に影響を与える可能性がある。それに、文書はさまざまなソースから異なるスタイルや構造を持ってくるから、いくつかの処理の不正確さもあったんだ。

それでも、豊富なデータセットは、イスラエルの政治的言説のトレンドやそれがどのように進化してきたかを見る素晴らしい機会を提供してくれるよ。

今後の研究方向

今後を見据えると、クネセトコーパスを使ったさらなる研究の機会がたくさんある。将来的には、政治的議論が年々どのようにより過激になってきたかや、クネセトメンバーの言語に反映された感情を理解することに焦点を当てる予定だよ。さらに、異なるメンバーが議論するトピックを探索して、議会の言説を通じてイスラエル社会のダイナミクスを理解するつもりなんだ。

結論

クネセトコーパスは、イスラエル国会の言語を研究するための画期的なリソースなんだ。豊富なデータと注意深い組織によって、社会科学や言語学の研究に多くの道を開いている。私たちの継続的な作業は、言語が社会的変化や政治的ダイナミクスをどのように反映するかの理解を深めることに繋がるよ。

オリジナルソース

タイトル: The Knesset Corpus: An Annotated Corpus of Hebrew Parliamentary Proceedings

概要: We present the Knesset Corpus, a corpus of Hebrew parliamentary proceedings containing over 30 million sentences (over 384 million tokens) from all the (plenary and committee) protocols held in the Israeli parliament between 1998 and 2022. Sentences are annotated with morpho-syntactic information and are associated with detailed meta-information reflecting demographic and political properties of the speakers, based on a large database of parliament members and factions that we compiled. We discuss the structure and composition of the corpus and the various processing steps we applied to it. To demonstrate the utility of this novel dataset we present two use cases. We show that the corpus can be used to examine historical developments in the style of political discussions by showing a reduction in lexical richness in the proceedings over time. We also investigate some differences between the styles of men and women speakers. These use cases exemplify the potential of the corpus to shed light on important trends in the Israeli society, supporting research in linguistics, political science, communication, law, etc.

著者: Gili Goldin, Nick Howell, Noam Ordan, Ella Rabinovich, Shuly Wintner

最終更新: 2024-05-28 00:00:00

言語: English

ソースURL: https://arxiv.org/abs/2405.18115

ソースPDF: https://arxiv.org/pdf/2405.18115

ライセンス: https://creativecommons.org/licenses/by-sa/4.0/

変更点: この要約はAIの助けを借りて作成されており、不正確な場合があります。正確な情報については、ここにリンクされている元のソース文書を参照してください。

オープンアクセスの相互運用性を利用させていただいた arxiv に感謝します。

著者たちからもっと読む

類似の記事