Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache

Das Knesset-Korpus: Ein linguistischer Blick auf das israelische Parlament

Eine reiche Sammlung von Texten aus dem israelischen Parlament zur Analyse.

― 7 min Lesedauer


Knesset-SprachanalyseKnesset-SprachanalyseParlamentsprache über Jahrzehnte.Untersuchung der israelischen
Inhaltsverzeichnis

Das Knesset-Korpus ist eine grosse Sammlung von Texten aus dem israelischen Parlament. Es umfasst mehr als 30 Millionen Sätze aus Sitzungen, die zwischen 1998 und 2022 stattfanden. Diese Sammlung deckt sowohl grosse Sitzungen, die Plenarsitzungen genannt werden, als auch kleinere Sitzungen, die Ausschusssitzungen genannt werden, ab. Die Sätze in diesem Korpus sind detailliert mit spezifischen Informationen über die verwendeten Wörter und Strukturen und beinhalten auch Hintergrundinfos über die Sprecher, wie zum Beispiel, wer sie sind und zu welchen politischen Parteien sie gehören.

Struktur und Zusammensetzung des Korpus

Das Korpus besteht aus offiziellen Dokumenten der Knesset. Diese Dokumente werden in verschiedenen Formaten wie Microsoft Word und PDF bereitgestellt und sind nach Sitzungsart, Jahr und Sitzungsformat geordnet. Die Knesset, die das israelische Parlament ist, zeichnet Sitzungen seit ihrer Gründung im Jahr 1948 auf. Das Knesset-Korpus umfasst hauptsächlich Dokumente von der 13. bis zur 24. Sitzung der Knesset, mit Fokus auf die Jahre 1992 bis 2022.

Unsere Sammlung begann mit Rohdokumenten, die gescannt und in ein digitales Format umgewandelt wurden. Wir haben sorgfältig darauf geachtet, die Qualität der Daten zu gewährleisten, besonders bei älteren Dokumenten, die durch das Scannen Fehler haben könnten. Unser Hauptfokus lag auf digital erstellten Dokumenten für unsere Analyse.

Zusätzlich zum Korpus haben wir eine Datenbank der Knesset-Mitglieder erstellt. Diese Datenbank enthält viele Informationen über alle aktuellen und ehemaligen Mitglieder der Knesset, politische Parteien und ihre verschiedenen Merkmale.

Datenbank der Knesset-Mitglieder

Die Datenbank der Knesset-Mitglieder hat drei Hauptabschnitte. Der erste Teil liefert demografische Informationen über über 1.100 aktuelle und ehemalige Mitglieder, einschliesslich ihres Namens, Geschlechts, Geburtsdatums und Links zu zusätzlichen Informationen. Der zweite Teil listet mehr als 150 politische Parteien auf, die seit der Gründung der Knesset existiert haben. Jede Partei ist mit den Jahren verknüpft, in denen sie aktiv war. Der dritte Teil verknüpft jedes Mitglied mit den politischen Parteien, denen sie während ihrer Amtszeit angehörten.

Modellierung des Datensatzes

Wir haben ein einfaches Format, JSON, gewählt, um die Daten in unserem Korpus darzustellen. Jedes Dokument enthält Details über das Protokoll der Sitzungen, einzelne Sätze, politische Parteien und die Sprecher, die teilnahmen. Diese Darstellung macht es leicht, auf die Informationen zuzugreifen und sie zu verstehen.

Datenverarbeitungs Schritte

Um die Daten vorzubereiten, mussten wir sie bereinigen. Das beinhaltete das Entfernen leerer Dateien oder Duplikate. Dann haben wir den Text und relevante Informationen aus den Dokumenten extrahiert. Zuerst haben wir die Dokumente in ein strukturiertes Format umgewandelt und ihren Inhalt sorgfältig analysiert, um genaue Details wie Protokollnummern, Daten und die Namen der Sprecher zu sammeln.

Wir haben ein System erstellt, um die Namen der Sprecher mit den Knesset-Mitgliedern in unserer Datenbank zu verknüpfen. Das war nicht immer einfach, da es Variationen gab, wie die Namen in den Dokumenten dargestellt wurden. Wir entwickelten eine Methode, um die Namen korrekt abzugleichen und verschiedene Herausforderungen zu bewältigen, einschliesslich ähnlicher Namen oder unterschiedlicher Schreibweisen.

Um die Genauigkeit unserer Datenerfassung zu überprüfen, haben wir mehrere Dokumente manuell überprüft. Die Ergebnisse zeigten, dass wir in fast allen Fällen die Namen der Sprecher und andere wichtige Details genau identifizieren konnten.

Linguistische Annotationen

Hebräisch ist eine Sprache mit vielen grammatischen Regeln und Besonderheiten. Um ihre Komplexität zu analysieren, haben wir einen Teil des Korpus mit linguistischen Details gemäss festgelegten Richtlinien annotiert. Das beinhaltete die Identifizierung verschiedener Wortformen und ihrer grammatischen Rollen innerhalb von Sätzen.

Es gibt viele Ressourcen für hebräische Sprachdaten, wie Nachrichtenartikel und akademische Texte. Unser Knesset-Korpus ist jedoch einzigartig, weil er sich ausschliesslich auf die Sprache im Parlament über mehrere Jahrzehnte konzentriert.

Parsing und Sprachmodelle

Um die Sprache in unserem Korpus zu analysieren, haben wir spezielle Modelle verwendet, die für Hebräisch entwickelt wurden. Diese Modelle helfen bei verschiedenen Aufgaben wie der Identifizierung der Struktur von Sätzen und den Beziehungen zwischen Wörtern. Unsere Analyse zeigte, dass die Einbeziehung von Knesset-Daten die Leistung dieser Sprachmodelle erheblich verbesserte.

Speicherung und Teilen des Korpus

Wir haben ein modernes Datenbanksystem gewählt, um das Knesset-Korpus zu speichern und zu teilen. Das ermöglicht nicht nur eine effiziente Speicherung von vielen Informationen, sondern macht es auch einfach für Nutzer, die Daten zu durchsuchen und zu analysieren. Ein visuelles Dashboard wurde erstellt, das es den Nutzern ermöglicht, verschiedene Aspekte des Korpus zu erkunden.

Öffentlicher Zugang zum Datensatz

Wir haben das Knesset-Korpus der Öffentlichkeit zugänglich gemacht. Das beinhaltet Rohdaten in ihren Originalformen, verarbeitete Daten in einem strukturierten Format und detaillierte linguistische Annotationen. Nutzer können auf diese Informationen über die Datenbank und das Dashboard zugreifen, die wir eingerichtet haben, was es einfach macht, Forschungs- oder Analysearbeiten durchzuführen.

Anwendungsfälle für das Knesset-Korpus

Das Knesset-Korpus ist eine wertvolle Ressource für verschiedene Bereiche wie Politikwissenschaft, Recht, Kommunikation und Linguistik. Um das Potenzial zu veranschaulichen, haben wir zwei Hauptbereiche untersucht.

Veränderungen im Sprachstil über die Zeit

Ein Interessensbereich ist, ob sich der Sprachstil im Parlament im Laufe der Jahre verändert hat. Unsere Analyse ergab einen Trend zu weniger formeller Sprache und einer Verringerung der Vielfalt des verwendeten Wortschatzes in den Diskussionen der Knesset über die Zeit. Wir haben spezifische Methoden verwendet, um den Reichtum der Sprache in Plenar- und Ausschusssitzungen zu messen. Unsere Ergebnisse bestätigten, dass die Sprache in den Ausschusssitzungen tendenziell weniger variabel war im Vergleich zu den formelleren Plenarsitzungen.

Unterschiede in der Sprache zwischen Geschlechtern

Ein weiterer Bereich, den wir untersucht haben, sind die Unterschiede in der Sprachverwendung zwischen männlichen und weiblichen Knesset-Mitgliedern. Frühere Forschungen haben gezeigt, dass Männer und Frauen oft unterschiedliche Kommunikationsstile haben. Unsere Analyse wollte bemerkenswerte Unterschiede in den diskutierten Themen und dem Sprachstil der männlichen und weiblichen Mitglieder identifizieren.

Unsere Ergebnisse zeigten deutliche Muster. Weibliche Mitglieder konzentrierten sich tendenziell auf soziale Probleme und verwendeten oft Wörter, die mit Familie, Gesundheit und Wohlfahrt zu tun haben. Männliche Mitglieder hingegen beteiligten sich mehr an Diskussionen über Finanzen, Fahrzeuge und Sicherheitsfragen. Die Analyse hob hervor, dass Männer im Allgemeinen wahrscheinlicher bestimmte Arten von Verben verwendeten als Frauen, was auf unterschiedliche Stile in der Sprache hinweist.

Herausforderungen und Einschränkungen

Wie bei jedem Forschungsprojekt hat das Knesset-Korpus seine Einschränkungen. Der überwiegende Grossteil der Beiträge stammt von männlichen Mitgliedern, was die Schlussfolgerungen über die gesamte Kommunikation in der Knesset beeinflussen kann. Ausserdem, da die Dokumente aus verschiedenen Quellen mit unterschiedlichen Stilen und Strukturen stammen, sind einige Verarbeitungsungenauigkeiten aufgetreten.

Trotz dieser Herausforderungen bietet der reiche Datensatz eine bemerkenswerte Gelegenheit, Trends im israelischen politischen Diskurs und deren Entwicklung über die Zeit zu sehen.

Zukünftige Forschungsrichtungen

In Zukunft gibt es viele Möglichkeiten für weitere Forschungen unter Verwendung des Knesset-Korpus. Zukünftige Arbeiten werden sich darauf konzentrieren, zu untersuchen, wie politische Diskussionen im Laufe der Jahre extremer geworden sind und die Emotionen zu verstehen, die in der Sprache der Knesset-Mitglieder zum Ausdruck kommen. Ausserdem wollen wir die Themen untersuchen, die von verschiedenen Mitgliedern diskutiert werden, um Einblicke in die Dynamik der israelischen Gesellschaft durch den parlamentarischen Diskurs zu gewinnen.

Fazit

Das Knesset-Korpus ist eine bahnbrechende Ressource für das Studium der Sprache des israelischen Parlaments. Mit seinen umfangreichen Daten und sorgfältigen Organisation eröffnet es zahlreiche Möglichkeiten für Forschungen in den Sozialwissenschaften und der Linguistik. Unsere laufenden Arbeiten werden unser Verständnis darüber erweitern, wie Sprache gesellschaftliche Veränderungen und politische Dynamiken in Israel widerspiegelt.

Originalquelle

Titel: The Knesset Corpus: An Annotated Corpus of Hebrew Parliamentary Proceedings

Zusammenfassung: We present the Knesset Corpus, a corpus of Hebrew parliamentary proceedings containing over 30 million sentences (over 384 million tokens) from all the (plenary and committee) protocols held in the Israeli parliament between 1998 and 2022. Sentences are annotated with morpho-syntactic information and are associated with detailed meta-information reflecting demographic and political properties of the speakers, based on a large database of parliament members and factions that we compiled. We discuss the structure and composition of the corpus and the various processing steps we applied to it. To demonstrate the utility of this novel dataset we present two use cases. We show that the corpus can be used to examine historical developments in the style of political discussions by showing a reduction in lexical richness in the proceedings over time. We also investigate some differences between the styles of men and women speakers. These use cases exemplify the potential of the corpus to shed light on important trends in the Israeli society, supporting research in linguistics, political science, communication, law, etc.

Autoren: Gili Goldin, Nick Howell, Noam Ordan, Ella Rabinovich, Shuly Wintner

Letzte Aktualisierung: 2024-05-28 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2405.18115

Quell-PDF: https://arxiv.org/pdf/2405.18115

Lizenz: https://creativecommons.org/licenses/by-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel