Neue Datenbank verbessert Zugang zu Parlamentsdebatten
Eine neue Ressource macht australische Parlamentsdebatten von 1998 bis 2022 für die Forschung zugänglich.
― 8 min Lesedauer
Inhaltsverzeichnis
- Hintergrund
- Potenzielle Anwendungen
- Überblick über das australische Repräsentantenhaus
- Zugänglichkeitsprobleme
- Datenbankstruktur und Entwicklung
- Parsing-Prozess
- Fragestunde
- Zwischenrufe und Sprachstruktur
- Regieanweisungen
- Fehlende Details ergänzen
- Debattenthemen und Abstimmungsunterlagen
- Datensätze und Zugänglichkeit
- Technische Validierung
- Zusammenfassende Statistiken
- Fazit
- Originalquelle
- Referenz Links
Der öffentliche Zugang zu dem, was im Parlament gesagt wird, ist wichtig für die Demokratie und die Forschung in der politischen Wissenschaft. In Australien wird das offizielle Protokoll der Parlamentsdebatten als Hansard bezeichnet. Traditionell war dieses Protokoll nur als PDFs oder XML-Dateien verfügbar, was die Analyse im grossen Stil erschwerte. Inspiriert von ähnlichen Initiativen in Kanada wurde eine neue Datenbank geschaffen, um die australischen Parlamentsdebatten von 1998 bis 2022 zugänglicher und leichter analysierbar zu machen.
Hintergrund
Das schriftliche Protokoll der Parlamentsdebatten, bekannt als Hansard, spielt eine wichtige Rolle bei der Dokumentation politischer Diskussionen. Ursprünglich aus Grossbritannien, haben viele Commonwealth-Länder, darunter Australien und Kanada, diese Praxis übernommen. Die Grösse und der Inhalt dieser Protokolle sind bedeutend für die Forschung in der Politikwissenschaft. Der kanadische Hansard wurde bereits digitalisiert, wodurch Forscher detaillierte Analysen durchführen können.
Diese neue australische Datenbank fasst die Protokolle von jedem Sitzungstag im Repräsentantenhaus von März 1998 bis September 2022 zusammen. Sie enthält detaillierte Informationen über alles, was während der Sitzungen gesagt wurde, was es den Forschern erleichtert, Textanalysen durchzuführen und das politische Verhalten über die Zeit zu verstehen.
Potenzielle Anwendungen
Es gibt zahlreiche Möglichkeiten, wie diese Datenbank genutzt werden kann. Zum Beispiel wurden in Australien Bedenken hinsichtlich des Rückgangs der Qualität öffentlicher Debatten über Politik geäussert. Die Daten können helfen zu untersuchen, ob dieser Rückgang tatsächlich stattfindet und, falls ja, welche Faktoren dazu beitragen. Darüber hinaus kann sie helfen festzustellen, ob bestimmte Gruppen in den parlamentarischen Diskussionen angemessen vertreten sind, beispielsweise ländliche Gebiete im Vergleich zu städtischen.
Die Datenbank ist so konzipiert, dass sie mit ähnlichen Datenbanken anderer Länder verbunden werden kann, um zu vergleichen, wie sich der parlamentarische Fokus während globaler Ereignisse wie Pandemien oder Kriegen verschieben kann. In diesem Zusammenhang wurden PartyFacts-IDs integriert, um Verbindungen zu anderen grossen Redeprojekten zu erleichtern.
Überblick über das australische Repräsentantenhaus
Das Repräsentantenhaus, oft einfach "das Haus" genannt, spielt eine wichtige Rolle in der Regierung, einschliesslich der Gesetzgebung und der Überwachung der Finanzen. Mitglieder des Parlaments (MPs) vertreten ihr Wahlgebiet und nehmen an Debatten teil. Das Haus hat zwei Orte für Diskussionen: die Kammer und die Föderationskammer. Jeder Sitzungstag folgt einer festgelegten Geschäftsordnung, die durch Verfahrensregeln, die als Geschäftsordnungen bekannt sind, geregelt ist.
Eine typische Sitzung umfasst verschiedene Aktivitäten, wie Diskussionen über Regierungsangelegenheiten, Äusserungen von Mitgliedern und die Fragestunde. Die Föderationskammer, die 1994 eingerichtet wurde, dient als sekundärer Ort für Diskussionen und ermöglicht eine effizientere Verwaltung von Debatten.
Das offizielle Protokoll dieser Verfahren wird sowohl im PDF- als auch im XML-Format erstellt. Während PDFs für Menschen lesbar sind, sind XMLs für Maschinen lesbar, was sie besser für Analysen geeignet macht.
Zugänglichkeitsprobleme
Trotz der öffentlichen Verfügbarkeit ist das Hansard-Format auf der Website des Parlaments von Australien nicht für die Analyse im grossen Stil optimiert. Forscher mussten oft ihre eigenen Datenbanken auf der Grundlage der verfügbaren Inhalte erstellen. Zum Beispiel gibt es eine Online-Datenbank für Hansard von 1901 bis 1980, die jedoch auf frühere Daten beschränkt ist.
Um die Zugänglichkeit zu verbessern, wurde auch ein R-Paket mit Informationen über alle MPs von 1945 bis 2019 erstellt. Es gibt mehrere andere Projekte, die Daten aus Hansard analysieren, aber keines hat eine umfassende Datenbank im XML-Format erstellt, die von 1901 bis heute reicht.
Datenbankstruktur und Entwicklung
Die neue Datenbank besteht aus einer CSV-Datei und einer Parquet-Datei für jeden Sitzungstag von März 1998 bis September 2022. Vier Skripte wurden entwickelt, um diese Dateien zu erstellen, und jedes Skript ist darauf ausgelegt, bestimmte Abschnitte der Hansard-XML-Dokumente zu analysieren.
Der Ansatz zur Analyse von XML-Dokumenten hängt von ihrer Struktur ab. Durch die Untersuchung eines einzelnen Hansard-XML-Transkripts identifizierten die Entwickler die verschiedenen Komponenten. Der äusserste Knoten, genannt "hansard", dient als Hauptcontainer, mit mehreren Kindknoten, die jeden Sitzungstag und seine Verfahren detailliert darstellen.
Die Datenbank erfasst wichtige Informationen wie wer sprach, was gesagt wurde und wann, alles in chronologischer Reihenfolge organisiert. Die Struktur ermöglicht eine einfache Identifizierung von Schlüsselereignissen und Diskussionen.
Parsing-Prozess
Das Parsen von XML beinhaltet das Verständnis der Hierarchie der Knoten innerhalb des Dokuments. Das anfängliche Parsen konzentrierte sich darauf, wesentliche Elemente wie Reden, Zwischenrufe und die Proceedings der Fragestunde zu erfassen. Die Skripte wurden so konzipiert, dass sie Variationen in der Struktur der XML-Dateien über verschiedene Zeiträume hinweg berücksichtigen.
Mit einzigartigen Ausdrücken wurde jeder relevante Redeinhalt extrahiert und in aufgeräumte Datensätze organisiert. Diese Datensätze enthalten alle geparsten Textelemente und stellen sicher, dass jede Äusserung in ihrer eigenen Zeile erscheint, komplett mit Informationen über den Sprecher.
Während die Skripte an verschiedenen XML-Dateien getestet wurden, wurden Anpassungen vorgenommen, um Unterschiede in der Struktur zu berücksichtigen. Obwohl viele Änderungen subtil waren, erforderten bedeutende Veränderungen die Entwicklung neuer Skripte, um frühere Dokumente effektiv zu verarbeiten.
Fragestunde
Ein wichtiger Bestandteil des australischen parlamentarischen Systems ist die Fragestunde, in der MPs den Ministern verschiedene Arten von Fragen stellen können. Fragen können im Voraus schriftlich verfasst und eingereicht werden oder während der Sitzung mündlich gestellt werden.
Die verwendete Parsing-Methode erlaubte eine effiziente Trennung von Fragen und Antworten und kategorisierte sie korrekt im resultierenden Datensatz. Dieser Prozess beinhaltete die Erstellung von Flags, um anzuzeigen, ob eine Äusserung eine Frage oder eine Antwort war, um Klarheit in der Analyse zu gewährleisten.
Zwischenrufe und Sprachstruktur
Die Datenbank erfasst Zwischenrufe, die Unterbrechungen darstellen, die während Reden auftreten. Jeder Zwischenruf wird katalogisiert und die Details über den Sprecher werden aufgezeichnet. Der Prozess beinhaltete die Identifizierung von Mustern innerhalb des Redeninhalts und das Extrahieren relevanter Details, um eine kohärente Darstellung des parlamentarischen Dialogs zu schaffen.
Jede Rede wird von Informationen über den Sprecher und deren Parteizugehörigkeit begleitet. Besonderes Augenmerk wird auf Formatierungsprobleme und potenzielle Transkriptionsfehler gelegt, um sicherzustellen, dass die Daten ihre Integrität wahren.
Regieanweisungen
Regieanweisungen sind in den Transkripten enthalten, um nonverbale Aspekte der parlamentarischen Verfahren zu dokumentieren. Diese Aussagen, wie "Gesetz ein zweites Mal gelesen," sind wichtig, um den Kontext der Diskussionen zu verstehen, obwohl sie nicht direkt von den MPs gesprochen werden.
Der Prozess, diese Regieanweisungen vom Redeninahlt zu trennen, beinhaltete die manuelle Erstellung einer Liste, die eine genaue Darstellung in der Datenbank ermöglicht. Nutzer können diese Anweisungen herausfiltern, wenn sie sich ausschliesslich auf das Gesprochene konzentrieren möchten.
Fehlende Details ergänzen
Trotz der Bemühungen, einen umfassenden Datensatz zu erstellen, wurden einige Fälle erkannt, in denen Informationen zu Sprechern fehlten. Um diese Lücken zu schliessen, wurde ein Skript entwickelt, um kurze Namen zu überprüfen und sie, wo verfügbar, durch vollständige Namen zu ersetzen, um sicherzustellen, dass alle Informationen zu Sprechern vollständig sind.
Dieses Skript referenziert auch Daten aus externen Quellen, um die Vollständigkeit jedes Eintrags im Datensatz zu verbessern.
Debattenthemen und Abstimmungsunterlagen
Um die analytischen Möglichkeiten des Datensatzes zu erweitern, wurden zusätzliche Dateien erstellt, die Debattenthemen und die entsprechenden Seitenzahlen festhalten. Diese Aufzeichnungen ermöglichen es Forschern, leicht nachzuvollziehen, was an bestimmten Sitzungstagen diskutiert wurde.
Abstimmungsunterlagen sind ebenfalls Teil des parlamentarischen Verfahrens. Die Daten zu Abstimmungen, bei denen Mitglieder über spezifische Themen abstimmen, wurden zusammengestellt, um ein umfassendes Bild der parlamentarischen Aktivitäten zu bieten. Jede Abstimmung ist im eigenen Abschnitt der XML strukturiert, was eine detaillierte Analyse der Abstimmungsmuster im Laufe der Zeit ermöglicht.
Datensätze und Zugänglichkeit
Die Datenbank ist sowohl im CSV- als auch im Parquet-Format verfügbar, was sie für verschiedene Forschungsanwendungen zugänglich macht. Die Wahl der Formate stellt sicher, dass die Daten leicht für Analysen bearbeitet werden können, während ihre Integrität gewahrt bleibt.
Jede Datei enthält einzelne Äusserungen mit detaillierten Informationen über die Sprecher und deren Zugehörigkeiten. Die Gesamtstruktur ist auf Benutzerfreundlichkeit ausgelegt, sodass Forscher parlamentarische Debatten effektiv extrahieren und analysieren können.
Technische Validierung
Mehrere automatisierte Tests wurden durchgeführt, um die Qualität und Konsistenz der Datenbank sicherzustellen. Diese Tests überprüften, ob die Daten in den Dateinamen mit denen in den XML-Headern übereinstimmten, suchten nach doppelten Äusserungen und stellten sicher, dass Reden korrekt voneinander getrennt waren.
Zusätzliche Tests konzentrierten sich auf Zeitstempelformate und die Genauigkeit von Sprecherinformationen, was eine schnelle Identifizierung und Korrektur von Fehlern ermöglichte. Dieser Ansatz verbessert die Zuverlässigkeit der Daten für Forschungszwecke.
Zusammenfassende Statistiken
Forscher können verschiedene Trends innerhalb der Daten erkunden, wie die Anzahl der pro Tag gehaltenen Reden und welche politischen Parteien am meisten beitrugen. Diese Informationen beleuchten die Dynamik parlamentarischer Verfahren und ermöglichen ein besseres Verständnis des politischen Verhaltens im Laufe der Zeit.
Fazit
Die neue Datenbank der australischen Parlamentsdebatten von 1998 bis 2022 stellt einen bedeutenden Fortschritt in der Zugänglichkeit politischer Daten dar. Durch die Digitalisierung und Strukturierung der Hansard-Aufzeichnungen können Forscher und politische Entscheidungsträger nun endlich Diskussionen leicht analysieren, was Einblicke in politische Dynamiken und öffentliche Politik im Laufe der Zeit ermöglicht.
Dieser umfassende Datensatz schliesst nicht nur eine Lücke in bestehenden Ressourcen, sondern eröffnet auch neue Wege für Forschung und Erkundung. Er ist ein wertvolles Werkzeug, um die Demokratie in Aktion zu verstehen und die Rolle politischer Diskurse bei der Gestaltung öffentlicher Politik zu beleuchten.
Titel: Digitization of the Australian Parliamentary Debates, 1998-2022
Zusammenfassung: Public knowledge of what is said in parliament is a tenet of democracy, and a critical resource for political science research. In Australia, following the British tradition, the written record of what is said in parliament is known as Hansard. While the Australian Hansard has always been publicly available, it has been difficult to use for the purpose of large-scale macro- and micro-level text analysis because it has only been available as PDFs or XMLs. Following the lead of the Linked Parliamentary Data project which achieved this for Canada, we provide a new, comprehensive, high-quality, rectangular database that captures proceedings of the Australian parliamentary debates from 1998 to 2022. The database is publicly available and can be linked to other datasets such as election results. The creation and accessibility of this database enables the exploration of new questions and serves as a valuable resource for both researchers and policymakers.
Autoren: Lindsay Katz, Rohan Alexander
Letzte Aktualisierung: 2023-09-22 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2304.04561
Quell-PDF: https://arxiv.org/pdf/2304.04561
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://partyfacts.herokuapp.com
- https://historichansard.net/
- https://github.com/palesl/AustralianHouseOfRepresentatives
- https://doi.org/10.5281/zenodo.7336075
- https://partyfacts.herokuapp.com/download/
- https://partyfacts.herokuapp.com/documentation/datasets/
- https://github.com/RohanAlexander/AustralianElections
- https://github.com/lindsaykatz/hansard-proj
- https://www.aph.gov.au/Parliamentary_Business/Hansard
- https://doi.org/10.1007/s10579-021-09574-0
- https://doi.org/10.7910/DVN/L4OAKN
- https://doi.org/10.7910/DVN/VOPK0E
- https://doi.org/10.7910/DVN/9MN0RL
- https://CRAN.R-project.org/package=AustralianPoliticians
- https://doi.org/10.1093/oso/9780198849063.003.0008
- https://CRAN.R-project.org/package=XML
- https://CRAN.R-project.org/package=xml2
- https://doi.org/10.18637/jss.v059.i10
- https://www.aph.gov.au/About_Parliament/House_of_Representatives/Powers_practice_and_procedure/00_-_Infosheets/Infosheet_22_-_Political_parties
- https://www.R-project.org/
- https://doi.org/10.21105/joss.01686