Transkribieren des LIBE-Ausschusses: Eine neue Ressource
Wir erklären den Prozess zur Erstellung genauer Transkripte für LIBE-Ausschusssitzungen.
― 7 min Lesedauer
Inhaltsverzeichnis
In diesem Artikel schauen wir uns den Prozess an, wie man gesprochene Worte aus den Sitzungen des LIBE-Ausschusses des Europäischen Parlaments in schriftlichen Text umwandelt. Der LIBE-Ausschuss beschäftigt sich mit Themen rund um bürgerliche Freiheiten, Justiz und Inneres. Diese Sitzungen beinhalten wichtige Diskussionen, die Forschern, Politikwissenschaftlern und Linguisten helfen können. Allerdings werden die Sitzungen nur als Audiodateien aufgezeichnet, und es gibt keine offiziellen schriftlichen Transkripte. Das macht es schwer für Leute, auf den Inhalt zuzugreifen und ihn zu analysieren.
Um dieses Problem anzugehen, haben wir uns darauf konzentriert, ein automatisches Spracherkennungssystem (ASR) zu nutzen, um präzise Transkripte aus den Audioaufnahmen zu erstellen. Unser Ziel war es, den Forschern ein nützliches Werkzeug zur Verfügung zu stellen, auf das sie sich für ihre Studien stützen können.
Warum der LIBE-Ausschuss wichtig ist
Der LIBE-Ausschuss spielt eine entscheidende Rolle bei der Gestaltung der Politik innerhalb der EU. Die Sitzungen dieses Ausschusses beinhalten oft Diskussionen über kritische Themen wie Einwanderung, Datenschutz und Bürgerrechte. Die Diskussionen des Ausschusses sind tiefer und detaillierter als die kurzen Reden, die während der Plenarsitzungen des Parlaments gehalten werden.
Forscher können davon profitieren, diese Diskussionen zu verstehen, da sie Einblicke geben, wie politische Meinungsverschiedenheiten zwischen den Mitgliedern verlaufen und wie Parteien mit komplexen Themen umgehen. Dieses Verständnis ist nicht nur für politische Analysten, sondern auch für Linguisten, die politische Diskurse und die Rolle von Dolmetschern in diesen Diskussionen untersuchen, wertvoll.
Die Herausforderung der Transkription
Obwohl die Aufnahmen der Ausschusssitzungen eine Fülle von Informationen bieten, stellen sie Herausforderungen für die Forschung dar. Es gibt keine Transkripte für diese Sitzungen, nur Audioaufzeichnungen, die schwer zu analysieren sind. Eine drei-Stunden-Aufnahme anzuhören, um spezifische Informationen zu finden, ist extrem zeitaufwendig.
Ausserdem enthält das Audio oft eine Mischung aus nicht-muttersprachlichen Englischsprechern und Dolmetschern. Diese Kombination schafft zusätzliche Komplikationen für die Spracherkennung. Wir wollten den Transkriptionsprozess verbessern, indem wir ein spezielles ASR-Modell nutzten, das besser mit den einzigartigen Merkmalen der LIBE-Ausschussaufnahmen umgehen kann.
Unser Ansatz: ASR für politische Diskurse verbessern
Wir haben uns entschieden, ein Modell namens Wav2Vec2.0 zu verwenden, das vielversprechend bei der Spracherkennung ist. Wav2Vec2.0 ist ein maschinelles Lernmodell, das lernt, gesprochene Sprache zu verstehen. Unser Ziel war es, dieses Modell so anzupassen, dass es effizient mit politischen Diskussionen arbeitet, indem wir uns darauf konzentrierten, die Leistung mit unseren spezifischen Daten zu verbessern.
Um unsere Transkripte zu erstellen, haben wir mit verschiedenen Modellen und Methoden innerhalb der ASR-Pipeline experimentiert. Wir verwendeten Audioaufzeichnungen von Ausschusssitzungen zwischen 2014 und 2019, was insgesamt etwa 3,6 Millionen Wörter ausmachte. Die aufgezeichneten Daten bestehen aus verschiedenen Diskussionen, an denen sowohl Dolmetscher als auch nicht-muttersprachliche Englischsprecher teilnahmen.
Die Rolle von domänenspezifischen Modellen
Eine wichtige Erkenntnis aus unserer Forschung war, dass die Verwendung eines domänenspezifischen akustischen Modells die Qualität der Transkripte erheblich verbesserte. Durch das Training unseres Modells speziell mit der Sprache, die in politischen Diskursen verwendet wird, konnten wir die Fehlerquote in der Transkription reduzieren. Genauer gesagt, haben wir die Genauigkeit unseres Modells mithilfe eines Metrik namens Wortfehlerquote (WER) gemessen, die angibt, wie viele Fehler in den Transkripten gemacht wurden.
Als wir unsere Ergebnisse verglichen, sahen wir, dass unser verbessertes Modell die WER von 28,22 auf 17,95 senkte. Das zeigt, dass unser Ansatz die Genauigkeit der Transkripte erheblich verbessert hat.
Die Auswirkungen von Sprachmodellen erkunden
Neben dem akustischen Modell haben wir auch den Effekt untersucht, ein Sprachmodell einzusetzen, um unseren Transkriptionsprozess zu verfeinern. Ein Sprachmodell hilft dem ASR-System zu verstehen, welche Wörter wahrscheinlich auf andere folgen, wodurch die Erkennung verbessert wird.
Durch die Implementierung eines Sprachmodells sahen wir weitere Verbesserungen in der Qualität der Transkripte. Die Kombination aus einem domänenspezifischen akustischen Modell und einem Sprachmodell lieferte eine genauere Darstellung der gesprochenen Debatten.
Die Bedeutung von Hotwords
Das Erkennen spezifischer Begriffe, die für die Diskussionen relevant sind, ist entscheidend. Im Kontext des LIBE-Ausschusses umfasst das Namen von Politikern, Organisationen und wichtige politische Begriffe. Um die Erkennung dieser domänenspezifischen Begriffe zu verbessern, haben wir ein Merkmal namens Hotword-Boosting hinzugefügt.
Hotwords sind spezifische Wörter oder Phrasen, die wir wollen, dass das ASR-System sie genauer erkennt. Wir haben jedoch festgestellt, dass die Verwendung von Hotwords die Erkennung für diese Begriffe zwar verbessert, manchmal jedoch die Gesamtqualität der Transkription verringert.
Durch unsere Experimente haben wir herausgefunden, dass das Einbeziehen von Hotwords vorteilhaft sein kann, wenn das Ziel darin besteht, sich auf spezifische politische Entitäten oder Themen zu konzentrieren. Wenn das Ziel jedoch darin besteht, die beste Gesamtgenauigkeit in der Transkription zu erreichen, könnte es besser sein, sie wegzulassen.
Daten sammeln und ausrichten
Um unsere Transkriptionsbemühungen zu unterstützen, haben wir detaillierte Aufzeichnungen jeder Sitzung gesammelt, einschliesslich Agenden und Protokollen. Diese Metadaten ermöglichten es uns, die Audiodateien mit den entsprechenden Sitzungsdetails abzugleichen. Insgesamt haben wir 432 Dateien von Sitzungsagenden und Protokollen gesammelt.
Wir haben diese Dokumente manuell verknüpft, um sicherzustellen, dass die Audiodaten nicht nur logisch gruppiert, sondern auch mit genauen Kontextinformationen versehen waren. Obwohl Audio und Metadaten manchmal nicht perfekt übereinstimmten, gelang es uns, ein System zu schaffen, bei dem Forscher das Transkript mit den Sitzungsdetails abgleichen konnten.
Tests und Evaluation
Um unser ASR-System zu bewerten, haben wir einen kleinen Satz manuell transkribierter Daten erstellt, um einen Vergleichsmassstab zu haben. Diese Evaluierungsgruppe bestand aus 100 Segmenten, die jeweils etwa 21 Sekunden lang waren. Die Verwendung dieser Daten erlaubte es uns, unsere Modelle weiter zu optimieren und sicherzustellen, dass unser Transkriptionsprozess robust war.
Wir haben eine Kreuzvalidierung implementiert, eine Methode, bei der die Daten in mehrere Teile aufgeteilt werden, um die Leistung des Modells zu testen. Dieser Ansatz half uns, Probleme zu vermeiden, bei denen das Modell möglicherweise überangepasst war, und stellte sicher, dass unser ASR-Modell anpassungsfähig und zuverlässig über verschiedene Aufnahmen hinweg war.
Ergebnisse und Erkenntnisse
Bei unseren Experimenten haben wir mehrere wichtige Erkenntnisse beobachtet:
Modellleistung: Das Wav2Vec2.0-Modell mit domänenspezifischen Anpassungen schnitt besser ab als generische Modelle bei der genauen Transkription politischer Diskussionen.
Einfluss von Sprachmodellen: Der Einsatz eines Sprachmodells half, die Transkriptionsgenauigkeit weiter zu verbessern und ermöglichte kohärentere und kontextuell relevantere Ergebnisse.
Hotword-Erkennung: Während Hotwords die Erkennung spezifischer Begriffe verbesserten, verringerten sie manchmal die Gesamtqualität der Transkription. Der Bedarf an Balance hing vom beabsichtigten Verwendungszweck der Transkripte ab.
Themenanalyse: Wir haben eine Themenmodellierung an den resultierenden Transkripten durchgeführt, um Einblicke in die in den LIBE-Ausschuss diskutierten Themen zu gewinnen. Diese Themen reichten von Verfahrensfragen bis hin zu bedeutenden Themen wie Datenschutz und Migration.
Implikationen für die Forschung
Die Erstellung dieses transkribierten Korpus eröffnet neue Wege für die Forschung in der Politikwissenschaft und Linguistik. Mit verbessertem Zugang zu den Inhalten der Ausschusssitzungen können Analysten tiefgehende Studien über politische Diskurse, Parteistrategien und legislative Prozesse durchführen.
Forscher, die politische Kommunikation untersuchen, werden die Transkripte als wertvoll erachten, um zu verstehen, wie Mitglieder des EU-Parlaments mit komplexen Themen umgehen. Zudem können Linguisten die Sprachverwendung analysieren, einschliesslich der Rolle von Dolmetschern, nicht-muttersprachlichen Sprechern und wie Sprache politische Debatten prägt.
Zukünftige Arbeiten
Obwohl unser Ansatz vielversprechende Ergebnisse geliefert hat, gibt es immer Raum für Verbesserungen. Künftige Arbeiten könnten sich auf folgende Bereiche konzentrieren:
Weitere Feinabstimmung: Ein grösserer Datensatz manuell transkribierter Daten könnte die Genauigkeit des Modells verbessern und potenziell zu noch besseren Ergebnissen führen.
Diarisierung: Dies umfasst die Verfolgung, wer während der Sitzungen was gesagt hat. Eine genaue Diarisierung wäre vorteilhaft für Forscher, die den Kontext der Diskussionen besser verstehen möchten.
Named Entity Recognition: Die Verbesserung der Fähigkeit des Modells, Namen und andere wichtige Begriffe zu erkennen, würde die Nutzbarkeit der Transkripte für die politische Analyse erhöhen.
Fazit
Zusammenfassend haben wir eine Methode entwickelt, um präzise Transkripte der LIBE-Ausschusssitzungen mithilfe fortschrittlicher ASR-Techniken zu erstellen. Der Prozess zeigt die Wichtigkeit der Verwendung von domänenspezifischen Modellen und den Einfluss von Sprachmodellen auf die Transkriptionsqualität. Die resultierenden Transkripte sind eine wertvolle Ressource für Politikwissenschaftler und Linguisten und bieten tiefere Einblicke in die Arbeitsweise des EU-Parlaments.
Durch eine schrittweise Verfeinerung unseres Ansatzes hoffen wir, zur laufenden Forschung im Bereich politischer Diskurse beizutragen und das Verständnis der zentralen Themen, die unsere Gesellschaft heute prägen, zu stärken.
Titel: Political corpus creation through automatic speech recognition on EU debates
Zusammenfassung: In this paper, we present a transcribed corpus of the LIBE committee of the EU parliament, totalling 3.6 Million running words. The meetings of parliamentary committees of the EU are a potentially valuable source of information for political scientists but the data is not readily available because only disclosed as speech recordings together with limited metadata. The meetings are in English, partly spoken by non-native speakers, and partly spoken by interpreters. We investigated the most appropriate Automatic Speech Recognition (ASR) model to create an accurate text transcription of the audio recordings of the meetings in order to make their content available for research and analysis. We focused on the unsupervised domain adaptation of the ASR pipeline. Building on the transformer-based Wav2vec2.0 model, we experimented with multiple acoustic models, language models and the addition of domain-specific terms. We found that a domain-specific acoustic model and a domain-specific language model give substantial improvements to the ASR output, reducing the word error rate (WER) from 28.22 to 17.95. The use of domain-specific terms in the decoding stage did not have a positive effect on the quality of the ASR in terms of WER. Initial topic modelling results indicated that the corpus is useful for downstream analysis tasks. We release the resulting corpus and our analysis pipeline for future research.
Autoren: Hugo de Vos, Suzan Verberne
Letzte Aktualisierung: 2023-04-17 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2304.08137
Quell-PDF: https://arxiv.org/pdf/2304.08137
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.
Referenz Links
- https://github.com/hdvos/EUParliamentASRDataAndCode
- https://www.europarl.europa.eu/doceo/document/RULES-9-2022-07-11-RULE-194_EN.html
- https://www.europarl.europa.eu/committees/en/about/list-of-committees
- https://scholar.google.nl/scholar?hl=en&as_sdt=0%2C5&q=transcripts+of+the+plenary+sessions+of+the+European+Parliament+&btnG=
- https://huggingface.co/models?search=wav2vec2.0
- https://paperswithcode.com/task/speech-recognition
- https://huggingface.co/docs/transformers/v4.14.1/model_doc/wav2vec2
- https://www.clarin.eu/parlamint
- https://www.wordfish.org/
- https://www.europarl.europa.eu/committees/en/meetings/webstreaming
- https://www.ffmpeg.org/
- https://github.com/pytorch/fairseq/tree/main/examples/wav2vec##training-a-new-model-with-the-cli-tools
- https://librosa.org/doc/main/generated/librosa.effects.split.html
- https://huggingface.co/facebook/wav2vec2-base-960h
- https://huggingface.co/facebook/wav2vec2-base-10k-voxpopuli-ft-en
- https://github.com/kensho-technologies/pyctcdecode
- https://kheafield.com/code/kenlm/
- https://www.nltk.org/api/nltk.tokenize.html
- https://pypi.org/project/num2words/
- https://spacy.io/api/entityrecognizer
- https://en.wikipedia.org/wiki/Word_error_rate
- https://github.com/jitsi/jiwer
- https://www.nltk.org/book/ch02.html
- https://www.nltk.org/_modules/nltk/stem/wordnet.html
- https://www.europarl.europa.eu/committees/en/fight-against-organised-crime-and-corrup/product-details/20160216CHE00191
- https://wiki.alice.universiteitleiden.nl/index.php?title=Documentation
- https://www.springer.com/gp/editorial-policies
- https://www.nature.com/nature-research/editorial-policies
- https://www.nature.com/srep/journal-policies/editorial-policies
- https://www.biomedcentral.com/getpublished/editorial-policies