Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Maschinelles Lernen

HK-LegiCoST: Die Brücke zwischen gesprochenem und geschriebenem Kantonesisch

Ein neuer Korpus für die Übersetzung von Kantonesisch-Audio in englischen Text.

― 5 min Lesedauer


Kantonesische ÜbersetzungKantonesische ÜbersetzungDurchbruchEnglische.Übersetzung von Kantonesisch-Audio insNeue Ressource verbessert die
Inhaltsverzeichnis

In den letzten Jahren gab's ein wachsendes Interesse daran, gesprochene Sprache in geschriebenen Text zu übersetzen, vor allem für Anwendungen wie automatische Videountertitel und das Lernen von Fremdsprachen. Während die meisten Forschungen sich auf weit verbreitete Sprachen konzentriert haben, fehlen Studien zu Sprachen, die überwiegend gesprochen werden oder bei denen die gesprochene Form ganz anders ist als die geschriebene. Kantonesisch ist so eine Sprache, bei der die schriftliche Version oft mehr dem Mandarin ähnelt als dem, wie Leute tatsächlich sprechen.

Um dieses Problem anzugehen, haben wir HK-LegiCoST entwickelt, eine neue Sammlung von Übersetzungen aus Kantonesisch ins Englische. Diese Sammlung umfasst über 600 Stunden Audioaufnahmen in Kantonesisch sowie schriftliche Transkripte in standardisiertem Chinesisch und englischen Übersetzungen. Die Audios bestehen aus Gesprächen und Reden des Hongkonger Legislativrats und behandeln Themen wie Regierungspolitik, Diskussionen und Debatten.

Herausforderungen bei der Erstellung des Korpus

Die Erstellung dieser Sammlung bringt einige bemerkenswerte Herausforderungen mit sich. Ein Hauptproblem ist, das gesprochene Audio auf Satzebene mit dem schriftlichen Transkript abzugleichen. Wegen der Unterschiede im gesprächlichen Kantonesisch und dem standardisierten Chinesisch stimmen die Transkripte nicht genau überein, was den Prozess kompliziert.

Um diese Ressource zu erstellen, mussten wir zuerst Daten von verschiedenen Sitzungen des Hongkonger Legislativrats sammeln. Die Sitzungen decken eine Reihe von Themen zu Regierungsführung und Politik ab. Der nächste Schritt bestand darin, Videoaufnahmen in Audiodateien umzuwandeln und dann den Text aus den entsprechenden Transkripten zu extrahieren.

Datensammlung und Verarbeitung

Die Rohdaten wurden aus Videoaufnahmen von Ratsitzungen zwischen 2016 und 2021 gesammelt. In den Sitzungen wurden verschiedene Themen angesprochen, wie Bildungsreform, Wohnungsbau, Gesundheitsversorgung und Wirtschaftspolitik. Die erste Aufgabe war, diese Videos in Audiodateien umzuwandeln, gefolgt von einem Prozess namens Segmentierung, der das Audio in kleinere, handhabbare Teile basierend auf den besprochenen Themen zerlegt.

Als nächstes mussten wir die Transkripte aus den Aufnahmen bereinigen. Das beinhaltete, irrelevante Informationen herauszufiltern und den Text in kleinere Segmente zu unterteilen, die zu den Audio-Clips passen. Wir organisierten den Text danach, wer spricht, und passten ihn an das Audio an, um die Ausrichtung zu erleichtern.

Abstimmung von Text und Audio

Ein entscheidender Schritt zur Erstellung unserer Ressource ist die Abstimmung des geschriebenen Textes mit dem Audio. Das erfordert eine Methode, um die Sätze im Audio mit Sätzen in den Transkripten abzugleichen. Dazu haben wir eine Technik verwendet, die das Erstellen von Satzembeddings beinhaltet, das sind mathematische Darstellungen von Sätzen. Indem wir diese Embeddings vergleichen, können wir ähnliche Sätze in den gesprochene und schriftlichen Formen finden.

Wir haben auch ein automatisch sprachliches Erkennungsmodell (ASR) speziell für Kantonesisch trainiert. Dieses Modell hilft, das gesprochene Audio wieder in geschriebenen Text umzuwandeln, was die Ausrichtung an den Transkripten erleichtert. Da die Transkripte jedoch keine genauen Übereinstimmungen mit dem Gesprochenen sind, fügt das eine zusätzliche Schwierigkeit hinzu.

Erste Abstimmung und Satz-Ebene-Ausrichtung

Um den Abstimmungsprozess zu starten, haben wir eine erste grobe Abstimmung durchgeführt, die Audiosegmente mit Textabschnitten abgeglichen hat. Mit Werkzeugen zur Spracherkennung konnten wir die Teile des Audios isolieren, die Sprache enthielten. Danach haben wir eine genauere Methode entwickelt, um Sätze abzugleichen.

Bei längeren Audiosegmenten war es herausfordernd, das Audio genau zu dekodieren. Um damit umzugehen, haben wir einen flexiblen Abstimmungsalgorithmus erstellt, der lange Segmente in kleinere Teile zerlegt. Dieser Algorithmus filtert auch jeglichen Text heraus, der nicht mit der Sprache übereinstimmt, was die Genauigkeit unserer Abstimmungen verbessert.

Sprachliche Merkmale des Korpus

Bei der Analyse der Daten haben wir mehrere interessante Merkmale der kantonesischen Sprache in unserer Sammlung identifiziert. Ein bedeutendes Phänomen ist die Umordnung von Wörtern und Phrasen, die auftritt, wenn gesprochenes Kantonesisch in standardisiertes Chinesisch umgewandelt wird. Zum Beispiel kann eine Phrase im Kantonesischen umgeordnet werden, wenn sie in standardisiertem Chinesisch geschrieben wird, was zu einer anderen Wortstellung führt.

Ein weiteres Merkmal, das wir festgestellt haben, ist das Vorhandensein von langen Kontextabhängigkeiten, das bedeutet, dass die Bedeutung bestimmter Wörter oder Phrasen von dem vorhergehenden Text in einem Dokument abhängen kann. Das ist in formellen Rahmen wie Ratssitzungen üblich, wo frühere Diskussionen spätere Aussagen beeinflussen können.

Basisexperimente

Um unser Korpus zu testen, haben wir ein paar Basisexperimente in automatischer Sprachenerkennung und maschineller Übersetzung durchgeführt. Mit unserer Sammlung haben wir Modelle trainiert, um Sprachenerkennungsaufgaben durchzuführen und die gesprochene Sprache ins Englische zu übersetzen. Wir haben wettbewerbsfähige Ergebnisse mit einem Modell erzielt, das wir ausschliesslich mit unseren Daten trainiert haben.

Wir haben auch unsere maschinellen Übersetzungsversuche mit bestehenden Systemen verglichen. Unsere Modelle schnitten besser ab bei der Übersetzung von benannten Entitäten, die oft schwierig für Übersetzungssysteme zu handhaben sind.

Fazit

Das HK-LegiCoST-Korpus dient als wichtige Ressource für das Studium der Sprachenerkennung und Übersetzung für Kantonesisch. Es besteht aus einer riesigen Menge an Audio- und Textdaten, die die linguistischen Merkmale der kantonesischen Sprache einfängt, zusammen mit den einzigartigen Herausforderungen, die durch die Unterschiede zwischen gesprochener und geschriebener Form entstehen.

Mit der Bereitstellung dieser Ressource wollen wir zum Verständnis beitragen, wie man gesprochene Sprachen besser übersetzen und erkennen kann, insbesondere solche wie Kantonesisch, die ihre eigenen Komplexitäten haben. Diese Arbeit ist ein Schritt in Richtung Fortschritt im Bereich der Sprachübersetzung und zur Verbesserung der Technologie für Sprachen, die oft übersehen werden.

Zusätzlich sind wir dabei, dieses Korpus öffentlich zugänglich zu machen, da wir möchten, dass andere in der Forschungsgemeinschaft von unseren Ergebnissen profitieren und zu zukünftigen Fortschritten in diesem Bereich beitragen können. Wir schätzen die Unterstützung und Ressourcen des Legislativrats der Sonderverwaltungsregion Hongkong, die dieses Projekt möglich gemacht haben.

Originalquelle

Titel: HK-LegiCoST: Leveraging Non-Verbatim Transcripts for Speech Translation

Zusammenfassung: We introduce HK-LegiCoST, a new three-way parallel corpus of Cantonese-English translations, containing 600+ hours of Cantonese audio, its standard traditional Chinese transcript, and English translation, segmented and aligned at the sentence level. We describe the notable challenges in corpus preparation: segmentation, alignment of long audio recordings, and sentence-level alignment with non-verbatim transcripts. Such transcripts make the corpus suitable for speech translation research when there are significant differences between the spoken and written forms of the source language. Due to its large size, we are able to demonstrate competitive speech translation baselines on HK-LegiCoST and extend them to promising cross-corpus results on the FLEURS Cantonese subset. These results deliver insights into speech recognition and translation research in languages for which non-verbatim or ``noisy'' transcription is common due to various factors, including vernacular and dialectal speech.

Autoren: Cihan Xiao, Henry Li Xinyuan, Jinyi Yang, Dongji Gao, Matthew Wiesner, Kevin Duh, Sanjeev Khudanpur

Letzte Aktualisierung: 2023-06-19 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2306.11252

Quell-PDF: https://arxiv.org/pdf/2306.11252

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel