Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Künstliche Intelligenz

Neue Sprachsammlung verbessert Schweizerdeutsch-Technologie

Eine grosse Sammlung hilft der Sprachtechnologie für Schweizerdeutschsprecher.

― 6 min Lesedauer


Launch der Sammlung vonLaunch der Sammlung vonSchweizerdeutschenSprachaufnahmensprechende verbessern.Technologie für Schweizerdeutsch
Inhaltsverzeichnis

Wir haben STT4SG-350 erstellt, eine grosse Sammlung von Sprachaufnahmen in Schweizerdeutsch. Diese Sammlung ist besonders, weil jede Aufnahme mit einer Übersetzung ins Hochdeutsche auf Satzebene verknüpft ist. Das Ziel dieses Projekts ist es, die Sprachtechnologien wie Spracherkennung, Text-to-Speech und das Verständnis verschiedener Dialekte zu unterstützen.

Die Sammlung umfasst 343 Stunden Sprache aus verschiedenen Teilen der Schweiz und ist damit die grösste öffentliche Sprachsammlung für Schweizerdeutsch bisher. Sie deckt ein breites Spektrum an Dialekten ab, die von etwa 5 Millionen Menschen gesprochen werden. Da sich Schweizerdeutsch in Bezug auf Laute, Wortschatz und Satzstruktur erheblich vom Hochdeutschen unterscheidet, ist dieser Ressourcentyp sehr wichtig.

Zweck und Nutzung des Korpus

STT4SG-350 soll verschiedene Anwendungen unterstützen. Wissenschaftler und Entwickler können es verwenden, um die Automatische Spracherkennung (ASR) zu verbessern, die gesprochene Sprache in geschriebenen Text umwandelt. Es kann auch nützlich sein, um natürlich klingende Sprachsynthese zu erstellen, verschiedene Dialekte zu identifizieren und zu erkennen, wer spricht.

Die Sammlung enthält Aufnahmen von 316 Sprechern, was für eine gute Mischung aus Altersgruppen und Geschlechtern sorgt. Alle Altersgruppen sind vertreten und es gibt eine ausgewogene Anzahl von männlichen und weiblichen Stimmen. Da aus jeder Dialektregion die gleiche Menge an Sprache aufgenommen wurde, ist dieses Setup perfekt, um zu testen, wie gut Sprachtechnologien in verschiedenen Dialekten funktionieren.

Datensammelprozess

Der Prozess zur Datenerhebung für STT4SG-350 bestand aus zwei Hauptphasen. In der ersten Phase wurde ein Testset erstellt, an dem 76 Teilnehmer von Dezember 2021 bis März 2022 teilnahmen. In der zweiten Phase wurden 240 Teilnehmer von Mai bis November 2022 für die Trainings- und Validierungssets aufgenommen.

Die Teilnehmer verwendeten eine Webanwendung, um ihre Stimmen aufzunehmen. Ihnen wurde ein Satz auf Hochdeutsch gezeigt und sie wurden gebeten, ihn ins Schweizerdeutsch zu übersetzen. Danach nahmen sie sich selbst auf, wie sie den übersetzten Satz sagten. Um die Qualität sicherzustellen, wurde eine Stichprobe einiger Aufnahmen randomisiert überprüft, um die Genauigkeit und die Klangklarheit zu bestätigen.

Dialektregionen und Satzauswahl

Schweizerdeutsch ist nicht einheitlich; es besteht aus vielen Dialekten, je nach Region. Für dieses Projekt haben wir sieben Dialektregionen in der Schweiz identifiziert. Jede Region hat ihre eigenen Merkmale, und wir haben darauf geachtet, verschiedene Dialekte in die Sammlung aufzunehmen. Die für die Aufnahmen ausgewählten Sätze wurden aus Schweizer Zeitungen und Parlamentsprotokollen entnommen, um eine breite Themenvielfalt und Sprachkomplexität sicherzustellen.

Um Fairness zu gewährleisten, haben wir in jeder Dialektregion das gleiche Satzset aufgenommen. So können Forscher evaluieren, wie gut Sprachtechnologien in verschiedenen Dialekten mit dem gleichen Material funktionieren.

Metadaten-Sammlung

Die Teilnehmer gaben während des Aufnahmeprozesses Informationen über ihren Dialekt, ihre Altersgruppe und ihr Geschlecht an. Durch das Sammeln dieser Informationen können wir analysieren, wie gut Sprachtechnologie über verschiedene demografische Gruppen funktioniert. Das ist entscheidend, um sicherzustellen, dass die Technologie inklusiv und effektiv für alle ist.

Korpus-Statistiken

Der STT4SG-350-Korpus besteht aus 343 Stunden Schweizerdeutschsprache, die in 247.527 Aufnahmen gesammelt wurden. Die durchschnittliche Länge jeder Aufnahme beträgt etwa fünf Sekunden. Insgesamt wurden 217.687 einzigartige Sätze aufgenommen, was zu einem grossen Wortschatz von etwa 42.980 Wörtern führt. Die Sprecher wurden ausgewählt, um ein Gleichgewicht zwischen Geschlechtern und Altersgruppen zu gewährleisten und sicherzustellen, dass die Aufnahmen die vielfältige Stimme der Schweizerdeutschsprecher widerspiegeln.

Qualitätskontrolle der Daten

Um die Qualität der Aufnahmen sicherzustellen, haben wir mehrere Massnahmen ergriffen. Wir haben Aufnahmen entfernt, die kürzer als zwei Sekunden waren oder Stille enthielten. Für das Testset haben wir speziell auf unvollständige Sätze geachtet und sichergestellt, dass wir Aufnahmen aus jedem Dialekt hatten.

Jeder Sprecher wurde manuell validiert, indem eine Stichprobe seiner Aufnahmen überprüft wurde. In diesem Schritt haben wir sichergestellt, dass der Dialekt korrekt war, die Übersetzungen genau und die Klangqualität akzeptabel. Die manuellen Überprüfungen haben uns geholfen, zu bestätigen, dass alle Teilnehmer genaue Schweizerdeutschsprachen produzierten.

Grundlage der automatischen Spracherkennung

Um die Effektivität unserer Sprachsammlung zu bewerten, haben wir ein Modell namens XLS-R trainiert, das auf einer Technologie basiert, die gesprochene Wörter in Text umwandelt. Nach der Feinabstimmung dieses Modells mit unseren Trainingsdaten haben wir es gegen bestehende Schweizerdeutsch-Sprachdatensätze getestet.

Unser feinabgestimmtes Modell erzielte sehr gute Ergebnisse und verbesserte vorherige Benchmarks anderer Sammlungen. Es zeigte, dass STT4SG-350 hochwertige Daten liefert, die die Spracherkennungstechnologie für Schweizerdeutsch erheblich verbessern können. Die Leistung bei verschiedenen Datensätzen zeigt die Nützlichkeit des STT4SG-350-Korpus für die Entwicklung besserer Sprachtechnologien.

Vorteile des Korpus

Das STT4SG-350-Projekt ist aus mehreren Gründen wichtig. Erstens bietet es einen grossen, qualitativ hochwertigen Datensatz, den Forscher und Entwickler nutzen können, um Sprachtechnologie zu erstellen und zu verbessern. Das hilft, die Technologie für Schweizerdeutschsprecher zugänglicher zu machen.

Zweitens erlaubt die ausgewogene Vertretung über Dialekte und Demografien faire Tests und Verbesserungen in Sprachtechnologien. Es erhöht die Fähigkeit automatisierter Systeme, Schweizerdeutsch in seinen verschiedenen Formen zu erkennen und darauf zu reagieren.

Drittens erweitert die Sammlung sowohl des Hochdeutschen als auch des Schweizerdeutschen das Potenzial für die Entwicklung von zweisprachigen oder Übersetzungsanwendungen, die auf Schweizer Sprecher zugeschnitten sind.

Einschränkungen

Trotz ihrer Grösse und Vielfalt hat das Korpus einige Einschränkungen. Zum Beispiel erfasst es hauptsächlich gelesene Sprache, die sich von der alltäglichen, spontanen gesprochene Sprache unterscheiden kann. Das bedeutet, dass die Technologie, die auf diesem Korpus trainiert wurde, möglicherweise nicht so gut bei spontanen Gesprächen funktioniert.

Ausserdem gibt es Dialekte und demografische Gruppen, die unterrepräsentiert sind. Das kann beeinflussen, wie gut Sprachtechnologien für bestimmte Sprecher funktionieren, insbesondere für Kinder oder ältere Personen.

Ethische Überlegungen

Wir haben darauf geachtet, dass die Teilnehmer vollständig über den Zweck ihrer Aufnahmen informiert waren. Sie stimmten zu, ihre Informationen über Dialekt, Alter und Geschlecht zu teilen, im Verständnis, dass dies zur Entwicklung der Sprachtechnologie verwendet wird.

Die Daten wurden gemäss den Datenschutzrichtlinien behandelt, und die Teilnehmer erhielten eine Entschädigung für ihre Zeit. Die Entschädigung variierte zwischen den Phasen, um eine breite Gruppe von Teilnehmern zu gewinnen.

Fazit und zukünftige Arbeiten

STT4SG-350 ist ein wichtiger Schritt im Bereich der Schweizerdeutschen Sprachtechnologie. Durch sorgfältige Datensammlung und -bewertung haben wir eine Ressource geschaffen, die die automatische Spracherkennung und andere sprachbezogene Technologien erheblich verbessern kann.

In Zukunft planen wir, eingehendere Studien durchzuführen, wie die Leistung der Spracherkennung über verschiedene Dialekte hinweg variiert. Ausserdem wollen wir Wege finden, die Technologie für unterrepräsentierte Dialekte zu verbessern, damit alle Schweizerdeutschsprecher von den Fortschritten in der Sprachtechnologie profitieren.

Zusammenfassend eröffnet STT4SG-350 neue Möglichkeiten für Forschung und Entwicklung in Schweizerdeutschen Sprachanwendungen und ebnet den Weg für einen inklusiveren Ansatz in der Sprachtechnologie in der Schweiz.

Originalquelle

Titel: STT4SG-350: A Speech Corpus for All Swiss German Dialect Regions

Zusammenfassung: We present STT4SG-350 (Speech-to-Text for Swiss German), a corpus of Swiss German speech, annotated with Standard German text at the sentence level. The data is collected using a web app in which the speakers are shown Standard German sentences, which they translate to Swiss German and record. We make the corpus publicly available. It contains 343 hours of speech from all dialect regions and is the largest public speech corpus for Swiss German to date. Application areas include automatic speech recognition (ASR), text-to-speech, dialect identification, and speaker recognition. Dialect information, age group, and gender of the 316 speakers are provided. Genders are equally represented and the corpus includes speakers of all ages. Roughly the same amount of speech is provided per dialect region, which makes the corpus ideally suited for experiments with speech technology for different dialects. We provide training, validation, and test splits of the data. The test set consists of the same spoken sentences for each dialect region and allows a fair evaluation of the quality of speech technologies in different dialects. We train an ASR model on the training set and achieve an average BLEU score of 74.7 on the test set. The model beats the best published BLEU scores on 2 other Swiss German ASR test sets, demonstrating the quality of the corpus.

Autoren: Michel Plüss, Jan Deriu, Yanick Schraner, Claudio Paonessa, Julia Hartmann, Larissa Schmidt, Christian Scheller, Manuela Hürlimann, Tanja Samardžić, Manfred Vogel, Mark Cieliebak

Letzte Aktualisierung: 2023-05-30 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2305.18855

Quell-PDF: https://arxiv.org/pdf/2305.18855

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel