Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Elektrotechnik und Systemtechnik# Rechnen und Sprache# Ton# Audio- und Sprachverarbeitung

Verbesserung der chinesischen Spracherkennung durch Pinyin-Regulierung

Diese Studie präsentiert einen Datensatz und eine Methode, um die Genauigkeit der chinesischen ASR mithilfe von Pinyin zu verbessern.

― 7 min Lesedauer


Pinyin für besserePinyin für besserechinesische ASRSprach­erkennungssystemen.die Fehlerkorrektur in chinesischenDie Verwendung von Pinyin verbessert
Inhaltsverzeichnis

Automatische Spracherkennungssysteme (ASR) werden in vielen Anwendungen genutzt, wie Sprachsuche, Befehlen und Transkriptionsdiensten. Allerdings haben diese Systeme oft Schwierigkeiten mit verschiedenen Faktoren, die die Leistung beeinflussen können, wie Hintergrundgeräusche, unterschiedliche Akzente der Sprecher und die Audioqualität. Wenn ASR-Ausgaben fehlerhaft sind, besonders in schwierigen Situationen, kann das negative Auswirkungen auf die Anwendungen haben, die darauf angewiesen sind. Um die Genauigkeit der ASR-Ausgaben zu verbessern, wird die Implementierung von Fehlerkorrekturmethoden sehr wichtig.

In letzter Zeit haben grosse Sprachmodelle (LLMs) vielversprechende Ergebnisse bei der Fehlerkorrektur in der Sprach-erkennung gezeigt. Ein Grossteil der Forschung in diesem Bereich hat sich auf die englische Sprache konzentriert, deshalb richtet dieses Papier die Aufmerksamkeit auf die chinesische Spracherkennung. Ein neuer spezialisiertes Datensatz wurde speziell für die Fehlerkorrektur in der chinesischen ASR erstellt. Dieser Datensatz enthält 724.000 Paare von Audio-Transkriptionen und Hypothesen, genannt der Chinese Hypotheses Paradise Datensatz (ChineseHP). Er deckt eine Vielzahl von Szenarien ab und stellt damit eine bedeutende Herausforderung für die Fehlerkorrektur dar.

Dieser Datensatz besteht aus den ASR-Ausgaben einer modifizierten Version von Whisper, einem bekannten Modell in diesem Bereich. Der ChineseHP-Datensatz umfasst verschiedene Arten von gesprochener Inhalte wie Lesesprache, Nachrichtenübertragungen, Meetings und Telefonate, sowie verschiedene Akzente und Dialekte. Ziel ist es, sicherzustellen, dass der Datensatz realistische Situationen widerspiegelt.

Eine grosse Herausforderung bei der Erkennung der chinesischen Sprache ist, dass sie eine logografische Sprache ist. Das bedeutet, dass die Aussprache von Zeichen nicht direkt mit deren Schreibweise verknüpft ist. Pinyin ist ein System, das römische Buchstaben verwendet, um die Laute chinesischer Zeichen darzustellen. Es wird in China häufig zum Lernen der Sprache verwendet und ist auch eine gängige Methode, um chinesische Zeichen auf Geräten einzugeben. Pinyin ist für LLMs nützlich, da es dabei hilft, die chinesischen Aussprachen verständlicher zu machen.

Die chinesische Sprache enthält viele Homophone, das heisst, verschiedene Zeichen können gleich klingen. Zum Beispiel werden die Zeichen für "Tisch" und "fangen" beide als "zhuo" ausgesprochen. Das kann ASR-Systeme verwirren und zu Fehlern führen. Allerdings zeigt eine Pinyin-Transkription aus der Text-Hypothese oft eine niedrigere Fehlerquote als der Text selbst, was sie nützlich zur Korrektur von Fehlern macht.

Um das auszunutzen, wird eine Methode namens Pinyin-Regulierung vorgeschlagen. Dabei werden Pinyin-Transkriptionen direkt aus den textuellen Hypothesen sowohl in den Aufforderungen für LLMs als auch während ihrer Feinabstimmung integriert. Die Ergebnisse von Experimenten zeigen, dass die Verwendung von Pinyin-Regulierung die Fähigkeit von LLMs zur Korrektur von Fehlern in chinesischer Sprache erheblich verbessern kann.

Der Artikel ist in mehrere Abschnitte unterteilt. Der erste Abschnitt stellt den Chinese Hypotheses Paradise Datensatz vor. Der nächste Abschnitt erklärt die Methode der Pinyin-Regulierung. Der folgende Teil beschreibt den experimentellen Aufbau und die Ergebnisse, die zu einem Schlussfolgerung am Ende führen.

Chinese Hypotheses Paradise Datensatz

Der ChineseHP-Datensatz umfasst eine grosse Anzahl von Audio-Proben, die aus erkannter gesprochener Sprache stammen. Er wurde anhand der Ausgaben einer auf Chinesisch fokussierten Version von Whisper, genannt Belle-distilwhisper-large-v2-zh, erstellt. Verschiedene Quellen wurden verwendet, um den Datensatz zusammenzustellen, einschliesslich Aishell-1, Wenetspeech, Aishell-4 und Kespeech. Diese Vielfalt stellt sicher, dass der Datensatz verschiedene Sprechsituationen repräsentiert.

Aishell-1 besteht aus standardisierter Lesesprache, während Wenetspeech Inhalte aus verschiedenen Bereichen des Internets einbringt. Er umfasst Testabschnitte für Nachrichtenübertragungen und Meetings. Aishell-4 konzentriert sich auf Telefonate, und Kespeech hebt Dialekte hervor. Da Wenetspeech und Kespeech viel mehr Daten enthalten als Aishell-1 und Aishell-4, wurden die Datensatzproben ausgeglichen, indem 200.000 Äusserungen aus jedem genommen wurden.

Zur Erstellung der Audio-Proben wurde eine Technik namens ASR-Baum-Suchdecodierung verwendet. Dieser Prozess half dabei, die 10 besten Hypothesen für jede Audio-Probe zu erstellen, die dann mit den richtigen Transkriptionen gepaart wurden. Die statistischen Details des Datensatzes zeigen seine Vielfalt und präsentieren regelmässige Sprache, Nachrichtenübertragungen, Meetings und verschiedene Akzente.

Pinyin-Regulierung

Pinyin, oder Hanyu Pinyin, ist ein beliebtes Romanisierungssystem für Mandarin. Es verwendet 23 Initiale, 24 Endungen und 5 Töne, einschliesslich des neutralen Tons, um Sprachlaute darzustellen. Einige Initiale und Endungen können zwischen verschiedenen Systemen leicht variieren, aber die grundlegenden Regeln bleiben gleich. In dieser Studie wird eine spezifische Version von Pinyin verwendet, die "ü" statt "v" und "en" statt "n" für einige Endungen verwendet, da diese Formen in China gebräuchlicher sind.

Die Laute chinesischer Zeichen entstehen durch die Kombination von Initialen und Endungen. Zum Beispiel wird das Zeichen "你" als "ni3" ausgesprochen, wobei "n" die Initiale und "i" die Endung ist, während "3" den Ton angibt. Es gibt auch Homophone, bei denen verschiedene Zeichen gleich klingen, sowie Heteronyme, bei denen dasselbe Zeichen je nach Kontext unterschiedliche Aussprachen hat.

Diese Faktoren können ASR-Systeme verwirren, insbesondere in lauten Umgebungen, wo Akzente oder Dialekte das erwartete Ergebnis beeinflussen könnten. Während ein Zeichen möglicherweise falsch erkannt wird, ist das entsprechende Pinyin aus der Text-Hypothese oft genau, was zu geringeren Fehlern in dieser Darstellung führt. Das macht Pinyin wertvoll für die Fehlerkorrektur.

Pinyin-Regulierte Aufforderungen

Für die Experimente wurden zwei Arten von Aufforderungen entwickelt: eine für die direkte Verwendung mit vortrainierten LLMs und eine andere für die Feinabstimmung dieser Modelle. Der erste Typ von Aufforderungen ist so strukturiert, dass sowohl Text-Hypothesen als auch entsprechende Pinyin enthalten sind. Um die Ausgabe besser zu steuern, wird das Modell angewiesen, im JSON-Format zu antworten.

Die Feinabstimmungsaufforderungen sind speziell für Modelle wie ChatGLM entwickelt, die gut für die chinesische Sprache geeignet sind. Die Trainingsdaten kombinieren Paare von Hypothesen und Transkriptionen aus dem ChineseHP-Datensatz, was die Leistung bei Fehlerkorrekturaufgaben verbessert.

Experimenteller Rahmen und Ergebnisse

Um die Effektivität der verschiedenen Aufforderungsstile zu beurteilen, wurden Experimente mit ausgewählten Proben aus dem ChineseHP-Datensatz durchgeführt. Die Experimente konzentrierten sich darauf, wie verschiedene Aufforderungen die Leistung von ChatGPT bei der Korrektur von Fehlern beeinflussten.

Es wurden verschiedene Aufforderungen erstellt, und ihre Effektivität wurde mit einem Mass namens Reduktion der Zeichenfehlerquote (CERR) gemessen. Die Ergebnisse zeigten, dass die Einbeziehung von Pinyin in den Aufforderungen zu erheblichen Leistungsverbesserungen bei der Fehlerkorrektur führte. Die Genauigkeit der Antworten des Modells war direkt mit der Präzision des bereitgestellten Pinyin verknüpft.

Um zu prüfen, ob die Verwendung der besten Text-Hypothese ähnliche Vorteile bringen würde, wurde ein Vergleich angestellt. Dabei stellte sich heraus, dass die ausschliessliche Verwendung von Text ohne Pinyin weniger effektive Ergebnisse lieferte, was die Vorteile der Integration von Pinyin für bessere Leistungen verdeutlicht.

Die Feinabstimmung mit ChatGLM zeigte ebenfalls vielversprechende Ergebnisse, insbesondere wenn Pinyin in den Trainingsprozess aufgenommen wurde. Die Experimente verdeutlichten die Herausforderungen bei komplexeren Aufgaben, aber es gab spürbare Verbesserungen in der Modellleistung mit der Verwendung von Pinyin. Die Ergebnisse deuten darauf hin, dass die Integration von Pinyin nicht nur bei der Fehlerkorrektur hilft, sondern auch das Verständnis durch die LLMs unterstützt.

Fallanalyse

Zwei Fälle wurden untersucht, um zu analysieren, wie unterschiedliche Aufforderungen bei der Korrektur von Fehlern abschnitten. Der erste Fall, der Inhalte aus standardisierten Lesemustern verwendete, zeigte eine effektive Korrektur mit Pinyin-Regulierung, selbst bei der Verwendung der besten Hypothese. Der zweite Fall, der komplexere Sprache mit verschiedenen Fehlern beinhaltete, zeigte, dass die Leistung aufgrund der Herausforderungen sank, die Pinyin-Regulierung jedoch weiterhin half, Fehler zu reduzieren.

Fazit

Diese Studie stellt einen bedeutenden neuen Datensatz für die Fehlerkorrektur in der chinesischen ASR vor, genannt der Chinese Hypotheses Paradise Datensatz (ChineseHP). Sie hebt die Bedeutung einer Vielzahl von Sprachszenarien hervor und präsentiert eine Methode zur Verbesserung der Präzision von LLMs durch Pinyin-Regulierung. Zukünftig wird der Fokus auf der Entwicklung fortschrittlicherer Feinabstimmungsmethoden, der Erstellung besserer Aufforderungen und der Nutzung zusätzlicher Trainingsressourcen liegen, um die Fähigkeiten von LLMs zur Fehlerkorrektur in der chinesischen ASR weiter zu verfeinern.

Originalquelle

Titel: Pinyin Regularization in Error Correction for Chinese Speech Recognition with Large Language Models

Zusammenfassung: Recent studies have demonstrated the efficacy of large language models (LLMs) in error correction for automatic speech recognition (ASR). However, much of the research focuses on the English language. This paper redirects the attention to Chinese. Firstly, we construct a specialized benchmark dataset aimed at error correction for Chinese ASR with 724K hypotheses-transcription pairs, named the Chinese Hypotheses Paradise dataset (ChineseHP), which contains a wide range of scenarios and presents significant challenges. Subsequently, we conduct a preliminary evaluation using the dataset for both direct-prompting and fine-tuning pre-trained LLMs. Furthermore, we propose a straightforward method of Pinyin regularization for prompts, which involves the transcription of Pinyin directly from text hypotheses. The experimental results reveal that Pinyin regularization consistently enhances the error-correcting ability of LLMs when compared with those without regularization. The dataset is available on the website.

Autoren: Zhiyuan Tang, Dong Wang, Shen Huang, Shidong Shang

Letzte Aktualisierung: 2024-07-01 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2407.01909

Quell-PDF: https://arxiv.org/pdf/2407.01909

Lizenz: https://creativecommons.org/licenses/by-nc-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel