Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Elektrotechnik und Systemtechnik# Ton# Künstliche Intelligenz# Software-Entwicklung# Audio- und Sprachverarbeitung

Die Verbesserung der Spracherkennung für Stotterer

Eine Methode, um ASR-Systeme für Nutzer mit Stottern zu verbessern.

― 5 min Lesedauer


ASR-Zugänglichkeit fürASR-Zugänglichkeit fürStottererverbessern.Unterstützung für Stottern zuTesten von ASR-Systemen, um die
Inhaltsverzeichnis

Automatische Spracherkennungssysteme (ASR) sind mittlerweile echt normal in unserem Alltag. Diese Systeme wandeln gesprochene Sprache in Text um. Obwohl sie sich über die Jahre echt verbessert haben, haben sie immer noch Probleme mit bestimmten Spracharten, wie bei Leuten, die stottern. In diesem Papier geht's um eine Methode, um ASR-Systeme besser zu testen, damit sie für Stotterer zugänglicher werden.

Der Bedarf an Barrierefreiheit in ASR-Systemen

Viele Menschen nutzen ASR-Systeme, darunter auch Personen mit Behinderungen. Es ist wichtig, die Barrierefreiheit dieser Systeme für Nutzer, die stottern, zu verbessern. Stottern kann zu Missverständnissen führen, weshalb es wichtig ist, dass ASR-Systeme diese Sprachart genau erkennen. Aber bestehende ASR-Systeme haben Schwierigkeiten, gestotterte Sprache zu verarbeiten.

Herausforderungen beim Testen von ASR-Systemen

Das Testen von ASR-Systemen hinsichtlich ihrer Fähigkeit, stotternde Sprache zu erkennen, ist nicht so einfach. Ein grosses Problem ist der Mangel an vielfältigen Sprachdatensätzen von Personen, die stottern. Die meisten verfügbaren Datensätze repräsentieren nicht genügend die verschiedenen Arten, wie Stottern auftritt. Ausserdem fehlen oft die korrekten Texttranskriptionen, was bedeutet, dass sie nicht effektiv zum Testen von ASR-Systemen verwendet werden können.

Das Ziel effektiver Tests ist es, vielfältige Beispiele gestotterter Sprache zu erstellen, die helfen können, Schwächen in ASR-Systemen sichtbar zu machen. Diese Studie schlägt eine Methode vor, um gestotterte Sprachproben zu erzeugen, die zur genauen Bewertung von ASR-Systemen genutzt werden können.

Erzeugen von gestotterten Sprachproben

Um ASR-Systeme effektiv zu testen, stellen wir eine Technik vor, um gestotterte Sprachproben zu erzeugen. Diese Technik beinhaltet das Erstellen von Audio-Dateien, die imitieren, wie stotternde Menschen sprechen, und sorgt gleichzeitig dafür, dass die generierten Proben abwechslungsreich genug sind, um mögliche Fehler in ASR-Systemen aufzudecken.

Arten des Stotterns

Stottern kann auf verschiedene Weise auftreten, und unsere Technik zielt darauf ab, diese Variationen zu simulieren. Die gängigen Arten des Stotterns sind:

  1. Blockade: Das passiert, wenn eine Person mitten in einem Wort pausiert.
  2. Verlängerung: Dabei wird eine Silbe über ihre normale Dauer hinaus gedehnt.
  3. Lautwiederholung: In diesem Fall wird eine Silbe wiederholt.
  4. Wiederholung von Wörtern: Hier werden ganze Wörter wiederholt.
  5. Einschübe: Der Sprecher fügt Füllwörter wie „äh“ oder „hm“ während des Sprechens hinzu.

Durch das Einbeziehen dieser Variationen produziert unsere Methode realistische Stotterproben für Tests.

Bewertung von ASR-Systemen

Um zu beurteilen, wie gut ASR-Systeme mit den generierten gestotterten Audio-Proben umgehen, haben wir eine Reihe von Tests mit sowohl Open-Source- als auch kommerziellen ASR-Systemen durchgeführt. Diese Tests haben gemessen, wie viele Fehler die Systeme gemacht haben, als sie versuchten, die Sprache zu transkribieren.

Leistungskennzahlen

Wir haben drei Hauptmetriken verwendet, um ASR-Systeme zu bewerten:

  1. Wortfehlerquote (WER): Diese misst den Prozentsatz der falschen Wörter in der ASR-Transkription im Vergleich zum Originaltext.
  2. Übereinstimmungsfehlerquote (MER): Diese bewertet, wie viele Wörter falsch transkribiert wurden im Vergleich zu denen, die mit dem Originaltext übereinstimmten.
  3. Wortinformationen verloren (WIL): Diese bewertet, wie viel Information das ASR-System im Vergleich zum Originaltext verloren hat.

Diese Metriken helfen zu verstehen, wie gut ASR-Systeme gestotterte Sprache erkennen.

Ergebnisse der Bewertung

Wir haben unsere Testtechnik umgesetzt und die Leistung von vier Open-Source-ASR-Modellen und drei kommerziellen ASR-Systemen bewertet. Die Ergebnisse haben gezeigt, dass unsere generierten Stotterproben die Erkennungsfehler in allen getesteten Systemen signifikant erhöht haben.

Nutzerstudie

Neben den technischen Bewertungen haben wir eine Nutzerstudie durchgeführt, um zu überprüfen, ob die generierten gestotterten Audio-Proben realistisch klangen. Die Teilnehmer erhielten Paare von Audio-Proben, eine generierte und eine echte. Ihre Aufgabe war es, die echte Probe zu identifizieren. Die Ergebnisse zeigten, dass die Teilnehmer Schwierigkeiten hatten, zwischen der generierten und der echten Stotter-Audio zu unterscheiden, was die Realitätsnähe unserer Proben bestätigt.

Auswirkungen verschiedener Stotterarten

Wir haben auch untersucht, wie jede Art von Stottern die Leistung von ASR-Systemen beeinflusste. Jede der fünf Stotterarten wurde einzeln getestet, um zu sehen, welche den grössten Einfluss auf die ASR-Erkennungsraten hatte.

Die Blockade-Art des Stotterns zeigte die höchsten Fehlerquoten, gefolgt von Einschüben und Verlängerungen. Wort- und Lautwiederholungen trugen ebenfalls zu Fehlern bei, aber in geringerem Masse. Dieses Verständnis hilft dabei, die Aspekte des Stotterns zu identifizieren, die ASR-Systeme am meisten herausfordern.

Vergleich von ASR-Systemen

Wir haben die Leistungen verschiedener ASR-Systeme verglichen und dabei bemerkenswerte Unterschiede festgestellt. Die kommerziellen Systeme schnitten im Allgemeinen besser ab als die Open-Source-Varianten, aber es gab immer noch signifikante Fehler bei der Erkennung gestotterter Sprache. Unter den kommerziellen Systemen übertraf eines die anderen und erzielte die besten Erkennungsraten.

Bedeutung robuster Tests

Unsere Ergebnisse betonen die Notwendigkeit robuster Testmethoden für ASR-Systeme. Durch die Simulation realistisch gestotterter Sprache können Entwickler die Schwächen ihrer Systeme besser verstehen und daran arbeiten, genauere und inklusivere Technologien zu schaffen.

Das Testen von ASR-Systemen mit generierten gestotterten Audio ist entscheidend für Fortschritte. Das wird sicherstellen, dass Menschen, die stottern, eine bessere Erfahrung mit Spracherkennungstechnologien haben.

Zukünftige Richtungen

Die vorgestellte Forschung eröffnet mehrere Möglichkeiten für zukünftige Arbeiten. Weitere Untersuchungen können unterschiedlichere Stottermuster und deren Auswirkungen auf die ASR-Leistung untersuchen. Ausserdem wird kontinuierliches Testen notwendig sein, um die Verbesserungen in der Barrierefreiheit aufrechtzuerhalten, während sich die ASR-Technologie weiterentwickelt.

Fazit

Die Barrierefreiheit von ASR-Systemen ist wichtig für Nutzer mit Sprachstörungen, insbesondere für Stotterer. Unsere Methode zur Erzeugung realistischer gestotterter Audio-Proben bietet eine solide Basis für die Bewertung von ASR-Systemen. Indem Schwächen in den aktuellen Modellen identifiziert werden, können Forscher und Entwickler zusammenarbeiten, um bessere, inklusivere Spracherkennungstechnologien zu schaffen.

Originalquelle

Titel: ASTER: Automatic Speech Recognition System Accessibility Testing for Stutterers

Zusammenfassung: The popularity of automatic speech recognition (ASR) systems nowadays leads to an increasing need for improving their accessibility. Handling stuttering speech is an important feature for accessible ASR systems. To improve the accessibility of ASR systems for stutterers, we need to expose and analyze the failures of ASR systems on stuttering speech. The speech datasets recorded from stutterers are not diverse enough to expose most of the failures. Furthermore, these datasets lack ground truth information about the non-stuttered text, rendering them unsuitable as comprehensive test suites. Therefore, a methodology for generating stuttering speech as test inputs to test and analyze the performance of ASR systems is needed. However, generating valid test inputs in this scenario is challenging. The reason is that although the generated test inputs should mimic how stutterers speak, they should also be diverse enough to trigger more failures. To address the challenge, we propose ASTER, a technique for automatically testing the accessibility of ASR systems. ASTER can generate valid test cases by injecting five different types of stuttering. The generated test cases can both simulate realistic stuttering speech and expose failures in ASR systems. Moreover, ASTER can further enhance the quality of the test cases with a multi-objective optimization-based seed updating algorithm. We implemented ASTER as a framework and evaluated it on four open-source ASR models and three commercial ASR systems. We conduct a comprehensive evaluation of ASTER and find that it significantly increases the word error rate, match error rate, and word information loss in the evaluated ASR systems. Additionally, our user study demonstrates that the generated stuttering audio is indistinguishable from real-world stuttering audio clips.

Autoren: Yi Liu, Yuekang Li, Gelei Deng, Felix Juefei-Xu, Yao Du, Cen Zhang, Chengwei Liu, Yeting Li, Lei Ma, Yang Liu

Letzte Aktualisierung: 2023-08-29 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2308.15742

Quell-PDF: https://arxiv.org/pdf/2308.15742

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel