Die Verbesserung der Spracherkennung für Stotterer

Eine Methode, um ASR-Systeme für Nutzer mit Stottern zu verbessern.

2025-09-20T06:36:35+00:00 ― 5 min Lesedauer

Inhaltsverzeichnis

Der Bedarf an Barrierefreiheit in ASR-Systemen
Herausforderungen beim Testen von ASR-Systemen
Erzeugen von gestotterten Sprachproben
Bewertung von ASR-Systemen
Ergebnisse der Bewertung
Auswirkungen verschiedener Stotterarten
Vergleich von ASR-Systemen
Bedeutung robuster Tests
Zukünftige Richtungen
Fazit
Originalquelle
Referenz Links

Automatische Spracherkennungssysteme (ASR) sind mittlerweile echt normal in unserem Alltag. Diese Systeme wandeln gesprochene Sprache in Text um. Obwohl sie sich über die Jahre echt verbessert haben, haben sie immer noch Probleme mit bestimmten Spracharten, wie bei Leuten, die stottern. In diesem Papier geht's um eine Methode, um ASR-Systeme besser zu testen, damit sie für Stotterer zugänglicher werden.

Der Bedarf an Barrierefreiheit in ASR-Systemen

Viele Menschen nutzen ASR-Systeme, darunter auch Personen mit Behinderungen. Es ist wichtig, die Barrierefreiheit dieser Systeme für Nutzer, die stottern, zu verbessern. Stottern kann zu Missverständnissen führen, weshalb es wichtig ist, dass ASR-Systeme diese Sprachart genau erkennen. Aber bestehende ASR-Systeme haben Schwierigkeiten, gestotterte Sprache zu verarbeiten.

Herausforderungen beim Testen von ASR-Systemen

Das Testen von ASR-Systemen hinsichtlich ihrer Fähigkeit, stotternde Sprache zu erkennen, ist nicht so einfach. Ein grosses Problem ist der Mangel an vielfältigen Sprachdatensätzen von Personen, die stottern. Die meisten verfügbaren Datensätze repräsentieren nicht genügend die verschiedenen Arten, wie Stottern auftritt. Ausserdem fehlen oft die korrekten Texttranskriptionen, was bedeutet, dass sie nicht effektiv zum Testen von ASR-Systemen verwendet werden können.

Das Ziel effektiver Tests ist es, vielfältige Beispiele gestotterter Sprache zu erstellen, die helfen können, Schwächen in ASR-Systemen sichtbar zu machen. Diese Studie schlägt eine Methode vor, um gestotterte Sprachproben zu erzeugen, die zur genauen Bewertung von ASR-Systemen genutzt werden können.

Erzeugen von gestotterten Sprachproben

Um ASR-Systeme effektiv zu testen, stellen wir eine Technik vor, um gestotterte Sprachproben zu erzeugen. Diese Technik beinhaltet das Erstellen von Audio-Dateien, die imitieren, wie stotternde Menschen sprechen, und sorgt gleichzeitig dafür, dass die generierten Proben abwechslungsreich genug sind, um mögliche Fehler in ASR-Systemen aufzudecken.

Arten des Stotterns

Stottern kann auf verschiedene Weise auftreten, und unsere Technik zielt darauf ab, diese Variationen zu simulieren. Die gängigen Arten des Stotterns sind:

Blockade: Das passiert, wenn eine Person mitten in einem Wort pausiert.
Verlängerung: Dabei wird eine Silbe über ihre normale Dauer hinaus gedehnt.
Lautwiederholung: In diesem Fall wird eine Silbe wiederholt.
Wiederholung von Wörtern: Hier werden ganze Wörter wiederholt.
Einschübe: Der Sprecher fügt Füllwörter wie „äh“ oder „hm“ während des Sprechens hinzu.

Durch das Einbeziehen dieser Variationen produziert unsere Methode realistische Stotterproben für Tests.

Bewertung von ASR-Systemen

Um zu beurteilen, wie gut ASR-Systeme mit den generierten gestotterten Audio-Proben umgehen, haben wir eine Reihe von Tests mit sowohl Open-Source- als auch kommerziellen ASR-Systemen durchgeführt. Diese Tests haben gemessen, wie viele Fehler die Systeme gemacht haben, als sie versuchten, die Sprache zu transkribieren.

Leistungskennzahlen

Wir haben drei Hauptmetriken verwendet, um ASR-Systeme zu bewerten:

Wortfehlerquote (WER): Diese misst den Prozentsatz der falschen Wörter in der ASR-Transkription im Vergleich zum Originaltext.
Übereinstimmungsfehlerquote (MER): Diese bewertet, wie viele Wörter falsch transkribiert wurden im Vergleich zu denen, die mit dem Originaltext übereinstimmten.
Wortinformationen verloren (WIL): Diese bewertet, wie viel Information das ASR-System im Vergleich zum Originaltext verloren hat.

Diese Metriken helfen zu verstehen, wie gut ASR-Systeme gestotterte Sprache erkennen.

Ergebnisse der Bewertung

Wir haben unsere Testtechnik umgesetzt und die Leistung von vier Open-Source-ASR-Modellen und drei kommerziellen ASR-Systemen bewertet. Die Ergebnisse haben gezeigt, dass unsere generierten Stotterproben die Erkennungsfehler in allen getesteten Systemen signifikant erhöht haben.

Nutzerstudie

Neben den technischen Bewertungen haben wir eine Nutzerstudie durchgeführt, um zu überprüfen, ob die generierten gestotterten Audio-Proben realistisch klangen. Die Teilnehmer erhielten Paare von Audio-Proben, eine generierte und eine echte. Ihre Aufgabe war es, die echte Probe zu identifizieren. Die Ergebnisse zeigten, dass die Teilnehmer Schwierigkeiten hatten, zwischen der generierten und der echten Stotter-Audio zu unterscheiden, was die Realitätsnähe unserer Proben bestätigt.

Auswirkungen verschiedener Stotterarten

Wir haben auch untersucht, wie jede Art von Stottern die Leistung von ASR-Systemen beeinflusste. Jede der fünf Stotterarten wurde einzeln getestet, um zu sehen, welche den grössten Einfluss auf die ASR-Erkennungsraten hatte.

Die Blockade-Art des Stotterns zeigte die höchsten Fehlerquoten, gefolgt von Einschüben und Verlängerungen. Wort- und Lautwiederholungen trugen ebenfalls zu Fehlern bei, aber in geringerem Masse. Dieses Verständnis hilft dabei, die Aspekte des Stotterns zu identifizieren, die ASR-Systeme am meisten herausfordern.

Vergleich von ASR-Systemen

Wir haben die Leistungen verschiedener ASR-Systeme verglichen und dabei bemerkenswerte Unterschiede festgestellt. Die kommerziellen Systeme schnitten im Allgemeinen besser ab als die Open-Source-Varianten, aber es gab immer noch signifikante Fehler bei der Erkennung gestotterter Sprache. Unter den kommerziellen Systemen übertraf eines die anderen und erzielte die besten Erkennungsraten.

Bedeutung robuster Tests

Unsere Ergebnisse betonen die Notwendigkeit robuster Testmethoden für ASR-Systeme. Durch die Simulation realistisch gestotterter Sprache können Entwickler die Schwächen ihrer Systeme besser verstehen und daran arbeiten, genauere und inklusivere Technologien zu schaffen.

Das Testen von ASR-Systemen mit generierten gestotterten Audio ist entscheidend für Fortschritte. Das wird sicherstellen, dass Menschen, die stottern, eine bessere Erfahrung mit Spracherkennungstechnologien haben.

Zukünftige Richtungen

Die vorgestellte Forschung eröffnet mehrere Möglichkeiten für zukünftige Arbeiten. Weitere Untersuchungen können unterschiedlichere Stottermuster und deren Auswirkungen auf die ASR-Leistung untersuchen. Ausserdem wird kontinuierliches Testen notwendig sein, um die Verbesserungen in der Barrierefreiheit aufrechtzuerhalten, während sich die ASR-Technologie weiterentwickelt.

Fazit

Die Barrierefreiheit von ASR-Systemen ist wichtig für Nutzer mit Sprachstörungen, insbesondere für Stotterer. Unsere Methode zur Erzeugung realistischer gestotterter Audio-Proben bietet eine solide Basis für die Bewertung von ASR-Systemen. Indem Schwächen in den aktuellen Modellen identifiziert werden, können Forscher und Entwickler zusammenarbeiten, um bessere, inklusivere Spracherkennungstechnologien zu schaffen.

Die Verbesserung der Spracherkennung für Stotterer

Eine Methode, um ASR-Systeme für Nutzer mit Stottern zu verbessern.

#Der Bedarf an Barrierefreiheit in ASR-Systemen

#Herausforderungen beim Testen von ASR-Systemen

#Erzeugen von gestotterten Sprachproben

#Arten des Stotterns

#Bewertung von ASR-Systemen

#Leistungskennzahlen

#Ergebnisse der Bewertung

#Nutzerstudie

#Auswirkungen verschiedener Stotterarten

#Vergleich von ASR-Systemen

#Bedeutung robuster Tests

#Zukünftige Richtungen

#Fazit

Referenz Links

Referenzierte Themen