Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Elektrotechnik und Systemtechnik# Rechnen und Sprache# Ton# Audio- und Sprachverarbeitung

Bewertung von Spracherkennungsmodellen: Eine umfassende Studie

Eine Analyse von sechs Spracherkennungsmodellen mit Fokus auf Geschwindigkeit und Genauigkeit.

― 6 min Lesedauer


Bewertung vonBewertung vonSprach­erkennungs­modellenführenden Sprachmodelle.Eine detaillierte Bewertung der
Inhaltsverzeichnis

Automatische Spracherkennung (ASR) Technologie ist über die Jahre zuverlässiger geworden und wird mittlerweile überall im Alltag genutzt. Aber wenn's um Forschung geht, kann die Auswahl des richtigen Modells für bestimmte Aufgaben tricky sein. Besonders wenn sowohl Geschwindigkeit als auch Genauigkeit wichtig sind. In diesem Artikel bewerten wir sechs Spracherkennungsmodelle basierend auf ihrer Leistung und haben ein paar neue Ideen, wie man sie analysieren kann.

Bewertung von Spracherkennungsmodellen

In unserer Bewertung haben wir sechs verschiedene Spracherkennungsmodelle angeschaut. Wir haben sie mit mehreren wichtigen Metriken gemessen: Wortfehlerquote (wie oft das System Fehler macht), Latenz (wie lange es dauert, um Wörter zu erkennen) und wie oft das System seine erkannten Wörter aktualisieren muss. Ausserdem haben wir eine neue Metrik namens Widerrufe pro Sekunde eingeführt, die untersucht, wie oft das System seine Meinung über das, was es erkannt hat, ändern muss.

Unsere Ergebnisse zeigen, dass lokale Spracherkennungsmodelle, die auf einem Gerät laufen, tendenziell schneller sind und weniger Updates brauchen im Vergleich zu Cloud-basierten Modellen, die auf Internetdienste angewiesen sind. Von den lokalen Modellen war Metas Wav2vec Modell das schnellste, während Mozillas DeepSpeech Modell die stabilsten Vorhersagen zeigte.

Wichtigkeit von Geschwindigkeit und Genauigkeit

Die Leistung der Spracherkennung hat sich in den letzten Jahren stark verbessert. Viele Modelle liefern die Ausgaben inkrementell, was bedeutet, dass sie Wörter oder Wortteile zeigen können, während sie erkannt werden. Das erhöht ihre Nützlichkeit in Echtzeitsituationen, wie Gesprächen mit Robotern oder virtuellen Assistenten, wo schnelle Antworten erwartet werden.

In Anwendungen, wo zeitnahe Interaktion entscheidend ist, sind genaue Vorhersagen unerlässlich. Fehler und Verzögerungen können alles im System negativ beeinflussen und die Gesamtleistung schmälern. Während die meisten Modelle die Wortfehlerquote zur Bewertung nutzen, erfasst diese Metrik nicht immer, wie gut Modelle in Echtzeitsituationen abschneiden.

Um diese Lücke zu schliessen, haben einige Forscher neue Metriken vorgeschlagen, die sich auf inkrementelle Leistung konzentrieren. Beispiele sind Bearbeitungsaufwand (wie viel Bearbeitung nötig ist) und Überlebensrate der Wörter (wie oft erkannte Wörter behalten werden). Diese Metriken fallen in drei Hauptbereiche: Gesamtgenauigkeit, Geschwindigkeit und Stabilität, konzentrieren sich aber hauptsächlich auf die Ausgabe einzelner Wörter.

Beiträge dieser Studie

In diesem Artikel haben wir drei wichtige Beiträge geleistet:

  1. Wir haben sechs aktuelle Spracherkennungsmodelle mit Daten in englischer Sprache bewertet.
  2. Wir haben eine neue kontinuierliche Metrik vorgeschlagen, die misst, wie oft ein Modell seine Ausgabe im Laufe der Zeit ändert.
  3. Wir haben zwei verschiedene Methoden verglichen, um kleinere Wortausgaben in grössere Wortausgaben zu kombinieren, während die Erkennung stattfindet.

Durch die Anwendung bewährter Bewertungsstrategien bieten wir eine Anleitung, welches Spracherkennungsmodell am besten für verschiedene Aufgaben geeignet sein könnte. Um es anderen einfacher zu machen, diese Modelle progressiv zu nutzen, haben wir sie alle als Module innerhalb des ReTiCo-Frameworks implementiert.

Lokale vs. Cloud-basierte Modelle

Wir haben uns auf lokale Modelle konzentriert, die auf einem Gerät arbeiten, und solche, die auf cloudbasierte Dienste angewiesen sind. Die Cloud-Modelle, die wir untersucht haben, waren Googles Cloud Speech-to-Text API und Microsoft Azures Speech SDK. Zu den lokalen Modellen gehörten Wav2Vec, DeepSpeech, PocketSphinx und Vosk.

Wav2Vec ist ein fortgeschrittenes Modell, das direkt mit Roh-Audiodaten arbeitet und auf einem grossen Datensatz vortrainiert wurde. DeepSpeech nutzt rekursive neuronale Netzwerke und arbeitet mit Audiospektren. PocketSphinx ist ein leichteres Modell, das auf traditionellen Spracherkennungsmethoden basiert. Vosk kombiniert ein neuronales Netzwerk mit anderen Standardmethoden für verbesserte Leistung.

Verschiedene Methoden für die Ausgabe

Es wurden zwei Hauptmethoden verwendet, um kleinere Ausgaben in grössere zu kombinieren: Sliding Window und Konkatenation. Bei der Sliding Window Methode verarbeitet das System sich überlappende Segmente von Audio, während die Konkatenationsmethode alle Audiosignale in einen Puffer für Vorhersagen kombiniert.

Während die Sliding Window Methode tendenziell eine niedrigere Latenz hat, ist die Konkatenationsmethode im Allgemeinen genauer. Sie benötigt jedoch mehr Rechenressourcen und Speicher, je länger das Audio über die Zeit wird.

Experimentelle Daten und Setup

Für unsere Bewertung haben wir zwei Datensets verwendet: das LibriSpeech-Datenset und ein Dialogdatenset mit simulierten medizinischen Gesprächen. Das LibriSpeech-Datenset umfasst eine breite Palette von Sprachproben und bietet eine vielfältige Auswahl an Stimmen und Akzenten. Das medizinische Dialogdatenset besteht aus aufgenommenen Gesprächen, die verschiedene Sprachmuster und -störungen enthalten.

Aus dem LibriSpeech-Datenset haben wir Dateien mit etwa 20 Wörtern analysiert, während das medizinische Datenset längere Gespräche umfasste, was uns ermöglichte, die Modellleistung in unterschiedlichen Kontexten zu bewerten.

Ergebnisse der Bewertung

Unsere Ergebnisse zeigen, dass lokale Modelle in der Regel eine niedrigere Latenz im Vergleich zu cloudbasierten Modellen hatten. Sie waren auch stabiler und benötigten insgesamt weniger Updates. Bei Verwendung der Sliding Window Methode schnitten lokale Modelle in Bezug auf Geschwindigkeit besser ab als Cloud-Modelle.

Einige lokale Modelle, die die Konkatenationsmethode verwendeten, wiesen jedoch eine bessere Genauigkeit als cloudbasierte Optionen auf. Zum Beispiel war Google tendenziell schneller, aber weniger stabil, während Azure genauer, aber langsamer war.

Wichtige Erkenntnisse

Insgesamt war das Wav2Vec Modell das beste in Bezug auf Genauigkeit bei Verwendung der Konkatenationsmethode auf dem LibriSpeech-Datenset. Ähnlich schnitt Vosk im medizinischen Dialogdatenset besser ab. Das DeepSpeech Modell wies jedoch ein hohes Mass an Stabilität auf und hatte niedrige Aktualisierungsraten.

Die Widerrufe pro Sekunde Metrik erwies sich als wertvoll für die Bewertung von Geschwindigkeit und Stabilität. Ein System, das zu Beginn weniger Widerrufe hatte, wurde bevorzugt, da es Probleme in Echtzeitsituationen minimierte.

Einschränkungen und zukünftige Arbeiten

Eine Herausforderung, der wir gegenüberstanden, war der Mangel an detaillierten Informationen über die Architektur und das Training der Cloud-Modelle. Das machte es schwer zu bestimmen, warum einige Modelle besser abschnitten als andere. In Zukunft planen wir, mehr Datensets zu testen und zu erkunden, wie Spracherkennungsmodelle in verschiedenen Sprachen abschneiden.

Fazit

Dieser Artikel hebt die Bewertung von sechs verschiedenen Spracherkennungsmodellen in einer inkrementellen Umgebung hervor. Wir haben eine neue Metrik namens Widerrufe pro Sekunde eingeführt, um die Leistung umfassend zu bewerten. Insgesamt zeigen unsere Ergebnisse, dass lokale Modelle in der Regel besser in Bezug auf Geschwindigkeit und Stabilität abschneiden, während Cloud-Modelle, obwohl sie genau sind, in zeitkritischen Situationen zu mehr Verzögerungen führen können. Diese Forschung soll zukünftige Arbeiten in der automatischen Spracherkennung leiten, besonders in Echtzeitanwendungen wie gesprochene Dialogsysteme.

Originalquelle

Titel: Evaluating Automatic Speech Recognition in an Incremental Setting

Zusammenfassung: The increasing reliability of automatic speech recognition has proliferated its everyday use. However, for research purposes, it is often unclear which model one should choose for a task, particularly if there is a requirement for speed as well as accuracy. In this paper, we systematically evaluate six speech recognizers using metrics including word error rate, latency, and the number of updates to already recognized words on English test data, as well as propose and compare two methods for streaming audio into recognizers for incremental recognition. We further propose Revokes per Second as a new metric for evaluating incremental recognition and demonstrate that it provides insights into overall model performance. We find that, generally, local recognizers are faster and require fewer updates than cloud-based recognizers. Finally, we find Meta's Wav2Vec model to be the fastest, and find Mozilla's DeepSpeech model to be the most stable in its predictions.

Autoren: Ryan Whetten, Mir Tahsin Imtiaz, Casey Kennington

Letzte Aktualisierung: 2023-02-23 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2302.12049

Quell-PDF: https://arxiv.org/pdf/2302.12049

Lizenz: https://creativecommons.org/licenses/by-sa/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel