Ein neuer Ansatz zur Erkennung von Schlüsselwörtern
Eine flexible Methode zur Erkennung von Schlüsselwörtern in der Sprache über verschiedene Sprachen hinweg.
― 6 min Lesedauer
Inhaltsverzeichnis
Keyword Spotting (KWS) ist ein wichtiger Teil von Systemen, die Sprache erkennen. Es geht darum, bestimmte Wörter oder Phrasen in einem kontinuierlichen Audio-Stream zu finden. Diese Fähigkeit ist für viele Anwendungen entscheidend, wie zum Beispiel automatisierte Transkriptionsdienste und sprachgesteuerte Assistenten.
Trotz technologischer Fortschritte hat KWS immer noch Herausforderungen. Ein grosses Problem ist die Anpassungsfähigkeit und Personalisierung. Normalerweise können KWS-Systeme nur eine vorgegebene Liste von Keywords erkennen. Das bedeutet, dass sie eine Menge gelabelter Daten für jedes Keyword benötigen, was ihre Nützlichkeit einschränken kann.
Manchmal erfordert die Anpassung eines Modells zur Erkennung neuer Keywords ein Retraining, was zeitaufwendig und ressourcenintensiv ist. Kürzlich haben einige neue Methoden, wie Few-Shot Learning, versucht, einen flexibleren Umgang mit KWS zu bieten, aber sie haben immer noch Schwierigkeiten, bei neuen oder nicht im Wortschatz enthaltenen Keywords gut abzuschneiden. Das kann besonders schwierig in ressourcenschwachen Sprachen sein, wo es eine Herausforderung ist, genug Daten zu finden.
Ein Ziel im KWS ist es, ein System zu schaffen, das benutzerdefinierte Keywords in mehreren Sprachen erkennen kann, ohne extra Beispiele oder Anpassungen zu benötigen. Einige neuere Methoden haben an offenen Vokabular-KWS-Systemen gearbeitet, die sich anpassen können, um Keywords zu erkennen, die während des Trainings nicht gesehen wurden. Diese Systeme nutzen normalerweise einen Text-Encoder, um Audio- und Textinformationen in einen gemeinsamen Raum zu verknüpfen. Dennoch gibt es weiterhin Herausforderungen.
Eine Herausforderung besteht darin, dass die Verwendung von zwei separaten Encodern für Audio und Text zu einer Fehlanpassung zwischen den beiden führen kann. Eine weitere Einschränkung ist, dass einige dieser Methoden auf Phonem-Modellen basieren, die möglicherweise nicht gut für Sprachen mit weniger Ressourcen geeignet sind. Schliesslich wurden die meisten dieser Ansätze hauptsächlich an englischen Daten evaluiert, was Fragen zur Wirksamkeit in verschiedenen Sprachen und Dialekten aufwirft.
Vorgeschlagene Methode für Keyword Spotting
Um diese Probleme anzugehen, stellen wir eine neue Methode für Keyword Spotting vor, die adaptive Instanznormalisierung nutzt. Anstatt zu versuchen, Audio und Text in einem gemeinsamen Raum auszurichten, verwendet unsere Methode einen zeichenbasierten Encoder, der das eingegebene Keyword in Normalisierungsparameter umwandelt. Diese Parameter helfen bei der Verarbeitung des Audios durch Module, die speziell für die Keyword-Anpassung entwickelt wurden.
Das adaptive Modul ersetzt die standardmässigen Normalisierungsebenen durch adaptive Instanznormalisierungsebenen. Diese Ebenen haben sich in verschiedenen Aufgaben, wie Bildbearbeitung, als effektiv erwiesen. Um falsche Erkennungen ähnlicher klingender Keywords während des Trainings zu reduzieren, haben wir eine neue Technik zur Auffindung herausfordernder negativer Beispiele entwickelt.
Im Gegensatz zu früheren Methoden, die KWS-Modelle auf segmentierten Audio-Samples trainierten, die nur das Ziel-Keyword enthielten, trainieren wir unser Modell auf kompletten Sätzen. Das bedeutet, wir müssen uns nicht um die Ausrichtung von Keywords mit Audio-Segmenten kümmern, was es uns ermöglicht, viel mehr Trainingsdaten zu verwenden.
Komponenten des Keyword Spotting Modells
Das Modell besteht aus zwei Hauptteilen: einem Text-Encoder und einem Audio-Klassifikator. Der Audio-Klassifikator umfasst einen Audio-Encoder und keyword-adaptive Module. Für unseren Audio-Encoder verwenden wir ein vortrainiertes Modell und lassen es während unserer Experimente unverändert. Wenn wir Audio in den Audio-Encoder eingeben, erzeugt er eine Audio-Darstellung, die in die keyword-adaptiven Module eingespeist wird. Jedes Modul verarbeitet das Audio unter Verwendung der Normalisierungsparameter, die mit dem spezifischen Keyword verknüpft sind.
Wir haben auch einen leichten Text-Encoder, der das Ziel-Keyword mit Normalisierungsparametern verknüpft. Diese Anordnung ermöglicht es dem Modell, Informationen zwischen verschiedenen Keywords zu teilen und gleichzeitig effektiv auf spezifische Keywords zu reagieren.
Technik zur negativen Stichprobenbildung
Die Schaffung vielfältiger negativer Beispiele ist entscheidend für ein effektives Training. Wir verwenden einen Ansatz zur negativen Stichprobenbildung, der harte negative Beispiele für jedes Trainings-Batch generiert. Die Trainingsdaten bestehen aus Sprachäusserungen und deren Transkripten sowie einer Reihe von Keywords.
Um ein positives Trainingsbeispiel zu erstellen, wählen wir zufällig ein Keyword aus und paaren es mit dem entsprechenden Audio. Um negative Beispiele zu erstellen, können wir mehrere Strategien verwenden:
Zufällige negative Stichproben: Wähle ein zufälliges Keyword. Diese Methode ist jedoch nicht immer effektiv, da die zufällig ausgewählten Keywords sehr unterschiedlich vom Ziel-Keyword klingen können.
Zeichenersetzung: Ändere ein oder mehrere Zeichen im positiven Keyword, um ein neues zu erstellen. Dies könnte beinhalten, zufällig Zeichen auszuwählen oder eine Karte ähnlicher klingender Zeichen zu verwenden.
Keyword-Konkatenation: Kombiniere ein positives Keyword mit einem anderen zufälligen Keyword, um ein negatives Beispiel zu erstellen.
Nächste Keyword-Stichprobe: Finde ein Keyword, das akustisch ähnlich dem positiven Keyword ist, indem du dir deren Textdarstellungen ansiehst.
Diese Methoden helfen uns, das Modell besser zu trainieren, um zwischen ähnlichen Keywords zu unterscheiden.
Leistungsauswertung
Unsere Methode wurde an verschiedenen Datensätzen getestet, um ihre Wirksamkeit zu beurteilen. Einer der Hauptdatensätze, die wir verwendet haben, ist VoxPopuli, das eine grosse Anzahl multilingualer Sprachproben enthält. Wir haben auch LibriPhrase verwendet, einen Benchmark, der für Keyword Spotting konzipiert ist und sowohl schwierige als auch einfache Splits hat.
Als wir unsere Methode mit mehreren anderen verglichen, haben wir durchweg festgestellt, dass unser Ansatz die bestehenden Modelle übertroffen hat. Zum Beispiel bot unser Modell im VoxPopuli-Datensatz bessere Ergebnisse als die Basis-Methoden und zeigte seine Effizienz über mehrere Sprachen hinweg.
Ausserdem haben wir die Fähigkeit unseres Modells bewertet, sich auf neue, ressourcenschwache Sprachen zu verallgemeinern. Wir haben es an einer Teilmenge von Sprachen aus einem anderen Datensatz ohne jegliches Fine-Tuning getestet. Die Ergebnisse bestätigten, dass unser Modell selbst bei Sprachen, mit denen es während des Trainings nicht konfrontiert wurde, nach wie vor starke Leistungen erbringen konnte.
Ablationsstudie
Wir führten weitere Analysen durch, um zu untersuchen, wie verschiedene Strategien zur negativen Stichprobenbildung die Leistung unseres Modells beeinflussten. Die Ergebnisse zeigten, dass unsere vorgeschlagenen Techniken zur negativen Stichprobenbildung erheblich zur Effektivität des Keyword Spotting-Modells beitrugen.
Fazit
Zusammenfassend haben wir einen neuen Ansatz für Keyword Spotting vorgestellt, der adaptive Instanznormalisierung nutzt. Unsere Methode ermöglicht es dem Modell, sich während seines Betriebs an neue Keywords anzupassen, was seine Vielseitigkeit erhöht. Durch die Einführung innovativer Strategien zur Erzeugung schwieriger negativer Beispiele haben wir erstklassige Ergebnisse in offenen Vokabular-Szenarien erzielt, selbst über mehrere Sprachen hinweg.
Darüber hinaus hat unsere Methode starke Fähigkeiten gezeigt, sich an ungesehene Sprachen und Datensätze anzupassen. Diese Fortschritte verbessern nicht nur die aktuellen Keyword Spotting-Methoden, sondern eröffnen auch neue Möglichkeiten für weitere Forschungen in diesem wichtigen Bereich der Spracherkennung.
Titel: Open-vocabulary Keyword-spotting with Adaptive Instance Normalization
Zusammenfassung: Open vocabulary keyword spotting is a crucial and challenging task in automatic speech recognition (ASR) that focuses on detecting user-defined keywords within a spoken utterance. Keyword spotting methods commonly map the audio utterance and keyword into a joint embedding space to obtain some affinity score. In this work, we propose AdaKWS, a novel method for keyword spotting in which a text encoder is trained to output keyword-conditioned normalization parameters. These parameters are used to process the auditory input. We provide an extensive evaluation using challenging and diverse multi-lingual benchmarks and show significant improvements over recent keyword spotting and ASR baselines. Furthermore, we study the effectiveness of our approach on low-resource languages that were unseen during the training. The results demonstrate a substantial performance improvement compared to baseline methods.
Autoren: Aviv Navon, Aviv Shamsian, Neta Glazer, Gill Hetz, Joseph Keshet
Letzte Aktualisierung: 2023-09-13 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2309.08561
Quell-PDF: https://arxiv.org/pdf/2309.08561
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.