Fortschritte im gemeinsamen Lernen von Sprache und Text
Ein neues Modell verbessert die Sprach- und Textausrichtung für eine bessere automatische Erkennung.
― 6 min Lesedauer
Inhaltsverzeichnis
Kürzliche Fortschritte in der Technik haben es möglich gemacht, Bilder basierend auf Textaufforderungen zu generieren, indem sowohl Text- als auch Bildinformationen kombiniert werden. Diese Idee wurde auf die automatische Spracherkennung (ASR) angewendet, wo Systeme jetzt sowohl Sprach- als auch Textdaten zusammen nutzen können. Diese Systeme zeigen vielversprechende Ergebnisse, haben aber Schwierigkeiten, wenn die Längen von Sprach- und Textsequenzen nicht übereinstimmen. Dieses Missverhältnis kann auf verschiedene Weisen angegangen werden, entweder indem die Handhabung der Sequenzen geändert wird oder indem eine Methode verwendet wird, die sie explizit ausrichtet.
In dieser Arbeit präsentieren wir Beweise dafür, dass gemeinsame Sprach-Text-Systeme gut funktionieren können, ohne dass sie strikt auf die Sequenzlängen achten müssen. Indem wir den Fokus auf die Konsistenz zwischen den Darstellungen von Sprache und Text legen, können diese Systeme auch bei unterschiedlicher Länge besser abschneiden. Wir zeigen ausserdem, dass unsere Methode zur Nutzung von Konsistenz die Wortfehlerquoten in Systemen verbessert, die eine Sprache verarbeiten, sowie in solchen, die mehrere Sprachen bearbeiten.
Der Erfolg grosser Modelle, die auf riesigen Datenmengen trainiert wurden, ist deutlich geworden. Das zeigt sich bei textbasierten Systemen, die Aufgaben ohne vorherige Beispiele ausführen können, und in Audiosystemen, die sich an verschiedene Klangherausforderungen anpassen. Dieser Erfolg erfordert Lösungen, die effektiv mit sowohl Text als auch Audio umgehen, ohne auf perfekt gepaarte Daten angewiesen zu sein.
Eine effektive Möglichkeit, das Problem anzugehen, besteht darin, ein grosses Modell zu trainieren, das sowohl mit Sprache als auch mit Text arbeiten kann, sodass Beispiele austauschbar verwendet werden können. Im Fall von Bildern und Text hat dieser Ansatz zu hohen Leistungen in verschiedenen Aufgaben geführt. Die Kombination von Audio und Text in ASR wurde ebenfalls untersucht, was zur Schaffung gemeinsamer Modelle führte, die aus ungepaarten Text- und Sprachdaten lernen können.
Allerdings steht ASR vor einer einzigartigen Herausforderung, da Sprache typischerweise längere Sequenzen als Text umfasst. Dieser Unterschied erschwert es, beide Datentypen im gleichen Raum darzustellen, was direkte Vergleiche schwierig macht. Um dies zu lösen, haben vergangene Ansätze entweder die Textsequenzen modifiziert oder ein separates Modell verwendet, um die Ausrichtung zu erreichen.
Eine Möglichkeit bestand darin, den Text während des Prozesses zu skalieren, was erfolgreich auf ASR-Aufgaben angewendet wurde. Diese Methode zeigt, dass eine ungefähre Ausrichtung ausreicht, damit das Modell effektiv lernen kann. Ein anderer Ansatz verwendet ein separat trainiertes Modell, um eine präzise Ausrichtung sicherzustellen, sodass das System Ausgaben von Sprache und Text direkt vergleichen kann.
Konsistenzregularisierung ist ein Konzept, das aus generativen Modellen stammt, bei dem Systeme daran arbeiten, übereinstimmende Beispiele auszurichten. Dies kann entweder explizit oder implizit geschehen. Die Frage stellt sich, ob Konsistenz erreicht werden kann, ohne die genaue Ausrichtung zwischen Sprache und Text zu kennen.
In unserer Arbeit untersuchen wir, ob wir Konsistenzregularisierung unter Verwendung impliziter Ausrichtungen anwenden können, ähnlich denen, die in anderen Systemen gelernt wurden, um die gleichen Vorteile wie bei expliziten Methoden zu erzielen. Dazu entwickeln wir einen Algorithmus, der die bestmögliche Ausrichtung zwischen Sprach- und Textbeispielen identifiziert. Wir stellen fest, dass diese Ausrichtung während des Trainings gelernt wird und sich verbessert, je tiefer das Modell wird.
Durch Anpassung der Kriterien für die Konsistenzregularisierung können wir eine bessere Ausrichtung fördern, was zu signifikanten Verbesserungen bei den Wortfehlerquoten führt, ohne dass ein separates Ausrichtungsmodell erforderlich ist. Unsere Ergebnisse zeigen, dass die Beibehaltung der Konsistenz in den cross-modalen Darstellungen durch das Zulassen gewisser Fehlanpassungen erreicht werden kann.
Vorgeschlagene Methodologie
Unsere Methodologie besteht darin, ein halbüberwachtes ASR-System zu erstellen, das auf dem gemeinsamen Modell von Sprache und Text basiert. Wir schlagen einen Algorithmus für die beste Ausrichtung und einen damit verbundenen Konsistenzverlust vor, inspiriert von früheren Arbeiten in diesem Bereich.
Die Modellarchitektur umfasst einen Audio-Encoder, der Audioeingaben verarbeitet, und einen Text-Encoder, der Texteingaben verarbeitet. Die Architektur beinhaltet auch eine gemeinsame Komponente, die Informationen aus beiden Modalitäten kombiniert. Dadurch wird eine gemeinsame Darstellung von Sprache und Text ermöglicht.
Der Trainingsprozess umfasst zwei Hauptaufgaben: ASR und maskierte Textrekonstruktion. Für ASR speisen wir Audio in den Audio-Encoder und vergleichen die Ausgabe mit echtem Text. Für die maskierte Textrekonstruktion maskieren wir Teile des Textes und trainieren das Modell, um die fehlenden Teile vorherzusagen.
Um unseren Konsistenzverlust zu definieren, betrachten wir gepaarte Beispiele von Sprache und Text. Wir brauchen eine Möglichkeit, diese Beispiele auszurichten, da sie in der Länge unterschiedlich sind. Wir definieren eine Ausrichtung als eine Liste von Indizes, die uns hilft, Audioframes mit den entsprechenden Textframes abzugleichen, sodass sichergestellt wird, dass die Audioframes korrekt mit der Textsequenz übereinstimmen.
Der Konsistenzverlust misst, wie ähnlich die gemeinsamen Darstellungen von Audio und Text sind, indem ein Ähnlichkeitsmass verwendet wird, um dies zu bewerten. Anstatt auf ein gelerntes Ausrichtungsmodell zu vertrauen, zielen wir darauf ab, die bestmögliche Ausrichtung auf Grundlage vorhandener Daten zu berechnen.
Beste Ausrichtung und Ergebnisse
Dynamisches Zeitdehnen ist eine Methode, die wir verwenden, um die beste Ausrichtung zwischen Sprach- und Textsequenzen zu identifizieren. Wir skizzieren eine Methode, um die Kosten zu berechnen, die mit dem Vergleich von zwei Sequenzen basierend auf Ausrichtungen verbunden sind. Das hilft uns, einen rekursiven Algorithmus zu etablieren, um die optimale Möglichkeit zu finden, Audio mit Text abzugleichen.
In unserer Analyse bewerten wir, wie gut das Basismodell lernt, gepaarte Sprach- und Textbeispiele auch ohne zusätzliche Regularisierung auszurichten. Wir verwenden eine kleine Menge zufälliger Beispiele, um verschiedene Ausrichtungen zu vergleichen, wobei wir uns auf die Natur der besten Ausrichtung im Vergleich zu naiven Annahmen konzentrieren.
Unsere Visualisierungen zeigen, dass es eine klare Ausrichtung zwischen Sprache und Text in den gemeinsamen Encoder gibt, und die Qualität dieser Ausrichtung verbessert sich, je tiefer wir in das Modell vordringen. Die Ergebnisse deuten darauf hin, dass es tatsächlich eine Möglichkeit gibt, wie beide Modalitäten ähnlich im Einbettungsraum dargestellt werden können.
In unseren Bewertungen untersuchen wir die Ergebnisse der Anwendung des besten Ausrichtungsverlustes in verschiedenen Einstellungen. Die Ergebnisse zeigen moderate Verbesserungen der Wortfehlerquoten, wenn der beste Ausrichtungsverlust in einem ressourcenstarken, englischsprachigen Szenario verwendet wird. In einem mehrsprachigen Kontext beobachten wir jedoch substanziellere Gewinne, da die Herausforderungen zunehmen, was Spielraum für Verbesserungen ermöglicht.
Fazit
Wir haben gezeigt, dass ein halbüberwachtes Modell, das für gemeinsame Sprach- und Textverarbeitung konzipiert ist, beide Modalitäten effektiv darstellen kann. Durch den Fokus auf die beste Ausrichtung zwischen Sprache und Text und die Optimierung dieser mit einem Konsistenzverlust erzielen wir Verbesserungen gegenüber Basis-Modellen in mehreren Szenarien. Unser Ansatz verbessert die Leistung des Modells, ohne die Komplexität zu erhöhen, und bietet einen vielversprechenden Weg für weitere Fortschritte in der gemeinsamen Sprach-Text-Darstellung.
Titel: Improving Joint Speech-Text Representations Without Alignment
Zusammenfassung: The last year has seen astonishing progress in text-prompted image generation premised on the idea of a cross-modal representation space in which the text and image domains are represented jointly. In ASR, this idea has found application as joint speech-text encoders that can scale to the capacities of very large parameter models by being trained on both unpaired speech and text. While these methods show promise, they have required special treatment of the sequence-length mismatch inherent in speech and text, either by up-sampling heuristics or an explicit alignment model. In this work, we offer evidence that joint speech-text encoders naturally achieve consistent representations across modalities by disregarding sequence length, and argue that consistency losses could forgive length differences and simply assume the best alignment. We show that such a loss improves downstream WER in both a large-parameter monolingual and multilingual system.
Autoren: Cal Peyser, Zhong Meng, Ke Hu, Rohit Prabhavalkar, Andrew Rosenberg, Tara N. Sainath, Michael Picheny, Kyunghyun Cho
Letzte Aktualisierung: 2023-08-11 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2308.06125
Quell-PDF: https://arxiv.org/pdf/2308.06125
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.