Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Elektrotechnik und Systemtechnik# Rechnen und Sprache# Ton# Audio- und Sprachverarbeitung

Bewertung von Online-Sprecherdiarisierungssystemen

Dieser Artikel untersucht die Latenz verschiedener Speaker-Diarization-Systeme in der Audioverarbeitung.

― 6 min Lesedauer


Latenz inLatenz inSprecherdifferenzierungssystemenvon Sprecherverfolgungstechnologien.Eine Studie über die Geschwindigkeit
Inhaltsverzeichnis

Dieser Artikel behandelt die Bewertung verschiedener Online-Sprecher-Diarisation Systeme und fokussiert darauf, wie schnell sie erkennen können, wer in einer Audioaufnahme spricht. Sprecher-Diarisation ist der Prozess, um herauszufinden, „wer wann gesprochen hat“ in einer Audiodatei, was wichtig ist, um Gespräche genau zu transkribieren. Sie wird in verschiedenen Kontexten verwendet, wie Online-Meetings, Konferenzgesprächen, Gerichtsverhandlungen und Interviews.

Ein entscheidender Aspekt der Sprecher-Diarisation ist die Latenz, die die Zeit beschreibt, die das System benötigt, um die Audio-Eingabe zu verarbeiten und die Sprechertags als Ausgabe zu liefern. In manchen Anwendungen ist eine niedrige Latenz entscheidend. Zum Beispiel im automatisierten Aktienhandel müssen Entscheidungen fast sofort auf der Grundlage von Transkriptionen von Finanzberichten getroffen werden. Daher sind Systeme, die schnelle Ergebnisse liefern können, notwendig.

Obwohl viele Unternehmen, die Online-Sprecher-Diarisation Systeme anbieten, über ihre Latenz berichten, gab es wenig Forschung, die die Latenz mehrerer Systeme unter denselben Bedingungen vergleicht. Dieser Artikel zielt darauf ab, diese Lücke zu schliessen, indem verschiedene Systeme auf derselben Hardware mit denselben Audiodaten evaluiert werden.

Überblick über die Sprecher-Diarisation

Das Ziel der Sprecher-Diarisation ist es, die Sprecher in einer Audiodatei zu identifizieren und festzustellen, wann jeder spricht. Diese Information ist entscheidend für die Erstellung eines vollständigen Audio-Transkripts. Verschiedene Szenarien, wie Meetings, Gewinnberichte und rechtliche Verfahren, verlassen sich auf Sprecher-Diarisation, um genaue Aufzeichnungen sicherzustellen.

Für ein effektives Sprecher-Diarisation-System ist es wichtig, Audio schnell zu verarbeiten. Online-Sprecher-Diarisation bezieht sich auf Systeme, die diese niedrige Latenz erreichen können. Viele Anbieter dieser Systeme teilen Informationen über die Latenz, aber die meisten vergleichen ihre Systeme nicht einheitlich, was es den Nutzern schwer macht zu verstehen, welches am besten für ihre Bedürfnisse funktioniert.

Der Diarisation-Prozess

Der typische Prozess für die Sprecher-Diarisation umfasst drei Hauptaufgaben:

  1. Sprachaktivitätserkennung (SAD): Dieser Schritt identifiziert, ob das Audio-Segment Sprache enthält.
  2. Segmentierung: In dieser Phase wird das Audio in Segmente unterteilt, die jeweils Sprache von einem einzelnen Sprecher enthalten.
  3. Clustering: Hier werden die verschiedenen Audio-Segmente einem bekannten oder neuen Sprecher zugeordnet.

In früheren Methoden wurden jede dieser Aufgaben von separaten Modellen behandelt. Fortschritte im Deep Learning ermöglichen jedoch die Automatisierung mehrerer Aufgaben durch ein einzelnes neuronales Netzwerk, bekannt als End-to-End-System.

Evaluierungsrahmen

Ein modernes System namens DIART-Framework integriert sowohl End-to-End- als auch modulare Ansätze für die Sprecher-Diarisation. Dieses System ist darauf ausgelegt, überlappende Sprache durch überwachte Trainingsmethoden zu verarbeiten. Ein Problem bei End-to-End-Systemen ist jedoch, dass sie im Voraus die maximale Anzahl der Sprecher kennen müssen, was in Echtzeitszenarien nicht immer machbar ist.

Das DIART-Framework nimmt Audiosegmente, verarbeitet sie mit einem rollenden Audiopuffer und generiert Wahrscheinlichkeiten, welcher Sprecher in diesen Zeiträumen aktiv ist. Darauf folgt ein Clustering-Algorithmus, der globale Sprechertags aus lokalen Labels erstellt, sodass jeder Sprecher über längere Audiosegmente hinweg identifiziert werden kann.

Ein anderes System namens UIS-RNN-SML fokussiert sich auf Clustering und nutzt einen überwachten Ansatz. Es verwendet eine spezielle Methode zur Berechnung der Sprecherwahrscheinlichkeiten und hat dank neuer Trainingsmethoden Verbesserungen in den Ergebnissen gezeigt.

Zuletzt ist FS-EEND ein weiteres Online-System, das Transformer-Modelle für seine Analyse einsetzt. Es empfängt Audio-Features, verarbeitet sie und gibt die entsprechenden Sprechertags aus.

Forschungsmethode

Das Hauptziel dieser Forschung ist es, herauszufinden, welches Online-Diarisation-System die niedrigste Latenz von der Audioeingabe bis zur Ausgabe des Sprechertags bietet. Um dies zu erreichen, wurde ein standardisiertes Experiment aufgebaut, das die Latenz über verschiedene Modellkombinationen im DIART-Framework sowie die UIS-RNN-SML- und FS-EEND-Systeme misst.

Die Evaluation beinhaltete die Verwendung eines spezifischen Datensatzes namens TIMIT zum Trainieren der UIS-RNN-SML- und FS-EEND-Modelle, da es keine vortrainierten Versionen für diese Systeme gab. Der Datensatz, der Aufnahmen verschiedener Sprecher enthält, hilft, die Leistung der Systeme in Bezug auf die Latenz zu bewerten.

Für die Tests wurde eine Teilmenge aus einem anderen Datensatz namens Voxconverse verwendet. Diese Teilmenge umfasste ein paar Audio-Dateien mit insgesamt etwa 20 Minuten Aufnahmen. Die Systeme konnten die Audio-Dateien im WAV-Format ohne zusätzliche Verarbeitung bearbeiten, was die Evaluation unkompliziert machte.

Experimentelles Setup

Die Systeme wurden auf einer standardisierten Hardware-Plattform evaluiert, um Fairness in den Ergebnissen zu gewährleisten. Die Latenz wurde für jedes System während der Verarbeitung der Audiosegmente gemessen. Die Systeme erhielten Audiostücke von 250 Millisekunden zur Bewertung.

Ein wichtiger Aspekt der Evaluation war die Messmethode, die hochauflösende Timer verwendete, um die benötigte Zeit für die Verarbeitung genau festzuhalten. Die durchschnittliche Latenz und die Standardabweichung wurden für jedes System ermittelt, um einen klaren und vergleichbaren Überblick über deren Leistung zu geben.

Ergebnisse und Diskussion

Die Ergebnisse zeigten, dass das DIART-Framework, speziell mit den Modellen pyannote/embedding und pyannote/segmentation, die niedrigste durchschnittliche Latenz von etwa 0,057 Sekunden erreichte. Das zeigt, dass die Kombination dieser Modelle sehr effizient für die Online-Sprecher-Diarisation ist.

Bei der Bewertung des UIS-RNN-SML-Systems wurde deutlich, dass es zwar bei kürzeren Audio-Segmenten gut abschneidet, aber die Latenz signifikant steigt, wenn die Dauer des Audios zunimmt. Das macht es weniger geeignet für längere Aufnahmen oder kontinuierliche Audio-Streams.

Andererseits zeigte FS-EEND eine durchschnittliche Latenz von etwa 0,058 Sekunden, was vergleichbar mit dem am besten abschneidenden DIART-System ist. Sowohl die Ergebnisse von FS-EEND als auch das DIART-Framework deuten darauf hin, dass diese Systeme die Sprecher-Diarisation effektiv bei niedriger Latenz verwalten können.

Die Erkenntnisse zeigten auch, dass die Art des Einbettungsmodells eine entscheidende Rolle bei der Bestimmung der Latenz spielt. Systeme, die kleinere und effizientere Modelle nutzen, erzielten bessere Ergebnisse als solche, die auf grössere und komplexere Modelle angewiesen sind.

Interessanterweise, obwohl das DIART-Framework theoretisch vorschlägt, dass die Latenz mit mehr bekannten Sprechern steigen sollte, war diese Beziehung in den Testergebnissen nicht offensichtlich.

Fazit

Zusammenfassend hebt diese Bewertung hervor, dass es mehrere effektive Online-Sprecher-Diarisation Systeme gibt, die nahezu in Echtzeit arbeiten können. Das DIART-Framework mit den ausgewählten Modellen sticht in Bezug auf die Latenz hervor. Gleichzeitig bot FS-EEND eine vergleichbare Leistung, was es zu einer tragfähigen Alternative macht.

Das UIS-RNN-SML-System zeigte zwar akzeptable Ergebnisse für kurze Audio-Segmente, wies jedoch mit längeren Aufnahmen steigende Latenz auf, was darauf hindeutet, dass es möglicherweise nicht die beste Wahl für lange Audio-Streams ist.

Zukünftige Arbeiten könnten sich darauf konzentrieren, Modelle mit besserer Leistung zu trainieren und das Verhältnis von Latenz zu Genauigkeit zu untersuchen. Ausserdem könnte es hilfreich sein, den Einfluss einer höheren Anzahl von Sprechern auf die Latenz in umfangreicheren Tests zu untersuchen.

Insgesamt bestätigt die Forschung, dass verschiedene leistungsstarke Online-Sprecher-Diarisation Systeme existieren und die Anforderungen an die Echtzeitverarbeitung für eine Vielzahl von Anwendungen erfüllen können.

Mehr von den Autoren

Ähnliche Artikel