Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Elektrotechnik und Systemtechnik# Audio- und Sprachverarbeitung# Ton

Bewertung der Sprachqualität in der AudioKommunikation

Ein Blick darauf, wie die Sprachqualität mit Crowdsourcing getestet wird.

― 5 min Lesedauer


Audioqualität genauAudioqualität genautestenBewertungen verbessern.Die Sprachqualität durch crowdsourced
Inhaltsverzeichnis

Wenn wir telefonieren oder Videoanrufe machen, kann die Qualität unserer Sprache ganz unterschiedlich sein. Manche Anrufe klingen klar, während andere nervigen Hintergrundlärm haben oder es schwer machen, zu verstehen, was gesagt wird. Um damit umzugehen, haben Experten Methoden entwickelt, um die Audioqualität zu testen.

Eine wichtige Methode ist die subjektive Sprachqualitätsbewertung. Das bedeutet, dass Leute Audio-Clips anhören und ihre Meinung dazu abgeben, wie gut oder schlecht der Sound ist. Es gibt spezifische Richtlinien, die helfen, diese Bewertungen in kontrollierten Umgebungen wie Laboren durchzuführen und auch durch Crowdsourcing, bei dem Meinungen von einer grösseren Gruppe von Leuten online gesammelt werden.

Die Bedeutung subjektiven Testens

Subjektives Testen gilt als die beste Methode, um die Sprachqualität während Telefongesprächen oder jeder Art von Audio-Kommunikation zu überprüfen. Das liegt daran, dass es echte Meinungen von Zuhörern einfängt. Im Gegensatz dazu können Labortests langsam, teuer und möglicherweise nicht immer das widerspiegeln, was Nutzer tatsächlich in Alltagssituationen erleben.

Forscher haben verschiedene Standards entwickelt, um bei der subjektiven Sprachqualitätsbewertung zu helfen. Diese Standards geben vor, wie Tests durchgeführt werden sollten, welches Material verwendet werden soll und wie Ergebnisse gesammelt und interpretiert werden.

Schlüsselkonzepte in der Sprachqualitätsbewertung

Es gibt mehrere wichtige Faktoren, die man bei der Bewertung der Sprachqualität berücksichtigen sollte. Diese umfassen:

  1. Geräuschpegel: Das ist der Grad, in dem unerwünschte Hintergrundgeräusche das Hauptaudio stören. Diese können Lärm aus der Umgebung oder technische Probleme sein.

  2. Färbung: Das bezieht sich darauf, wie die Klangqualität verändert sein kann. Zum Beispiel könnten einige Frequenzen zu stark oder zu schwach sein, was die Sprache unnatürlich klingen lässt.

  3. Unterbrechungen: Dieser Faktor betrifft Unterbrechungen im Audio. Diese können durch Paketverlust während der Übertragung entstehen und dazu führen, dass bestimmte Teile der Sprache fehlen.

  4. Lautstärke: Hier wird bewertet, wie laut die Sprache ist und ob sie klar genug ist, um sie zu verstehen.

  5. Nachhall: Das steht im Zusammenhang damit, wie der Klang in einem Raum widerhallt. Zu viel Nachhall kann es schwieriger machen, der Sprache zu folgen.

Die Kombination dieser Elemente hilft, ein umfassenderes Bild davon zu bekommen, wie gut Sprache über verschiedene Audiosysteme kommuniziert wird.

Crowdsourcing zur Qualitätsbewertung

Statt ein paar Leute in einem Labor zu rekrutieren, um Audio-Clips anzuhören, erlaubt Crowdsourcing den Forschern, Meinungen von einer grossen Anzahl von Nutzern aus verschiedenen Orten zu sammeln. Dieser Ansatz kann zu schnelleren Ergebnissen führen und eine breitere Palette von Audiobedingungen abdecken.

Um Crowdsourcing zu erleichtern, wurde ein Tool entwickelt, das etablierten Standards zur Sprachqualitätsbewertung folgt. Es ermöglicht den Teilnehmern, verschiedene Audio-Clips anzuhören und diese basierend auf den genannten Faktoren zu bewerten. Dieses Tool ist benutzerfreundlich und liefert zuverlässige Ergebnisse.

So funktioniert das crowdsourced Tool

Das crowdsourced Tool umfasst mehrere Schritte:

  1. Eignungsprüfung: Die Teilnehmer stellen zunächst sicher, dass sie die Anforderungen erfüllen, um an der Studie teilzunehmen, z.B. die richtigen Hörgeräte haben.

  2. Hörtests: Die Teilnehmer hören sich Audio-Clips an und vergleichen sie, um deren Qualität zu beurteilen. Sie können Fragen gestellt werden, um sicherzustellen, dass sie zwischen verschiedenen Qualitätsstufen unterscheiden können.

  3. Bewertung der Audio-Clips: Die Teilnehmer bewerten die Clips basierend auf verschiedenen Dimensionen wie Geräuschpegel, Färbung, Unterbrechungen und Lautstärke. Sie geben auch eine Gesamtbewertung für jeden Clip ab.

  4. Feedback und Zertifikate: Nachdem bestimmte Abschnitte des Tests abgeschlossen sind, erhalten die Teilnehmer Zertifikate, die ihnen erlauben, für eine begrenzte Zeit weiter teilzunehmen.

  5. Endbewertungen: In der letzten Phase bewerten die Teilnehmer eine Reihe von Audio-Clips, während sie sich bestimmter Goldstandard-Clips bewusst sind, die dazu dienen, ihre Aufmerksamkeit zu validieren.

Dieser strukturierte Ansatz hilft sicherzustellen, dass die Antworten konsistent und zuverlässig sind.

Ergebnisse und Erkenntnisse

Das Tool wurde gründlich getestet und hat sich als genau und reproduzierbar erwiesen. In Wettbewerben, bei denen verschiedene Audioverbesserungsmodelle verglichen wurden, lieferte diese crowdsourced Methode ein klares Bild davon, wie jedes Modell abgeschnitten hat.

Beim Vergleich der Bewertungen aus den crowdsourced Tests und den Expertenbewertungen gab es eine starke Übereinstimmung bei den Gesamtnoten. Allerdings zeigten einige Bereiche, wie Färbung und Nachhall, einige Inkonsistenzen. Das war hauptsächlich auf unterschiedliche Meinungen unter den Experten zurückzuführen, wie man diese spezifischen Dimensionen bewerten sollte.

Die Auswirkungen jedes Faktors

Die Analyse, wie jeder Faktor die gesamte Audioqualität beeinflusst, hilft den Forschern, herauszufinden, welche Änderungen am hilfreichsten sein könnten, um die Sprachklarheit zu verbessern. Wenn beispielsweise die Färbung einen signifikanten Einfluss auf die Bewertung hat, können die Bemühungen darauf konzentriert werden, Frequenzverzerrungen in Audiosystemen zu korrigieren.

Zukünftige Richtungen

Es gibt immer Raum für Verbesserungen in der Art und Weise, wie diese Bewertungen durchgeführt werden. Künftige Arbeiten werden sich darauf konzentrieren, wie die Teilnehmer geschult werden, um die Bewertungsskalen und -dimensionen, insbesondere in Bereichen wie Färbung und Nachhall, besser zu verstehen. Indem diese Bereiche angegangen werden, wird es möglich sein, noch genauere Einblicke in die Sprachqualität zu gewinnen.

Fazit

Das Verständnis der Sprachqualitätsbewertung ist entscheidend für die Verbesserung von Kommunikationssystemen, die auf Audiotechnologie angewiesen sind. Mit Tools, die crowdsourced Tests erleichtern, können Forscher unterschiedliche Meinungen sammeln, um die Sprachqualität effektiver zu bewerten. Dieser Ansatz ermöglicht nicht nur schnellere Ergebnisse, sondern legt auch Wert auf die Erfahrungen der Nutzer aus der realen Welt.

Durch kontinuierliche Verbesserungen und Anpassungen kann die Auswirkung verschiedener Audiofaktoren besser verstanden und angegangen werden, was zu klareren und angenehmeren Kommunikationserlebnissen für alle führt.

Originalquelle

Titel: Multi-dimensional Speech Quality Assessment in Crowdsourcing

Zusammenfassung: Subjective speech quality assessment is the gold standard for evaluating speech enhancement processing and telecommunication systems. The commonly used standard ITU-T Rec. P.800 defines how to measure speech quality in lab environments, and ITU-T Rec.~P.808 extended it for crowdsourcing. ITU-T Rec. P.835 extends P.800 to measure the quality of speech in the presence of noise. ITU-T Rec. P.804 targets the conversation test and introduces perceptual speech quality dimensions which are measured during the listening phase of the conversation. The perceptual dimensions are noisiness, coloration, discontinuity, and loudness. We create a crowdsourcing implementation of a multi-dimensional subjective test following the scales from P.804 and extend it to include reverberation, the speech signal, and overall quality. We show the tool is both accurate and reproducible. The tool has been used in the ICASSP 2023 Speech Signal Improvement challenge and we show the utility of these speech quality dimensions in this challenge. The tool will be publicly available as open-source at https://github.com/microsoft/P.808.

Autoren: Babak Naderi, Ross Cutler, Nicolae-Catalin Ristea

Letzte Aktualisierung: 2023-09-13 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2309.07385

Quell-PDF: https://arxiv.org/pdf/2309.07385

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel