Vorhersage von Audioqualität-Vorlieben durch persönliche Daten
Diese Studie untersucht, wie persönliche Details die Vorlieben für Audioqualität beeinflussen.
― 5 min Lesedauer
Inhaltsverzeichnis
Dieser Artikel behandelt, wie man vorhersagen kann, welche Audioqualität Leute bevorzugen, wenn sie dasselbe Lied in verschiedenen Formaten hören, und dabei sowohl Audioinput als auch Infos über die Hörer nutzt. Das Ziel ist zu verstehen, welches Audiosegment den Hörern besser gefällt, basierend auf ihren persönlichen Details und der Audioqualität.
Hintergrund
Audioqualität ist entscheidend für viele Aktivitäten, wie Musik hören, an Online-Meetings teilnehmen oder Podcasts geniessen. Viele wählen ihre Handys danach aus, wie gut der Sound beim Musikspielen oder Telefonieren ist. Daher kann es hilfreich sein, zu wissen, wie man die Audioqualitätspräferenzen misst und vorhersagt, um das Hörerlebnis für viele Nutzer zu verbessern.
Einige Studien haben sich darauf konzentriert, wie alle durchschnittlich die Audioqualität bewerten, während andere versucht haben, Vorhersagen basierend auf persönlichen Vorlieben zu machen. Zum Beispiel haben einige Forscher Nutzer in Gruppen eingeteilt und diese Kategorien verwendet, um Audiosegmente zu bewerten. Andere haben persönliche Details wie Alter und Geschlecht einbezogen, um zu sehen, ob diese Faktoren die Musikvorlieben beeinflussen.
Was Wir Versuchen
Im Gegensatz zu früheren Studien, die nur allgemeine Bewertungen betrachtet haben, zielt diese Studie darauf ab, Daten über Einzelpersonen zu sammeln, um deren Vorlieben für zwei Audio-Clips mit identischem Inhalt aber unterschiedlicher Qualität vorherzusagen. Wir untersuchen verschiedene Netzwerkdesigns und Arten persönlicher Daten, um herauszufinden, welche Kombinationen am besten zur Vorhersage von Audio-Vorlieben geeignet sind.
Datensammlung
Um Audio-Clips zu sammeln, haben wir Songsegmente ausgewählt und sie auf verschiedenen Geräten abgespielt und die Ergebnisse aufgezeichnet. Wir nutzten sieben Songsegmente aus der Popmusik in verschiedenen Sprachen. Jeder Clip ist etwa 10 bis 15 Sekunden lang und wurde auf fünf unterschiedlichen Handys bei zwei Lautstärkepegeln abgespielt: maximale Lautstärke und normale Lautstärke.
Die Aufnahmegeräte umfassten ein binaurales Mikrofon und eine Computer-Schnittstelle, um den Sound genau einzufangen. Wir haben sichergestellt, dass die Einrichtung für alle Aufnahmen gleich war, auch die Entfernung vom Mikrofon zum Handy.
Nach der Aufnahme haben wir Fragebögen für die Hörer erstellt. Jeder Fragebogen beinhaltete Paare von Audio-Clips, wobei jedes Paar von unterschiedlichen Handys kam. Die Teilnehmer hörten sich diese Paare an und wählten, welches ihnen besser gefiel. Sie bewerteten ihre Entscheidungen auf einer Skala von 1 bis 5, wobei höhere Zahlen eine stärkere Vorliebe für den zweiten Audio-Clip anzeigten. Wir haben diese Bewertungen in einen Bereich von -2 bis 2 umgewandelt, um die Analyse zu erleichtern.
Teilnehmer
Insgesamt haben 31 Personen an der Studie teilgenommen, darunter 27 Männer und 4 Frauen im Alter von 21 bis 46 Jahren. Wir sammelten Informationen über ihre Kopfhörermodelle und -spezifikationen wie Impedanz, Frequenzgang und Empfindlichkeit. Nach der Filterung unvollständiger Daten blieben 23 Teilnehmer und 2.000 Paare von Audiobewertungen übrig.
Modellstruktur
Um Audio-Vorlieben vorherzusagen, haben wir eine Struktur namens Siamese-Netzwerk verwendet. Dieser Ansatz ermöglicht es dem Modell, zwei Audio-Clips zu vergleichen und zu entscheiden, welcher bevorzugt wird. Die Struktur hat verschiedene Teile, die darauf ausgelegt sind, entweder allein Audioinformationen, Persönliche Informationen oder beides kombiniert zu verarbeiten.
- Nur Audioinput: Ein einfaches Modell, das nur Audiofeatures verwendet.
- Spätes Kombinieren von Audio und Subjektinfo: Dieses Modell nimmt sowohl Audiofeatures als auch persönliche Informationen und kombiniert sie später im Prozess.
- Frühes Kombinieren: In diesem Fall werden persönliche Details früher im Modell mit Audiodaten zusammengeführt.
- Parallele Infos: Persönliche Details werden als Werkzeuge genutzt, um Audio parallel zum Audioinput zu verarbeiten.
Training und Testen des Modells
Wir haben die Teilnehmer in verschiedene Gruppen aufgeteilt, um die Fähigkeit des Modells zu testen, Vorlieben von Leuten vorherzusagen, die es zuvor nicht gesehen hat. Jede Testgruppe wurde mit einer anderen Altersgruppe validiert. Wir führten den Trainingsprozess über 50 Epochen durch und stoppten frühzeitig, falls die Leistung des Modells sich nicht verbesserte.
Für das Training des Modells nutzten wir einen Computer mit hoher Rechenleistung.
Ergebnisse
Nach der Auswertung verschiedener Modelle fanden wir heraus, dass das Modell, das Audio und persönliche Informationen kombiniert, besser abschnitt als das, das nur Audio verwendete. Die Genauigkeit verbesserte sich leicht, aber es zeigte sich, dass die Einbeziehung persönlicher Informationen zu besseren Vorhersagen beiträgt.
Während einige Modellstrukturen gut abschnitten, hatten andere Schwierigkeiten. Ein Modell, das versuchte, Informationen zu früh zu kombinieren, schnitt nicht so gut ab wie erwartet, möglicherweise weil die Komplexität ohne ausreichende Daten anstieg.
Bedeutung persönlicher Informationen
Wir haben auch untersucht, wie viel persönliche Daten die Vorhersagen beeinflussen. Wir fanden heraus, dass es nicht so gut funktionierte, nur Alter und Geschlecht zu verwenden, im Vergleich zu detaillierteren Kopfhörerspezifikationen. Wenn wir alle persönlichen Informationen kombinierten, war die Leistung des Modells konsistenter.
Fazite und zukünftige Richtungen
Diese Studie zeigt, dass es möglich ist, Audioqualitätsvorlieben basierend auf sowohl dem Audio selbst als auch den Informationen des Hörers vorherzusagen. Die besten Ergebnisse kamen von einem Modell, das verschiedene Audio- und persönliche Datentypen kombiniert.
Zukünftige Forschungen sollten sich darauf konzentrieren, eine breitere Altersgruppe unter den Teilnehmern zu gewinnen, um besser zu verstehen, wie das Alter die Audio-Vorlieben beeinflusst. Zudem könnte das Sammeln von Informationen über die Umgebungen und Nutzung der Hörer zu noch besseren Vorhersagen führen.
Durch das Verständnis dieser Vorlieben können wir helfen, Audiogeräte und -dienste zu verbessern, um das bestmögliche Hörerlebnis zu bieten.
Danksagungen
Diese Arbeit wurde von einem grossen Technologieunternehmen unterstützt, und wir schätzen auch die Ressourcen, die uns von einem Zentrum zur Verfügung gestellt wurden, das sich auf Hochleistungsrechnen spezialisiert hat.
Titel: Personalized Audio Quality Preference Prediction
Zusammenfassung: This paper proposes to use both audio input and subject information to predict the personalized preference of two audio segments with the same content in different qualities. A siamese network is used to compare the inputs and predict the preference. Several different structures for each side of the siamese network are investigated, and an LDNet with PANNs' CNN6 as the encoder and a multi-layer perceptron block as the decoder outperforms a baseline model using only audio input the most, where the overall accuracy grows from 77.56% to 78.04%. Experimental results also show that using all the subject information, including age, gender, and the specifications of headphones or earphones, is more effective than using only a part of them.
Autoren: Chung-Che Wang, Yu-Chun Lin, Yu-Teng Hsu, Jyh-Shing Roger Jang
Letzte Aktualisierung: 2023-02-16 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2302.08130
Quell-PDF: https://arxiv.org/pdf/2302.08130
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.