Fortschritte in binauralen Audio-Techniken
Neue Methoden verbessern die binaurale Audioqualität in herausfordernden Klangumgebungen.
― 9 min Lesedauer
Inhaltsverzeichnis
- Das wachsende Interesse an binauraler Wiedergabe
- Binaurale Signalabgleichung erklärt
- Untersuchung neuer Ansätze
- Mathematische Grundlagen
- Binaurale Signalabgleichungsprozess
- Einführung neuer BSM-Ansätze
- Fehlermessungen
- Simulationsstudien
- Analyse von ITD und ILD
- Umgang mit Fehlern bei der Schallrichtungsbestimmung
- Hörtests
- Fazit und zukünftige Arbeiten
- Originalquelle
Die Nutzung von räumlichem Audio wächst in vielen Bereichen wie Online-Meetings, Unterhaltung und virtueller Realität. Eine gängige Methode zur Bereitstellung dieses Audioerlebnisses ist die binaurale Wiedergabe. Diese Technik ermöglicht es, Geräusche so wiederzugeben, als kämen sie aus verschiedenen Richtungen, was ein immersives Klangerlebnis schafft. Traditionelle Methoden für binaurales Audio erfordern jedoch oft viele Mikrofone, was die Nutzung in tragbaren oder mobilen Setups erschwert.
Eine vielversprechende Lösung nennt sich Binaurale Signalabgleichung (BSM). Diese Methode hat gezeigt, dass sie mit weniger Mikrofonen eine gute binaurale Audioqualität erzeugt. BSM kann jedoch in bestimmten Situationen Schwierigkeiten haben, insbesondere wenn die Klangumgebung ein hohes Verhältnis von direkt zu nachhallendem Klang (DRR) hat. Dies geschieht an Orten, an denen starke direkte Geräusche von Quellen im Vergleich zu den Echos, die von Oberflächen zurückgeworfen werden, vorhanden sind.
Frühere Forschungen haben versucht, die Schwächen von BSM durch die Verwendung verschiedener Schallfeldmodelle zu beheben. Diese Versuche wurden jedoch nicht umfassend untersucht. Dieser Artikel erkundet zwei neue Methoden, die auf BSM basieren und speziell für Umgebungen mit hohem DRR entwickelt wurden. Beide Methoden konzentrieren sich darauf, den Klang in direkte und hallende Komponenten zu trennen und werden mithilfe von Mathematik und Simulationen getestet.
Das wachsende Interesse an binauraler Wiedergabe
Die binaurale Audiowiedergabe wird auf verschiedenen Plattformen immer beliebter. Zum Beispiel wird sie häufig für virtuelle Realitätserlebnisse verwendet, bei denen die Nutzer das Gefühl haben möchten, von der Klangumgebung umhüllt zu sein. Um dies zu erreichen, ist ein gängiger Ansatz die Verwendung von hochordentlichen Ambisonics (HOA) in Kombination mit kopfbezogenen Übertragungsfunktionen (HRTFs). HRTFs helfen, den 3D-Klängeffekt zu erzeugen, indem sie simulieren, wie Geräusche unterschiedlich jedes Ohr erreichen.
Diese Methode hat jedoch ihre Einschränkungen, da sie hauptsächlich viele Mikrofone erfordert, die auf eine bestimmte Weise angeordnet sind. Das macht es herausfordernd, sie in realen Szenarien anzuwenden, in denen Einfachheit und Mobilität entscheidend sind.
Um diese Einschränkungen zu verbessern, wurde der beamforming-basierte binaurale Reproduktionsansatz (BFBR) eingeführt. BFBR verwendet eine kleinere Anzahl von Mikrofonen, die in einer Weise organisiert sind, um den Klang effektiver zu filtern und zu lenken. Für BFBR gibt es einen leitenden Rahmen, der sich auf planare und sphärische Mikrofonanordnungen konzentriert, aber es fehlen immer noch detaillierte Richtlinien für vielfältigere Setups.
Um diese Lücke zu füllen, sind neue Techniken entstanden, die binaurale Signale gut mit Mikrofonanordnungen unterschiedlicher Formen funktionieren lassen. Eine dieser Techniken ist erneut BSM, das binaurales Audio direkt aus Mikrofonaufzeichnungen schätzt.
Binaurale Signalabgleichung erklärt
BSM schätzt binaurale Audiosignale aus aufgezeichneten Daten mithilfe eines Verfahrens namens Kleinste-Quadrate-Optimierung. Um die Klangwahrnehmung bei höheren Frequenzen zu verbessern, wird eine spezifische Methode namens Magnitude Least-Squares (MagLS) verwendet. Eine aktuelle Studie untersuchte, wie BSM mit einer halbkreisförmigen Mikrofonanordnung funktioniert, die ein kopfgetragenes Gerät simuliert.
Eine wichtige Feststellung war, dass die Genauigkeit von BSM stark davon abhängt, wo die Mikrofone positioniert sind. Wenn zum Beispiel das Ohr einer Person weit von den Mikrofonen entfernt ist, leidet die Klangqualität. Ausserdem geht BSM davon aus, dass die Geräusche gleichmässig im Raum verteilt sind, was nicht immer der Fall ist, insbesondere wenn starke direkte Geräusche vorhanden sind.
Ein weiterer Ansatz, der in Betracht gezogen wurde, ist das parametric spatial audio. Diese Technik zerlegt das Schallfeld in direkte und nachhallende (Echo-) Teile, was eine unabhängige Verarbeitung ermöglicht. Obwohl diese Methode vielversprechend ist, hängt ihre Wirksamkeit davon ab, mehrere wichtige Parameter genau zu schätzen, einschliesslich der Richtung, aus der das Geräusch kommt, und dem DRR. Diese Unsicherheit schafft Lücken im Hinblick darauf, wie binaurales Audio mit verschiedenen Mikrofonkonfigurationen funktioniert.
Untersuchung neuer Ansätze
Dieser Artikel zielt darauf ab, wie man zusätzliche Schallinformationen in BSM-Methoden einbeziehen kann. Dadurch soll eine bessere Klangqualität und Stabilität erreicht werden, insbesondere wenn der Zuhörer seinen Kopf bewegt. Zwei neue Methoden werden eingeführt: Eine konzentriert sich darauf, die Korrelationsmatrix, die im BSM-Design verwendet wird, zu ändern, und die andere verwendet eine Methode namens COMPASS.
Beide Methoden zeigten Potenzial, aber es bleibt unklar, welche überlegen ist, um Signalinformationen in BSM zu integrieren. Hier kommt dieses Papier ins Spiel, das darauf abzielt, einen tieferen Einblick in beide Ansätze und deren Effektivität zu geben.
Mathematische Grundlagen
Um die Schallsignale zu analysieren, wird ein mathematisches Modell verwendet, das in einem sphärischen Koordinatensystem arbeitet. In diesem Setup erzeugen die Schallquellen Wellen, die die Mikrofone erreichen, die sphärisch angeordnet sind. Die von den Mikrofonen erfassten Signale werden von den Positionen der Schallquellen und dem Abstand zu den Mikrofonen beeinflusst.
Die Autoren nehmen auch an, dass der Kopf eines Zuhörers genau im Zentrum der Mikrofonanordnung positioniert ist. Der Klang, der von den linken und rechten Ohren erfasst wird, kann basierend auf dem Standort und der Richtung der Schallquellen berechnet werden.
Binaurale Signalabgleichungsprozess
Der BSM-Prozess beginnt mit bekannten Mikrofonkonfigurationen. Die aufgezeichneten Geräusche werden gefiltert, um Fehler im Vergleich zu tatsächlichen binauralen Signalen zu minimieren. Dieser Prozess hilft vorherzusagen, wie der Klang idealerweise jedes Ohr erreichen sollte, um ein realistisches und immersives Erlebnis zu gewährleisten.
Wenn das von den Mikrofonen aufgenommene Geräusch nicht mit den Quellen korreliert, können weitere Vereinfachungen vorgenommen werden. Die Fehler können dann durch die geeignete mathematische Formulierung minimiert werden. Wenn das Geräusch jedoch Korrelationen aufweist, führt dies zu komplexeren Berechnungen.
Für hochfrequente Klänge kann die Modifizierung von BSM mit MagLS zu besseren Ergebnissen führen. Dennoch bestehen Herausforderungen, wenn die Mikrofone weit vom Ohr des Zuhörers entfernt sind oder wenn das Schallfeld nicht diffus ist.
Einführung neuer BSM-Ansätze
Dieser Artikel präsentiert zwei neue BSM-Ansätze, die explizit Schallinformationen über direkte und nachhallende Komponenten einbeziehen. Die erste Methode bietet ein besseres Verständnis der nachhallenden Klänge, während der zweite Ansatz nur die grobe Varianz der nachhallenden Klänge bewertet, ohne deren Signale zu schätzen. Diese Designwahl macht die zweite Methode robuster gegen Schätzfehler.
Die Methoden zielen darauf ab, die Genauigkeit und Effektivität der binauralen Signalwiedergabe zu verbessern, insbesondere wenn verschiedene Klangrichtungen berücksichtigt werden. Das Gleichgewicht zwischen Modellierungsdetail und Schätzfehlern ist entscheidend.
Fehlermessungen
Um die Leistung der verschiedenen binauralen Reproduktionsmethoden zu bewerten, werden mehrere Fehlermasse eingeführt. Der normalisierte mittelquadratische Fehler (NMSE) quantifiziert, wie nah die reproduzierten binauralen Signale an den Referenzsignalen sind.
Eine neue Fehlermessung speziell für BSM, die als richtungsbezogener Fehler bezeichnet wird, wird vorgeschlagen. Diese Metrik spiegelt wider, wie Fehler je nach Richtung der Schallquellen variieren. Durch die Untersuchung von Fehlern sowohl in der Zeitverzögerung als auch in den Schallpegelunterschieden kann eine umfassende Analyse durchgeführt werden.
Simulationsstudien
Es werden Simulationen durchgeführt, um die neuen Ansätze mit der Standard-BSM-Methode zu vergleichen. Eine halbkreisförmige Mikrofonanordnung, die ein vereinfachtes tragbares Gerät darstellt, wird in verschiedenen Klangszenarien getestet. Jedes Szenario beinhaltet eine Punkt-Schallquelle in einem Raum, und verschiedene Kopfpositionen werden simuliert.
Die Mikrofonsignale werden erzeugt und NMSE wird berechnet, um die Leistung zu bewerten. Die Analyse betrachtet, wie gut das System basierend auf der Position des Kopfes und wie weit die Mikrofone von den Ohren entfernt sind, arbeitet.
Die Ergebnisse zeigen, dass der NMSE im Allgemeinen für die neuen Methoden niedriger ist als für den Standard-BSM-Ansatz, was nahelegt, dass sie ein effektiveres binaurales Erlebnis bieten können, insbesondere bei unterschiedlichen Klanganordnungen.
Analyse von ITD und ILD
Um das Verständnis der Leistung zu vertiefen, werden Messgrössen für den interauralen Zeitunterschied (ITD) und den interauralen Pegelunterschied (ILD) verwendet. Diese Masse ermöglichen die Bewertung, wie gut die verschiedenen Methoden die Klanglokalisationshinweise replizieren.
In beiden Testbedingungen der Klangumgebung zeigen ITD und ILD, dass die neuen Ansätze die traditionelle BSM-Methode übertreffen. Während einige Leistungseinbussen zu beobachten sind, insbesondere bei Kopfbewegungen, behalten diese neuen Methoden eine konsistentere Qualität bei.
Umgang mit Fehlern bei der Schallrichtungsbestimmung
In praktischen Anwendungen kann es Fehler bei der Schätzung der Richtung geben, aus der der Klang kommt. Diese Analyse konzentriert sich darauf, wie gut die Methoden unter diesen Bedingungen funktionieren.
Die Ergebnisse zeigen, dass die BSM-Methode nicht von der Richtungsbestimmung abhängt, aber dennoch nicht mit der Leistung der neuen Methoden unter genauen Bedingungen mithalten kann. Die neuen Methoden zeigen vielversprechende Ansätze, um die Audioqualität auch bei Schätzfehlern aufrechtzuerhalten.
Hörtests
Über objektive Messungen hinaus wird ein Hörtest mit echten menschlichen Probanden durchgeführt, um die perceptuelle Qualität der verschiedenen Methoden zu bewerten. Die Teilnehmer hören verschiedene Audiosignale und bewerten sie danach, wie gut sie mit einem Referenzsignal übereinstimmen.
Die Ergebnisse zeigen, dass beide neuen Methoden höhere Punktzahlen im Vergleich zur Standard-BSM-Methode erhielten. Dies beweist, dass die neuen Techniken nicht nur in Simulationen gut abschneiden, sondern auch ein besseres Hörerlebnis bieten.
Fazit und zukünftige Arbeiten
Dieser Artikel hebt bedeutende Fortschritte in der binauralen Signalabgleichung und deren Anwendung auf tragbare Mikrofonanordnungen hervor. Die Einführung einer neuen Leistungskennzahl, des richtungsbezogenen Fehlers, hilft dabei, die Reaktion des Systems auf verschiedene Schallrichtungen zu quantifizieren.
Die beiden neuen Methoden bieten tragfähige Alternativen zur traditionellen BSM und zeigen verbesserte Leistungen, insbesondere in herausfordernden Klangumgebungen. Dennoch bestehen Herausforderungen in Bezug auf Schätzfehler und die Notwendigkeit umfangreicher Tests in unterschiedlichen realen Szenarien.
Zukünftige Bemühungen sollten sich darauf konzentrieren, Methoden zur Richtungsbestimmung zu verfeinern und diese Techniken in vielfältigen Umgebungen anzuwenden. Durch die Erkundung dieser Bereiche kann das Potenzial von BSM und ähnlichen Ansätzen vollständig ausgeschöpft werden, um räumliche Audioerlebnisse im Alltag zu verbessern.
Titel: Insights into the Incorporation of Signal Information in Binaural Signal Matching with Wearable Microphone Arrays
Zusammenfassung: The increasing popularity of spatial audio in applications such as teleconferencing, entertainment, and virtual reality has led to the recent developments of binaural reproduction methods. However, only a few of these methods are well-suited for wearable and mobile arrays, which typically consist of a small number of microphones. One such method is binaural signal matching (BSM), which has been shown to produce high-quality binaural signals for wearable arrays. However, BSM may be suboptimal in cases of high direct-to-reverberant ratio (DRR) as it is based on the diffuse sound field assumption. To overcome this limitation, previous studies incorporated sound-field models other than diffuse. However, this approach was not studied comprehensively. This paper extensively investigates two BSM-based methods designed for high DRR scenarios. The methods incorporate a sound field model composed of direct and reverberant components.The methods are investigated both mathematically and using simulations, finally validated by a listening test. The results show that the proposed methods can significantly improve the performance of BSM , in particular in the direction of the source, while presenting only a negligible degradation in other directions. Furthermore, when source direction estimation is inaccurate, performance of these methods degrade to equal that of the BSM, presenting a desired robustness quality.
Autoren: Ami Berger, Vladimir Tourbabin, Jacob Donley, Zamir Ben-Hur, Boaz Rafaely
Letzte Aktualisierung: Sep 25, 2024
Sprache: English
Quell-URL: https://arxiv.org/abs/2409.11731
Quell-PDF: https://arxiv.org/pdf/2409.11731
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.