Migliorare la Qualità della Riverberazione Artificiale
Un nuovo metodo riduce il suono metallico indesiderato nella riverberazione audio.
― 5 leggere min
Indice
La riverberazione artificiale è un metodo usato nell'elaborazione audio per ricreare l'effetto del suono che si riflette su superfici in uno spazio fisico. Viene comunemente utilizzata nella produzione musicale, nella post-produzione cinematografica e in varie altre applicazioni audio. Tuttavia, molti sistemi per aggiungere riverbero soffrono di un problema chiamato colorazione spettrale. Questo problema può creare un suono metallico sgradevole che diminuisce la qualità dell'audio.
In questo lavoro, presentiamo un nuovo approccio per migliorare la riverberazione artificiale. Proponiamo un processo per ottimizzare il modo in cui creiamo la riverberazione, concentrandoci sulla riduzione della colorazione indesiderata. Questo metodo utilizza un tipo di filtro audio noto come Rete di Ritardo Feedback (FDN). Regolando diverse impostazioni all'interno di questa rete, possiamo fare in modo che la riverberazione suoni più naturale.
Contesto
Le reti di ritardo feedback esistono dagli anni '60. Usano una serie di ritardi e loop di feedback per creare il riverbero. Nel corso degli anni, sono stati fatti molti miglioramenti al design di base, portando a una versione più sofisticata chiamata rete di ritardo feedback.
Una sfida significativa con questi sistemi è la colorazione, che si manifesta come un anello metallico nel suono. Questo è particolarmente evidente nella coda del riverbero, dove dovrebbe suonare morbido e piatto. I metodi precedenti hanno cercato di affrontare questo combinando diverse linee di ritardo, ma questi tentativi spesso non eliminavano completamente la colorazione.
Ricerche recenti hanno identificato che la colorazione è legata a come vengono eccitati i modi di riverberazione. L'obiettivo del nostro approccio è ridurre la distribuzione di come questi modi vengono eccitati per ottenere un suono più naturale.
Obiettivo
L'obiettivo principale del nostro lavoro è ottimizzare le impostazioni della rete di ritardo feedback per minimizzare le colorazioni metalliche nel suono. Siamo particolarmente concentrati su due aspetti importanti: la piattezza nella Risposta in frequenza e il mantenimento di una densità costante nella Risposta all'impulso.
Per raggiungere questo obiettivo, utilizziamo un metodo chiamato discesa del gradiente stocastico. Questa tecnica ci aiuta a trovare le migliori impostazioni per la nostra rete in modo iterativo. Le regolazioni che facciamo includono le impostazioni di feedback e i livelli di ingresso e uscita.
Metodo
Panoramica della rete di ritardo feedback
Un FDN è composto da diverse linee di ritardo e loop di feedback. Il modo in cui questi componenti sono disposti crea diversi schemi di eco, che danno origine all'effetto riverbero. La rete può essere regolata cambiando la lunghezza delle linee di ritardo e le quantità di feedback per ottenere varie caratteristiche del riverbero.
Framework di ottimizzazione
Per ottimizzare il nostro FDN, utilizziamo un approccio differenziabile. Questo significa che la nostra rete può essere addestrata in modo simile a come impara una rete neurale. Analizzando le differenze tra le risposte sonore desiderate e reali, regoliamo le nostre impostazioni.
Ci concentriamo su due perdite principali durante l'addestramento. Una perdita misura quanto il suono prodotto si discosti dalla piattezza in frequenza, e l'altra perdita incoraggia la densità in come il riverbero si comporta nel tempo.
Filtri di attenuazione
Per aiutare a ottenere un riverbero più naturale, includiamo filtri che cambiano quanto suono può passare a diverse frequenze. Questo aiuta il riverbero a decrescere in modo più naturale, mimando come il suono si comporta in ambienti reali. Questi filtri possono essere visti come equalizzatori, che bilanciano il suono su varie gamme di frequenza.
Matrice di feedback di dispersione
Per creare eco ancora più complessi e naturali, esploriamo l'uso di una matrice di feedback di dispersione. Questo ci permette di utilizzare una serie di ritardi di eco più brevi, che possono aumentare la densità della riverberazione. Consentendo una risposta variegata, questi filtri possono ulteriormente minimizzare eventuali suoni metallici.
Valutazione
Per valutare quanto bene funzioni il nostro metodo, conduciamo sia misurazioni oggettive che test di ascolto. Le misurazioni oggettive ci permettono di quantificare quanto l'ottimizzazione abbia ridotto la colorazione basata sulla distribuzione di eccitazione modulare. Nel frattempo, i test di ascolto forniscono una valutazione soggettiva della qualità del suono, permettendoci di raccogliere feedback sulla colorazione percepita.
Valutazione oggettiva
Nella nostra valutazione oggettiva, analizziamo la distribuzione di eccitazione modulare prima e dopo aver applicato la nostra ottimizzazione. Abbiamo scoperto che le risposte ottimizzate mostravano una distribuzione più stretta, indicando meno colorazione e un suono più morbido.
Abbiamo confrontato il nostro nuovo metodo con approcci esistenti e abbiamo osservato che ha dimostrato costantemente una riduzione della colorazione in diversi set-up.
Test di ascolto
Oltre alle valutazioni oggettive, abbiamo condotto test di ascolto con i partecipanti. Lo scopo era vedere come i cambiamenti fatti alla rete di ritardo feedback influenzassero la qualità audio percepita dagli ascoltatori. I partecipanti hanno confrontato diverse configurazioni contro un suono di riferimento noto.
I risultati hanno mostrato che il nostro riverbero ottimizzato ha ricevuto costantemente punteggi più alti rispetto alla configurazione iniziale. I feedback hanno indicato che gli ascoltatori percepivano le uscite ottimizzate come più naturali e meno colorate.
Conclusione
In questo lavoro, abbiamo presentato un nuovo metodo di ottimizzazione per la riverberazione artificiale utilizzando una rete di ritardo feedback. Regolando le impostazioni di feedback, siamo in grado di minimizzare la colorazione metallica indesiderata e ottenere un suono più naturale. Il nostro approccio bilancia la piattezza spettrale e la densità della risposta all’impulso, mantenendo l'efficienza computazionale.
I risultati della valutazione hanno mostrato che il nostro metodo migliora significativamente la qualità del riverbero sintetizzato. I test di ascolto hanno confermato l'efficacia dell'ottimizzazione, indicando che il riverbero artificiale prodotto usando questo metodo può assomigliare molto a un riverbero naturale ideale. Di conseguenza, il nostro metodo rappresenta un notevole progresso nell'elaborazione audio, offrendo una soluzione pratica per creare effetti di riverbero di alta qualità.
Titolo: Efficient Optimization of Feedback Delay Networks for Smooth Reverberation
Estratto: A common bane of artificial reverberation algorithms is spectral coloration, typically manifesting as metallic ringing, leading to a degradation in the perceived sound quality. This paper presents an optimization framework where a differentiable feedback delay network is used to learn a set of parameters to reduce coloration iteratively. The parameters under optimization include the feedback matrix, as well as the input and output gains. The optimization objective is twofold: to maximize spectral flatness through a spectral loss while maintaining temporal density by penalizing sparseness in the parameter values. A favorable narrower distribution of modal excitation is achieved while maintaining the desired impulse response density. In a subjective assessment, the new method proves effective in reducing perceptual coloration of late reverberation. The proposed method achieves computational savings compared to the baseline while preserving its performance. The effectiveness of this work is demonstrated through two application scenarios where natural-sounding synthetic impulse responses are obtained via the introduction of attenuation filters and an optimizable scattering feedback matrix.
Autori: Gloria Dal Santo, Karolina Prawda, Sebastian J. Schlecht, Vesa Välimäki
Ultimo aggiornamento: 2024-08-28 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2402.11216
Fonte PDF: https://arxiv.org/pdf/2402.11216
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.