Progressi nella previsione della qualità audio con GML
Un nuovo modello di intelligenza artificiale migliora la previsione dei punteggi di qualità audio.
― 6 leggere min
Indice
Negli ultimi anni, capire la Qualità dell'Audio è diventato sempre più importante. Questa esigenza nasce dalla crescita dell'audio digitale in varie applicazioni come lo streaming musicale, le videochiamate e la realtà virtuale. I ricercatori stanno cercando modi per prevedere e valutare la qualità audio in maniera più efficace ed efficiente.
La Sfida di Prevedere la Qualità Audio
Valutare la qualità audio non è semplice. Spesso coinvolge ascoltatori umani che danno le loro opinioni basandosi su ciò che sentono. Questi ascoltatori forniscono Punteggi per i campioni audio, e questi punteggi possono variare notevolmente a seconda del gusto personale, delle condizioni di ascolto e di altri fattori. Questa variabilità rende le previsioni usando metodi standard una sfida.
Per affrontare questo problema, i ricercatori stanno lavorando su un modello chiamato Generative Machine Listener (GML). Questo modello ha l'obiettivo di prevedere come diversi segnali audio verranno valutati dagli ascoltatori. GML si basa su un tipo di intelligenza artificiale conosciuta come rete neurale, che impara da un gran numero di test di ascolto per generare punteggi simulati.
Cos'è il Generative Machine Listener?
Il Generative Machine Listener è progettato per prevedere la qualità dell'audio analizzando i segnali sonori. Può produrre una vasta gamma di punteggi simulati per coppie audio, il che aiuta a valutare la loro qualità senza necessità di input umano costante. Questa capacità è particolarmente utile in situazioni in cui devono essere valutati rapidamente numerosi campioni audio.
GML funziona imparando dai modelli dei veri test di ascolto. Si concentra su due aspetti chiave: il punteggio medio che gli ascoltatori danno a un campione audio specifico e il livello di fiducia in quel punteggio. Il livello di fiducia può indicare quanto sia affidabile il punteggio previsto. Un punteggio molto raggruppato suggerisce un alto livello di fiducia, mentre una gamma più ampia indica incertezza.
Dati e Metodologia
Per addestrare il GML, i ricercatori usano una raccolta di campioni audio che sono stati valutati da ascoltatori. Questi sono stati raccolti da vari test di ascolto, inclusi formati audio stereo e binaurali. In questi test, i partecipanti ascoltano diverse versioni audio, inclusi audio di riferimento non compressi e versioni compressi, e li valutano in base alla qualità.
Il dataset include diversi tipi di audio, come musica, parlato e suoni ambientali. L'obiettivo è assicurarsi che il modello abbia un'ampia esposizione a varie caratteristiche audio, il che gli consente di imparare meglio.
Un approccio innovativo nell'addestramento del GML è l'augmentazione dei dati. Questo significa apportare lievi modifiche ai campioni audio esistenti per fornire al modello nuovi esempi. Tecniche come lo scambio di canali audio o la mescolanza di diversi campioni audio aiutano a migliorare la robustezza del modello e la sua capacità di generalizzare.
Addestramento del Modello
GML utilizza un'architettura di rete neurale specifica che aiuta con la previsione della qualità audio. Questo modello è addestrato usando un metodo che modifica il processo di addestramento standard. Invece di prevedere solo un punteggio, GML fornisce una distribuzione di punteggi. Questo significa che può dare una gamma di risultati possibili per ogni campione audio, insieme ai livelli di fiducia corrispondenti.
Durante l'addestramento, il modello riceve feedback su quanto bene prevede questi punteggi, permettendogli di adattarsi e migliorare nel tempo. L'accento è posto sulla previsione accurata dei punteggi di qualità e dei loro intervalli di fiducia.
Risultati Sperimentali
Dopo aver addestrato GML, viene valutato rispetto ad altri modelli per vedere quanto bene si comporta. Per questa valutazione, i ricercatori hanno utilizzato modelli di previsione della qualità audio esistenti come punti di riferimento. Le prestazioni di GML vengono confrontate in base all'accuratezza nella previsione dei punteggi di qualità audio e a quanto bene stima gli intervalli di fiducia.
I risultati mostrano che GML supera molti altri modelli, in particolare nella previsione sia del punteggio medio che del livello di fiducia. Nei test, GML ha costantemente prodotto rapporti di outlier più bassi, indicando che le sue previsioni erano più affidabili.
Un aspetto importante di questi esperimenti è che GML è riuscito a mantenere buone prestazioni anche quando testato su campioni audio che non aveva mai incontrato prima. Questa capacità evidenzia la sua efficacia e il potenziale per applicazioni più ampie.
Vantaggi di GML
Il GML offre diversi vantaggi rispetto ai metodi tradizionali di valutazione della qualità audio. Innanzitutto, può gestire un volume maggiore di campioni audio più rapidamente di quanto possano fare gli ascoltatori umani. Questa velocità è preziosa in settori dove è necessario un feedback rapido, come i servizi di streaming e la radiodiffusione.
In secondo luogo, la capacità del modello di stimare sia i punteggi di qualità che i loro livelli di fiducia fornisce uno strumento utile per ingegneri e ricercatori. Livelli di fiducia più alti nelle previsioni significano che gli sviluppatori possono prendere decisioni più informate riguardo al processo e ai miglioramenti audio.
Infine, incorporare l'augmentazione dei dati nel processo di addestramento aumenta ulteriormente la solidità del modello. Vedendo esempi vari, GML diventa più adattabile, il che è cruciale per affrontare i diversi tipi di audio nelle situazioni reali.
Implicazioni Pratiche
Le implicazioni dell'uso di GML si estendono a molti settori. Nello streaming musicale, ad esempio, le aziende possono utilizzare il modello per garantire una consegna audio di alta qualità prevedendo come i cambiamenti nelle codifiche audio influenzeranno la soddisfazione degli ascoltatori. Allo stesso modo, nelle telecomunicazioni, potrebbe aiutare a valutare la qualità delle chiamate e delle videochiamate prima che raggiungano gli utenti.
Inoltre, con l'aumentare della domanda di esperienze audio immersive, GML può assistere nella valutazione della qualità di formati audio complessi come il surround sound e l'audio 3D. Questa capacità sarà sempre più essenziale man mano che tecnologie come la realtà virtuale e aumentata diventeranno più comuni.
Conclusione
Il Generative Machine Listener rappresenta un passo avanti nel campo della previsione della qualità audio. Con la sua capacità di simulare i punteggi degli ascoltatori e fornire livelli di fiducia, può migliorare significativamente il modo in cui viene valutata la qualità audio. Lo sviluppo e il perfezionamento continui di questo modello porteranno probabilmente a ulteriori progressi nel processamento audio e nella valutazione della qualità.
Futuri miglioramenti potrebbero espandere le capacità del GML per coprire ancora più formati audio e condizioni. Questo progresso fornirà strumenti preziosi per chi lavora con l'audio, garantendo che il suono di alta qualità rimanga una priorità in un mondo sempre più focalizzato sulle esperienze digitali.
Titolo: Generative Machine Listener
Estratto: We show how a neural network can be trained on individual intrusive listening test scores to predict a distribution of scores for each pair of reference and coded input stereo or binaural signals. We nickname this method the Generative Machine Listener (GML), as it is capable of generating an arbitrary amount of simulated listening test data. Compared to a baseline system using regression over mean scores, we observe lower outlier ratios (OR) for the mean score predictions, and obtain easy access to the prediction of confidence intervals (CI). The introduction of data augmentation techniques from the image domain results in a significant increase in CI prediction accuracy as well as Pearson and Spearman rank correlation of mean scores.
Autori: Guanxin Jiang, Lars Villemoes, Arijit Biswas
Ultimo aggiornamento: 2023-08-18 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2308.09493
Fonte PDF: https://arxiv.org/pdf/2308.09493
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://github.com/Netflix/vmaf/blob/master/resource/doc/conf_interval.md
- https://openreview.net/forum?id=BJrFC6ceg
- https://pytorch.org/docs/stable/generated/torch.nn.SmoothL1Loss.html
- https://professional.dolby.com/siteassets/technologies/dolbt_atmos_ac-4_whitepaper.pdf
- https://forge.3gpp.org/rep/ivas-codec-pc/ivas-codec
- https://mathworks.com/help/stats/corr.html
- https://github.com/google/visqol/