Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Elaborazione di immagini e video# Visione artificiale e riconoscimento di modelli

Sviluppi nella valutazione della qualità video per codec di machine learning

Presentiamo un nuovo modello e un dataset per misurare la qualità video in modo efficiente.

― 8 leggere min


Migliorare la valutazioneMigliorare la valutazionedella qualità dei codecvideocodec ML.misurazioni della qualità video per iUn nuovo modello migliora le
Indice

Negli ultimi anni, i codec video che sfruttano il machine learning hanno fatto passi da gigante. Un aspetto fondamentale per migliorare questi codec è trovare modi validi per misurare la Qualità video. I metodi tradizionali, che richiedono che le persone guardino i video e diano le loro opinioni, possono essere lenti e costosi. Abbiamo scoperto che gli strumenti creati per i vecchi tipi di codec video non funzionano bene con i codec per machine learning perché i problemi che causano sono diversi.

Per aiutare con questo problema, abbiamo creato una nuova raccolta di video che sono stati valutati per qualità. Abbiamo anche sviluppato un nuovo modello in grado di valutare con precisione la qualità video. Il nostro modello mostra un livello di accordo molto elevato con le opinioni umane, che è un miglioramento significativo rispetto ai metodi esistenti. Stiamo condividendo il nostro dataset e il nostro modello per aiutare altri che lavorano in questo campo.

Importanza della Compressione Video

Molte persone si affidano a internet per guardare i video. Entro il 2022, si prevede che i contenuti video rappresenteranno una grande parte di tutto il traffico online. Questa domanda di video è in continua crescita grazie alla popolarità di piattaforme come TikTok, YouTube e videochiamate in diretta utilizzando servizi come Zoom e Microsoft Teams. Internet ha una capacità limitata e, se i dati video continuano a crescere a questo ritmo, potrebbero sovraccaricare i sistemi attuali.

Le tecniche di compressione video sono fondamentali perché consentono ai video di viaggiare su internet in modo più efficiente. Questi metodi possono ridurre significativamente la dimensione dei file video mantenendo una qualità accettabile. Ad esempio, questi codec possono ridurre i file di più di mille volte.

Storia dei Codec Video

I codec video si sono evoluti per molti anni. Dalla fine degli anni '80, sono stati introdotti diversi standard, a partire da H.261 fino ad arrivare a H.266 nel 2020. Ogni nuovo codec ha tipicamente migliorato notevolmente l'efficienza, consentendo una migliore qualità a dimensioni di file inferiori. Il tempo medio tra gli aggiornamenti per questi codec è stato di circa 8,5 anni.

Gli ultimi progressi includono l'uso del machine learning per migliorare la codifica video. Molti degli attuali codec video ML utilizzano metriche obsolete come il Peak Signal-to-Noise Ratio (PSNR) e il Multi-Scale Structural Similarity Index Measure (MS-SSIM) per giudicare la qualità. Tuttavia, abbiamo scoperto che queste metriche non si correlano bene con il modo in cui le persone percepiscono effettivamente la qualità nei video dei codec ML.

La Sfida della Valutazione della Qualità

Misurare la qualità video di solito viene fatto facendogli guardare e valutare i video. Questo processo richiede condizioni specifiche e può richiedere molto tempo, specialmente durante lo sviluppo di un codec, dove vengono create e testate molte versioni.

Per affrontare questa sfida, abbiamo creato un modello basato sul machine learning che ha mostrato punteggi elevati rispetto alle valutazioni umane. Il nostro modello non solo fornisce una misura della qualità, ma accelera anche il processo di sviluppo dei codec video per machine learning. Abbiamo anche rilasciato un dataset composto da vari video elaborati da diversi codec ML, completi di valutazioni degli utenti per ciascuno.

Lavori Correlati

Sebbene molti metodi di machine learning siano utilizzati in altri ambiti, la valutazione della qualità video si basa ancora molto su metriche tradizionali. La maggior parte delle attuali valutazioni della qualità video utilizza metriche come PSNR, SSIM e MS-SSIM. Queste vengono spesso calcolate esaminando ciascun fotogramma separatamente.

Netflix ha creato uno strumento chiamato Video Multi-method Assessment Fusion (VMAF) per prevedere la qualità video. VMAF combina diverse metriche ma presenta limitazioni, soprattutto nella cattura del movimento complesso nei video. Sono stati proposti altri approcci, come C3DVQA e CompressedVQA, ma hanno comunque dei difetti, come tenere conto solo della luminosità.

Molti ricercatori hanno lavorato con caratteristiche provenienti da modelli di deep learning addestrati su grandi dataset per migliorare le valutazioni della qualità. Questi studi mostrano che le caratteristiche profonde possono essere utili nel giudicare la qualità delle immagini e suggeriscono potenziali benefici nel dominio video.

Nuovo Dataset per Codec Video di Machine Learning

Il nostro nuovo dataset affronta due problemi significativi trovati nei dataset precedenti: copertura spaziale e temporale limitata e mancanza di video di bassa qualità. Abbiamo combinato diversi dataset esistenti e processato clip utilizzando più codec ML. Questo nuovo dataset include una vasta gamma di clip video, e ogni clip è stata valutata per qualità.

Il dataset è composto da numerosi clip sorgente combinati con molti clip elaborati. I video sono stati valutati utilizzando vari metodi di test soggettivi per garantire misure di alta qualità. Il nuovo dataset MLVC-FRVQA è progettato per essere completo e open-source, consentendo ulteriori sviluppi e ricerche.

Bias degli Utenti nelle Valutazioni della Qualità

Ottenere valutazioni accurate della qualità video può essere difficile a causa dei pregiudizi nelle opinioni degli utenti. Per affrontare questo, abbiamo cercato di correggere le valutazioni utilizzando un metodo che abbiamo sviluppato chiamato SUREAL. I nostri test preliminari hanno mostrato che le valutazioni convenzionali potevano essere migliorate, ma quando abbiamo usato metodi raffinati, abbiamo trovato cambiamenti minimi nei risultati. Questo è probabilmente perché il nostro dataset originale aveva già ridotto il rumore grazie a metodi di test accurati.

L'importanza delle Informazioni Spaziali e Temporali

Nella nostra analisi del nuovo dataset, abbiamo esaminato le informazioni spaziali e temporali contenute in ciascun video. Le informazioni spaziali indicano quanto dettaglio è presente in un fotogramma, mentre le informazioni temporali riflettono i cambiamenti che si verificano in una sequenza video. Calcolando queste metriche, possiamo capire meglio le caratteristiche di ciascun clip video e migliorare le valutazioni della qualità.

Il Modello di Valutazione della Qualità Video Codec di Machine Learning

Il modello MLCVQA è un sistema in due fasi che prima estrae caratteristiche dai video e poi prevede la qualità sulla base di quelle caratteristiche. Abbiamo utilizzato un modello SlowFast pre-addestrato per questo scopo. A differenza di altri metodi, il nostro approccio consente input video a piena risoluzione, il che aiuta a catturare problemi di qualità sottili che potrebbero essere presenti nei video compressi.

Durante i nostri test, abbiamo trovato che l'uso sia di metriche a livello di fotogramma che di caratteristiche estratte dal video ha migliorato le prestazioni del nostro modello. Abbiamo anche introdotto tecniche di data augmentation che mantengono la qualità percepita dei clip video, aumentando comunque le dimensioni del dataset per un miglior addestramento.

Architettura e Addestramento del Modello

Il modello MLCVQA è composto da diversi strati progettati per elaborare efficacemente le caratteristiche in input. Inizialmente, le caratteristiche vengono estratte e successivamente proiettate in uno spazio di dimensioni inferiori per semplificare l'elaborazione. Successivamente, applichiamo strati convoluzionali e un layer di previsione della qualità per fornire un punteggio di qualità per ciascun video.

Abbiamo utilizzato un regime di addestramento standard, con un ottimizzatore, una dimensione del batch stabilita e velocità di apprendimento specifiche. Questo addestramento ha permesso al modello di apprendere in modo efficace minimizzando gli errori nelle sue previsioni.

Metriche di Valutazione

Per valutare le prestazioni del modello MLCVQA, abbiamo utilizzato varie metriche che riflettono la sua accuratezza e correlazione con le valutazioni soggettive. Ci siamo concentrati principalmente sul Tau-b di Kendall per misurare l'accordo tra le valutazioni di qualità previste e quelle reali, poiché offre migliori interpretazioni nei casi con ranghi pari. Abbiamo anche esaminato il Coefficiente di Correlazione di Pearson e l'Errore Quadratico Medio per ulteriori valutazioni.

Esperimenti e Risultati

La nostra valutazione del modello MLCVQA ha mostrato che prevede efficacemente la qualità video. Abbiamo testato la sua accuratezza sia in valutazioni a livello di clip che a livello di modello. Il modello MLCVQA ha superato altri metodi esistenti, soprattutto nel classificare i diversi codec video in base alla qualità.

Studio di Ablazione

Abbiamo condotto uno studio di ablation per vedere come ciascuna parte del modello ha contribuito alle sue prestazioni complessive. Attraverso questo, abbiamo imparato che utilizzare il modello SlowFast per l'estrazione delle caratteristiche è stato cruciale per ottenere buoni risultati. Aggiungere metriche a livello di immagine e applicare tecniche di augmentation ha fornito miglioramenti significativi all'efficacia del modello.

Conclusione e Lavori Futuri

In sintesi, abbiamo introdotto un avanzamento significativo nei modelli di valutazione della qualità video specificamente per i codec basati su machine learning. Il nostro modello, MLCVQA, stabilisce un nuovo standard nella previsione della qualità video, mentre il nostro dataset MLVC-FRVQA serve come risorsa preziosa per la ricerca futura.

Ci sono ancora molte aree in cui possiamo migliorare MLCVQA, come l'uso di modelli più avanzati e il raffinamento ulteriore del dataset. I lavori futuri si concentreranno su test adattivi per raccogliere più valutazioni sulla qualità in intervalli in cui l'incertezza è maggiore. Questo aiuterà a migliorare le previsioni del modello nel tempo e porterà a codec video migliori nel complesso.

Fonte originale

Titolo: Full Reference Video Quality Assessment for Machine Learning-Based Video Codecs

Estratto: Machine learning-based video codecs have made significant progress in the past few years. A critical area in the development of ML-based video codecs is an accurate evaluation metric that does not require an expensive and slow subjective test. We show that existing evaluation metrics that were designed and trained on DSP-based video codecs are not highly correlated to subjective opinion when used with ML video codecs due to the video artifacts being quite different between ML and video codecs. We provide a new dataset of ML video codec videos that have been accurately labeled for quality. We also propose a new full reference video quality assessment (FRVQA) model that achieves a Pearson Correlation Coefficient (PCC) of 0.99 and a Spearman's Rank Correlation Coefficient (SRCC) of 0.99 at the model level. We make the dataset and FRVQA model open source to help accelerate research in ML video codecs, and so that others can further improve the FRVQA model.

Autori: Abrar Majeedi, Babak Naderi, Yasaman Hosseinkashi, Juhee Cho, Ruben Alvarez Martinez, Ross Cutler

Ultimo aggiornamento: 2023-09-01 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.00769

Fonte PDF: https://arxiv.org/pdf/2309.00769

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili