Simple Science

Scienza all'avanguardia spiegata semplicemente

# Ingegneria elettrica e scienze dei sistemi# Elaborazione di immagini e video

Dataset BVI-AOM: Un Passo Avanti nella Compressione Video

BVI-AOM offre una risorsa variegata per ottimizzare le tecniche di compressione video.

― 5 leggere min


BVI-AOM: Codifica VideoBVI-AOM: Codifica VideoAvanzatametodi di compressione video.Nuovo dataset migliora notevolmente i
Indice

La quantità di contenuti video condivisi online è cresciuta tantissimo negli ultimi anni. Con internet più veloce, ci sono anche più utenti. Questo significa che inviare file video grandi può essere ancora una sfida. Per questo, la compressione video è diventata super importante.

La compressione video aiuta a ridurre la dimensione dei file dei video così possono essere inviati più velocemente e facilmente su internet. Negli ultimi vent'anni, sono stati creati molti standard di Codifica video, con H.264/AVC che è il più conosciuto. Successivamente, sono stati sviluppati H.265/HEVC e H.266/VVC. Un gruppo chiamato Alliance of Open Media (AOM) ha anche lavorato su standard di codifica da usare gratuitamente, come AOMedia Video 1 (AV1).

La Necessità di Migliori Dataset di Addestramento

Per far funzionare bene la compressione video, deve essere ottimizzata usando metodi di machine learning. Questo significa addestrare modelli su vari tipi di contenuti video. L'efficacia di questi modelli dipende spesso dalla qualità e dalla varietà dei dati di addestramento. Purtroppo, molti dataset esistenti sono limitati nella varietà dei contenuti o hanno regole d'uso rigide, rendendo difficile per i ricercatori sfruttarli al meglio.

Per affrontare questo problema, è stato creato un nuovo dataset chiamato BVI-AOM. Questo dataset contiene 956 sequenze video non compresse a diverse risoluzioni, che vanno da 270p a 2160p. È progettato con licenze flessibili, rendendo più facile per i ricercatori usarlo nel loro lavoro.

Cos'è BVI-AOM?

Il dataset BVI-AOM è stato creato per fornire una selezione ricca di contenuti video. Contiene sequenze diverse che includono diversi tipi di visivi e texture. Questa diversità aiuta i modelli a generalizzare meglio, il che significa che possono funzionare bene su diversi tipi di contenuti video quando vengono utilizzati in seguito.

I video in questo dataset provengono da alcune fonti diverse, assicurando una varietà di scene e stili. Ogni sequenza è lunga 64 fotogrammi e copre varie risoluzioni, utile per addestrare modelli. Il dataset presta anche attenzione al formato del video, assicurandosi che possa essere facilmente usato con gli strumenti di codifica video esistenti.

Confronto tra Dataset

Un altro dataset importante usato per il machine learning nella compressione video è BVI-DVC, che ha 800 sequenze video. Anche se questo dataset è stato utile, manca di alcuni tipi di contenuti, come scene scure o visivi ad alto contrasto, e il suo utilizzo è limitato a causa di regole di licenza.

Il dataset BVI-AOM affronta queste limitazioni. Offrendo una gamma più ampia di tipi di video e una struttura di licenza più flessibile, consente ai ricercatori di esplorare e innovare più liberamente. Questo rende BVI-AOM un notevole passo avanti nei dataset di addestramento per la compressione video.

Caratteristiche Chiave di BVI-AOM

Una delle caratteristiche principali di BVI-AOM è la sua forte copertura di contenuti. Questo dataset include sequenze che mostrano non solo scene di base ma anche visivi più complessi, come movimenti di fuoco o acqua. Tiene anche conto di elementi artistici, come i primi piani dai film d'azione, che aggiungono alla sua varietà.

Per garantire che il dataset sia completo, sono state utilizzate diverse tecniche per analizzare il contenuto video. Sono state misurate diverse caratteristiche video, come Informazioni Spaziali (quanta dettagli ci sono nelle immagini), Informazioni Temporali (come cambiano le immagini nel tempo) e Coloritè (la ricchezza dei colori). Queste caratteristiche aiutano a determinare quanto è variegato il dataset e mostrano che BVI-AOM ha una maggiore diversità rispetto a BVI-DVC.

Addestramento con BVI-AOM

Per mostrare le capacità del dataset BVI-AOM, sono state testate due architetture di modello popolari: EDSR e SwinIR. Questi modelli sono stati utilizzati insieme a due diversi strumenti di codifica video: post-elaborazione e super-risoluzione. L'obiettivo era vedere come si comportavano i modelli addestrati con BVI-AOM rispetto al dataset BVI-DVC.

Durante l'addestramento, sono stati usati sei diversi livelli di qualità di compressione, che hanno permesso ai modelli di imparare da una gamma di scenari. Dopo l’addestramento, i modelli sono stati testati utilizzando una selezione di sequenze video per valutare le loro prestazioni in situazioni reali.

Risultati

I risultati ottenuti utilizzando il dataset BVI-AOM sono stati promettenti. In ogni caso, le prestazioni sono migliorate quando i modelli sono stati addestrati usando questo nuovo dataset invece dell'older BVI-DVC. I guadagni in efficienza sono stati misurati in base ai risparmi di bitrate, con alcune migliorie che hanno raggiunto fino a 2,98 punti percentuali.

Questo significa che i video possono essere compressi meglio usando modelli addestrati su BVI-AOM, portando a file di dimensioni più piccole senza perdere troppa qualità. Questo è vantaggioso per chi lavora con contenuti video, poiché può rendere il processo di condivisione dei video online molto più fluido.

Vantaggi di BVI-AOM

Il dataset BVI-AOM offre più di semplici vantaggi in termini di prestazioni. Presenta anche una licenza flessibile, che consente di essere utilizzato più ampiamente all'interno della comunità di codifica video. Questa flessibilità significa che più ricercatori e sviluppatori possono accedere al dataset per i loro studi o progetti, portando potenzialmente a nuove innovazioni nella tecnologia di codifica video.

Avere un dataset ben bilanciato e diversificato può aiutare ricercatori e aziende a innovare nella compressione video. Fornisce le risorse necessarie per sperimentare nuovi metodi e affinare quelli esistenti. Col tempo, questo potrebbe portare a una migliore qualità video e a tecniche di compressione più efficienti.

Conclusione

In sintesi, la creazione del dataset BVI-AOM segna un passo importante nel campo della codifica video profonda. Con la sua varietà ricca di sequenze video non compresse e termini di licenza flessibili, rappresenta una risorsa preziosa per i ricercatori che lavorano per migliorare le tecnologie di compressione video.

Con la crescente richiesta di video di alta qualità online, avere accesso a migliori dataset di addestramento è fondamentale. Il dataset BVI-AOM, con il suo contenuto diversificato e prestazioni superiori, è pronto a giocare un ruolo significativo nei futuri progressi nel campo.

Utilizzando questo dataset, i metodi di codifica video possono diventare più efficaci e adattabili, contribuendo infine a una migliore esperienza di visualizzazione per tutti. Con l'evoluzione della tecnologia video, l'importanza di dati di addestramento di qualità non può essere sottovalutata, e BVI-AOM si distingue come uno strumento vitale in questa ricerca.

Fonte originale

Titolo: BVI-AOM: A New Training Dataset for Deep Video Compression Optimization

Estratto: Deep learning is now playing an important role in enhancing the performance of conventional hybrid video codecs. These learning-based methods typically require diverse and representative training material for optimization in order to achieve model generalization and optimal coding performance. However, existing datasets either offer limited content variability or come with restricted licensing terms constraining their use to research purposes only. To address these issues, we propose a new training dataset, named BVI-AOM, which contains 956 uncompressed sequences at various resolutions from 270p to 2160p, covering a wide range of content and texture types. The dataset comes with more flexible licensing terms and offers competitive performance when used as a training set for optimizing deep video coding tools. The experimental results demonstrate that when used as a training set to optimize two popular network architectures for two different coding tools, the proposed dataset leads to additional bitrate savings of up to 0.29 and 2.98 percentage points in terms of PSNR-Y and VMAF, respectively, compared to an existing training dataset, BVI-DVC, which has been widely used for deep video coding. The BVI-AOM dataset is available at https://github.com/fan-aaron-zhang/bvi-aom

Autori: Jakub Nawała, Yuxuan Jiang, Fan Zhang, Xiaoqing Zhu, Joel Sole, David Bull

Ultimo aggiornamento: 2024-10-23 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2408.03265

Fonte PDF: https://arxiv.org/pdf/2408.03265

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili