Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Multimedia

Sviluppi nella previsione del viewport per i video in streaming

MFTR migliora la precisione della previsione della viewport per esperienze video immersive.

― 6 leggere min


Previsione del viewportPrevisione del viewportmigliorata con MFTRl'efficienza dello streaming video.Nuovo metodo migliora l'accuratezza e
Indice

La previsione del viewport è una parte importante dello streaming video, soprattutto quando i video vengono forniti in alta risoluzione. Con sempre più persone che usano video in realtà virtuale (VR) e formati a 360 gradi, prevedere quale parte del video gli utenti guarderanno dopo è diventato cruciale. Questo processo aiuta a trasmettere le parti giuste di un video in qualità superiore, risparmiando banda.

I metodi attuali per la previsione del viewport si basano generalmente sul monitoraggio dei movimenti della testa. Questi metodi controllano dove gli utenti stanno guardando calcolando nel tempo le posizioni della testa. Tuttavia, spesso faticano con l'accuratezza e possono portare a errori, semplificando come diversi tipi di informazioni vengono combinati. In questo lavoro, presentiamo un nuovo approccio chiamato Multi-modal Fusion Transformer (MFTR) che migliora questi metodi tradizionali.

La necessità di una migliore previsione del viewport

Con l'aumento dei contenuti video disponibili, specialmente con la crescita di piattaforme come YouTube e Meta, il volume di dati necessari per trasmettere video ad alta risoluzione aumenta notevolmente. Ad esempio, un video 4K richiede molta più banda rispetto a un video normale. Questo crea sfide per i servizi di streaming, soprattutto quando la banda è limitata.

Per affrontare questo problema, sono stati sviluppati metodi di streaming basati su tile. Questi metodi suddividono un fotogramma video in sezioni più piccole chiamate tile. Gli utenti ricevono solo uno streaming di qualità superiore delle tile a cui sono più interessati, in base a dove stanno guardando.

La maggior parte dei metodi esistenti prevede dove gli utenti guarderanno stimando le posizioni della testa. Tuttavia, anche piccoli errori nella previsione di queste posizioni possono portare a problemi significativi nella selezione delle tile corrette.

L'approccio MFTR

Per migliorare la robustezza della previsione del viewport, MFTR adotta un approccio diverso. Invece di concentrarsi solo sulla previsione dei movimenti della testa, classifica le tile in base a quanto gli utenti potrebbero essere interessati ad esse. Il metodo considera due categorie principali: tile di interesse per gli utenti e tile che non lo sono.

Determinando quali tile hanno la maggiore probabilità di attirare l'attenzione degli utenti, MFTR seleziona un viewport che copre il maggior numero di tile con cui gli utenti potrebbero interagire. Questo è un metodo più stabile e interpretabile rispetto alla tradizionale posizione della testa.

MFTR utilizza un tipo di rete chiamata transformer per elaborare sia le informazioni temporali (dove un utente ha guardato in passato) sia le informazioni visive (cosa c'è nei video). In questo modo, può sfruttare i modelli nel comportamento degli utenti e nel contenuto video per fare previsioni migliori.

Componenti chiave di MFTR

Ramo Temporale

Il Ramo Temporale di MFTR si concentra su come cambiano i movimenti della testa e degli occhi di un utente nel tempo. Utilizza due reti Long Short-Term Memory (LSTM) per catturare queste informazioni. Le reti LSTM aiutano a monitorare i movimenti separati di testa e occhi dell'utente, e poi un Transformer Temporale combina queste informazioni per individuare tendenze nei movimenti.

Ramo Visivo

Il Ramo Visivo elabora il contenuto video. Utilizza una rete leggera, MobileNetV2, per generare rappresentazioni visive dai fotogrammi video. Questo ramo migliora le caratteristiche visive con un transformer, consentendo al modello di comprendere meglio il contenuto video e come potrebbe attirare l'interesse degli utenti.

Modulo di Fusione Temporale-Visiva

Questo modulo riunisce le informazioni provenienti da entrambi i rami, quello Temporale e quello Visivo. Utilizzando i transformers, può esplorare le relazioni tra dati visivi e temporali. Questo aiuta il sistema a riconoscere come entrambi i tipi di informazioni influenzano ciò in cui gli utenti potrebbero essere interessati.

Testa di Predizione della Posizione

Questa parte di MFTR si concentra sulla stima di dove un utente guarderà dopo. Durante l'addestramento, questa testa prevede le potenziali posizioni della testa per fornire informazioni aggiuntive che aiutano il modello ad apprendere meglio. Questo aggiunge un livello di dettaglio che migliora l'accuratezza delle previsioni.

Testa di Classificazione delle Tile

La Testa di Classificazione delle Tile è l'ultimo componente. Genera un punteggio per ogni tile in base a quanto un utente potrebbe essere interessato ad essa. Le tile con punteggi superiori a una certa soglia vengono contrassegnate come di interesse per l'utente, mentre le altre no. Il metodo seleziona quindi un viewport che contiene le tile più interessate dagli utenti, portando a previsioni più precise.

Addestramento e Test

Per valutare le prestazioni di MFTR, il modello è stato testato su due diversi set di dati contenenti numerosi video visionati dai partecipanti. Questi test aiutano a misurare quanto bene il modello prevede dove gli utenti guarderanno rispetto ai metodi all'avanguardia.

Le prestazioni vengono valutate utilizzando due metriche principali: l'accuratezza media delle previsioni e il rapporto di sovrapposizione tra i viewport previsti e quelli reali.

Il modello è stato addestrato utilizzando impostazioni specifiche per garantire che apprendesse in modo efficace, utilizzando un equilibrio di iper-parametri che determinano quanto peso ogni parte del modello riceve durante l'addestramento. Tutti i componenti sono stati regolati per aiutare il modello ad apprendere a fornire le migliori previsioni.

Risultati

Quando testato, MFTR ha mostrato un miglioramento significativo rispetto ai metodi tradizionali di previsione del viewport. Ha raggiunto una migliore accuratezza nel prevedere quali tile interesserebbero gli utenti e ha fornito una maggiore capacità di ragionamento che ha portato a risultati più comprensibili.

I risultati hanno dimostrato che MFTR non solo migliora le previsioni basate sul comportamento degli utenti, ma lo fa in modo efficiente, portando a un'esperienza migliore per gli utenti con un ritardo minimo nello streaming.

Efficienza di Calcolo

In termini di efficienza computazionale, MFTR ha performato bene rispetto ad altri metodi. Le previsioni possono essere fatte rapidamente, consentendo uno streaming video fluido senza ritardi significativi. Questa efficienza è cruciale, particolarmente nel contesto della fornitura di contenuti video di alta qualità in tempo reale.

Visualizzazione

I punteggi per ogni tile sono generati visivamente dal modello, fornendo un quadro chiaro degli interessi degli utenti. I viewport previsti si allineano bene con le aree reali su cui gli utenti si concentrano, cosa che può essere confermata visivamente. Questa capacità rende le previsioni non solo accurate, ma anche facili da interpretare e verificare.

Conclusione

MFTR sposta con successo l'attenzione della previsione del viewport dal monitoraggio esclusivo dei movimenti della testa a una comprensione più completa sia del comportamento degli utenti sia del contenuto video. Classificando le tile in base all'interesse degli utenti previsto, il sistema migliora la stabilità e l'accuratezza nelle previsioni del viewport.

Con l'aumento delle tecnologie video immersive, questo metodo promette di migliorare le esperienze degli utenti su varie piattaforme di streaming. La ricerca segna un passo significativo in avanti nel modo in cui gestiamo la previsione del viewport, puntando infine a un'esperienza di visione più fluida e coinvolgente.

Fonte originale

Titolo: Tile Classification Based Viewport Prediction with Multi-modal Fusion Transformer

Estratto: Viewport prediction is a crucial aspect of tile-based 360 video streaming system. However, existing trajectory based methods lack of robustness, also oversimplify the process of information construction and fusion between different modality inputs, leading to the error accumulation problem. In this paper, we propose a tile classification based viewport prediction method with Multi-modal Fusion Transformer, namely MFTR. Specifically, MFTR utilizes transformer-based networks to extract the long-range dependencies within each modality, then mine intra- and inter-modality relations to capture the combined impact of user historical inputs and video contents on future viewport selection. In addition, MFTR categorizes future tiles into two categories: user interested or not, and selects future viewport as the region that contains most user interested tiles. Comparing with predicting head trajectories, choosing future viewport based on tile's binary classification results exhibits better robustness and interpretability. To evaluate our proposed MFTR, we conduct extensive experiments on two widely used PVS-HM and Xu-Gaze dataset. MFTR shows superior performance over state-of-the-art methods in terms of average prediction accuracy and overlap ratio, also presents competitive computation efficiency.

Autori: Zhihao Zhang, Yiwei Chen, Weizhan Zhang, Caixia Yan, Qinghua Zheng, Qi Wang, Wangdu Chen

Ultimo aggiornamento: 2023-09-28 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.14704

Fonte PDF: https://arxiv.org/pdf/2309.14704

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili