Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Localizzazione Efficiente delle Azioni Temporali con Adattatore a Lungo-Corto Raggio

Un nuovo modello migliora il riconoscimento delle azioni nei video non tagliati riducendo al minimo l'uso della memoria.

― 8 leggere min


Nuovo adattatore potenziaNuovo adattatore potenziala localizzazione delleazionilunghi.il rilevamento delle azioni in videoUn nuovo metodo rivoluzionario migliora
Indice

La Localizzazione temporale delle azioni (TAL) è una tecnica usata per identificare e classificare azioni specifiche in video lunghi che non sono stati modificati o tagliati. Questo è un compito importante in vari settori come la ricerca video, la sorveglianza e la robotica. Recentemente, i modelli video che lavorano solo con Immagini RGB hanno iniziato a dare risultati migliori rispetto ai metodi più vecchi che richiedevano sia immagini RGB che dati aggiuntivi dai flussi ottici. Tuttavia, adattare questi modelli avanzati per il TAL è stato impegnativo a causa delle elevate esigenze di memoria del backbone video, che rende difficile addestrarli in modo efficace.

Per affrontare questo problema, abbiamo sviluppato un nuovo approccio chiamato Long-Short-range Adapter. Questo adattatore è progettato per essere efficiente sia in termini di memoria che di parametri specificamente per il TAL in video non tagliati.

La Necessità di Modelli Efficienti

Nel TAL, l'obiettivo è trovare dove si verificano le azioni nei video. Molti metodi esistenti bloccano la parte principale del modello che elabora i fotogrammi video e addestrano solo la parte che classifica le azioni. Anche se alcuni hanno mostrato miglioramenti utilizzando sia RGB che flusso ottico, i recenti progressi nei modelli video hanno permesso ai metodi solo RGB di ottenere ottimi risultati.

La sfida nasce perché questi modelli complessi spesso necessitano di molta memoria GPU per adattarsi correttamente. Molti metodi TAL possono funzionare bene, ma si fermano quando si tratta di utilizzare modelli più grandi che stanno diventando sempre più comuni.

Il Nostro Approccio

Presentiamo un nuovo adattatore chiamato Long-Short-range Adapter, che aiuta a colmare il divario tra i metodi attuali e la necessità di modelli più grandi e potenti. Questo adattatore ci consente di regolare il modello senza utilizzare troppa memoria, rendendo fattibile l'applicazione a video di qualsiasi lunghezza.

Il Design del Nostro Adattatore

Il Long-Short-range Adapter ha due componenti principali: Adattatori a Breve Raggio e Adattatori a Lungo Raggio. Gli Adattatori a Breve Raggio si concentrano su fotogrammi vicini per comprendere cambiamenti rapidi nelle azioni, mentre gli Adattatori a Lungo Raggio esaminano un intervallo più ampio di fotogrammi per catturare azioni più lunghe.

Questi adattatori lavorano in parallelo con il modello video principale. In questo modo, riduciamo la memoria complessiva necessaria mantenendo comunque prestazioni migliori. L'output di entrambi i tipi di adattatori viene quindi combinato per generare caratteristiche migliori per il compito di TAL.

Come Funziona?

Passo 1: Elaborazione dei Clip Video

Innanzitutto, il video non tagliato viene suddiviso in vari clip più piccoli. Ogni clip viene elaborato in modo indipendente. Gli Adattatori a Breve Raggio guardano questi clip da vicino per capire i dettagli fini, mentre gli Adattatori a Lungo Raggio guardano l'intera sequenza per afferrare le azioni generali.

Passo 2: Combinazione delle Caratteristiche

Dopo l'elaborazione, gli output degli Adattatori a Breve Raggio e Lungo Raggio vengono uniti. Questo avviene attraverso un metodo di fusione speciale che aiuta il modello a capire come pesare diverse parti delle informazioni ricevute dai due adattatori.

Passo 3: Addestramento del Modello

La combinazione delle caratteristiche viene quindi inviata a una testa addestrabile che prende le decisioni finali sulla localizzazione delle azioni. È importante notare che il nostro design dell'adattatore previene la necessità di retropropagare i gradienti attraverso il modello video principale, il che aiuta significativamente a ridurre l'uso della memoria.

Risultati

Abbiamo testato il nostro approccio su dataset standard di TAL come THUMOS-14 e ActivityNet-v1.3. In questi test, il nostro metodo ha superato le tecniche esistenti, raggiungendo una precisione migliore nel localizzare le azioni in video non tagliati, risultando anche più efficiente in termini di memoria.

Prestazioni su THUMOS-14

Il dataset THUMOS-14 ha 20 tipi di azioni. Abbiamo addestrato il nostro modello sul set di addestramento e testato su quello di validazione. I risultati hanno mostrato miglioramenti significativi rispetto ai metodi solo head, che sono il modo tradizionale di addestrare questi modelli.

Prestazioni su ActivityNet-v1.3

Analogamente, abbiamo testato il nostro approccio su ActivityNet-v1.3, che contiene 200 classi di azioni. Anche qui, abbiamo osservato che il nostro metodo superava gli altri nell'identificare correttamente i confini e i tipi di azioni.

Lavori Correlati

Negli anni, sono state proposte diverse tecniche per il TAL. Molti di questi metodi si basano fortemente su immagini RGB e caratteristiche del flusso ottico. Alcuni utilizzano un processo a due fasi, dove le azioni vengono prima proposte e poi classificate, mentre altri funzionano in un'unica passata senza generare proposte separatamente.

Tuttavia, la maggior parte dei modelli funziona ancora sotto la limitazione di congelare il backbone video, il che ostacola le loro prestazioni quando si tratta di video non tagliati. Recentemente, i grandi modelli video hanno mostrato risultati superiori utilizzando solo caratteristiche RGB, ma sono ancora limitati ai metodi solo head.

Approcci di Adattamento del Backbone

Alcune tecniche esistenti tentano di adattare i backbone video RGB oltre l'approccio di trasferimento dell'apprendimento solo head. Usano varie strategie di ottimizzazione della memoria, come abbassare la risoluzione spaziale o ridurre le attivazioni dei canali. Tuttavia, questi metodi faticano a scalare alle dimensioni degli ultimi modelli di base, che sono sempre più capaci di gestire dataset più grandi.

Importanza del Nostro Lavoro

Il nostro approccio si distingue come il primo metodo che è sia efficiente in termini di memoria che di parametri per i compiti TAL. Il design del nostro Long-Short-range Adapter consente al modello video principale di imparare meglio dai video non tagliati senza essere limitato dai vincoli di memoria precedenti.

Il Modulo di Fusione Long-Short-range

Il modulo di fusione Long-Short-range che abbiamo implementato è cruciale. Ci consente di imparare come combinare al meglio i contributi dagli Adattatori a Breve Raggio e a Lungo Raggio. Questa flessibilità assicura che il modello ottenga la comprensione più pertinente da tutti i livelli del backbone video.

Configurazione Sperimentale

Abbiamo condotto i nostri esperimenti utilizzando tre diversi backbone video: SlowFast-101, VideoMAEv2 (ViT-Base) e VideoMAEv2 (ViT-g). Quest'ultimo ha oltre un miliardo di parametri e attualmente raggiunge risultati all'avanguardia in vari benchmark.

Metodologia di Addestramento

Per il nostro addestramento, abbiamo utilizzato fotogrammi RGB come input per i nostri diversi backbone video. I tassi di apprendimento selezionati sono stati adattati in base al dataset. Abbiamo anche applicato aumentazioni spaziali per migliorare la robustezza del modello.

Confronti e Analisi

Abbiamo effettuato confronti tra il nostro metodo e varie strategie di addestramento esistenti su THUMOS-14. Il nostro Long-Short-range Adapter non solo ha ottenuto risultati migliori di un margine significativo, ma è anche riuscito a farlo senza incorrere in problemi di memoria, che sono diventati un problema per molti altri metodi.

Valutazione dei Design degli Adattatori

Per comprendere meglio i punti di forza del nostro approccio, abbiamo confrontato vari design di adattatori per il compito TAL. Il nostro design Long-Short-range ha superato significativamente i metodi precedenti con un margine notevole. Questo ha evidenziato l'efficacia del nostro design specializzato.

Visualizzazione delle Prestazioni

Abbiamo condotto analisi qualitative su video provenienti sia da THUMOS-14 che da ActivityNet-v1.3. Le visualizzazioni hanno indicato che il nostro metodo ha localizzato le azioni con molta più precisione rispetto ai tradizionali metodi solo head.

Esempi di Localizzazione delle Azioni

Azioni specifiche come "Dunk nel Basket" e "Campana" sono state correttamente identificate con confini d'azione precisi. In diverse situazioni, il nostro metodo ha evitato falsi positivi e negativi con cui i modelli solo head hanno faticato.

Analisi di Sensibilità e Errori

Abbiamo effettuato un'analisi di sensibilità per valutare come il nostro metodo gestisse azioni di diverse lunghezze e frequenze. I risultati hanno dimostrato che il nostro approccio gestiva efficacemente sia azioni piccole che grandi, catturando dettagli necessari che altri metodi hanno perso.

Riduzione dei Falsi Positivi

Un'analisi degli errori ha mostrato che la capacità del nostro modello di adattare i livelli intermedi ha portato a una riduzione delle previsioni di etichette sbagliate, indicando capacità di classificazione migliori nel complesso.

Limitazioni e Direzioni Future

Anche se il nostro modello rappresenta un significativo avanzamento nel TAL, ci sono ancora aree da migliorare. I requisiti di memoria sono ancora legati alla lunghezza e alla risoluzione del video, quindi il lavoro futuro mirerà a minimizzare ulteriormente queste dipendenze.

Abbiamo anche in programma di estendere il nostro metodo per coprire compiti aggiuntivi come la segmentazione degli oggetti video e la localizzazione spaziotemporale attraverso più modalità, inclusi dati audio e testuali.

Conclusione

In questo lavoro, abbiamo introdotto un metodo innovativo per la Localizzazione Temporale delle Azioni in video non tagliati. Il nostro Long-Short-range Adapter consente di utilizzare efficacemente modelli video esistenti mentre riduce significativamente i requisiti di memoria. Adattandosi con successo a varie azioni in video lunghi, questo metodo stabilisce un nuovo standard per le tecniche di localizzazione delle azioni. Le nostre scoperte aprono la strada a modelli più efficienti ed efficaci in futuro.

Fonte originale

Titolo: LoSA: Long-Short-range Adapter for Scaling End-to-End Temporal Action Localization

Estratto: Temporal Action Localization (TAL) involves localizing and classifying action snippets in an untrimmed video. The emergence of large video foundation models has led RGB-only video backbones to outperform previous methods needing both RGB and optical flow modalities. Leveraging these large models is often limited to training only the TAL head due to the prohibitively large GPU memory required to adapt the video backbone for TAL. To overcome this limitation, we introduce LoSA, the first memory-and-parameter-efficient backbone adapter designed specifically for TAL to handle untrimmed videos. LoSA specializes for TAL by introducing Long-Short-range Adapters that adapt the intermediate layers of the video backbone over different temporal ranges. These adapters run parallel to the video backbone to significantly reduce memory footprint. LoSA also includes Long-Short-range Gated Fusion that strategically combines the output of these adapters from the video backbone layers to enhance the video features provided to the TAL head. Experiments show that LoSA significantly outperforms all existing methods on standard TAL benchmarks, THUMOS-14 and ActivityNet-v1.3, by scaling end-to-end backbone adaptation to billion-parameter-plus models like VideoMAEv2~(ViT-g) and leveraging them beyond head-only transfer learning.

Autori: Akshita Gupta, Gaurav Mittal, Ahmed Magooda, Ye Yu, Graham W. Taylor, Mei Chen

Ultimo aggiornamento: 2024-12-05 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2404.01282

Fonte PDF: https://arxiv.org/pdf/2404.01282

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili