Avanzamenti nella rilevazione di piccoli oggetti video
Il dataset XS-VID e il metodo YOLOFT migliorano l'accuratezza della rilevazione di oggetti piccoli.
― 9 leggere min
Indice
- L'importanza della Rilevazione di Piccoli Oggetti nei Video
- Il Dataset XS-VID
- Contributi Chiave di XS-VID
- Sfide della Rilevazione di Piccoli Oggetti nei Video
- Il Processo di Raccolta Dati
- Processo di Annotazione
- Garanzia di Qualità nel Dataset
- YOLOFT: Un Nuovo Framework di Rilevazione
- Come Funziona YOLOFT
- Confronti di Prestazione
- Risultati e Osservazioni
- Direzioni Future
- Conclusione
- Fonte originale
- Link di riferimento
La Rilevazione di Piccoli oggetti nei Video (SVOD) è un'area importante nella visione artificiale che si concentra sul trovare oggetti minuscoli nei filmati. Questo è particolarmente utile in campi come la sicurezza pubblica e la sorveglianza, dove individuare rapidamente gli oggetti può essere fondamentale. Tuttavia, i dataset attuali per la rilevazione di piccoli oggetti sono limitati e presentano vari problemi, tra cui la mancanza di oggetti piccoli, poche categorie di oggetti e non abbastanza scene diverse. Questo rende difficile sviluppare metodi di rilevazione efficaci.
Per colmare questo vuoto, abbiamo creato un nuovo dataset chiamato XS-VID. Questo dataset è composto da video aerei registrati in vari luoghi e momenti. Include otto categorie di oggetti importanti. XS-VID raccoglie dati su tre tipi di piccoli oggetti in base alle loro dimensioni in pixel: estremamente piccoli, relativamente piccoli e generalmente piccoli. Il dataset offre una gamma più ampia di oggetti e scene per aiutare i ricercatori e gli sviluppatori a migliorare le loro tecniche di rilevazione.
Nei nostri test, abbiamo confrontato i metodi esistenti per trovare piccoli oggetti utilizzando il dataset XS-VID e il dataset pubblico VisDrone2019VID. Abbiamo scoperto che molti metodi attuali avevano difficoltà a rilevare piccoli oggetti e non si comportavano bene rispetto ai metodi di rilevazione generale. Per affrontare le carenze delle tecniche esistenti, abbiamo introdotto un nuovo metodo di rilevazione chiamato YOLOFT. Questo metodo migliora il modo in cui le caratteristiche locali sono collegate e integra le caratteristiche di movimento nel tempo, portando a una maggiore accuratezza nella rilevazione di piccoli oggetti.
L'importanza della Rilevazione di Piccoli Oggetti nei Video
SVOD è una parte significativa della visione artificiale ed è diventata un argomento caldo sia nella ricerca che nell'industria. In situazioni come la sicurezza pubblica e la sorveglianza aerea, trovare e identificare rapidamente gli oggetti è essenziale. Nonostante i progressi fatti nella rilevazione di oggetti nei video negli ultimi anni, la sfida di rilevare piccoli oggetti nei video non è ancora completamente esplorata. Uno dei motivi principali è la mancanza di dataset video fatti specificamente per la rilevazione di piccoli oggetti. Questa mancanza di risorse ostacola sia i processi di addestramento che di valutazione, risultando in meno metodi efficaci.
I dataset attuali per la rilevazione di oggetti nei video non riescono spesso a includere dimensioni di oggetti sufficientemente piccoli, offrono categorie di oggetti limitate e mancano di diversità scenica. Ad esempio, in dataset come ImageNetVID, VisDrone2019VID e UAVTD, la maggior parte degli oggetti ha aree di pixel maggiori, rendendo difficile valutare accuratamente i metodi di rilevazione di piccoli oggetti. Data questa situazione, c'è un bisogno urgente di un dataset che includa molti piccoli oggetti, una varietà ampia di scene e copra più categorie di oggetti per far progredire il campo della SVOD.
Il Dataset XS-VID
Per affrontare questi problemi, abbiamo creato il dataset XS-VID. Il dataset include 12.000 fotogrammi e 38 sequenze video di media lunghezza che catturano vari tipi di scene, come fiumi, foreste, grattacieli e strade, in vari momenti della giornata e della notte. I piccoli oggetti in XS-VID non sono limitati a una dimensione fissa, ma coprono varie dimensioni di oggetti piccoli. In particolare, il dataset contiene un totale di 49.000 oggetti estremamente piccoli, 94.000 oggetti relativamente piccoli, 36.000 oggetti generalmente piccoli e 72.000 oggetti di dimensioni normali. Questa distribuzione fornisce una visione completa delle dimensioni degli oggetti piccoli, colmando un gap critico nei dati disponibili.
Oltre al dataset proposto, abbiamo delineato le sfide esistenti associate alla rilevazione di piccoli oggetti nei video. Le principali sfide includono:
- Confusione di Sfondo: Lo sfondo può avere colori e trame simili all'oggetto, rendendo difficile individuarlo.
- Misclassificazione Facile: I piccoli oggetti spesso mancano di caratteristiche distintive, portando a identificazioni errate da parte del sistema di rilevazione.
- Distorsione della Trama: Poiché i piccoli oggetti hanno uno spazio in pixel limitato, le loro caratteristiche di trama possono perdere qualità.
A causa della mancanza di dataset focalizzati sugli oggetti estremamente piccoli, la ricerca su metodi per rilevare tali oggetti in diversi scenari e categorie è piuttosto limitata. Utilizzare metodi a fotogramma singolo o approcci tradizionali per la rilevazione di oggetti nei video non produce risultati soddisfacenti, principalmente perché non utilizzano caratteristiche temporali o non sono progettati per gestire oggetti estremamente piccoli.
Per rispondere a questi problemi, abbiamo proposto il metodo YOLOFT. Questo metodo combina il framework di rilevazione YOLOv8 con tecniche di flusso ottico per migliorare le prestazioni di rilevazione. Attraverso i nostri esperimenti dettagliati su XS-VID e VisDrone2019VID, abbiamo scoperto che YOLOFT ha superato i metodi esistenti.
Contributi Chiave di XS-VID
I nostri principali contributi attraverso il dataset XS-VID sono:
- Abbiamo sviluppato il dataset XS-VID, che include la gamma più ampia di dimensioni di oggetti piccoli e offre il numero più alto di oggetti estremamente piccoli e vari tipi di scena, affrontando in modo efficace il gap di dati esistente.
- Abbiamo effettuato ampi esperimenti per evidenziare le prestazioni di vari metodi avanzati di rilevazione di oggetti su XS-VID. I risultati hanno mostrato che questi metodi spesso erano carenti a causa di una mancanza di attenzione sugli oggetti estremamente piccoli nei dataset precedenti.
- Abbiamo introdotto YOLOFT, un metodo di rilevazione di piccoli oggetti nei video che aumenta significativamente l'accuratezza e la stabilità migliorando le associazioni delle caratteristiche locali e integrando le caratteristiche di movimento. Questo metodo può anche fungere da baseline per future ricerche.
Sfide della Rilevazione di Piccoli Oggetti nei Video
Rilevare piccoli oggetti nei video presenta diverse sfide. Queste sfide possono influenzare l'efficacia dei sistemi di rilevazione:
Confusione di Sfondo: Quando lo sfondo ha una trama simile a quella dell'oggetto, può essere difficile distinguere l'oggetto dallo sfondo. Questa confusione porta a rilevamenti mancati mentre l'algoritmo fatica a identificare l'oggetto.
Misclassificazione: I piccoli oggetti non forniscono sempre trame o forme chiare, il che può portare il sistema di rilevazione a identificarli erroneamente. Quando l'oggetto manca di caratteristiche visive distinte, aumenta la probabilità di classificazioni errate.
Trame Distorte: Gli oggetti piccoli possono perdere le loro caratteristiche distinte a causa del loro spazio in pixel limitato. Di conseguenza, l'algoritmo potrebbe non riconoscere efficacemente questi oggetti, portando a una diminuzione dell'accuratezza di rilevazione.
La mancanza di dataset focalizzati sugli oggetti estremamente piccoli limita la ricerca su modi per rilevarli attraverso vari scenari e categorie. Utilizzare tecniche progettate per oggetti più grandi non produce risultati affidabili.
Il Processo di Raccolta Dati
Per creare il dataset XS-VID, abbiamo utilizzato un drone DJI Air3 che volava a un'altezza di 70-90 metri. Il drone ha registrato filmati muovendosi a velocità di 5-10 metri al secondo. Abbiamo catturato video in scene diverse, come strade urbane trafficate, strade e ambienti naturali, in diversi momenti della giornata e in varie condizioni meteorologiche.
Dai filmati raccolti, sono stati prodotti 80 video in alta definizione, ognuno con una frequenza di 25 fotogrammi al secondo. Da questa selezione, abbiamo scelto 38 video che avevano una varietà ricca di oggetti e scene per formare il dataset XS-VID.
Processo di Annotazione
Annotare il dataset è stato un processo dettagliato. Ogni oggetto nei video è stato etichettato, e sono stati seguiti i seguenti passaggi:
- Inizialmente è stato utilizzato un rilevatore di oggetti generale per annotazioni preliminari.
- Le annotazioni sono state manualmente rifinite ogni 5-10 fotogrammi.
- È stata assegnata un'ID unica agli oggetti identificati attraverso i fotogrammi.
- Ogni fotogramma è stato riesaminato per accuratezza, comprese le regolazioni delle scatole di annotazione e la verifica della visibilità degli oggetti.
- Più annotatori hanno ricontrollato i dati per garantire coerenza e accuratezza.
L'intero processo di annotazione ha richiesto circa 4.000 ore di lavoro, garantendo un dataset di alta qualità.
Garanzia di Qualità nel Dataset
Per garantire l'affidabilità del dataset XS-VID, ogni video è stato annotato da almeno due revisori diversi. Sono stati condotti diversi round di revisioni per valutare l'accuratezza delle annotazioni. Abbiamo trovato che l'overlap tra le annotazioni dei revisori indipendenti era elevato, indicando che i nostri metodi erano efficaci.
Nonostante questi sforzi, ci sono ancora alcune limitazioni. Errori umani potrebbero verificarsi durante il processo di annotazione, e alcuni oggetti in movimento potrebbero avere contorni poco chiari, portando a imprecisioni. Sebbene il dataset XS-VID fornisca preziose informazioni, il numero di oggetti e fotogrammi potrebbe comunque essere considerato moderato.
YOLOFT: Un Nuovo Framework di Rilevazione
Il metodo YOLOFT è la nostra risposta alle sfide affrontate nella SVOD. È costruito sul framework YOLOv8 e include un nuovo componente chiamato modulo Multi-Scale Spatio-Temporal Flow (MSTF). Questo modulo è progettato per migliorare il modo in cui le caratteristiche spatio-temporali sono rappresentate attraverso fotogrammi consecutivi nelle sequenze video.
Come Funziona YOLOFT
Il modulo MSTF si concentra sul mantenere le informazioni di flusso ottico tra i fotogrammi e aggiornarle iterativamente. Questo consente al metodo di estrarre caratteristiche di movimento multi-scale dal video mantenendo le caratteristiche statiche dal fotogramma attuale. Il design è pensato per aiutare il modello di rilevazione a catturare meglio sia i grandi che i piccoli movimenti mantenendo informazioni ad alta risoluzione.
Il metodo incorpora anche un campionamento locale, permettendo alla rete di raccogliere informazioni sugli oggetti in movimento dai fotogrammi storici. Questo aiuta l'algoritmo a comprendere come gli oggetti possono muoversi attraverso le scene nel tempo, migliorando l'accuratezza complessiva della rilevazione.
Confronti di Prestazione
Nel testare YOLOFT contro vari altri metodi di rilevazione sui dataset XS-VID e VisDrone2019VID, abbiamo osservato che YOLOFT ha costantemente raggiunto un'accuratezza superiore rispetto ad altri modelli. Questo indica che l'approccio offre prestazioni elevate nella rilevazione di piccoli oggetti, anche in condizioni difficili.
Risultati e Osservazioni
Le nostre valutazioni su XS-VID e i dataset VisDrone2019VID hanno rivelato i seguenti risultati chiave:
- I metodi di rilevazione che si concentrano su oggetti più grandi tendono a faticare significativamente quando applicati a piccoli oggetti.
- Molti design complessi non portano a miglioramenti significativi nelle prestazioni di rilevazione, evidenziando la necessità di metodi più semplici ed efficaci.
- Incorporando informazioni di flusso ottico, YOLOFT ha ottenuto prestazioni migliori rispetto ad altri metodi, indicando l'importanza delle caratteristiche di movimento nella rilevazione di piccoli oggetti.
Nel complesso, abbiamo trovato che YOLOFT affronta efficacemente le sfide poste dalla rilevazione di piccoli oggetti nelle sequenze video.
Direzioni Future
Sebbene XS-VID e YOLOFT offrano miglioramenti significativi, ci sono ancora aree da esplorare ulteriormente. I lavori futuri potrebbero concentrarsi su:
- Espandere il Dataset: Aumentare la dimensione di XS-VID con più video e una maggiore varietà di scene fornirebbe una base più ampia per la ricerca.
- Migliorare le Tecniche di Rilevazione: Continuare lo sviluppo di algoritmi che possano gestire meglio le specifiche sfide associate alla rilevazione di piccoli oggetti migliorerebbe le prestazioni complessive.
- Affrontare le Preoccupazioni sulla Privacy: Assicurarsi che la raccolta e l'uso dei dati siano conformi agli standard etici sarà cruciale, soprattutto in applicazioni che coinvolgono sorveglianza e sicurezza.
Conclusione
Il dataset XS-VID e il framework di rilevazione YOLOFT rappresentano passi importanti avanti nella rilevazione di piccoli oggetti nei video. Affrontando le lacune esistenti nei dati e dimostrando prestazioni di rilevazione migliorate, crediamo che questi contributi favoriranno ulteriori progressi nel campo. Il nostro obiettivo è migliorare i metodi per rilevare piccoli oggetti nei video, supportando una gamma di applicazioni dalla sorveglianza alla sicurezza pubblica.
Titolo: XS-VID: An Extremely Small Video Object Detection Dataset
Estratto: Small Video Object Detection (SVOD) is a crucial subfield in modern computer vision, essential for early object discovery and detection. However, existing SVOD datasets are scarce and suffer from issues such as insufficiently small objects, limited object categories, and lack of scene diversity, leading to unitary application scenarios for corresponding methods. To address this gap, we develop the XS-VID dataset, which comprises aerial data from various periods and scenes, and annotates eight major object categories. To further evaluate existing methods for detecting extremely small objects, XS-VID extensively collects three types of objects with smaller pixel areas: extremely small (\textit{es}, $0\sim12^2$), relatively small (\textit{rs}, $12^2\sim20^2$), and generally small (\textit{gs}, $20^2\sim32^2$). XS-VID offers unprecedented breadth and depth in covering and quantifying minuscule objects, significantly enriching the scene and object diversity in the dataset. Extensive validations on XS-VID and the publicly available VisDrone2019VID dataset show that existing methods struggle with small object detection and significantly underperform compared to general object detectors. Leveraging the strengths of previous methods and addressing their weaknesses, we propose YOLOFT, which enhances local feature associations and integrates temporal motion features, significantly improving the accuracy and stability of SVOD. Our datasets and benchmarks are available at \url{https://gjhhust.github.io/XS-VID/}.
Autori: Jiahao Guo, Ziyang Xu, Lianjun Wu, Fei Gao, Wenyu Liu, Xinggang Wang
Ultimo aggiornamento: 2024-07-25 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.18137
Fonte PDF: https://arxiv.org/pdf/2407.18137
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.