Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Sfide nel Riconoscimento dei Piloti Off-Road

Nuovi set di dati rivelano difficoltà nell'identificare i corridori e il testo in condizioni fangose.

― 6 leggere min


Problemi diProblemi diriconoscimento per ipiloti off-roadriconoscere i corridori e il testo.I dataset mostrano delle sfide nel
Indice

Riconoscere testi e persone in foto scattate in situazioni reali è davvero complicato. Anche se la tecnologia per leggere testi nelle immagini e riconoscere le persone è migliorata tantissimo, ci sono ancora molte sfide. Per esempio, riconoscere i corridori in foto di gare fuoristrada può essere difficile a causa di fattori come fango, pose strane e immagini sgranate.

Per aiutare con questo problema, sono stati creati due nuovi dataset da gare di moto fuoristrada. Questi dataset mirano a mostrare i limiti della tecnologia attuale e incoraggiare i progressi nel riconoscimento di testi e nell'identificazione delle persone in condizioni difficili.

I Dataset

Il primo dataset si chiama Racer Number Dataset (RND) per moto fuoristrada. Include oltre 2.400 immagini di corridori durante le gare, con i numeri dei corridori ben visibili nelle immagini. Ci sono più di 5.500 numeri di corridori individuali in totale. Queste immagini presentano diverse sfide, come il fango che oscura i numeri, angoli di ripresa imbarazzanti e qualità delle immagini bassa.

Il secondo dataset è il Muddy Racer re-identification Dataset (MUDD). Ha quasi 4.000 immagini, che catturano 150 corridori diversi in dieci eventi fuoristrada distinti. Ogni immagine è etichettata con l'identità del corridore, e anche queste immagini affrontano problemi come fango, cambiamenti di illuminazione e pose diverse.

Entrambi i dataset sono stati raccolti da un sito web che presenta foto di fotografi professionisti del motorsport. Offrono una vasta gamma di condizioni che sfidano i metodi attuali di riconoscimento delle immagini.

Sfide nel Riconoscimento

I metodi attuali faticano a riconoscere testi e immagini in ambienti difficili. Per esempio, la tecnologia standard può leggere testi su documenti con grande precisione, ma può fallire di fronte a testi in scene caotiche o quando il testo è parzialmente nascosto dal fango o da altri elementi. Allo stesso modo, l'identificazione delle persone nelle immagini ne risente quando non sono chiaramente visibili, come durante una gara quando le persone possono essere nascoste o in pose insolite.

Ci sono vari fattori che influenzano la precisione del riconoscimento, come le condizioni di illuminazione, gli angoli delle fotografie e la presenza di fango. Il fango può creare schemi unici di Ostruzione che i modelli standard non sono stati addestrati a gestire.

Benchmarking dei Modelli

I test iniziali sui dataset usando modelli avanzati attuali hanno mostrato che queste prestazioni erano scarsissime in entrambe le attività: riconoscimento di testi e identificazione delle persone. Per il riconoscimento dei testi, i modelli pronti all'uso hanno raggiunto un'accuratezza media di solo circa il 15%, mentre l'identificazione delle persone ha raggiunto circa il 33%. Questo indica un gap significativo tra l'addestramento su dataset tipici e le condizioni reali.

Quando gli stessi modelli sono stati adattati per adattarsi meglio alle specifiche di questi dataset, le prestazioni sono migliorate ma sono rimaste inadeguate. Dopo la messa a punto, i migliori modelli hanno raggiunto circa il 53% di accuratezza per il riconoscimento dei testi e circa il 79% per l'identificazione dei corridori. Tuttavia, questo rivela ancora molte aree di miglioramento.

Osservazioni dai Dataset

I dataset evidenziano alcuni problemi comuni che ostacolano le prestazioni in contesti reali.

  1. Ostruzione da Fango: La sfida più grande è il fango pesante, che oscura i corridori e i loro numeri. Il fango può coprire dettagli critici, rendendo difficile per i modelli riconoscere i numeri che sono parzialmente o completamente nascosti.

  2. Pose Variegate: I corridori adottano molte posizioni diverse durante le gare, come saltare o cadere. Queste pose non si trovano tipicamente nei dataset standard, il che rende più difficile per i modelli identificarli con precisione.

  3. Illuminazione e Risoluzione: L'illuminazione durante una gara può variare molto, portando a riflessi o ombre che confondono i modelli di riconoscimento. Molte immagini sono anche scattate da lontano, risultando in bassa risoluzione che diminuisce la qualità dei dettagli.

  4. Sfondo Complesso: Le gare possono coinvolgere numerosi corridori in un'unica immagine, rendendo difficile concentrarsi su numeri individuali. Gli sfondi caotici aumentano la complessità.

  5. Condizioni Dinamiche: Il comportamento dei corridori può cambiare durante la gara, influenzando il loro aspetto in diverse immagini. Questo richiede ai modelli di adattarsi a varie apparenze per la stessa persona.

Risultati dai Modelli di Riconoscimento dei Testi

Il compito di riconoscimento dei testi ha valutato due modelli avanzati: YAMTS e SwinTS. Entrambi i modelli sono stati testati prima con le loro impostazioni originali e poi messi a punto per le esigenze specifiche dei dataset. Le versioni ottimizzate hanno mostrato miglioramenti significativi, con punteggi di rilevamento che hanno raggiunto i mid-70s per i punteggi F1.

Le prestazioni variavano a seconda delle condizioni presenti nelle immagini. Per esempio, quando i numeri erano oscurati dal fango, i modelli faticavano a identificarli correttamente. Tuttavia, si sono comportati meglio quando le immagini erano chiare. Questo indica che le capacità di riconoscimento possono essere gravemente influenzate dall'ambiente in cui sono state scattate le immagini.

Risultati dai Modelli di Identificazione delle Persone

Allo stesso modo, il compito di identificazione delle persone ha rivelato che i modelli pre-addestrati hanno avuto prestazioni scarse quando applicati direttamente ai nuovi dataset. I punteggi di accuratezza più alti erano ancora sotto il 35%.

La messa a punto di questi modelli per il nuovo ambiente ha migliorato i risultati, con i migliori modelli che hanno raggiunto un tasso di accuratezza superiore al 79%. È chiaro che adattare i modelli alle specificità del loro ambiente è cruciale per le applicazioni nel mondo reale.

Analisi Qualitativa delle Prestazioni dei Modelli

Uno sguardo dettagliato su come si sono comportati i modelli ha evidenziato sia i loro punti di forza che le loro debolezze.

In scenari in cui c'era poca ostruzione, i modelli potevano rilevare e identificare i corridori con precisione. Tuttavia, in condizioni difficili come il fango pesante o con sfondi complessi, i modelli non si comportavano bene.

Alcune delle sfide includevano:

  • Rilevare numeri più piccoli sui caschi, che spesso venivano persi a causa del fango.
  • Riconoscere numeri posizionati in modo strano, che portava a errate identificazioni.
  • Numeri sovrapposti che confondevano i modelli, portando a letture errate.

Queste osservazioni indicano che, anche se sono stati fatti progressi, ci sono ancora sfide sostanziali, specialmente in condizioni fangose o caotiche.

Conclusione

In sintesi, i dataset creati dalle gare di moto fuoristrada rappresentano un significativo passo avanti nella comprensione di come le tecnologie attuali faticano con le applicazioni nel mondo reale. Le sfide presentate da questi dataset rivelano dove è necessario un ulteriore ricerca e sviluppo.

Con l'evoluzione della tecnologia, c'è una grande opportunità per miglioramenti nel riconoscere testi e identificare persone in circostanze difficili. Imparando dalle carenze evidenziate in questa ricerca, gli sviluppi futuri possono portare a soluzioni migliori che affrontano questi ostacoli in modo efficace.

In generale, questi sforzi non solo beneficeranno l'analisi sportiva, ma potrebbero anche avere applicazioni più ampie in campi che richiedono capacità di riconoscimento robuste in ambienti variabili.

L'introduzione di questi dataset serve come un passo cruciale per motivare ulteriori progressi nel settore, aprendo la strada a innovazioni che migliorano la capacità di interpretare immagini complesse trovate in situazioni del mondo reale.

Fonte originale

Titolo: Beyond the Mud: Datasets and Benchmarks for Computer Vision in Off-Road Racing

Estratto: Despite significant progress in optical character recognition (OCR) and computer vision systems, robustly recognizing text and identifying people in images taken in unconstrained \emph{in-the-wild} environments remain an ongoing challenge. However, such obstacles must be overcome in practical applications of vision systems, such as identifying racers in photos taken during off-road racing events. To this end, we introduce two new challenging real-world datasets - the off-road motorcycle Racer Number Dataset (RND) and the Muddy Racer re-iDentification Dataset (MUDD) - to highlight the shortcomings of current methods and drive advances in OCR and person re-identification (ReID) under extreme conditions. These two datasets feature over 6,300 images taken during off-road competitions which exhibit a variety of factors that undermine even modern vision systems, namely mud, complex poses, and motion blur. We establish benchmark performance on both datasets using state-of-the-art models. Off-the-shelf models transfer poorly, reaching only 15% end-to-end (E2E) F1 score on text spotting, and 33% rank-1 accuracy on ReID. Fine-tuning yields major improvements, bringing model performance to 53% F1 score for E2E text spotting and 79% rank-1 accuracy on ReID, but still falls short of good performance. Our analysis exposes open problems in real-world OCR and ReID that necessitate domain-targeted techniques. With these datasets and analysis of model limitations, we aim to foster innovations in handling real-world conditions like mud and complex poses to drive progress in robust computer vision. All data was sourced from PerformancePhoto.co, a website used by professional motorsports photographers, racers, and fans. The top-performing text spotting and ReID models are deployed on this platform to power real-time race photo search.

Autori: Jacob Tyo, Motolani Olarinre, Youngseog Chung, Zachary C. Lipton

Ultimo aggiornamento: 2024-02-12 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2402.08025

Fonte PDF: https://arxiv.org/pdf/2402.08025

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili