Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Migliorare il riconoscimento delle targhe usando più angolazioni

Un nuovo metodo migliora il riconoscimento delle targhe usando immagini da angolazioni diverse delle telecamere.

― 6 leggere min


Riconoscimento Targhe:Riconoscimento Targhe:Grande Novitàriconoscimento delle targhe.significativamente l'accuratezza delUn nuovo metodo aumenta
Indice

Riconoscere le targhe dalle immagini scattate dalle telecamere è un problema tosto nella ricerca. Anche se alcuni metodi hanno migliorato la precisione, c'è ancora bisogno di soluzioni migliori che funzionino nella vita reale. Questo articolo parla di un nuovo metodo per riconoscere le targhe usando angolazioni multiple delle telecamere e combinando diverse foto.

L'importanza del riconoscimento delle targhe

Con la popolazione globale in crescita, il traffico è diventato più complicato. Sono stati sviluppati Sistemi di Trasporto Intelligente (ITS) per gestire il traffico. Un elemento chiave di questi sistemi è la capacità di riconoscere automaticamente le targhe dei veicoli. Il processo di solito coinvolge diversi passaggi: trasformare le immagini delle telecamere in un formato comprensibile per il computer, trovare la targa nell'immagine, riconoscere i caratteri sulla targa e poi mostrare i risultati.

Metodi tradizionali di riconoscimento delle targhe

Nei metodi tradizionali, le targhe vengono viste come aree specifiche da analizzare, e i caratteri vengono riconosciuti in sequenza. Alcuni sistemi usano tecniche che confrontano i caratteri con modelli memorizzati in un database. Funziona bene, ma solo se la targa è chiara e non nascosta. Se la targa è difficile da vedere o non è ben fissata al veicolo, i risultati possono essere sbagliati.

Per migliorare il riconoscimento, alcuni ricercatori hanno suggerito di usare caratteristiche aggiuntive della targa invece di basarsi solo sul testo. I modelli di deep learning stanno diventando anche più popolari. Questi modelli apprendono le caratteristiche dalle immagini direttamente senza bisogno di estrarre prima caratteristiche specifiche. Alcuni modelli recenti usano due flussi di informazioni: uno per le caratteristiche del veicolo e uno per le caratteristiche della targa. Tuttavia, molti di questi modelli funzionano solo da un angolo singolo.

Con i progressi nella tecnologia delle telecamere, è diventato possibile raccogliere immagini da angoli multipli. Angolazioni multiple offrono diverse visioni della targa, il che può aiutare a migliorare la precisione del riconoscimento. Questo articolo presenta un nuovo modello che utilizza un’architettura di deep learning specifica per riconoscere meglio le targhe scattando foto da diversi angoli.

Fasi del riconoscimento delle targhe

Il processo di riconoscimento delle targhe può essere diviso in due parti principali: rilevamento della targa e riconoscimento del testo su di essa.

Rilevamento delle targhe

Recentemente, i metodi basati sulla visione artificiale hanno guadagnato attenzione nelle applicazioni ITS. Un rilevamento preciso delle targhe è cruciale per il monitoraggio del traffico. Sono stati esplorati molti sistemi a telecamera singola che utilizzano le Reti Neurali Convoluzionali (CNN), ma spesso faticano a rilevare targhe parzialmente bloccate. I sistemi multi-camera possono aiutare utilizzando i dati provenienti da diverse telecamere per migliorare le possibilità di rilevamento riuscito.

Alcuni ricercatori hanno usato tecniche come le trasformazioni wavelet per rilevare e localizzare le targhe. Altri hanno sviluppato framework di segmentazione popolari per facilitare l'identificazione di potenziali oggetti. Il modello YOLO (You Only Look Once) e le sue versioni più recenti sono particolarmente apprezzati per la loro velocità e accuratezza.

Riconoscimento delle targhe

Nella fase di riconoscimento, alcuni sistemi suddividono i caratteri sulla targa in parti prima di identificarli. Questi metodi possono variare, comprese tecniche tradizionali che analizzano componenti connesse o contorni. Altri ricercatori si sono concentrati sul riconoscere i caratteri senza romperli, trasformando il problema in un compito di etichettatura sequenziale. Alcuni modelli avanzati segmentano e riconoscono i caratteri individualmente allo stesso tempo.

Metodo proposto

Questo articolo presenta un nuovo approccio che include tre componenti principali: un modello YOLO per il rilevamento delle targhe, un algoritmo di fusione delle immagini per selezionare l'immagine migliore e un modello di Riconoscimento Ottico dei Caratteri (OCR) per riconoscere i caratteri.

Modello YOLO per il rilevamento

Il modello YOLOv8 è utilizzato per rilevare le targhe nelle immagini. Questo modello è scelto per la sua capacità di elaborare le immagini rapidamente mantenendo alta precisione, fondamentale per le applicazioni in tempo reale. Il sistema lavora con immagini ad alta risoluzione raccolte da vari tipi di veicoli e targhe vietnamite. Il modello YOLO identifica non solo le targhe, ma anche diversi tipi di veicoli.

Se vengono rilevate più targhe in un'unica immagine, il sistema può impiegare più tempo a riconoscerle tutte rispetto alle immagini con una sola targa.

Algoritmo di fusione delle immagini

Per migliorare la precisione del rilevamento, viene implementato un algoritmo di fusione delle immagini. Questo processo combina immagini da angolazioni diverse per produrre uno scatto più chiaro della targa. L'algoritmo valuta le aree sovrapposte delle immagini per creare un'immagine singola con la migliore qualità. Questa immagine migliorata aiuta nell'estrazione accurata dei caratteri per il riconoscimento.

Modello OCR per il riconoscimento dei caratteri

Al centro del processo di riconoscimento dei caratteri c'è il modello CnOCR. Inizia con uno strato convoluzionale che cattura le caratteristiche di base dall'immagine di input. Poi, diversi strati lavorano per ridurre la dimensione dell'immagine mantenendo i dettagli importanti. Dopo aver passato tutti gli strati, il modello utilizza una tecnica avanzata per prevedere i caratteri sulla targa.

Il modello CnOCR è progettato per velocità e precisione, raggiungendo prestazioni impressionanti nel riconoscere rapidamente le targhe.

Dataset e processo di addestramento

Il dataset utilizzato include 500 immagini etichettate di targhe, raccolte tramite varie telecamere. Queste immagini sono scattate da angolazioni diverse in vari luoghi per garantire diversità. L'addestramento prevede la definizione di vari parametri e il raffinamento dei modelli per migliorare le prestazioni nel tempo.

Durante l'addestramento vengono applicate funzioni di perdita per misurare quanto bene il modello sta apprendendo. Analizzando i valori di perdita, i ricercatori possono vedere come il modello sta migliorando con ogni ciclo di addestramento.

Risultati sperimentali

Le prestazioni del modello proposto vengono valutate utilizzando il punteggio F1, che misura l'equilibrio tra precisione e richiamo. I risultati mostrano che il nuovo metodo supera le tecniche esistenti, raggiungendo punteggi F1 del 91,3% sul nuovo dataset e del 90,8% su un dataset pubblico.

La matrice di confusione indica che, mentre il modello riesce a identificare con precisione la maggior parte delle targhe, ci sono ancora sfide quando si tratta di immagini sfocate o altri problemi.

Applicazione nel mondo reale

Per testare il modello in un contesto pratico, è stato integrato in un sistema che gestisce più telecamere in un'area industriale. Questa applicazione nel mondo reale ha dimostrato la capacità del modello di elaborare le immagini rapidamente, con un tempo di rilevamento medio di solo 0,1 secondi.

Conclusione

Questo articolo ha discusso un nuovo metodo per riconoscere le targhe che combina immagini da angolazioni multiple e utilizza tecniche avanzate di deep learning. I risultati sperimentali mostrano che questo approccio può migliorare significativamente la precisione, anche in condizioni difficili. I lavori futuri potrebbero includere l'uso di metodi come le Reti Generative Avversarie (GAN) per l'ottimizzazione dei dati e l'esplorazione dell'apprendimento auto-supervisionato per perfezionare ulteriormente il modello.

Fonte originale

Titolo: License Plate Recognition Based On Multi-Angle View Model

Estratto: In the realm of research, the detection/recognition of text within images/videos captured by cameras constitutes a highly challenging problem for researchers. Despite certain advancements achieving high accuracy, current methods still require substantial improvements to be applicable in practical scenarios. Diverging from text detection in images/videos, this paper addresses the issue of text detection within license plates by amalgamating multiple frames of distinct perspectives. For each viewpoint, the proposed method extracts descriptive features characterizing the text components of the license plate, specifically corner points and area. Concretely, we present three viewpoints: view-1, view-2, and view-3, to identify the nearest neighboring components facilitating the restoration of text components from the same license plate line based on estimations of similarity levels and distance metrics. Subsequently, we employ the CnOCR method for text recognition within license plates. Experimental results on the self-collected dataset (PTITPlates), comprising pairs of images in various scenarios, and the publicly available Stanford Cars Dataset, demonstrate the superiority of the proposed method over existing approaches.

Autori: Dat Tran-Anh, Khanh Linh Tran, Hoai-Nam Vu

Ultimo aggiornamento: 2023-09-22 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2309.12972

Fonte PDF: https://arxiv.org/pdf/2309.12972

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Articoli simili