Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli

Avanzamenti nella Ri-Identificazione di Persone Visibile-Infrared

Un nuovo metodo migliora il matching tra immagini di telecamere visibili e infrarosse.

― 6 leggere min


Progresso nel MatchingProgresso nel Matchingtra PersoneVisibile-Infrarossoimmagini RGB e infrarosso.BMDG migliora l'identificazione tra
Indice

Abbinare persone viste in diversi tipi di telecamere, come luce visibile (RGB) e infrarosso (IR), è una sfida importante nella visione artificiale. Questo compito è conosciuto come ri-identificazione di persone visibile-infrarosso (V-I ReID). Il problema nasce perché le immagini catturate in questi due modi possono apparire molto diverse, rendendo difficile riconoscere la stessa persona in entrambi i tipi. I metodi tradizionali cercano spesso di affrontare questo problema creando uno spazio condiviso tra i due tipi di telecamere. Tuttavia, questo può fallire perché lo spazio creato potrebbe non catturare tutti i dettagli necessari per distinguere le persone in modo efficace.

Per affrontare questo problema, è stato proposto un nuovo approccio chiamato Generalizzazione Domestica Multi-passo Bidirezionale (BMDG). Questo metodo cerca di collegare più efficacemente le diverse caratteristiche delle immagini provenienti da telecamere visibili e infrarosse. Trovando modi per rappresentare le parti del corpo in entrambe le tipologie di immagini, BMDG mira a colmare meglio il divario tra queste modalità.

Comprendere V-I ReID

Nel V-I ReID, l'obiettivo è riconoscere gli individui abbinando le immagini scattate da telecamere visibili e infrarosse. Quando si catturano queste immagini, la stessa persona può apparire molto diversa a causa delle differenze di illuminazione e tecnologia della telecamera. Di conseguenza, i sistemi devono imparare a identificare caratteristiche consistenti che si applicano indipendentemente dal tipo di telecamera.

La maggior parte dei metodi all'avanguardia si concentra sulla comprensione dell'immagine nel suo complesso. Tentano di allineare le caratteristiche a livello di immagine o di utilizzare rappresentazioni globali. Questo significa che enfatizzano l'intera immagine piuttosto che esaminare parti specifiche. Di conseguenza, alcuni dettagli importanti riguardanti l'individuo possono andare persi in questo processo.

Affrontare le Limitazioni dei Metodi Tradizionali

Per superare le limitazioni dei metodi di rappresentazione globale, sono stati sviluppati approcci basati sulle parti. Questi metodi si concentrano sull'analizzare l'immagine suddividendola in diverse parti del corpo e esaminando queste parti singolarmente. Anche se questo può catturare alcuni dettagli, spesso porta ad apprendere attributi unici per ciascun tipo di telecamera invece di caratteristiche condivise. Questo può rendere il sistema meno efficace nel riconoscere la stessa persona attraverso diverse modalità.

L'Approccio BMDG

BMDG introduce un nuovo modo per collegare le immagini visibili e infrarosse creando più strati virtuali tra le due modalità. L'approccio si compone di due fasi principali:

  1. Allineamento delle Modalità: Prima di tutto, allinea le immagini visibili e infrarosse trovando caratteristiche condivise e creando rappresentazioni che siano coerenti tra i due tipi. Questo implica apprendere le parti del corpo in un modo che consenta al modello di riconoscere caratteristiche consistenti da ciascun tipo di immagine.

  2. Apprendimento Progressivo: Successivamente, BMDG utilizza un processo di apprendimento multi-passo per affinare le caratteristiche passo dopo passo. Incorporando gradualmente informazioni da entrambi i tipi di immagini, il modello sviluppa una comprensione più forte su come identificare gli individui.

L'obiettivo di BMDG è minimizzare le differenze tra le immagini visibili e infrarosse. Il metodo trova e allinea caratteristiche condivise che catturano le caratteristiche chiave tra le modalità, permettendo una migliore rappresentazione dell'individuo.

Sperimentare con BMDG

I ricercatori hanno condotto esperimenti utilizzando BMDG su dataset noti per V-I ReID, vale a dire SYSU-MM01 e RegDB. I risultati dimostrano che BMDG supera i metodi esistenti, specialmente quelli che si concentrano su modelli basati sulle parti o quelli che utilizzano un singolo dominio intermedio per l'addestramento.

Utilizzando BMDG, i sistemi hanno raggiunto miglioramenti nell'identificazione accurata delle persone attraverso entrambi i tipi di telecamere, il che suggerisce che l'approccio cattura con successo caratteristiche distintive critiche.

Suddivisione di BMDG

BMDG opera attraverso due moduli principali:

1. Modulo di Allineamento dei Prototipi delle Parti

Questo modulo è responsabile dell'estrazione e dell'allineamento delle rappresentazioni significative di diverse parti del corpo provenienti da immagini visibili e infrarosse. Questo assicura che le caratteristiche identificate siano complementari, intercambiabili e utili per distinguere gli individui.

Il modulo estrae vari prototipi legati a specifiche parti del corpo e utilizza questi per facilitare il processo di apprendimento. Scambiando questi prototipi delle parti allineati, il metodo costruisce gradualmente una base di conoscenza condivisa che migliora le capacità identificative del modello.

2. Modulo di Apprendimento Multi-passo Bidirezionale

Questo secondo modulo crea rappresentazioni intermedie delle caratteristiche integrando conoscenze provenienti da entrambe le modalità ad ogni passo del processo di addestramento. In questo modo, riduce gradualmente le informazioni specifiche del dominio dalle caratteristiche finali, assicurandosi che il sistema possa riconoscere gli individui indipendentemente dalla modalità di acquisizione.

L'approccio di miscelazione utilizzato in questo modulo aiuta il sistema a imparare prima da campioni più facili prima di passare a casi più complessi. In questo modo, BMDG assicura una comprensione approfondita su come colmare efficacemente le diverse modalità.

Risultati e Discussione

Confrontando BMDG con altri metodi all'avanguardia per V-I ReID, i risultati mostrano vantaggi chiari. Il metodo non solo migliora l'accuratezza ma dimostra anche che può gestire efficacemente le sfide poste da diversi tipi di immagini. La capacità di BMDG di catturare e utilizzare caratteristiche condivise tra vari prototipi consente di allineare le immagini in modo più efficace, portando a migliori prestazioni di abbinamento.

Vantaggi di BMDG

Concentrandosi sullo scambio graduale di informazioni tra le modalità, BMDG crea efficacemente domini intermedi informativi. Questo aiuta ad addestrare il modello a riconoscere attributi consistenti e riduce il rischio di perdere informazioni preziose sull'identità.

Inoltre, l'approccio è progettato per colmare il divario tra le modalità delle immagini attraverso un processo di apprendimento sistematico strato per strato. Questo aspetto di BMDG contribuisce alla sua robustezza e efficacia in scenari reali.

Conclusione

BMDG rappresenta un approccio nuovo ed efficace per affrontare le sfide nella ri-identificazione di persone visibile-infrarosso. Utilizzando prototipi delle parti del corpo e una strategia di addestramento multi-passo, il metodo migliora la capacità del modello di catturare caratteristiche condivise tra le modalità. I risultati positivi degli esperimenti indicano il potenziale di BMDG di contribuire significativamente al campo della visione artificiale, rendendo più facile identificare gli individui attraverso diversi tipi di immagini delle telecamere.

Lavori Futuri

La ricerca futura potrebbe esplorare ulteriori miglioramenti all'approccio BMDG, come l'integrazione di fonti di dati aggiuntive o il perfezionamento delle tecniche di allineamento utilizzate. Il continuo miglioramento dei sistemi V-I ReID può avere applicazioni preziose nella sicurezza, sorveglianza e in vari settori che richiedono un'identificazione accurata delle persone in ambienti diversi.

Sviluppando ulteriormente il framework BMDG e le sue metodologie, i ricercatori potrebbero sbloccare ulteriori capacità e migliorare il modo in cui le macchine riconoscono e differenziano gli individui in ambienti visivi complessi.

Fonte originale

Titolo: Bidirectional Multi-Step Domain Generalization for Visible-Infrared Person Re-Identification

Estratto: A key challenge in visible-infrared person re-identification (V-I ReID) is training a backbone model capable of effectively addressing the significant discrepancies across modalities. State-of-the-art methods that generate a single intermediate bridging domain are often less effective, as this generated domain may not adequately capture sufficient common discriminant information. This paper introduces the Bidirectional Multi-step Domain Generalization (BMDG), a novel approach for unifying feature representations across diverse modalities. BMDG creates multiple virtual intermediate domains by finding and aligning body part features extracted from both I and V modalities. Indeed, BMDG aims to reduce the modality gaps in two steps. First, it aligns modalities in feature space by learning shared and modality-invariant body part prototypes from V and I images. Then, it generalizes the feature representation by applying bidirectional multi-step learning, which progressively refines feature representations in each step and incorporates more prototypes from both modalities. In particular, our method minimizes the cross-modal gap by identifying and aligning shared prototypes that capture key discriminative features across modalities, then uses multiple bridging steps based on this information to enhance the feature representation. Experiments conducted on challenging V-I ReID datasets indicate that our BMDG approach outperforms state-of-the-art part-based models or methods that generate an intermediate domain from V-I person ReID.

Autori: Mahdi Alehdaghi, Pourya Shamsolmoali, Rafael M. O. Cruz, Eric Granger

Ultimo aggiornamento: 2024-03-15 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2403.10782

Fonte PDF: https://arxiv.org/pdf/2403.10782

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili