Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Recupero delle informazioni# Apprendimento automatico

Introducendo la Class Anchor Margin Loss per il recupero delle immagini

Una nuova funzione di perdita migliora la velocità e l'accuratezza del recupero delle immagini.

― 7 leggere min


Nuova Funzione di PerditaNuova Funzione di Perditaper il Recupero delleImmagininella ricerca di immagini.Migliorare la velocità e la precisione
Indice

Recuperare immagini da un database simili a un'immagine di query è un compito complesso noto come recupero immagini basato su contenuto (CBIR). Molti sistemi attuali usano reti neurali profonde per affrontare questa sfida. Anche se questi modelli mostrano risultati migliori rispetto ai vecchi metodi CBIR, rimane un problema significativo: scegliere la giusta funzione obiettivo per addestrare queste reti. Una buona funzione obiettivo aiuta il modello a imparare a creare caratteristiche che distinguono chiaramente le diverse immagini mantenendo insieme quelle simili.

Ci sono principalmente due tipi di approcci di apprendimento per addestrare le reti neurali: apprendimento statistico e apprendimento metrico. Le funzioni di apprendimento statistico, come la perdita di entropia incrociata, si concentrano sulla minimizzazione di una specifica distribuzione di probabilità. Tuttavia, non ottimizzano direttamente le caratteristiche per i compiti di recupero immagini. D'altra parte, le funzioni di apprendimento metrico, come la perdita contrastiva e la perdita a terzetti, lavorano direttamente nello spazio delle caratteristiche per misurare le distanze, ma spesso richiedono la creazione di coppie di immagini per il calcolo, portando a un processo più complicato e dispendioso in termini di tempo.

Per migliorare questo, proponiamo una nuova funzione di perdita chiamata perdita con margine ancorato di classe. Questa funzione mira a ottimizzare il processo di apprendimento evitando le inefficienze associate ai metodi basati su coppie. Il nostro approccio è progettato per creare cluster più chiari di immagini simili nello spazio delle caratteristiche, rendendo il recupero delle immagini più veloce e preciso.

Comprendere la Perdita Proposta

La perdita con margine ancorato di classe è composta da tre parti principali che lavorano insieme per migliorare le prestazioni dei sistemi di recupero immagini.

  1. Componente Attrattore: Questa parte della perdita attrae le caratteristiche delle immagini verso i loro ancoraggi di classe corrispondenti, che fungono da punti di riferimento fissi per ciascuna classe. L'obiettivo è avvicinare immagini simili nello spazio delle caratteristiche.

  2. Componente Repulsore: Questa parte crea una separazione tra gli ancoraggi di classe. Si assicura che gli ancoraggi di classe diversi siano distanziati da un certo margine, impedendo loro di avvicinarsi troppo.

  3. Componente Normale Minima: Questa parte finale impedisce agli ancoraggi di classe di collassare verso l'origine dello spazio delle caratteristiche. Spinge gli ancoraggi lontano dall'origine per mantenere una distanza adeguata.

Insieme, questi componenti ottimizzano il processo di apprendimento in un modo che non richiede la generazione di coppie di immagini, semplificando così l'intera operazione.

Sistema di Recupero a Due Fasi

Per migliorare ulteriormente l'efficienza del processo di recupero immagini, introduciamo un sistema di recupero a due fasi. A differenza dei sistemi tradizionali che confrontano la query con ogni immagine nel database, questo approccio confronta prima la query con gli ancoraggi di classe.

  1. Prima Fase: In questa fase, il sistema identifica quale ancoraggio di classe è più vicino al vettore delle caratteristiche della query.

  2. Seconda Fase: Una volta trovato l'ancoraggio di classe più vicino, il sistema confronta quindi la query con tutte le caratteristiche delle immagini collegate a quell'ancoraggio di classe.

Questo metodo riduce significativamente il numero di confronti necessari, portando a tempi di recupero più rapidi senza compromettere l'accuratezza.

Impostazione Sperimentale

Abbiamo condotto esperimenti utilizzando quattro dataset di immagini popolari: CIFAR-100, Food-101, SVHN e Tiny ImageNet. Ogni dataset è composto da varie classi contenenti numerose immagini. Abbiamo valutato la nostra funzione di perdita proposta utilizzando diverse architetture di reti neurali, comprese varie configurazioni di ResNet e transformer Swin.

Durante il processo di addestramento, abbiamo usato una strategia di ottimizzazione specifica su misura per ciascun modello per garantire un apprendimento efficace. I modelli sono stati addestrati da zero per un numero fissato di epoche, e abbiamo impiegato tecniche di Aumento dei Dati come il ritaglio casuale e il flipping per rendere il processo di addestramento più robusto.

Valutazione delle Prestazioni

Abbiamo misurato le prestazioni del nostro metodo proposto rispetto alle funzioni di perdita tradizionali, inclusa l'entropia incrociata e la perdita contrastiva. Ci siamo concentrati su metriche come la media della Precisione Media (mAP) e la precisione a diversi ranghi per valutare quanto bene il nostro sistema recuperasse immagini simili.

Risultati con Dati di Addestramento Completi

I nostri esperimenti hanno mostrato che i modelli addestrati con la nostra perdita con margine ancorato di classe spesso superavano quelli che utilizzavano altre funzioni di perdita. Mentre le perdite di entropia incrociata e contrastiva avevano risultati variabili, la nostra perdita ha costantemente fornito una migliore accuratezza su tutti i dataset e le configurazioni. Questa tendenza è continuata anche all'aumentare del numero di immagini, indicando che il nostro metodo scala bene con più dati.

Prestazione di Recupero con Pochi Esempi

Abbiamo anche testato i modelli in uno scenario di pochi esempi, dove il numero di immagini di addestramento per classe è limitato. I nostri risultati hanno indicato che la perdita con margine ancorato di classe ha portato a migliori tassi di recupero man mano che il numero di campioni di addestramento aumentava.

Al contrario, la perdita contrastiva ha performato peggio in generale, mentre la perdita di entropia incrociata ha occasionalmente mantenuto un vantaggio in casi di campioni limitati, ma è stata generalmente superata dal nostro metodo man mano che i dati aumentavano.

Visualizzazione dei Risultati

Per comprendere meglio come la nostra funzione di perdita abbia influenzato lo spazio delle caratteristiche, abbiamo visualizzato gli embedding prodotti dai modelli addestrati sul dataset SVHN utilizzando diverse perdite. Abbiamo scoperto che la nostra funzione di perdita produceva cluster più compatti e ben separati rispetto ad altri approcci. Questa struttura chiara nello spazio delle caratteristiche è cruciale per un recupero immagini efficiente.

Risultati Qualitativi

Abbiamo selezionato query casuali su diversi dataset per valutare qualitativamente le prestazioni del nostro metodo. Quando abbiamo ispezionato le immagini recuperate dai modelli addestrati con la nostra perdita con margine ancorato di classe, abbiamo osservato che spesso restituivano immagini che rappresentavano accuratamente la categoria della query. Al contrario, altre funzioni di perdita a volte recuperavano immagini non correlate, sottolineando l'efficacia del nostro approccio.

Studio di Ablazione

Abbiamo condotto uno studio di ablazione per valutare i contributi di ciascun componente della nostra funzione di perdita. Abbiamo scoperto che rimuovere uno qualsiasi dei tre componenti ha avuto un impatto negativo sulle prestazioni complessive, dimostrando che ciascuno gioca un ruolo vitale nell'ottimizzazione del sistema di recupero.

Inoltre, abbiamo sperimentato con diverse strategie di inizializzazione per gli ancoraggi di classe. I nostri risultati hanno mostrato che partire con un'inizializzazione ben separata ha migliorato notevolmente le prestazioni rispetto all'inizializzazione casuale.

Compiti di Classificazione

Oltre al recupero, abbiamo anche applicato il nostro metodo ai compiti di classificazione. Sfruttando i centri di classe appresi, abbiamo raggiunto tassi di accuratezza competitivi, spesso superando i metodi tradizionali. Questo indica che la nostra perdita con margine ancorato di classe è versatile ed efficace per più compiti.

Conclusione

In sintesi, abbiamo introdotto una nuova funzione di perdita per il recupero delle immagini basata su ancoraggi di classe che ottimizza i modelli di deep learning senza la necessità di generazione di coppie ingombranti. Inoltre, abbiamo proposto un sistema di recupero a due fasi che accelera significativamente le ricerche di immagini mantenendo alta l'accuratezza. I nostri esperimenti completi su più dataset e modelli hanno dimostrato l'efficacia del nostro approccio, aprendo la strada a future applicazioni oltre le immagini e in altri tipi di dati.

Attraverso un'esplorazione continua di questa nuova funzione di perdita, miriamo a determinare il suo potenziale in vari scenari e forse persino scoprire quando può superare le funzioni di perdita comunemente utilizzate.

Fonte originale

Titolo: Class Anchor Margin Loss for Content-Based Image Retrieval

Estratto: The performance of neural networks in content-based image retrieval (CBIR) is highly influenced by the chosen loss (objective) function. The majority of objective functions for neural models can be divided into metric learning and statistical learning. Metric learning approaches require a pair mining strategy that often lacks efficiency, while statistical learning approaches are not generating highly compact features due to their indirect feature optimization. To this end, we propose a novel repeller-attractor loss that falls in the metric learning paradigm, yet directly optimizes for the L2 metric without the need of generating pairs. Our loss is formed of three components. One leading objective ensures that the learned features are attracted to each designated learnable class anchor. The second loss component regulates the anchors and forces them to be separable by a margin, while the third objective ensures that the anchors do not collapse to zero. Furthermore, we develop a more efficient two-stage retrieval system by harnessing the learned class anchors during the first stage of the retrieval process, eliminating the need of comparing the query with every image in the database. We establish a set of four datasets (CIFAR-100, Food-101, SVHN, and Tiny ImageNet) and evaluate the proposed objective in the context of few-shot and full-set training on the CBIR task, by using both convolutional and transformer architectures. Compared to existing objective functions, our empirical evidence shows that the proposed objective is generating superior and more consistent results.

Autori: Alexandru Ghita, Radu Tudor Ionescu

Ultimo aggiornamento: 2023-06-03 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2306.00630

Fonte PDF: https://arxiv.org/pdf/2306.00630

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili