Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Apprendimento automatico

Migliorare il Riconoscimento degli Oggetti con Tripla Attenzione

Un nuovo approccio migliora il modello DETR attraverso l'apprendimento dell'attenzione e la condivisione della conoscenza.

― 5 leggere min


Triple-Attention in DETRTriple-Attention in DETRtecniche di attenzione avanzate.Migliorare le prestazioni del DETR con
Indice

La rilevazione degli oggetti è un compito fondamentale nella visione artificiale che coinvolge l'identificazione e la localizzazione di oggetti nelle immagini. I metodi tradizionali possono essere complessi e spesso richiedono più passaggi. Un approccio più recente, chiamato Detection Transformer (DETR), semplifica questo processo utilizzando un'architettura a transformer, che vede la rilevazione degli oggetti come un problema di previsione di un insieme di oggetti abbinandoli a query apprendibili.

Che cos'è DETR?

DETR utilizza un modello transformer, che è un tipo di architettura di rete neurale. Elabora le immagini in input attraverso una configurazione di encoder-decoder. L'encoder estrae le caratteristiche dall'immagine e il decoder traduce queste caratteristiche in previsioni delle classi di oggetti e delle loro posizioni. Invece di generare molte proposte potenziali di oggetti, DETR restituisce un numero fisso di previsioni utilizzando un processo di abbinamento per garantire che ogni oggetto sia rappresentato in modo unico.

Meccanismo di Attenzione

Una parte importante di DETR è il meccanismo di attenzione. In particolare, utilizza qualcosa chiamato attenzione a prodotto scalare. In questo sistema, ci sono tre componenti coinvolte: query, chiavi e valori. Le query e le chiavi vengono confrontate per generare pesi che aiutano a determinare quanto focus il modello dovrebbe porre su diverse parti dei dati in input. Questi pesi vengono poi applicati ai valori per generare le caratteristiche finali in output.

Migliorare l'Apprendimento dell'Attenzione

Recentemente, ci sono stati progressi volti a migliorare il funzionamento dell'attenzione all'interno del framework DETR. Alcuni metodi si concentrano sull'utilizzo di caratteristiche multi-scala o sulla modifica della struttura dell'attenzione, come separare l'attenzione sul contenuto e quella spaziale.

Il Nostro Approccio

Il nostro lavoro introduce una nuova prospettiva sfruttando quello che chiamiamo condivisione della conoscenza per migliorare l'apprendimento delle mappe di attenzione e dei valori, il che alla fine migliora le prestazioni di DETR. Sfruttiamo le informazioni di verità a terra, specificamente una maschera che distingue gli oggetti in primo piano dallo sfondo. Facendo ciò, possiamo aumentare la qualità dei pesi e dei valori appresi durante l'addestramento.

Maschera di Verità a Terra In Primo Piano-Sfondo

La maschera di verità a terra in primo piano-sfondo è uno strumento semplice ma efficace. Assegna un valore di 1 ai pixel all'interno di una bounding box che rappresenta un oggetto e 0 a tutto il resto. Questa maschera funge da guida per il processo di apprendimento, aiutando il modello a concentrarsi sulle caratteristiche importanti associate agli oggetti.

Il Modulo Triple-Attention

Proponiamo un modulo triple-attention che consiste in un componente principale di attenzione e due componenti insegnanti. L'attenzione principale apprende in modo standard, mentre le due componenti insegnanti generano pesi e valori di alta qualità utilizzando la maschera di verità a terra. Le modifiche consentono all'attenzione principale di beneficiare delle informazioni condivise di alta qualità, portando a previsioni migliori.

Durante la fase di inferenza, solo l'attenzione principale opera, assicurando che i nostri aggiustamenti non aggiungano complessità extra durante le previsioni dopo l'addestramento.

Strategia di Condivisione della Conoscenza

Una caratteristica chiave del nostro approccio è come la conoscenza viene condivisa tra i componenti di attenzione. Invece di semplicemente imitare le componenti insegnanti, l'attenzione principale condivide le informazioni apprese reali. Questo crea un flusso di conoscenza più efficiente, permettendo prestazioni migliori anche quando il modello principale potrebbe non essere complesso come i modelli insegnanti.

Validazione Sperimentale

Per testare il nostro metodo, abbiamo condotto esperimenti su diversi modelli simili a DETR, utilizzando il riconosciuto dataset COCO per la rilevazione degli oggetti. Abbiamo confrontato le nostre versioni modificate con i metodi DETR tradizionali, esaminando le loro prestazioni in termini di accuratezza.

Risultati

I risultati mostrano costantemente che il nostro metodo triple-attention funziona meglio rispetto ai metodi di base in diverse configurazioni. Abbiamo osservato che i modelli con backbones più potenti tendono a ricevere maggiori miglioramenti dal nostro approccio. Inoltre, quando si utilizzano programmi di addestramento più brevi, i benefici del nostro metodo diventano ancora più evidenti.

Effetto della Maschera di Verità a Terra

Nei nostri esperimenti, abbiamo analizzato come l'inclusione della maschera di verità a terra dall'inizio dell'addestramento impatti sull'apprendimento complessivo del modello. Le componenti insegnanti che utilizzano questa maschera hanno raggiunto un'accuratezza significativamente più alta rispetto all'attenzione principale senza di essa. Questo sottolinea chiaramente l'importanza della verità a terra nell'apprendimento di mappe di attenzione e valori efficaci.

Impatto della Condivisione della Conoscenza

Inoltre, abbiamo esaminato come la nostra strategia di condivisione della conoscenza si sia comportata rispetto ad altri modelli che utilizzavano sistemi di doppia attenzione. I risultati hanno indicato che la nostra struttura triple-attention ha portato ai migliori miglioramenti, confermando l'efficacia della condivisione sia delle mappe di attenzione che dei valori tra i componenti.

Conclusione

In sintesi, il nostro metodo introduce una nuova strategia per migliorare le prestazioni di DETR concentrandosi sull'apprendimento dell'attenzione. Utilizzando la maschera di verità a terra come strumento guida e implementando un modulo triple-attention, possiamo migliorare significativamente la qualità delle previsioni senza richiedere un modello insegnante complesso. I miglioramenti coerenti ottenuti in diversi modelli evidenziano il potenziale di questo approccio nel campo della rilevazione degli oggetti.

Fonte originale

Titolo: KS-DETR: Knowledge Sharing in Attention Learning for Detection Transformer

Estratto: Scaled dot-product attention applies a softmax function on the scaled dot-product of queries and keys to calculate weights and then multiplies the weights and values. In this work, we study how to improve the learning of scaled dot-product attention to improve the accuracy of DETR. Our method is based on the following observations: using ground truth foreground-background mask (GT Fg-Bg Mask) as additional cues in the weights/values learning enables learning much better weights/values; with better weights/values, better values/weights can be learned. We propose a triple-attention module in which the first attention is a plain scaled dot-product attention, the second/third attention generates high-quality weights/values (with the assistance of GT Fg-Bg Mask) and shares the values/weights with the first attention to improve the quality of values/weights. The second and third attentions are removed during inference. We call our method knowledge-sharing DETR (KS-DETR), which is an extension of knowledge distillation (KD) in the way that the improved weights and values of the teachers (the second and third attentions) are directly shared, instead of mimicked, by the student (the first attention) to enable more efficient knowledge transfer from the teachers to the student. Experiments on various DETR-like methods show consistent improvements over the baseline methods on the MS COCO benchmark. Code is available at https://github.com/edocanonymous/KS-DETR.

Autori: Kaikai Zhao, Norimichi Ukita

Ultimo aggiornamento: 2023-03-16 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2302.11208

Fonte PDF: https://arxiv.org/pdf/2302.11208

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili