Progressi nella Rilevazione Incrementale degli Oggetti con CL-DETR
CL-DETR migliora la rilevazione degli oggetti integrando la distillazione della conoscenza e il replay di esemplari.
― 6 leggere min
Indice
- Sfide nella Rilevazione Incrementale degli Oggetti
- La Necessità di Miglioramento
- Un Nuovo Approccio: ContinuaL DEtection TRansformer (CL-DETR)
- Contributi Chiave di CL-DETR
- Comprendere l'Apprendimento Incrementale e la Rilevazione degli Oggetti
- Il Ruolo del Ripasso degli Esempi
- Selezionare Esempi con Intelligenza
- Migliorare la Distillazione della Conoscenza
- Risultati Sperimentali
- Studi di Ablazione
- Conclusione e Lavori Futuri
- Fonte originale
- Link di riferimento
La rilevazione incrementale degli oggetti (IOD) è un metodo usato per addestrare i rilevatori di oggetti in fasi. In ogni fase, si introducono nuove categorie di oggetti, mentre si mantiene la conoscenza delle categorie precedentemente apprese. Questo processo presenta delle sfide come il “dimenticare catastrofico”, dove il nuovo apprendimento può interferire con la conoscenza già acquisita. Tecniche come la Distillazione della Conoscenza (KD) e il ripasso degli esempi (ER) sono spesso utilizzate per affrontare queste sfide.
Sfide nella Rilevazione Incrementale degli Oggetti
I modelli di machine learning, inclusi quelli per la rilevazione degli oggetti, possono dimenticare le informazioni apprese in precedenza quando sono esposti a nuovi dati. Questo problema è particolarmente evidente nell'IOD, dove i dati di addestramento per varie categorie vengono introdotti nel tempo. Sono stati esplorati diversi metodi, come KD e ER, per ridurre il dimenticare in questo contesto.
Mentre KD cerca di mantenere la conoscenza dai modelli precedenti durante l'addestramento su nuovi dati, ER memorizza esempi di addestramento passati e li ripropone nelle fasi di addestramento future. Tuttavia, le applicazioni dirette di queste tecniche su modelli più nuovi basati su transformer hanno mostrato successo limitato.
La Necessità di Miglioramento
I recenti progressi nella rilevazione degli oggetti, specialmente utilizzando modelli basati su transformer, non hanno sfruttato efficacemente le tecniche tradizionali per l'IOD. Ad esempio, applicare KD e ER direttamente a modelli come Deformable DETR e UP-DETR ha portato a prestazioni peggiori rispetto all'addestramento con tutti i dati disponibili.
Due problemi principali contribuiscono a questo problema. Primo, i rilevatori basati su transformer generano numerose ipotesi sugli oggetti simultaneamente, portando a una perdita di KD sbilanciata poiché la maggior parte di queste ipotesi è negativa. Secondo, la strategia di campionamento degli esempi in ER può portare a mismatch di distribuzione tra i dati di addestramento e quelli di test.
Un Nuovo Approccio: ContinuaL DEtection TRansformer (CL-DETR)
Per affrontare le sfide identificate, viene proposto il metodo ContinuaL DEtection TRansformer (CL-DETR). CL-DETR consente un uso efficace di KD e ER negli ambienti IOD. Introduce una perdita unica di distillazione della conoscenza del rilevatore (DKD), che si concentra sulle previsioni più sicure e rilevanti dai modelli precedenti, filtrando fuori le previsioni di sfondo meno utili.
Inoltre, CL-DETR migliora ER incorporando una strategia di calibrazione. Questo metodo mira a mantenere la distribuzione delle etichette del set di addestramento, assicurando che le statistiche di addestramento e test siano più allineate.
Contributi Chiave di CL-DETR
Il metodo CL-DETR include diversi avanzamenti significativi:
Perdita DKD: Questa perdita migliora gli approcci KD tradizionali affrontando i conflitti tra nuove e vecchie previsioni. Enfatizza le previsioni di primo piano rilevanti e ignora le informazioni di sfondo ridondanti.
Strategia di Calibrazione per il Ripasso degli Esempi: Questa strategia si concentra nel far riflettere gli esempi memorizzati la distribuzione dei dati di addestramento.
Protocollo IOD Rivisitato: Il nuovo protocollo assicura che le immagini non vengano riutilizzate in diverse fasi di addestramento, allineandosi con le definizioni standard dell'apprendimento incrementale.
Test Estensivi e Risultati: CL-DETR è stato testato sul dataset COCO 2017, mostrando miglioramenti notevoli nelle prestazioni in vari contesti sperimentali.
Comprendere l'Apprendimento Incrementale e la Rilevazione degli Oggetti
L'apprendimento incrementale implica l'addestramento dei modelli in fasi che enfatizzano diverse parti dello spazio delle etichette. Questo approccio è particolarmente sfidante nella rilevazione degli oggetti, dove le immagini contengono più oggetti e annotazioni di etichette variabili.
Nell'IOD, l'obiettivo è addestrare modelli utilizzando solo un sottoinsieme di categorie di oggetti in ogni fase. Inizialmente, un dataset di immagini viene suddiviso in sottoinsiemi per ogni fase. Nella prima fase, il modello riceve annotazioni per un numero limitato di categorie, e nelle fasi successive, si aggiungono nuove categorie mantenendo la conoscenza delle vecchie.
Il Ruolo del Ripasso degli Esempi
Il Ripasso degli Esempi è cruciale nell'IOD poiché consente ai modelli di ricordare esempi chiave dalle fasi di addestramento precedenti. Tuttavia, la sfida emerge a causa dello squilibrio tra le annotazioni vecchie e nuove. Le tecniche di classificazione tradizionali cercano spesso dati bilanciati, ma nella rilevazione degli oggetti è più utile abbinare la distribuzione naturale dei dati.
Selezionare Esempi con Intelligenza
Nel contesto di CL-DETR, nuovi esempi vengono scelti per garantire che corrispondano alla distribuzione del dataset. Selezionando gli esempi con attenzione, il metodo mira a bilanciare le prestazioni tra le vecchie e nuove categorie, riducendo il rischio di dimenticare.
Migliorare la Distillazione della Conoscenza
Per la distillazione della conoscenza, CL-DETR migliora l'approccio KD originale affinando il modo in cui la conoscenza viene trasferita dal vecchio modello al nuovo. Invece di trattare tutte le previsioni in modo uguale, l'attenzione è sulle previsioni più sicure del modello precedente, permettendo una migliore allineazione con le informazioni di verità fondamentale dei nuovi dati.
Risultati Sperimentali
Sono stati condotti esperimenti estensivi utilizzando il dataset COCO 2017 per convalidare l'efficacia di CL-DETR. In varie fasi di IOD, CL-DETR ha costantemente superato i metodi esistenti all'avanguardia.
Impostazione a Due Fasi
Nell'impostazione sperimentale a due fasi, dove una parte dei campioni di addestramento è annotata nella prima fase e il resto nella seconda, CL-DETR ha dimostrato miglioramenti significativi. La capacità del modello di mantenere la precisione tra le vecchie e nuove categorie è stata notevolmente superiore rispetto ai modelli precedenti.
Impostazione a Fasi Multiple
Quando testato su più fasi, CL-DETR ha mostrato vantaggi ancora maggiori. Man mano che il numero di fasi di addestramento aumentava, le prestazioni del modello miglioravano proporzionalmente, indicando che era particolarmente efficace in ambienti di apprendimento più complessi.
Studi di Ablazione
Un aspetto chiave nella valutazione di CL-DETR ha coinvolto studi di ablazione, dove diversi componenti del modello sono stati isolati e testati. Questi studi hanno convalidato l'efficacia dell'approccio DKD e della nuova strategia di selezione degli esempi.
I risultati hanno mostrato che sia la distillazione della conoscenza che le strategie di ripasso degli esempi hanno contribuito a migliorare le prestazioni del modello. In particolare, i metodi di CL-DETR per la selezione degli esempi e la distillazione della conoscenza hanno portato a tassi di dimenticanza più bassi.
Conclusione e Lavori Futuri
L'introduzione di CL-DETR segna un avanzamento significativo nel campo della rilevazione incrementale degli oggetti. Integrando efficacemente la distillazione della conoscenza e il ripasso degli esempi all'interno dei modelli basati su transformer, CL-DETR stabilisce un nuovo standard per le prestazioni negli scenari IOD.
In futuro, ci sono piani per espandere questo approccio a contesti ancora più impegnativi, come l'apprendimento online, dove il modello deve adattarsi continuamente a nuovi flussi di dati.
In generale, CL-DETR non solo migliora l'addestramento dei rilevatori di oggetti, ma apre anche la strada per future ricerche e sviluppi nel campo dell'apprendimento incrementale.
Titolo: Continual Detection Transformer for Incremental Object Detection
Estratto: Incremental object detection (IOD) aims to train an object detector in phases, each with annotations for new object categories. As other incremental settings, IOD is subject to catastrophic forgetting, which is often addressed by techniques such as knowledge distillation (KD) and exemplar replay (ER). However, KD and ER do not work well if applied directly to state-of-the-art transformer-based object detectors such as Deformable DETR and UP-DETR. In this paper, we solve these issues by proposing a ContinuaL DEtection TRansformer (CL-DETR), a new method for transformer-based IOD which enables effective usage of KD and ER in this context. First, we introduce a Detector Knowledge Distillation (DKD) loss, focusing on the most informative and reliable predictions from old versions of the model, ignoring redundant background predictions, and ensuring compatibility with the available ground-truth labels. We also improve ER by proposing a calibration strategy to preserve the label distribution of the training set, therefore better matching training and testing statistics. We conduct extensive experiments on COCO 2017 and demonstrate that CL-DETR achieves state-of-the-art results in the IOD setting.
Autori: Yaoyao Liu, Bernt Schiele, Andrea Vedaldi, Christian Rupprecht
Ultimo aggiornamento: 2023-04-06 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2304.03110
Fonte PDF: https://arxiv.org/pdf/2304.03110
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.