Valutare i modelli di rilevamento a vocabolario aperto con OVDEval
OVDEval sfida i modelli OVD a migliorare i loro metodi di valutazione.
― 6 leggere min
Il rilevamento degli oggetti è migliorato tantissimo negli ultimi anni. Tradizionalmente, questi modelli lavoravano con un insieme fisso di etichette, il che significava che potevano riconoscere solo ciò su cui erano stati addestrati. Un nuovo approccio, chiamato Rilevamento a vocabolario aperto (OVD), permette ai modelli di lavorare con una gamma più ampia di etichette basate su una combinazione di testo e immagini. Questo è reso possibile grazie all'addestramento su grandi quantità di dati di immagini e testo. Tuttavia, il modo in cui attualmente testiamo questi modelli non è molto efficace nel mostrare le loro vere capacità.
La necessità di una valutazione migliore
I metodi di valutazione esistenti testano principalmente quanto bene i modelli possano riconoscere diversi tipi di oggetti e come possano comprendere certe espressioni nel linguaggio. Ma non è sufficiente. Quando misuriamo le prestazioni dei modelli OVD, abbiamo bisogno di un approccio più dettagliato e sistematico. Qui presentiamo un nuovo dataset chiamato OVDEval. Questo dataset include diversi compiti per testare quanto bene i modelli comprendono il linguaggio e le immagini in situazioni complesse.
L'obiettivo di OVDEval è sfidare i modelli esistenti e mettere in evidenza le loro debolezze. Abbiamo creato questo dataset con Esempi Negativi Difficili che costringono i modelli a migliorare la loro comprensione. Abbiamo anche trovato un difetto nella metrica comune chiamata Precisione Media (AP) che è spesso utilizzata per valutare i modelli. Questo difetto può portare a risultati fuorvianti, quindi stiamo proponendo una nuova misura chiamata Precisione Media con Soppressione Non Massima (NMS-AP) per dare un quadro più chiaro di come si comportano i modelli.
Stato attuale dei modelli di rilevamento a vocabolario aperto
Negli ultimi anni, ci sono stati molti progressi nell'OVD. Modelli come GLIP, Grounding DINO e OmDet hanno introdotto varie tecniche per migliorare come apprendono dalle informazioni visive e testuali. Ad esempio, alcuni approcci trattano il rilevamento come un modo per ancorare le informazioni visive basate su descrizioni linguistiche. Con questi progressi, ora possiamo eseguire il rilevamento di oggetti zero-shot su dataset ben noti come COCO, superando spesso i metodi supervisionati precedenti. Gli utenti possono semplicemente descrivere cosa vogliono rilevare in linguaggio naturale e i modelli OVD possono riconoscere quegli oggetti in tempo reale.
Tuttavia, i metodi di valutazione attuali per i modelli OVD non sono sufficienti. Si concentrano principalmente sul testare oggetti comuni o espressioni di riferimento, ma non sfidano i modelli in modi che riflettono l'uso reale. Ci sono due problemi principali con i dataset attuali:
Test limitato della generalizzazione: Un buon modello OVD dovrebbe essere in grado di afferrare significati complessi nel linguaggio e collegare quel significato a caratteristiche visive. Per farlo, dobbiamo testare i modelli in vari modi, come controllare la loro comprensione dei tipi di oggetti, delle caratteristiche e delle relazioni.
Mancanza di esempi sfidanti: La maggior parte dei dataset di valutazione esistenti presume che la descrizione testuale sia direttamente collegata all'immagine, quindi i modelli devono solo trovare gli oggetti menzionati nel testo. In realtà, i modelli OVD devono spesso rilevare oggetti senza sapere se la descrizione si riferisce all'immagine.
Introduzione al benchmark OVDEval
Per risolvere questi problemi, presentiamo OVDEval, un benchmark di valutazione completo progettato per valutare rigorosamente i modelli OVD. OVDEval include nove sottocompiti che si concentrano su sei aspetti diversi della comprensione linguistica: oggetti, nomi propri, attributi, posizioni, relazioni e negazioni. Ogni compito è progettato per testare approfonditamente le capacità dei modelli.
Tutte le annotazioni in OVDEval sono state fatte da esseri umani per garantire dati di alta qualità. Il dataset consiste anche di esempi negativi difficili che sfidano i modelli a dimostrare una vera comprensione dell'input visivo e linguistico. Questo aiuta a prevenire che i modelli ottengano punteggi alti semplicemente sfruttando il bias dei dati.
La metrica NMS-AP
Oltre a presentare OVDEval, affrontiamo anche un problema significativo con le metriche di valutazione noto come il Problema dell'AP Inflazionato. Questo problema nasce perché i calcoli AP tradizionali possono dare punteggi ingannevolmente alti a modelli che non comprendono realmente il contesto. Nella nostra ricerca, proponiamo NMS-AP, una nuova metrica che risolve efficacemente questo problema.
NMS-AP funziona applicando una tecnica chiamata Soppressione Non Massima (NMS) per eliminare le previsioni duplicate fatte dai modelli. Questo assicura che solo le previsioni più rilevanti siano considerate nel calcolo dei punteggi, portando a valutazioni più oneste delle prestazioni dei modelli.
Valutazione dei modelli OVD con OVDEval
Abbiamo testato sei modelli OVD ben noti utilizzando il dataset OVDEval per controllare le loro prestazioni nei nove compiti. I risultati mostrano che questi modelli si comportano bene nel rilevare oggetti semplici, ma faticano con compiti più complicati che richiedono una comprensione linguistica più profonda.
Le prestazioni dei modelli sono state variabili:
- La maggior parte dei modelli ha fatto bene nel riconoscere oggetti comuni.
- Hanno avuto prestazioni scarse nell'identificare cose come loghi, luoghi e celebrità.
- I risultati hanno anche mostrato un calo significativo delle prestazioni quando i modelli dovevano lavorare con esempi negativi difficili, in particolare nella comprensione di colori e materiali.
L'analisi ha evidenziato che i modelli generalmente hanno una buona capacità di rilevare oggetti, ma mancano delle competenze necessarie per gestire descrizioni complesse o conoscenze di buon senso in vari contesti.
Approfondimenti dai risultati
Dai nostri esperimenti è emerso chiaramente che i modelli OVD esistenti tendono a produrre più riquadri di delimitazione per lo stesso oggetto ma assegnano etichette diverse e spesso errate. Questo problema si verifica più frequentemente nei modelli che generano un numero elevato di riquadri di delimitazione.
La differenza nei punteggi tra NMS-AP e AP tradizionale è stata notevolmente ampia per gli aspetti più sfidanti di OVDEval, confermando l'esistenza del Problema dell'AP Inflazionato. Ciò significa che i modelli possono ricevere buoni punteggi anche quando non comprendono appieno descrizioni complesse.
Sintesi dei contributi
In sintesi, il benchmark OVDEval è il primo del suo genere che testa approfonditamente i modelli OVD esaminando le loro capacità in vari aspetti linguistici. Inoltre, abbiamo identificato il Problema dell'AP Inflazionato associato alle metriche tradizionali e proposto NMS-AP come soluzione. I nostri risultati evidenziano i limiti dei modelli OVD attuali e presentano opportunità per futuri miglioramenti.
Le future ricerche potrebbero concentrarsi sullo sviluppo di migliori metodi di addestramento che aiuterebbero i modelli OVD a comprendere meglio i negativi difficili sia in formati visivi che testuali. C'è anche bisogno di esplorare dataset migliori che potrebbero fornire ai modelli una maggiore conoscenza di buon senso.
In conclusione, OVDEval rappresenta un passo significativo verso una valutazione più accurata dei modelli di rilevamento a vocabolario aperto, spingendo i limiti delle loro capacità e assicurandosi che siano meglio equipaggiati per applicazioni nel mondo reale.
Titolo: How to Evaluate the Generalization of Detection? A Benchmark for Comprehensive Open-Vocabulary Detection
Estratto: Object detection (OD) in computer vision has made significant progress in recent years, transitioning from closed-set labels to open-vocabulary detection (OVD) based on large-scale vision-language pre-training (VLP). However, current evaluation methods and datasets are limited to testing generalization over object types and referral expressions, which do not provide a systematic, fine-grained, and accurate benchmark of OVD models' abilities. In this paper, we propose a new benchmark named OVDEval, which includes 9 sub-tasks and introduces evaluations on commonsense knowledge, attribute understanding, position understanding, object relation comprehension, and more. The dataset is meticulously created to provide hard negatives that challenge models' true understanding of visual and linguistic input. Additionally, we identify a problem with the popular Average Precision (AP) metric when benchmarking models on these fine-grained label datasets and propose a new metric called Non-Maximum Suppression Average Precision (NMS-AP) to address this issue. Extensive experimental results show that existing top OVD models all fail on the new tasks except for simple object types, demonstrating the value of the proposed dataset in pinpointing the weakness of current OVD models and guiding future research. Furthermore, the proposed NMS-AP metric is verified by experiments to provide a much more truthful evaluation of OVD models, whereas traditional AP metrics yield deceptive results. Data is available at \url{https://github.com/om-ai-lab/OVDEval}
Autori: Yiyang Yao, Peng Liu, Tiancheng Zhao, Qianqian Zhang, Jiajia Liao, Chunxin Fang, Kyusong Lee, Qing Wang
Ultimo aggiornamento: 2023-12-18 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2308.13177
Fonte PDF: https://arxiv.org/pdf/2308.13177
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.