Il divario tra classificazione delle immagini e somiglianza percettiva
Esaminando la differenza tra l'accuratezza del riconoscimento delle immagini e la comprensione della somiglianza visiva.
― 6 leggere min
Indice
Negli ultimi anni, i modelli di deep learning per la visione artificiale sono diventati più bravi a classificare le immagini. Però, solo perché questi modelli sono più precisi nell'identificare le immagini, non significa che siano migliori nel capire quanto diverse immagini siano simili tra loro. Questo articolo parla del divario tra la precisione nella classificazione delle immagini e la capacità dei modelli di catturare la somiglianza percettiva: come gli esseri umani percepiscono la somiglianza tra immagini diverse.
Progresso nella Visione Artificiale
Il deep learning ha cambiato il nostro modo di affrontare la visione artificiale. Modelli come GoogLeNet e VGG hanno mostrato notevoli progressi nella classificazione delle immagini, raggiungendo tassi di precisione impressionanti. La prestazione di questi modelli viene di solito misurata in base alla loro capacità di classificare correttamente le immagini nei test. Ad esempio, la precisione su un dataset noto come ImageNet è migliorata molto nel tempo, facendoci sembrare che questi modelli stessero diventando migliori in generale.
Tuttavia, il focus sulla precisione nella classificazione ha portato a modelli altamente specializzati. Sono bravi a distinguere tra classi di immagini specifiche e potrebbero non funzionare altrettanto bene in compiti per cui non sono stati specificamente addestrati. Questo solleva la domanda: questi modelli stanno davvero migliorando in un senso più ampio?
Indagare la Somiglianza Percettiva
Per chiarire questo problema, i ricercatori hanno esaminato diversi modelli di visione artificiale ad alte prestazioni per vedere quanto bene rappresentassero la somiglianza percettiva. Volevano scoprire se una maggiore accuratezza nella classificazione fosse legata a una migliore comprensione di quanto siano simili tra loro le immagini.
I ricercatori hanno utilizzato dataset comportamentali su larga scala che rappresentano i giudizi umani sulla somiglianza delle immagini. I loro risultati hanno mostrato che una maggiore accuratezza nella classificazione nei modelli non si traduceva in una migliore prestazione nel prevedere i giudizi di somiglianza umana. È importante notare che il miglioramento della prestazione sembrava essersi stabilizzato da quando i modelli più vecchi come GoogLeNet e VGG erano stati sviluppati.
Dataset Comportamentali
Per valutare i modelli, i ricercatori hanno utilizzato vari dataset comportamentali che includevano valutazioni di somiglianza per immagini e parole. Hanno raccolto dati da molti partecipanti, che sono stati invitati a giudicare quanto fossero simili diverse immagini o parole. Le valutazioni hanno fornito una ricca fonte di informazioni per capire quanto bene i modelli rappresentassero la somiglianza percettiva.
I dataset coprivano vari aspetti, tra cui:
- Valutazioni di Somiglianza delle Immagini: I partecipanti hanno giudicato la somiglianza di coppie di immagini.
- Valutazioni di Somiglianza delle Parole: I partecipanti hanno valutato la somiglianza delle parole corrispondenti a quelle immagini.
- Valutazioni di Tipicità: I partecipanti hanno indicato quali immagini erano più e meno tipiche per determinate categorie.
Questi diversi tipi di valutazioni hanno contribuito a una comprensione completa di quanto bene i modelli catturassero le somiglianze percettive.
Analisi delle Prestazioni dei Modelli
Un obiettivo importante di questa ricerca era valutare quali modelli performassero meglio nel prevedere i giudizi di somiglianza umana. I ricercatori hanno raccolto dati da vari modelli esistenti ed esaminato le loro prestazioni rispetto ai dataset comportamentali.
È interessante notare che alcuni dei modelli con le migliori prestazioni erano tra i più vecchi, come GoogLeNet. Questo è stato sorprendente, dato che molti modelli nuovi erano stati sviluppati con l'obiettivo di ottenere prestazioni di classificazione migliori. Anche se alcuni modelli hanno raggiunto un'ottima precisione nella classificazione, non si sono comportati altrettanto bene nel capire la somiglianza percettiva.
Relazione tra Complessità del Modello e Prestazioni
I ricercatori hanno anche esaminato se la complessità di un modello-il suo numero di strati o parametri-avesse un impatto sulla sua capacità di prevedere i giudizi di somiglianza umana. Hanno scoperto che un modello più complesso non era necessariamente migliore nel rappresentare le somiglianze. Infatti, modelli più semplici con meno parametri spesso performavano altrettanto bene o addirittura meglio.
Ad esempio, GoogLeNet è relativamente piccolo rispetto ad altri modelli all'avanguardia, ma ha comunque mostrato prestazioni elevate nel catturare i giudizi di somiglianza umani. Questo suggerisce che, mentre modelli più avanzati possono raggiungere una maggiore accuratezza nella classificazione, non garantiscono prestazioni migliori in compiti percettivi.
Implicazioni dei Risultati
I risultati di questo studio invitano a una rivalutazione di cosa significhi per i modelli avere buone prestazioni. Attraverso diversi dataset, i modelli più vecchi hanno spesso superato quelli più nuovi e complessi quando si tratta di capire quanto siano simili le immagini. Questo indica che concentrarsi semplicemente sulla precisione nella classificazione potrebbe portare a modelli troppo specializzati che non riescono a generalizzare ad altri compiti.
Una possibile spiegazione per questo disallineamento è che i modelli moderni siano stati progettati per concentrarsi su dettagli minuti che distinguono classi specifiche, piuttosto che catturare le caratteristiche percettive più ampie su cui gli esseri umani si basano quando giudicano la somiglianza.
Limitazioni e Direzioni Future
Sebbene questi risultati forniscano informazioni, sono limitati dalle restrizioni dei modelli studiati. È importante riconoscere che potrebbero esistere altri modelli che si comportano bene sia nei compiti di classificazione sia in quelli di somiglianza percettiva. I ricercatori incoraggiano ulteriori esplorazioni di questi modelli.
Per migliorare i modelli futuri, i ricercatori suggeriscono di cambiare gli obiettivi di addestramento. Invece di concentrarsi esclusivamente sull'ottenere classificazioni esatte, i modelli potrebbero trarre beneficio dal ricevere premi per classificazioni strettamente correlate. Ad esempio, notare che un barboncino è più simile a un cane che a un cuscino potrebbe aiutare i modelli a imparare migliori rappresentazioni di somiglianza percettiva.
Inoltre, i lavori futuri potrebbero concentrarsi sulla creazione di modelli che eccellano non solo in un'area ma in vari compiti. Questo comporterebbe idealmente la valutazione di quanto bene i modelli performino in compiti per cui non sono stati specificamente costruiti, fornendo una valutazione più completa delle loro capacità.
Conclusione
In sintesi, mentre i modelli di deep learning hanno fatto progressi significativi nella classificazione delle immagini, questo non equivale sempre a una migliore comprensione della somiglianza percettiva. I modelli più vecchi hanno dimostrato forti prestazioni nel catturare le interpretazioni umane della somiglianza, mentre i modelli più recenti e complessi potrebbero non aver prodotto i miglioramenti previsti.
Man mano che il campo della visione artificiale evolve, sarà fondamentale tenere a mente il contesto più ampio delle prestazioni dei modelli, non solo attraverso la lente della precisione nei compiti di classificazione, ma anche considerando quanto bene questi modelli possano comprendere il mondo visivo in un modo che si allinea con le percezioni umane.
Titolo: The challenge of representation learning: Improved accuracy in deep vision models does not come with better predictions of perceptual similarity
Estratto: Over the last years, advancements in deep learning models for computer vision have led to a dramatic improvement in their image classification accuracy. However, models with a higher accuracy in the task they were trained on do not necessarily develop better image representations that allow them to also perform better in other tasks they were not trained on. In order to investigate the representation learning capabilities of prominent high-performing computer vision models, we investigated how well they capture various indices of perceptual similarity from large-scale behavioral datasets. We find that higher image classification accuracy rates are not associated with a better performance on these datasets, and in fact we observe no improvement in performance since GoogLeNet (released 2015) and VGG-M (released 2014). We speculate that more accurate classification may result from hyper-engineering towards very fine-grained distinctions between highly similar classes, which does not incentivize the models to capture overall perceptual similarities.
Autori: Fritz Günther, Marco Marelli, Marco Alessandro Petilli
Ultimo aggiornamento: 2023-03-13 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2303.07084
Fonte PDF: https://arxiv.org/pdf/2303.07084
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.
Link di riferimento
- https://doi.org/10.17605/OSF.IO/QVW9C
- https://github.com/matlab-deep-learning/MATLAB-Deep-Learning-Model-Hub
- https://de.mathworks.com/help/deeplearning/ug/pretrained-convolutional-neural-networks.html
- https://www.vlfeat.org/matconvnet/pretrained/
- https://osf.io/sx5u3/?view_only=09c05b84a52246d5b8b061cbbee10350