Avanzamenti nella generazione efficiente dei grafi di scena
Un nuovo modo per migliorare la generazione di grafi di scena per una migliore comprensione visiva.
― 11 leggere min
Indice
Creare relazioni visive da immagini sotto forma di grafici di scena è una cosa difficile. È importante per applicazioni di visione artificiale che si basano sulla comprensione delle scene. Attualmente, la maggior parte dei metodi non si concentra sulla generazione di grafici utili per usi pratici. Invece, spesso cercano di raffinare i dati per prevedere relazioni più dettagliate. Tuttavia, non tutte queste relazioni dettagliate sono importanti, e alcune non sono utili affatto in situazioni del mondo reale.
Questo lavoro introduce il concetto di Generazione Efficiente di Grafici di Scena (SGG), che enfatizza la creazione di relazioni rilevanti. Questo metodo aiuta l'uso pratico dei grafici di scena in compiti come la generazione di immagini. Per supportare questa idea, viene presentato un nuovo dataset chiamato VG150-curated. Questo dataset è costruito su annotazioni del dataset Visual Genome ma è migliorato per contenere annotazioni più accurate e più varie. Gli esperimenti mostrano che utilizzare questo nuovo dataset porta a risultati migliori nella creazione di immagini dai grafici di scena.
Panoramica del Compito
La Generazione di Grafici di Scena implica fare una rappresentazione simbolica di una scena identificando le relazioni tra gli oggetti. Tipicamente, gli approcci attuali richiedono di rilevare le caratteristiche degli oggetti da un'immagine e poi determinare le relazioni tra coppie di oggetti, che vengono rappresentate come triplette. Le connessioni tra le triplette formano un grafo diretto aciclico dove ogni vertice rappresenta un oggetto e la relativa regione dell'immagine. Questo metodo promette bene per altri compiti come la didascalia delle immagini o la risposta a domande visive.
Nonostante vari progressi in questo campo, le prestazioni dei metodi esistenti sono ancora inadeguate, e il loro utilizzo in altri compiti è limitato. Il lento progresso può essere attribuito a diversi problemi, il più significativo dei quali è la distribuzione a coda lunga delle relazioni. A causa dei pregiudizi nel modo in cui i dati sono annotati, i dataset utilizzati in SGG spesso presentano molte relazioni vaghe (es. su, ha, vicino) e meno dettagliate (es. montarci, sotto, mangiare).
Mentre alcuni ricercatori hanno esaminato approcci SGG privi di pregiudizi, altri aspetti vitali del compito rimangono trascurati, come la quantità di informazioni utili trasmesse da un grafo di scena. Ispirato da idee recenti, questo lavoro propone SGG Efficiente, che mira a estrarre il massimo delle informazioni rilevanti dalle scene invece di concentrarsi solo su informazioni dettagliate. Questa nuova direzione è utile per compiti successivi dove identificare eventi principali è più cruciale che prevedere dettagli minori.
Nuovo Dataset
Per facilitare un apprendimento efficiente in questo compito, è stato creato un nuovo dataset di alta qualità utilizzando annotazioni esistenti ma rumorose dal dataset Visual Genome. A differenza di altre versioni curate, questo dataset preserva il significato espresso dai grafici di scena mentre rimuove annotazioni irrilevanti, creando così un dataset migliorato per SGG Efficiente.
Le evidenze suggeriscono che i metodi SGG attuali addestrati su Visual Genome sono inefficienti. Tendono a prevedere relazioni irrilevanti con eccessiva certezza e spesso hanno una scarsa connettività nei campioni annotati, ostacolando il processo di apprendimento e portando a grafi di bassa qualità. Questo lavoro affronta queste sfide, portando a un nuovo dataset di alta qualità che migliora significativamente le prestazioni del modello base.
I principali contributi di questa ricerca includono:
- Un'analisi su come la connettività dei campioni influisce sull'apprendimento del modello base in SGG.
- Una nuova classificazione delle relazioni irrilevanti basata sul loro significato.
- Un nuovo processo per rimuovere queste relazioni irrilevanti dai campioni originali.
Lavori Correlati
SGG ha guadagnato notevole attenzione sia nel campo della visione artificiale che in quello del processamento del linguaggio naturale. Metodi popolari combinano modelli di rilevamento degli oggetti come Faster-RCNN con generazione di grafi in un approccio a due fasi. Tuttavia, le preoccupazioni riguardo ai pregiudizi nei dataset come Visual Genome hanno portato a ricerche focalizzate su SGG senza pregiudizi, mirando a migliorare le previsioni delle relazioni utilizzando varie tecniche.
Alcuni metodi più recenti affrontano il compito in un'unica fase, apprendendo relazioni direttamente dalle caratteristiche dell'immagine. Tuttavia, questi modelli presumono spesso che tutte le relazioni abbiano la stessa importanza nel processo di apprendimento, portando a previsioni di relazioni irrilevanti con alta fiducia. Questo comportamento eccessivamente sicuro ostacola le prestazioni in compiti successivi che richiedono previsioni pertinenti.
Alcuni approcci esistenti hanno considerato i pregiudizi di Visual Genome da un punto di vista centrato sui dati. Alcuni rimuovono relazioni comuni basate sulle loro caratteristiche spaziali, portando a annotazioni scarse. Nel frattempo, altri si concentrano sul bilanciamento delle distribuzioni dei predicati o sulla filtrazione di predicati vaghi, ma questi metodi si basano su un uso coerente dei predicati, il che non è sempre vero a causa dell'ambiguità del linguaggio naturale.
In questo lavoro, l'attenzione è rivolta alla costruzione di un dataset che contiene solo annotazioni visivamente rilevanti per supportare un uso pratico. Viene introdotta la definizione di una relazione rilevante, indicando che una relazione è irrilevante se descrive una verità generale che potrebbe essere dedotta utilizzando conoscenze esterne.
Definizione del Problema
Il dataset Visual Genome è il più grande e frequentemente utilizzato per SGG. Le annotazioni sono state raccolte sotto forma di didascalie delle regioni, e sono state impiegate varie tecniche per estrarre triplette per ogni regione. Questo ha portato a un numero schiacciante di classi di oggetti e predicati, molte delle quali hanno solo un campione singolo.
Per consentire un apprendimento più efficace per SGG, l'approccio abituale è quello di potare le annotazioni, mantenendo solo una selezione delle classi di oggetti e predicati più frequenti. Tuttavia, nessuno dei metodi attuali preserva la struttura del grafo o mantiene le informazioni rilevanti della scena durante questa potatura. L'obiettivo qui è estrarre annotazioni per classi di oggetti e predicati mantenendo il maggior numero possibile di informazioni originali.
Questo lavoro utilizza una notazione per descrivere un grafo che rappresenta tutte le relazioni in un'immagine data, comprese le estremità e i vertici. È essenziale notare che non tutti i vertici potrebbero collegarsi, poiché alcuni possono essere rimossi dalle annotazioni originali.
La dimensione media del grafo nelle annotazioni originali del Visual Genome è alta. Tuttavia, quando il dataset viene potato per selezionare le classi di oggetti e predicati migliori, molte annotazioni si perdono, portando a una diminuzione della connettività del grafo. Questo metodo di potatura influisce sulle prestazioni degli approcci SGG, specialmente quelli che modellano il contesto attraverso metodi come il passaggio di messaggi o il matching.
Relazioni Irrilevanti
Oltre ai problemi di connettività, le annotazioni del Visual Genome sono soggette a pregiudizi a causa di triplette sovra-rappresentate. Alcune relazioni invarianti, come la parte-tutto, sono troppo comuni, portando a modelli che prevedono queste relazioni con eccessiva fiducia. Questo crea scarse prestazioni a causa della dipendenza da questi pregiudizi.
Una categorizzazione delle relazioni in Visual Genome rivela tre categorie: geometrico, possessivo e semantico. Le relazioni geometriche descrivono posizioni spaziali, quelle possessive coinvolgono un'entità con un oggetto, e le relazioni semantiche riguardano attività. Analizzando la distribuzione delle triplette più comuni si evidenzia la prevalenza delle relazioni parte-tutto, che potrebbe distorcere il processo di apprendimento perché sono vere in un senso generale.
La sezione successiva dettagliata l'approccio per risolvere i due problemi principali di connettività e relazioni irrilevanti attraverso nuovi metodi di curazione.
Processo di Curazione dei Dati
Questo lavoro inizia con una versione preelaborata del dataset Visual Genome. Per le regioni degli oggetti, viene seguito un approccio per unire le bounding box in base alla loro sovrapposizione. Per le annotazioni testuali, vengono rimossi stop-words e punteggiatura, e sinonimi vengono uniti utilizzando un database comune. Questo processo genera una versione più pulita del dataset.
Per migliorare la connettività, viene introdotto un semplice algoritmo per aumentare il numero di regioni collegate. Affrontare la rilevanza delle relazioni implica categorizzare e rimuovere quelle irrilevanti, in particolare quelle che sono relazioni parte-tutto.
L'obiettivo è filtrare le relazioni parte-tutto dal dataset confrontando le annotazioni delle triplette con una fonte di conoscenza basata sul linguaggio per identificare le somiglianze. Se una relazione si allinea strettamente con le connessioni parte-tutto di questa risorsa esterna, viene rimossa dal dataset originale. Questo approccio consente di ottenere un dataset più raffinato che conserva interazioni significative.
Dopo aver applicato la tecnica di filtraggio, viene creata una nuova suddivisione del dataset, etichettata VG150-curated. Questa curazione porta a meno campioni rispetto alla versione precedente, ma mantiene un numero medio più alto di connessioni. Questo dimostra che le relazioni selezionate sono più interdipendenti, a beneficio del processo di apprendimento dei modelli SGG.
Infine, le prestazioni dei modelli SGG su questo nuovo dataset curato vengono analizzate per verificare l'efficacia dell'approccio.
Impostazione Sperimentale e Risultati
Gli esperimenti sono pianificati per valutare i metodi proposti su tre compiti: Classificazione Predicati, Classificazione di Grafici di Scena e Generazione di Grafici di Scena. La Classificazione dei predicati si concentra sulla previsione di una relazione data coppie di regioni oggetto. La Classificazione di Grafici di Scena è simile, ma le coppie di oggetti devono essere inferite dal modello. La Generazione di Grafici di Scena presuppone nessuna conoscenza preliminare e implica la previsione di regioni oggetto, coppie e relazioni.
Un insieme di modelli base ampiamente utilizzati viene addestrato sui dataset: IMP, Motifs e VCTree. Questi modelli vengono valutati utilizzando la metrica meanRecall@K per valutare le loro prestazioni sui compiti basati sui dataset VG150-connected e VG150-curated.
Dopo aver riaddestrato ciascun modello, è essenziale garantire che le configurazioni di base siano mantenute per consentire un confronto equo. L'addestramento avviene con una dimensione del batch specifica e un tasso di apprendimento adatto alle capacità hardware.
Risultati Quantitativi
I risultati degli esperimenti indicano che impiegare VG150-curated beneficia significativamente i vari modelli base. I modelli traggono il massimo vantaggio dalla natura altamente connessa del dataset. Si osservano miglioramenti nelle metriche di prestazione, specialmente tra modelli come Neural Motifs e VCTree.
Quando si analizzano le prestazioni dei modelli addestrati con il dataset VG150-curated, si notano miglioramenti in tutti i compiti rispetto alle versioni precedenti del dataset. Le modifiche effettuate per eliminare le relazioni irrilevanti portano a metriche di prestazione complessive più elevate.
Le prestazioni dei modelli non solo migliorano, ma evidenziano anche l'importanza di utilizzare annotazioni significative. La rimozione di relazioni senza significato consente ai modelli base di concentrarsi su interazioni più significative e contribuisce a una comprensione più solida delle scene.
Risultati Qualitativi
Oltre alle misure quantitative, i confronti qualitativi delle previsioni effettuate dai modelli su diversi dataset illustrano le differenze. Le previsioni dei modelli addestrati sulla versione originale spesso si concentrano su parti interne degli oggetti e perdono interazioni essenziali con altri elementi nella scena.
D'altra parte, i modelli addestrati sul dataset curato forniscono previsioni che includono le interazioni necessarie, arricchendo le informazioni trasmesse sulle scene.
Questo dimostra i potenziali difetti di dipendere da annotazioni pregiudizievoli dai dataset originali e sottolinea l'importanza di dataset migliorati nel raggiungere risultati migliori. La sezione successiva esamina il compito di generazione di immagini per illustrare ulteriormente i benefici del dataset curato.
Compito di Generazione di Immagini
Per valutare la qualità del dataset VG150-curated, viene svolto il compito di generazione di immagini da grafici di scena. A differenza di altri compiti, la generazione di immagini non si basa su input esterni che possono introdurre pregiudizi; piuttosto, utilizza direttamente gli input grezzi del dataset.
Un modello standard di generazione di immagini viene riaddestrato utilizzando sia i dataset originali che quelli curati. Le prestazioni vengono valutate utilizzando una metrica che misura la distanza tra le immagini reali e quelle generate dal modello.
I risultati indicano che le immagini generate utilizzando il dataset VG150-curated mostrano una migliore allineamento con le immagini reali rispetto a quelle generate dal dataset originale. Questo suggerisce che il dataset curato supporta il modello nella generazione di rappresentazioni più accurate delle scene.
Conclusione
Il lavoro presentato qui affronta significativi pregiudizi nel dataset Visual Genome e propone nuove tecniche per migliorare la qualità del dataset. Concentrandosi sul miglioramento della rilevanza delle relazioni nei grafici di scena, è stato creato un nuovo dataset che supera i benchmark tradizionali.
I risultati rivelano i limiti dei metodi esistenti che dipendono da relazioni irrilevanti e mettono in evidenza i vantaggi dell'uso di dataset curati. Questo lavoro apre la strada a futuri miglioramenti nella generazione di grafici di scena e offre una base per un ulteriore uso di dataset più affidabili nei compiti di visione artificiale.
In definitiva, i metodi e i dataset proposti mirano a supportare gli sforzi di ricerca in corso e migliorare l'efficacia dei compiti di comprensione visiva in applicazioni del mondo reale.
Titolo: Fine-Grained is Too Coarse: A Novel Data-Centric Approach for Efficient Scene Graph Generation
Estratto: Learning to compose visual relationships from raw images in the form of scene graphs is a highly challenging task due to contextual dependencies, but it is essential in computer vision applications that depend on scene understanding. However, no current approaches in Scene Graph Generation (SGG) aim at providing useful graphs for downstream tasks. Instead, the main focus has primarily been on the task of unbiasing the data distribution for predicting more fine-grained relations. That being said, all fine-grained relations are not equally relevant and at least a part of them are of no use for real-world applications. In this work, we introduce the task of Efficient SGG that prioritizes the generation of relevant relations, facilitating the use of Scene Graphs in downstream tasks such as Image Generation. To support further approaches, we present a new dataset, VG150-curated, based on the annotations of the popular Visual Genome dataset. We show through a set of experiments that this dataset contains more high-quality and diverse annotations than the one usually use in SGG. Finally, we show the efficiency of this dataset in the task of Image Generation from Scene Graphs.
Autori: Neau Maëlic, Paulo E. Santos, Anne-Gwenn Bosser, Cédric Buche
Ultimo aggiornamento: 2023-09-25 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2305.18668
Fonte PDF: https://arxiv.org/pdf/2305.18668
Licenza: https://creativecommons.org/licenses/by-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.