Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Visione artificiale e riconoscimento di modelli# Intelligenza artificiale

Progressi nelle Tecniche di Generazione di Grafi di Scena

Presentiamo metodi per migliorare la generazione di grafi di scena tramite segmentazione di alta qualità e previsione delle relazioni.

― 5 leggere min


Tecniche di generazioneTecniche di generazionedi grafi delle scenemetodi innovativi.Migliorare le relazioni tra oggetti con
Indice

La generazione di grafi di scena panoramici (PSG) è un compito in cui creiamo una descrizione dettagliata di un'immagine. Questa descrizione include un elenco di oggetti presenti nell'immagine e le relazioni tra questi oggetti. Ogni oggetto ha attributi come la sua categoria e una maschera che identifica la sua posizione nell'immagine. Le relazioni sono espresse come triplette, il che significa che collegano un soggetto (un oggetto), un altro oggetto e la loro relazione.

Importanza della Segmentazione di Qualità

La chiarezza e la qualità della segmentazione di un'immagine sono essenziali per creare un grafo di scena accurato. In questo lavoro, ci concentriamo sull'uso di metodi recenti che forniscono segmentazione di alta qualità, fondamentale per ottenere buoni risultati nel PSG.

Struttura del Nostro Metodo

Il nostro approccio si basa su un metodo ben noto che utilizza un tipo di architettura di rete frequentemente impiegata nell'elaborazione delle immagini. Questa architettura è composta da diversi componenti:

  1. Backbone: Questa parte elabora l'immagine di input per creare un insieme di caratteristiche dell'immagine.
  2. Decoder Pixel: Questo componente migliora le caratteristiche dell'immagine per creare rappresentazioni dettagliate a diverse scale.
  3. Modulo Transformer: Questa parte riceve un insieme di query (domande sull'immagine) e le caratteristiche migliorate per restituire un insieme di caratteristiche maschera che corrispondono alle query originali.
  4. Modulo Specifico per il Compito: Questo include diverse teste o classificatori che prevedono le classi per gli oggetti e le loro relazioni.

Query Triplette

Nel nostro metodo, modifichiamo le query originali usate nel modello esistente per prevedere sia un soggetto, un oggetto e la loro relazione. Ogni query ora rappresenta una tripletta. I nostri classificatori specifici per il compito ora includono tre classificatori lineari: uno per il soggetto, uno per l'oggetto e uno per la loro relazione. Inoltre, creiamo due reti separate per generare embedding di maschera sia per il soggetto che per l'oggetto.

Focalizzandosi su Aree Rilevanti

Introduciamo un nuovo metodo che consente al modello di concentrarsi sulle aree dell'immagine relative agli oggetti. Questo metodo migliora il meccanismo di attenzione nella nostra rete concentrandosi sull'area contenente il soggetto e l'oggetto di interesse.

Addestramento del Modello

Il nostro modello è addestrato utilizzando diverse funzioni di perdita. La perdita principale valuta l'accuratezza delle previsioni sugli oggetti, mentre perdite aggiuntive aiutano a garantire la qualità dell'apprendimento delle maschere e l'accuratezza delle relazioni tra oggetti. Combinando queste perdite, guidiamo il modello a imparare in modo efficace.

Introducendo HiLo

Il nostro framework HiLo è progettato per accomodare sia relazioni ad alta frequenza che a bassa frequenza. Il concetto è semplice: alcune relazioni vengono viste più spesso nei dati di addestramento rispetto ad altre. Il nostro obiettivo è migliorare le performance del modello nella comprensione delle relazioni a bassa frequenza senza ostacolare la sua capacità di riconoscere quelle ad alta frequenza.

Generazione delle Relazioni

Nel compito PSG, possono esserci più relazioni che descrivono le connessioni tra un soggetto e un oggetto. Le stesse informazioni visive possono supportare queste varie relazioni. Ad esempio, molte coppie soggetto-oggetto possono essere etichettate con più relazioni nel nostro dataset. Introduciamo un sistema per creare due set di dati di addestramento: uno che enfatizza le relazioni ad alta frequenza e un altro per le relazioni a bassa frequenza.

Aumento delle Relazioni

Per affrontare le annotazioni di relazione mancanti nel nostro dataset, progettiamo uno schema per arricchire i dati. Questo metodo prevede di addestrare il nostro modello iniziale a fare previsioni sulle relazioni per ogni coppia soggetto-oggetto. Se una coppia di oggetti ha relazioni etichettate, selezioniamo quella con il punteggio più alto. Per le coppie senza relazioni etichettate, usiamo un punteggio specifico per identificare relazioni aggiuntive.

Scambio delle Relazioni

Scambiamo le etichette delle relazioni tra categorie ad alta e bassa frequenza per creare nuovi set di addestramento. Questo processo aiuta il modello a imparare a riconoscere entrambi i tipi di relazioni. Sviluppiamo due modelli separati che si allenano su questi nuovi set di dati, uno focalizzato sulle previsioni delle relazioni a bassa frequenza e l'altro su quelle ad alta frequenza.

Allineamento delle Previsioni

Per evitare confusione nell'addestrare due modelli diversi, creiamo un sistema per allineare le previsioni di entrambi i modelli. Ogni modello dovrebbe fornire previsioni simili per la stessa coppia soggetto-oggetto, consentendoci di misurare quanto bene si accordano.

Coerenza nelle Previsioni

Proponiamo misure per minimizzare le differenze nelle previsioni per soggetti e oggetti tra i due modelli, poiché dovrebbero riflettere essenzialmente le stesse informazioni. Inoltre, verifichiamo che le previsioni sulle loro relazioni mantengano compatibilità tra le due reti.

Combinazione delle Previsioni

Dopo l'addestramento, fondiamo i risultati di entrambi i modelli nell'ultimo passaggio. Prima, combiniamo le relazioni previste ed eliminiamo eventuali duplicati. Per ogni tripla unica di soggetto, oggetto e relazione, calcoliamo un punteggio complessivo basato sulla loro probabilità prevista.

Confronto delle Performance

Il nostro metodo è stato testato rispetto a diversi approcci precedenti e i risultati mostrano miglioramenti significativi. Le performance sono misurate usando metriche specifiche che valutano quanto bene il sistema riconosce oggetti e le loro relazioni.

Conclusione

In sintesi, il compito di generare grafi di scena da immagini è complesso ma cruciale per comprendere i dati visivi. Combinando metodi di segmentazione di alta qualità con approcci innovativi nella previsione delle relazioni, possiamo ottenere migliori performance in questo campo. Il nostro framework HiLo riconosce efficacemente sia le relazioni frequenti che quelle infrequenti, aprendo la strada per una migliore comprensione delle scene in varie applicazioni.

Direzioni Future

Guardando al futuro, ci sono molte potenziali strade da esplorare. Raffinare ulteriormente il processo di aumento delle relazioni potrebbe produrre set di dati ancora più ricchi per l'addestramento. Inoltre, esplorare diverse architetture di modello o migliorare i meccanismi di attenzione potrebbe portare a nuove scoperte nella generazione di grafi di scena. Confronti continui con altri metodi aiuteranno anche a perfezionare il nostro approccio per prestazioni ottimali in vari casi d'uso.

Fonte originale

Titolo: HiLo: Exploiting High Low Frequency Relations for Unbiased Panoptic Scene Graph Generation

Estratto: Panoptic Scene Graph generation (PSG) is a recently proposed task in image scene understanding that aims to segment the image and extract triplets of subjects, objects and their relations to build a scene graph. This task is particularly challenging for two reasons. First, it suffers from a long-tail problem in its relation categories, making naive biased methods more inclined to high-frequency relations. Existing unbiased methods tackle the long-tail problem by data/loss rebalancing to favor low-frequency relations. Second, a subject-object pair can have two or more semantically overlapping relations. While existing methods favor one over the other, our proposed HiLo framework lets different network branches specialize on low and high frequency relations, enforce their consistency and fuse the results. To the best of our knowledge we are the first to propose an explicitly unbiased PSG method. In extensive experiments we show that our HiLo framework achieves state-of-the-art results on the PSG task. We also apply our method to the Scene Graph Generation task that predicts boxes instead of masks and see improvements over all baseline methods. Code is available at https://github.com/franciszzj/HiLo.

Autori: Zijian Zhou, Miaojing Shi, Holger Caesar

Ultimo aggiornamento: 2023-08-17 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2303.15994

Fonte PDF: https://arxiv.org/pdf/2303.15994

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili