Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Calcolo e linguaggio# Visione artificiale e riconoscimento di modelli

Presentiamo il dataset VIST-Character per la narrazione visiva

Un nuovo dataset che migliora il focus sui personaggi nella narrazione visiva.

― 8 leggere min


Lancio del DatasetLancio del DatasetVIST-Characterpersonaggi nella narrazione visiva.Un set di dati che si concentra sui
Indice

I personaggi giocano un ruolo fondamentale nelle storie. Impostare questi personaggi prima di iniziare a scrivere può aiutare a rendere la storia più chiara e facile da seguire. Tuttavia, gran parte del lavoro precedente sulla narrazione visiva si è concentrato principalmente sull'identificazione degli oggetti nelle immagini e delle loro relazioni, spesso trascurando i personaggi. Di conseguenza, le storie prodotte erano più incentrate sugli eventi piuttosto che sui personaggi.

Per affrontare questo, abbiamo creato il dataset VIST-Character, che include annotazioni dettagliate sui personaggi, come i loro ruoli nella storia e quanto siano importanti. Utilizzando questo dataset, abbiamo creato due nuovi compiti: identificare i personaggi importanti e collegare le menzioni testuali dei personaggi alle loro apparizioni nelle immagini.

Abbiamo sviluppato modelli di base per questi compiti, basandoci sulla somiglianza nella distribuzione e sui modelli esistenti di visione e linguaggio. Il nostro dataset e i modelli possono aiutare nei lavori futuri volti a comprendere e creare storie incentrate sui personaggi.

Narrazione Visiva

La narrazione visiva cerca di raccontare una storia coerente basata su una serie di immagini. Mentre la tradizionale didascalia delle immagini si concentra sulla descrizione delle immagini, la narrazione visiva richiede di collegare varie immagini e ragionare sulla progressione della storia. La trama e i personaggi sono gli elementi cruciali qui. Uno scrittore umano solitamente identifica prima i personaggi dalle immagini e decide chi sia il personaggio principale in base alla storia che vuole trasmettere.

Stabilendo i personaggi in anticipo, gli scrittori possono creare una trama e un flusso narrativo più coinvolgenti. Negli ultimi anni, alcuni studi si sono concentrati sullo sviluppo di modelli di narrazione centrati sui personaggi. Ad esempio, alcuni lavori hanno cercato di apprendere rappresentazioni dei personaggi per supportare la narrazione guidata dai personaggi.

Tuttavia, molti approcci esistenti alla narrazione visiva si concentrano ancora principalmente sugli oggetti piuttosto che sui personaggi, trattando i personaggi come un altro tipo di oggetto. Questo porta a storie che possono essere coerenti in termini di eventi ma che non riescono a presentare uno sviluppo forte dei personaggi.

Dichiarazione del Problema

I metodi attuali di narrazione visiva spesso trascurano le informazioni sui personaggi. I personaggi vengono raggruppati con gli oggetti e trattati alla stessa stregua, risultando in storie che mancano di profondità nella rappresentazione dei personaggi. Ad esempio, approcci recenti hanno utilizzato grafi della conoscenza per migliorare le descrizioni degli oggetti ma non riescono a comprendere i personaggi. Questo può creare narrazioni con tratti e background dei personaggi incoerenti.

Inoltre, i sistemi esistenti spesso trascurano i diversi livelli di importanza dei personaggi, non riuscendo a differenziare tra i personaggi principali e quelli di supporto. La mancanza di dataset contenenti annotazioni dettagliate sui personaggi rende difficile costruire modelli focalizzati sui personaggi.

Per affrontare queste carenze, presentiamo il dataset VIST-Character. Estende il dataset originale di Narrazione Visiva aggiungendo annotazioni relative ai personaggi. Ogni personaggio è identificato nel testo e contrassegnato nelle immagini corrispondenti. Il dataset valuta anche i personaggi in base alla loro importanza nella storia, consentendo una chiara distinzione tra personaggi principali e secondari.

Il Dataset VIST-Character

Il dataset VIST-Character comprende 770 storie visive che includono annotazioni ricche relative ai personaggi. Queste annotazioni comprendono il tracciamento delle menzioni dei personaggi sia nel testo che nelle immagini, insieme ai punteggi di importanza. Le storie visive sono state selezionate dal set di test VIST, assicurando che i personaggi fossero presenti nelle immagini identificate, evitando casi in cui le immagini mostravano solo paesaggi.

Il processo di annotazione ha comportato diversi passaggi:

  1. Identificare e contrassegnare le parole che si riferiscono allo stesso personaggio nelle frasi della storia.
  2. Identificare i personaggi nelle immagini disegnando delle scatole attorno a loro.
  3. Valutare l'importanza di ciascun personaggio su una scala da 1 a 5.

Processo di Annotazione

L'annotazione del dataset è stata eseguita da due autori che hanno creato linee guida chiare. Hanno prima condotto uno studio pilota e poi hanno seguito questi passaggi:

  1. Contrassegnare le menzioni dei personaggi nel testo.
  2. Disegnare scatole attorno ai personaggi nelle immagini.
  3. Valutare l'importanza di ciascun personaggio.

Cinquanta storie hanno ricevuto annotazioni da quattro diversi annotatori. Il resto è stato annotato da un singolo annotatore. È stata costruita un'interfaccia per combinare annotazioni di testo, immagine e importanza.

Accordo tra Annotatori

Per le cinquanta storie annotate da più annotatori, abbiamo valutato l'accordo tra le loro annotazioni su quattro categorie: rilevamento dei personaggi, catene di co-riferimento, scatole di delimitazione e classificazione di importanza. Questa valutazione ha permesso di verificare quanto le annotazioni degli annotatori coincidessero.

Statistiche del Dataset

Il dataset VIST-Character presenta una media di quattro personaggi per storia, con ogni personaggio che appare circa due volte. È interessante notare che una parte significativa dei personaggi identificati erano personaggi plurali o di gruppo, sottolineando la loro rilevanza nella narrazione.

Formulazione del Compito

I compiti principali di questo dataset sono:

  1. Rilevamento di personaggi importanti: identificare e classificare i personaggi in base alla loro importanza nella storia.
  2. Fondamentazione dei personaggi: collegare le menzioni testuali ai personaggi visibili nelle immagini.

Entrambi i compiti utilizzano i vari modi in cui i personaggi appaiono nella storia, sia attraverso il testo che le immagini, o entrambi. L'obiettivo è tracciare e valutare accuratamente i personaggi, sia che si tratti di rilevarli nel testo, nelle immagini, o di allineare entrambe le forme di rappresentazione.

Rilevamento dei Personaggi e Co-riferimento nel Testo

Per rilevare i personaggi nel testo, noi:

  1. Utilizziamo un tagger di parti del discorso per identificare sostantivi e pronomi rilevanti.
  2. Filtriamo questi sostantivi in base alla loro categoria più ampia (come persone, animali o veicoli).
  3. Raggruppiamo le menzioni dei personaggi in catene di co-riferimento.

Questo approccio aiuta a garantire che le diverse menzioni dello stesso personaggio siano riconosciute come appartenenti alla stessa entità nella storia.

Rilevamento dei Personaggi e Co-riferimento nelle Immagini

Per la parte visiva relativa al rilevamento dei personaggi, applichiamo tecniche per identificare i volti nelle immagini. Questo processo prevede:

  1. Rilevare i volti utilizzando uno strumento di riconoscimento facciale.
  2. Estrarre caratteristiche relative a questi volti.
  3. Raggruppare queste caratteristiche per formare catene di co-riferimento visivo dei personaggi.

Queste tecniche aiutano a collegare le varie apparizioni dei personaggi attraverso la sequenza d'immagine.

Fondamentazione dei Personaggi

La fondazione dei personaggi implica collegare le menzioni testuali alle loro apparizioni visive nelle immagini. Questo viene affrontato come un problema di corrispondenza, dove creiamo una matrice di similarità che misura la relazione tra le rappresentazioni testuali e visive dei personaggi.

Vengono utilizzati due metodi per questo:

  1. Similarità distributiva basata sul contesto in cui i personaggi appaiono.
  2. Un modello che sfrutta i framework esistenti di visione-linguaggio.

Utilizzando questi metodi, possiamo allineare meglio i personaggi menzionati nel testo con le loro immagini corrispondenti.

Classificazione di Importanza

Per valutare l'importanza dei personaggi, guardiamo a quanto frequentemente ciascun personaggio è menzionato nella storia. I personaggi più importanti di solito appaiono più spesso, quindi creiamo un sistema di classificazione basato sul conteggio delle menzioni dei personaggi attraverso diverse modalità.

Valutazione

Valutiamo il rilevamento e la fondazione dei personaggi attraverso sia il testo che le modalità visive. Per il rilevamento testuale, un personaggio previsto è considerato corretto se corrisponde al sostantivo principale. Per le immagini, la scatola di delimitazione che identifica un personaggio deve essere contenuta nell'area annotata.

Risultati

Presentiamo i tassi di precisione e richiamo ottenuti per il rilevamento dei personaggi e co-riferimento attraverso i vari compiti. In generale, il richiamo tende a essere più alto della precisione, indicando che mentre possiamo rilevare le menzioni o le apparizioni dei personaggi, l'accuratezza nell'identificarli correttamente può variare, soprattutto nei dati visivi.

Classificazione di Importanza e il Protagonista

Nell'identificare il personaggio principale o protagonista, ci basiamo sulla frequenza dei personaggi come misura chiave. Si prevede che il protagonista abbia la catena di co-riferimento più lunga. La valutazione include la misurazione dell'accuratezza nell'identificare il protagonista e altri personaggi importanti nella storia, utilizzando diverse modalità di input.

Conclusione

Il dataset VIST-Character fornisce una base per futuri progressi nella narrazione incentrata sui personaggi. Con le sue annotazioni dettagliate, i ricercatori possono lavorare per sviluppare modelli che migliorano la narrazione visiva attraverso una lente centrata sui personaggi.

Questo lavoro non solo colma una lacuna nei dataset esistenti, ma sottolinea anche l'importanza dei personaggi nella costruzione narrativa. Rilasciando questo dataset e i modelli associati, speriamo di supportare ulteriori ricerche e sviluppi in quest'area, migliorando infine il modo in cui le storie vengono raccontate attraverso le immagini.

Lavori Futuri

Andando avanti, abbiamo intenzione di migliorare ulteriormente il modello di narrazione centrato sui personaggi. Studi futuri potrebbero includere l'affrontare narrazioni più lunghe come fumetti o film, dove lo sviluppo dei personaggi è ancora più cruciale.

Condividendo questo dataset e il codice sottostante, intendiamo favorire la collaborazione e il progresso nelle aree di analisi e generazione di storie guidate dai personaggi.

Fonte originale

Titolo: Detecting and Grounding Important Characters in Visual Stories

Estratto: Characters are essential to the plot of any story. Establishing the characters before writing a story can improve the clarity of the plot and the overall flow of the narrative. However, previous work on visual storytelling tends to focus on detecting objects in images and discovering relationships between them. In this approach, characters are not distinguished from other objects when they are fed into the generation pipeline. The result is a coherent sequence of events rather than a character-centric story. In order to address this limitation, we introduce the VIST-Character dataset, which provides rich character-centric annotations, including visual and textual co-reference chains and importance ratings for characters. Based on this dataset, we propose two new tasks: important character detection and character grounding in visual stories. For both tasks, we develop simple, unsupervised models based on distributional similarity and pre-trained vision-and-language models. Our new dataset, together with these models, can serve as the foundation for subsequent work on analysing and generating stories from a character-centric perspective.

Autori: Danyang Liu, Frank Keller

Ultimo aggiornamento: 2023-03-30 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2303.17647

Fonte PDF: https://arxiv.org/pdf/2303.17647

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili