Valutare le storie visive generate dalle macchine
Viene introdotto un nuovo metodo per valutare la qualità delle narrazioni nelle macchine.
― 7 leggere min
Indice
- Cos'è la narrazione visiva?
- Limitazioni dei metodi di valutazione attuali
- Fondamenta visive
- Coerenza
- Ripetizione
- Confrontare storie di macchine e umani
- Valutazione dei modelli
- Dataset utilizzati
- Modelli di apprendimento automatico
- Modelli popolari
- Configurazione sperimentale
- Performance dei modelli
- Informazioni ottenute
- Valutazione umana
- Conclusione
- Lavoro futuro
- Fonte originale
- Link di riferimento
Raccontare storie visive significa creare una storia basata su una sequenza di immagini. Questo compito può essere difficile sia per le persone che per le macchine. Per le macchine, capire quanto bene raccontano storie è ancora più complicato, perché non c'è un accordo chiaro su cosa renda una buona storia.
In questa esplorazione, viene introdotto un nuovo modo per valutare la qualità delle storie. Questo metodo si concentra su quanto le storie generate assomiglino a quelle create dagli esseri umani. Si guarda a tre punti principali: quanto bene le immagini si collegano alla storia (fondamenta visive), quanto è coerente la storia (Coerenza) e quanto è ripetitiva (Ripetizione).
Dopo aver applicato questa valutazione a diversi modelli di narrazione, si scopre che un modello chiamato LLaVA è il migliore in assoluto. Tuttavia, un altro modello più piccolo chiamato TAPM, che è molto più leggero, si comporta quasi altrettanto bene. Quando le caratteristiche visive e linguistiche di TAPM sono state migliorate, ha ottenuto risultati simili a LLaVA, nonostante fosse più piccolo.
È stata anche effettuata una valutazione umana, che ha rivelato che semplicemente pareggiare i livelli di fondamenta visive, coerenza e ripetizione non è sufficiente per rendere una storia fantastica. La gente preferisce ancora le storie scritte da umani rispetto a quelle create dalle macchine.
Cos'è la narrazione visiva?
La narrazione visiva comporta la creazione di una narrativa da una serie di immagini o fotogrammi video. Questo compito non riguarda solo la descrizione di cosa succede nelle immagini; si tratta di intrecciarle insieme in una storia che abbia senso. Per sia gli esseri umani che i modelli delle macchine, il collegamento del contenuto visivo è cruciale per raccontare storie.
Una delle principali sfide nella valutazione delle storie generate dalle macchine è la loro natura creativa. Di solito, le storie scritte da esseri umani vengono utilizzate per addestrare questi modelli, con la convinzione che offrano uno standard di qualità. Tuttavia, confrontare direttamente le storie delle macchine con quelle umane spesso non basta. Questo perché si trascura aspetti importanti come quanto bene le immagini siano legate alla storia, quanto siano coerenti nella loro totalità e l'entità della ripetizione presente.
Recenti sforzi hanno cercato di superare queste limitazioni proponendo nuove metriche. Queste metriche valutano le storie in base ai loro meriti piuttosto che semplicemente controllare le somiglianze con una storia di riferimento. Poiché una sequenza di immagini può ispirare molte storie plausibili, questa valutazione di alto livello è essenziale.
Limitazioni dei metodi di valutazione attuali
Anche se la coerenza e le fondamenta visive sono importanti, affidarsi solo a queste misure potrebbe non fornire abbastanza informazioni sulla qualità della storia. Non ci sono regole fisse che determinino i livelli ideali per questi elementi, rendendo difficile sapere quando una storia è "buona".
Per affrontare ciò, viene suggerito un nuovo metodo di valutazione che misura quanto una storia generata dalla macchina sia vicina a quelle scritte da umani. Questo viene fatto valutando varie dimensioni importanti usando metriche che non dipendono da confronti diretti con le storie umane.
Fondamenta visive
Le fondamenta visive valutano quanto bene una storia si colleghi alle immagini. La tecnica usata per questo comporta il confronto delle frasi nominali nella storia con gli oggetti visti nelle immagini. Utilizzando punteggi specifici, il legame tra il testo e gli elementi visivi può essere quantificato. Un punteggio più alto indica un legame più forte tra la storia e le immagini.
Coerenza
La coerenza valuta quanto logicamente siano connesse le frasi in una storia. Un modo comune per determinare la coerenza è calcolare quanto sia probabile che ogni frase segua quelle precedenti. Questo viene fatto utilizzando modelli che sono stati addestrati per prevedere l'ordine delle frasi. Un punteggio più alto significa che le frasi si legano bene, suggerendo un flusso narrativo più fluido.
Ripetizione
La ripetizione controlla la ripetizione non necessaria nella storia. È essenziale che le storie evitino di ripetere le stesse frasi o idee troppo spesso. Questa misura viene calcolata confrontando diverse parti del testo e cercando parole sovrapposte. Un punteggio più basso indica che una storia è meno ripetitiva, il che è generalmente considerato meglio.
Confrontare storie di macchine e umani
Per vedere come le storie generate dalle macchine si confrontano con quelle umane, si applicano le tre metriche di coerenza, fondamenta visive e ripetizione. Vengono calcolate le differenze assolute tra le storie generate dalla macchina e quelle umane per ciascuna metrica. Poi, si determina un punteggio complessivo mediando queste differenze. Un punteggio più basso suggerisce che la storia generata dalla macchina è più vicina agli standard umani.
Valutazione dei modelli
Vari modelli di macchina progettati per la narrazione visiva sono stati confrontati usando questo metodo di valutazione. Il popolare dataset VIST, che include immagini e storie scritte da umani corrispondenti, ha servito da benchmark.
Dataset utilizzati
Il dataset VIST è il primo dataset importante creato per la narrazione visiva. Include sequenze ordinate di immagini insieme a storie elaborate da persone. Ogni sequenza tipicamente consiste di cinque immagini con una storia abbinata. Questo dataset ha ispirato molti modelli nel tempo.
Al contrario, sono emersi altri dataset per semplificare le sfide legate alla narrazione nel mondo reale. Alcuni dataset utilizzano immagini sintetiche per limitare la complessità, mentre altri garantiscono una rappresentazione coerente dei personaggi utilizzando fotogrammi di film.
Modelli di apprendimento automatico
Sono stati utilizzati vari metodi computazionali per generare storie dai dati visivi. Questi includono reti neurali e trasformatori. Tuttavia, nonostante le differenze nell'architettura, molti modelli affrontano sfide simili quando si tratta di valutazione.
Modelli popolari
GLAC Net: Questo modello utilizza un layout standard encoder-decoder per misurare il contesto globale dalle sequenze di immagini e generare storie.
AREL: Questo modello implementa un approccio avversariale, abbinando un modello di politica che genera storie con un modello di ricompensa che valuta queste storie rispetto ai punti di riferimento.
TAPM: Questo nuovo modello combina componenti di linguaggio e visione pre-addestrati per generare narrazioni coerenti.
BLIP-2 e LLaVA: Questi sono modelli fondamentali progettati per compiti più ampi di linguaggio e visione. Possono anche generare storie se sollecitati in modo appropriato.
Configurazione sperimentale
Le storie sono state generate per il set di test VIST utilizzando i vari modelli. Ogni modello ha impiegato strategie e impostazioni diverse per creare narrazioni. L'efficacia di ogni modello è stata valutata sulla base dei punteggi di distanza derivati dalle metriche di valutazione proposte.
Performance dei modelli
I punteggi hanno rivelato che LLaVA ha prodotto storie che erano le più vicine alle creazioni umane, seguite a ruota da TAPM. Interessante notare che, anche se LLaVA è significativamente più grande, TAPM ha dimostrato una qualità comparabile con la sua dimensione più piccola.
Informazioni ottenute
Le performance hanno mostrato come il miglioramento delle componenti linguistiche e visive di TAPM abbia portato a migliori capacità di narrazione. Questi miglioramenti hanno fatto sì che TAPM si comportasse in modo simile a LLaVA, dimostrando che anche modelli più piccoli possono ottenere risultati forti con i giusti aggiornamenti.
Valutazione umana
Per capire se i punteggi numerici corrispondevano alle percezioni delle persone, è stata effettuata una valutazione umana, confrontando i due migliori modelli-TAPM e LLaVA. I partecipanti hanno analizzato storie generate dai modelli selezionate casualmente accanto a storie umane.
I risultati della valutazione hanno indicato una chiara preferenza per le storie umane, evidenziando che le narrazioni generate dalle macchine, anche quelle con punteggi metrici elevati, spesso mancano di alcuni elementi valutati dai revisori umani. Questi elementi potrebbero includere profondità emotiva o una chiara narrativa complessiva.
Conclusione
Il lavoro svolto fornisce un nuovo modo per valutare le storie generate dai modelli, concentrandosi sulle loro somiglianze con le storie umane. Testando vari modelli, è emerso che anche i modelli avanzati di apprendimento automatico hanno ancora margini di crescita nelle capacità di narrazione. Sebbene la tecnologia sia progredita molto, il tocco umano nella costruzione della narrativa rimane unico.
Lavoro futuro
Sebbene questa ricerca presenti risultati preziosi, la scala dello studio potrebbe essere ampliata. Dataset più diversificati e una varietà più ampia di modelli potrebbero fornire una comprensione ancora più ricca della narrazione generata dalle macchine. La comunità è incoraggiata a creare dataset che includano diverse prospettive culturali.
I risultati qui gettano le basi per futuri progressi nella narrazione visiva e aiutano a identificare gli elementi necessari per narrazioni davvero coinvolgenti. Man mano che la narrazione continua a evolversi, sia le macchine che gli esseri umani possono imparare gli uni dagli altri per migliorare le loro narrazioni.
Titolo: Not (yet) the whole story: Evaluating Visual Storytelling Requires More than Measuring Coherence, Grounding, and Repetition
Estratto: Visual storytelling consists in generating a natural language story given a temporally ordered sequence of images. This task is not only challenging for models, but also very difficult to evaluate with automatic metrics since there is no consensus about what makes a story 'good'. In this paper, we introduce a novel method that measures story quality in terms of human likeness regarding three key aspects highlighted in previous work: visual grounding, coherence, and repetitiveness. We then use this method to evaluate the stories generated by several models, showing that the foundation model LLaVA obtains the best result, but only slightly so compared to TAPM, a 50-times smaller visual storytelling model. Upgrading the visual and language components of TAPM results in a model that yields competitive performance with a relatively low number of parameters. Finally, we carry out a human evaluation study, whose results suggest that a 'good' story may require more than a human-like level of visual grounding, coherence, and repetition.
Autori: Aditya K Surikuchi, Raquel Fernández, Sandro Pezzelle
Ultimo aggiornamento: 2024-10-25 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2407.04559
Fonte PDF: https://arxiv.org/pdf/2407.04559
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.