Comprendere i verbi d'azione e i sostantivi
Questo articolo esplora come gli esseri umani e i modelli interpretano le parole legate all'azione.
― 4 leggere min
Indice
Questo articolo analizza come le parole legate ad azioni e alle persone che le svolgono siano comprese sia dagli esseri umani che dai modelli computerizzati. Ci siamo concentrati su coppie di parole in cui una è un verbo (tipo "cuocere") e l'altra è un sostantivo derivato da quel verbo (tipo "fornaio"). Vogliamo vedere se i modelli computerizzati possono distinguere queste parole in base ai tipi di immagini a cui si riferiscono.
Contesto
Le parole possono avere significati diversi a seconda del loro uso. Per esempio, "runner" si riferisce a una persona, mentre "running" descrive l'azione. Queste differenze influenzano come interpretiamo le immagini quando le vediamo. Anche se i modelli computerizzati hanno fatto bene in altri ambiti, spesso faticano a capire queste sottigliezze. Abbiamo deciso di vedere se questi modelli possono distinguere tra parole d'azione collegate e i sostantivi che descrivono le persone che compiono queste azioni.
Il nostro approccio
Abbiamo creato un nuovo dataset che include coppie di parole correlate, ognuna rappresentante un concetto diverso. Ad esempio, abbiamo guardato "fornaio" e "cuocere." Per ogni coppia, abbiamo trovato sei immagini che rappresentano l'azione e la persona associata a quell'azione. Poi abbiamo chiesto a delle persone di valutare quanto bene ogni immagine si adattasse alle parole.
Ci siamo concentrati su tipi specifici di parole: quelle legate a professioni, sport, arti e categorie generali. Questo approccio ci ha aiutato a indagare quanto bene gli esseri umani e i modelli informatici interpretano le immagini in relazione a queste parole.
Giudizi umani
Nel nostro studio, abbiamo chiesto ai partecipanti di guardare le immagini e valutare quanto bene si adattassero alle parole. Ogni immagine aveva due didascalie: una con il verbo e una con il sostantivo derivato. I partecipanti hanno usato una scala da "totalmente in disaccordo" a "totalmente d'accordo" per esprimere le loro opinioni.
I risultati hanno mostrato che le persone generalmente preferivano le didascalie legate ai verbi rispetto a quelle legate ai sostantivi. Questa preferenza variava a seconda del contesto. Per alcune immagini di persone in ruoli specifici, come gli sportivi, i partecipanti sentivano che i sostantivi derivati fossero più adatti. Tuttavia, non era sempre così. Ad esempio, le immagini di un uomo che correva casualmente non si adattavano all'idea di "runner" tanto quanto le persone potrebbero pensare.
Confronto con i modelli computerizzati
Volevamo anche vedere come i modelli computerizzati si confrontassero con i giudizi umani. Abbiamo testato tre modelli diversi che funzionano in vari modi. Ogni modello è stato valutato in base a quanto bene abbinava le immagini alle didascalie.
Sorprendentemente, i modelli spesso preferivano i sostantivi derivati, a differenza dei partecipanti umani, che favorivano i verbi. Alcuni modelli si sono comportati meglio di altri. Ad esempio, un modello era particolarmente bravo a riconoscere quando le immagini corrispondevano alle didascalie verbali, mentre un altro era più propenso a collegare le immagini ai sostantivi.
Perché questa discrepanza?
Il divario tra i giudizi umani e le previsioni dei modelli potrebbe derivare da come i modelli elaborano le informazioni. Gli esseri umani si basano sul contesto, usando indizi visivi per trarre conclusioni sulle azioni e i ruoli. Al contrario, i modelli potrebbero concentrarsi di più sull'azione stessa senza considerare la persona che la compie. Questa differenza mette in luce la sfida di insegnare ai modelli a pensare come gli esseri umani nell'interpretare le immagini.
Variabilità nei risultati
Abbiamo notato che i risultati potrebbero cambiare in base alle immagini specifiche o al contesto. Alcuni scenari hanno reso più facile per i modelli e per gli esseri umani trovare un accordo. Ad esempio, immagini con segnali visivi chiari, come Atleti in divisa, potrebbero portare sia i partecipanti che i modelli alla stessa conclusione.
Tuttavia, in molti casi, i modelli si sono discostati dai partecipanti umani. Questo suggeriva che i modelli non afferrassero completamente le sfumature delle immagini, specialmente quando gli indizi visivi erano sottili o fuorvianti.
Conclusione
La nostra ricerca rivela che, anche se i modelli computerizzati hanno fatto progressi nella comprensione del legame tra parole e immagini, faticano ancora con le complesse relazioni tra diversi tipi di parole. Gli esseri umani possono fare distinzioni sottili basate sul contesto, mentre i modelli spesso non riescono a riconoscere quelle sfumature.
Speriamo che i nostri risultati incoraggino altri a esaminare ulteriormente queste differenze, in particolare riguardo a come i modelli computerizzati possono meglio rispecchiare la comprensione umana. Migliorando il modo in cui i modelli interpretano le immagini in base al contesto delle parole, possiamo migliorarne le prestazioni e allinearli di più alla comprensione umana.
In sintesi, la distinzione tra parole d'azione e i loro sostantivi correlati presenta una sfida sia per la comprensione umana che per i sistemi automatizzati. Lavoro futuro dovrebbe concentrarsi su come affrontare queste discrepanze e migliorare il modo in cui questi sistemi interpretano sia il linguaggio che i dati visivi.
Titolo: The Scenario Refiner: Grounding subjects in images at the morphological level
Estratto: Derivationally related words, such as "runner" and "running", exhibit semantic differences which also elicit different visual scenarios. In this paper, we ask whether Vision and Language (V\&L) models capture such distinctions at the morphological level, using a a new methodology and dataset. We compare the results from V\&L models to human judgements and find that models' predictions differ from those of human participants, in particular displaying a grammatical bias. We further investigate whether the human-model misalignment is related to model architecture. Our methodology, developed on one specific morphological contrast, can be further extended for testing models on capturing other nuanced language features.
Autori: Claudia Tagliaferri, Sofia Axioti, Albert Gatt, Denis Paperno
Ultimo aggiornamento: 2023-09-20 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2309.11252
Fonte PDF: https://arxiv.org/pdf/2309.11252
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.