Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Recupero delle informazioni# Visione artificiale e riconoscimento di modelli# Multimedia

Un nuovo set di dati multilingue per le notizie video

Questo dataset punta a migliorare il recupero di notizie video in cinque lingue.

― 6 leggere min


Dataset di notizie videoDataset di notizie videomultilinguein diverse lingue.Migliorare il recupero di notizie video
Indice

Negli ultimi tempi, il modo in cui le Notizie vengono condivise è cambiato tantissimo. Invece di affidarsi solo alle trasmissioni tradizionali, ora le persone hanno accesso a vari tipi di contenuti Video, compresi filmati non editati di testimoni durante Eventi. Questo significa che abbiamo una grande varietà di fonti di notizie online che possono essere usate per insegnare ai modelli, ma molti dataset esistenti si concentrano principalmente su notizie fatte per i parlanti inglesi.

Per affrontare questa lacuna, è stato creato un nuovo dataset, che include video di vari eventi in cinque lingue. Questo dataset contiene sia trasmissioni di notizie professionali che video casuali girati da persone comuni. Si analizza come questi video possano aiutare a costruire modelli più capaci di fornire informazioni accurate. L'obiettivo è offrire una base per recuperare informazioni da video in più lingue.

Importanza di Fonti di Notizie Diverse

Tradizionalmente, le notizie venivano create da professionisti, portando a raccolte di articoli ben scritti e video di alta qualità. Questo ha influenzato significativamente il modo in cui analizziamo e troviamo contenuti. Oggi, molti video sono realizzati da non professionisti, come persone che filmavano eventi mentre accadevano e condividevano online. Questo cambiamento è stato accolto dalle agenzie di stampa, che spesso includono questi clip nei loro report. Tuttavia, la maggior parte dei dataset per video di notizie non considera questo nuovo approccio alla copertura degli eventi.

I dataset video esistenti tendono a concentrarsi solo sui contenuti in inglese. Quando includono più lingue, spesso traducono solo le didascalie e le trascrizioni in inglese. Questo può introdurre dei bias a causa della natura della traduzione. Visto quanto contenuto video legato agli eventi esista in altre lingue, è fondamentale avere dataset che riflettano questa varietà per garantire una prospettiva più ampia sulla copertura degli eventi.

Il Nuovo Dataset

Il nuovo dataset contiene 2.396 video legati a eventi insieme a descrizioni testuali in cinque lingue: arabo, cinese, inglese, coreano e russo. I video coprono 260 eventi attuali da oltre quaranta paesi e sono basati su descrizioni in linguaggio naturale e documenti dettagliati. L'obiettivo è raccogliere un insieme diversificato di video per analizzare come tipi diversi di notizie possano aiutare a costruire una comprensione più completa degli eventi.

In questo dataset, i video sono categorizzati in tre gruppi: trasmissioni di notizie ufficiali, video casuali editati e filmati grezzi, non editati. Questo permette ai ricercatori di vedere le differenze nelle informazioni fornite da questi tipi di video.

Il giornalismo dei cittadini è diventato un attore chiave nel panorama odierno delle notizie, permettendo una raccolta ampia di riassunti di eventi. I modelli vengono addestrati per generare report utilizzando varie fonti online, e questo dataset cerca di estendere quell'idea per includere contenuti video. Un compito specifico si concentra sul Recupero, dove un modello impara a trovare contenuti video pertinenti basati su descrizioni testuali degli eventi.

Analizzando le Informazioni nei Contenuti Video

Ogni video contiene elementi significativi che contribuiscono a capire un evento. Molti dettagli sono visivi, il che può aggiungere profondità a ciò che il testo da solo riporta. Per migliorare questa analisi, un insieme di video è stato annotato per identificare elementi rilevanti che potessero rispondere a domande comuni relative agli eventi rappresentati, come "chi", "cosa" e "dove".

I video di eventi disastrosi sono stati messi in evidenza e gli annotatori sono stati invitati a identificare elementi sullo schermo che rispondevano a queste domande. Hanno catalogato le entità trovate in gruppi come l'evento stesso, la posizione, il tempo, le persone coinvolte e le risposte dai primi soccorritori.

È stato registrato il numero medio di elementi visivi informativi per video, mostrando che mentre il contenuto testuale è più facile da comprendere, i visivi possono fornire informazioni complesse. I risultati hanno indicato che le trasmissioni di notizie offrono generalmente più informazioni rilevanti rispetto ai filmati casuali. È emerso che le trasmissioni professionali hanno significativamente più testo a schermo rispetto ai filmati grezzi, e forniscono anche più segnali visivi.

Cronologia ed Evoluzione della Copertura delle Notizie

Anche il modo in cui la copertura delle notizie si evolve nel tempo è importante. I primi report dei testimoni potrebbero non fornire tutti i dettagli, ma man mano che arriva più informazione, le emittenti professionali costruiscono su questo materiale grezzo. Questo si può vedere nella copertura dell'incendio di Notre Dame nel 2019, dove i primi filmati sui social media hanno informato le storie trasmesse successivamente.

Insegnare ai modelli a riconoscere informazioni sia dai report diretti che da quelli strutturati è essenziale per sviluppare sistemi affidabili. Man mano che gli eventi si svolgono, avere accesso a vari formati video aiuta a costruire un quadro più chiaro della situazione.

Il Compito di Recupero

Un obiettivo chiave del nuovo dataset è fare in modo che i modelli mappino accuratamente le query di testo in più lingue a clip video corrispondenti. Ad esempio, a un modello potrebbe essere chiesto di trovare video basati su descrizioni di eventi attuali. Questo processo include la determinazione di quanto bene un modello recupera video pertinenti basati su testo fornito.

Il modello testato, chiamato MultiCLIP, utilizza un'architettura specifica che combina dati video e testuali per imparare a abbinarli correttamente. Allenandosi su un dataset più grande che include più lingue, l'obiettivo è migliorare le capacità di recupero del modello.

Risultati e Confronti

Confrontando le prestazioni di MultiCLIP con i modelli esistenti, è stato testato su un precedente compito di recupero video. I risultati hanno mostrato che MultiCLIP si è comportato bene, ottenendo risultati simili a modelli più recenti progettati per compiti di recupero video. Questo indica la sua efficacia nel gestire contenuti multilingue.

Testando il modello con il nuovo dataset multilingue, MultiCLIP ha offerto migliori prestazioni rispetto ai modelli addestrati solo su contenuti in inglese. Questo evidenzia l'importanza di incorporare dati multilingue nell'allenamento, poiché aiuta a migliorare la capacità del modello di navigare in contenuti video diversi.

Studi Aggiuntivi

In linea con il miglioramento della comprensione dei contenuti video, sono stati condotti ulteriori studi. Questi hanno esaminato come l'integrazione del Riconoscimento Ottico dei Caratteri (OCR) nel modello potesse migliorare la sua efficacia, specialmente in video con molto testo. Inclusa questa tecnologia nel processo di recupero, MultiCLIP mirava a migliorare la sua comprensione di video con informazioni dense.

Conclusione

Il nuovo dataset multilingue apre la strada all'esplorazione di come i modelli possano recuperare e comprendere contenuti video basati su eventi. Con 2.396 video e documenti che coprono cinque lingue, questo dataset gioca un ruolo vitale nel plasmare il futuro della ricerca video centrata sugli eventi e del recupero delle informazioni.

Concentrandosi su diverse fonti e tipi di video, i ricercatori possono lavorare verso la creazione di modelli capaci di fornire una comprensione più accurata delle notizie. La speranza è che questi progressi conducano a un migliore accesso alle informazioni, indipendentemente dalla lingua, permettendo una comprensione più ampia degli eventi globali.

Futuri sforzi continueranno a perfezionare i modelli ed esplorare come possono incorporare varie forme di contenuto multimediale per rispondere a domande reali. L'obiettivo rimane quello di costruire sistemi robusti che possano attingere a una varietà di risorse, arricchendo ulteriormente il panorama dell'accesso alle informazioni nel mondo digitale di oggi.

Fonte originale

Titolo: MultiVENT: Multilingual Videos of Events with Aligned Natural Text

Estratto: Everyday news coverage has shifted from traditional broadcasts towards a wide range of presentation formats such as first-hand, unedited video footage. Datasets that reflect the diverse array of multimodal, multilingual news sources available online could be used to teach models to benefit from this shift, but existing news video datasets focus on traditional news broadcasts produced for English-speaking audiences. We address this limitation by constructing MultiVENT, a dataset of multilingual, event-centric videos grounded in text documents across five target languages. MultiVENT includes both news broadcast videos and non-professional event footage, which we use to analyze the state of online news videos and how they can be leveraged to build robust, factually accurate models. Finally, we provide a model for complex, multilingual video retrieval to serve as a baseline for information retrieval using MultiVENT.

Autori: Kate Sanders, David Etter, Reno Kriz, Benjamin Van Durme

Ultimo aggiornamento: 2023-07-06 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2307.03153

Fonte PDF: https://arxiv.org/pdf/2307.03153

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili