Simple Science

Ciência de ponta explicada de forma simples

# Informática# Recuperação de informação# Visão computacional e reconhecimento de padrões# Multimédia

Um Novo Conjunto de Dados Multilíngue para Notícias em Vídeo

Esse conjunto de dados busca melhorar a busca de notícias em vídeo em cinco idiomas.

― 7 min ler


Conjunto de Dados deConjunto de Dados deNotícias em VídeoMultilíngueem várias línguas.Melhorando a busca de notícias em vídeo
Índice

Nos últimos tempos, a forma como as Notícias são compartilhadas mudou bastante. Em vez de depender só das transmissões tradicionais, as pessoas agora têm acesso a muitos tipos de conteúdo em vídeo, incluindo gravações sem edição de testemunhas em Eventos. Isso significa que temos uma grande variedade de fontes de notícias online que podem ser usadas para treinar modelos, mas muitos Conjuntos de dados existentes focam principalmente em notícias feitas para falantes de inglês.

Para lidar com essa lacuna, um novo conjunto de dados foi criado, incluindo Vídeos de vários eventos em cinco idiomas. Esse conjunto contém tanto transmissões de notícias profissionais quanto vídeos casuais gravados por pessoas comuns. O objetivo é ver como esses vídeos podem ajudar a construir modelos que forneçam informações mais precisas. A ideia é oferecer uma base para recuperar informações de vídeos em múltiplas línguas.

Importância de Fontes Diversas de Notícias

Tradicionalmente, as notícias eram criadas por profissionais, resultando em coleções de artigos bem escritos e vídeos de alta qualidade. Isso influenciou bastante como analisamos e encontramos conteúdo. Hoje em dia, muitos vídeos são feitos por não-profissionais, como pessoas filmando eventos enquanto acontecem e compartilhando online. Essa mudança foi abraçada pelas agências de notícias, que frequentemente incluem esses clipes em seus relatos. No entanto, a maioria dos conjuntos de dados de vídeos de notícias não considera essa nova abordagem de cobertura de eventos.

Conjuntos de dados de vídeo existentes tendem a focar apenas em conteúdo em inglês. Quando incluem múltiplas línguas, geralmente só traduzem legendas e transcrições em inglês. Isso pode introduzir vieses devido à natureza da tradução. Dado quanto conteúdo de vídeo baseado em eventos existe em outras línguas, é vital ter conjuntos de dados que reflitam essa variedade para garantir uma perspectiva mais ampla sobre a cobertura de eventos.

O Novo Conjunto de Dados

O novo conjunto de dados contém 2.396 vídeos relacionados a eventos, juntamente com descrições em texto em cinco línguas: árabe, chinês, inglês, coreano e russo. Os vídeos cobrem 260 eventos atuais de mais de quarenta países e estão baseados em descrições em linguagem natural e documentos detalhados. O objetivo é coletar um conjunto diversificado de vídeos para analisar como diferentes tipos de notícias podem ajudar a construir uma compreensão mais abrangente dos eventos.

Neste conjunto de dados, os vídeos são categorizados em três grupos: transmissões de notícias oficiais, vídeos casuais editados e gravações brutas, sem edição. Isso permite que os pesquisadores vejam as diferenças nas informações que esses tipos de vídeos fornecem.

O jornalismo cidadão se tornou um jogador-chave no cenário atual de notícias, permitindo uma ampla coleção de resumos de eventos. Modelos estão sendo treinados para gerar relatórios usando várias fontes online, e esse conjunto de dados busca ampliar essa ideia para incluir conteúdo em vídeo. Uma tarefa específica foca na Recuperação, onde um modelo aprende a encontrar conteúdo em vídeo relevante com base em descrições de eventos.

Analisando Informações em Conteúdo de Vídeo

Cada vídeo contém elementos significativos que ajudam a entender um evento. Muitos detalhes são visuais, o que pode acrescentar profundidade ao que o texto sozinho relata. Para melhorar essa análise, um conjunto de vídeos foi anotado para identificar elementos relevantes que poderiam responder perguntas comuns relacionadas aos eventos mostrados, como "quem," "o que," e "onde."

Vídeos de eventos de desastre foram destacados, e os anotadores foram solicitados a identificar elementos na tela que respondessem a essas perguntas. Eles categorizaram as entidades que encontraram em grupos como o evento em si, o local, o tempo, as pessoas envolvidas e as respostas dos primeiros socorristas.

O número médio de elementos visuais informativos por vídeo foi registrado, mostrando que, enquanto o conteúdo em texto é mais fácil de entender, os visuais podem fornecer informações complexas. Os resultados indicaram que transmissões de notícias geralmente oferecem mais informações relevantes em comparação com gravações casuais. Descobriu-se que transmissões profissionais têm significativamente mais texto na tela do que gravações brutas, e também fornecem mais pistas visuais.

Linha do Tempo e Evolução da Cobertura de Notícias

A forma como a cobertura de notícias evolui ao longo do tempo também é importante. Relatos iniciais de testemunhas podem não fornecer todos os detalhes, mas à medida que mais informações surgem, os veículos profissionais constroem sobre essa gravação bruta. Isso pode ser visto na cobertura do incêndio da Notre Dame em 2019, onde as gravações iniciais das mídias sociais informaram histórias de transmissão posteriores.

Ensinar modelos a reconhecer informações tanto de relatos diretos quanto de relatos estruturados é essencial para desenvolver sistemas confiáveis. À medida que os eventos se desenrolam, ter acesso a vários formatos de vídeo ajuda a construir uma imagem mais clara da situação.

A Tarefa de Recuperação

Um objetivo chave do novo conjunto de dados é fazer com que modelos mapeiem com precisão consultas de texto em múltiplas línguas para clipes de vídeo correspondentes. Por exemplo, um modelo poderia ser solicitado a encontrar vídeos com base em descrições de eventos atuais. Esse processo inclui determinar quão bem um modelo recupera vídeos relevantes com base em texto fornecido.

O modelo que está sendo testado, chamado MultiCLIP, usa uma arquitetura específica que combina dados de vídeo e texto para aprender como emparelhá-los corretamente. Ao treinar em um conjunto de dados maior que inclui múltiplas línguas, o objetivo é melhorar as capacidades de recuperação do modelo.

Resultados e Comparações

Ao comparar o desempenho do MultiCLIP com modelos existentes, ele foi testado em uma tarefa de recuperação de vídeo anterior. Os resultados mostraram que o MultiCLIP se saiu bem, alcançando resultados semelhantes a modelos mais novos projetados para tarefas de recuperação de vídeo. Isso indica sua eficácia em lidar com conteúdo multilíngue.

Ao testar o modelo com o novo conjunto de dados multilíngue, o MultiCLIP ofereceu um desempenho melhor do que modelos treinados apenas com conteúdo em inglês. Isso destaca a importância de incorporar dados multilíngues no treinamento, pois ajuda a melhorar a capacidade do modelo de navegar em conteúdo de vídeo diversificado.

Estudos Adicionais

Em linha com a melhoria da compreensão do conteúdo em vídeo, foram realizados estudos adicionais. Esses examinaram como incorporar Reconhecimento Óptico de Caracteres (OCR) no modelo poderia melhorar sua eficácia, especialmente em vídeos com muito texto. Ao incluir essa tecnologia no processo de recuperação, o MultiCLIP buscou aprimorar sua compreensão de vídeos com informações densas.

Conclusão

O novo conjunto de dados multilíngue abre a porta para explorar como modelos podem recuperar e entender conteúdo de vídeo baseado em eventos. Com 2.396 vídeos e documentos em cinco línguas, esse conjunto desempenha um papel vital na formação do futuro da busca e recuperação de informações centradas em eventos.

Ao focar em diferentes fontes e tipos de vídeos, os pesquisadores podem avançar na criação de modelos capazes de fornecer uma compreensão mais precisa das notícias. A esperança é que esses avanços levem a um melhor acesso à informação, independentemente da língua, permitindo uma compreensão mais ampla dos eventos globais.

Esforços futuros continuarão refinando os modelos e explorando como eles podem incorporar várias formas de conteúdo multimídia para responder a perguntas do mundo real. O objetivo permanece construir sistemas robustos que possam retirar de uma variedade de recursos, enriquecendo ainda mais o cenário de acesso à informação no mundo digital de hoje.

Fonte original

Título: MultiVENT: Multilingual Videos of Events with Aligned Natural Text

Resumo: Everyday news coverage has shifted from traditional broadcasts towards a wide range of presentation formats such as first-hand, unedited video footage. Datasets that reflect the diverse array of multimodal, multilingual news sources available online could be used to teach models to benefit from this shift, but existing news video datasets focus on traditional news broadcasts produced for English-speaking audiences. We address this limitation by constructing MultiVENT, a dataset of multilingual, event-centric videos grounded in text documents across five target languages. MultiVENT includes both news broadcast videos and non-professional event footage, which we use to analyze the state of online news videos and how they can be leveraged to build robust, factually accurate models. Finally, we provide a model for complex, multilingual video retrieval to serve as a baseline for information retrieval using MultiVENT.

Autores: Kate Sanders, David Etter, Reno Kriz, Benjamin Van Durme

Última atualização: 2023-07-06 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2307.03153

Fonte PDF: https://arxiv.org/pdf/2307.03153

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes