Avanço nos Modelos de Resposta a Perguntas Visuais
Novo conjunto de dados melhora as habilidades dos modelos pra lidar com perguntas visuais complexas.
― 10 min ler
Índice
Modelos de visão e linguagem pré-treinados conseguem fazer várias tarefas envolvendo imagens e textos, como responder Perguntas sobre fotos. Mas, não tá claro se esses modelos conseguem lidar com perguntas que exigem um conhecimento mais detalhado do que o que tá visível na imagem. Neste estudo, a gente apresenta um novo dataset de perguntas visuais, focando em questões que precisam de mais do que apenas um conhecimento básico pra responder.
Pra entender como vários modelos pré-treinados se saem nessas perguntas, analisamos os pontos fortes e fracos deles. Nossa pesquisa mostra que, mesmo os modelos mais avançados enfrentam dificuldades com perguntas que buscam informações específicas, embora aprimorar esses modelos usando nosso dataset ajude eles a aproveitar melhor o conhecimento adquirido durante o treinamento.
A gente também descobriu que identificar corretamente elementos visuais pode melhorar significativamente a performance do modelo ao puxar informações úteis de documentos externos. Isso indica que tem muito espaço pra melhorar na forma como esses modelos respondem a perguntas complexas.
O conhecimento é adquirido durante o treinamento de grandes modelos de linguagem, permitindo que eles respondam perguntas em contextos abertos, onde informações adicionais podem não estar facilmente disponíveis. Enquanto estudos anteriores examinaram como modelos lidam com perguntas relacionadas a informações textuais, menos é conhecido sobre a capacidade deles no contexto Visual. Por exemplo, depois de tirar uma foto de uma igreja específica, alguém pode querer saber quando ela foi construída ou quem decorou. Embora a imagem mostre a igreja, o conhecimento relevante muitas vezes não tá representado visualmente.
Dado os avanços em modelos visuais-linguísticos pré-treinados, a gente precisa perguntar: Esses modelos conseguem responder perguntas que buscam informações além da imagem em si?
Pra explorar isso, desenvolvemos um dataset de perguntas visuais que enfatiza perguntas de busca de informação. No entanto, nem todos os datasets existentes servem pra isso. Muitas perguntas em datasets como o VQA v2 focam apenas em características visuais e não exigem conhecimento externo.
Modelos que conseguem responder perguntas diretas poderiam ajudar pessoas com deficiência visual, mas um conjunto mais amplo de perguntas desafiadoras ainda precisa de atenção. Por exemplo, uma pergunta como "Quando esse prédio foi construído?" requer conhecimento histórico que não tá disponível só pela imagem.
Enquanto a maioria das perguntas no OK-VQA pode ser respondida por adultos medianos sem precisar buscar informação, a natureza das perguntas de busca de informação significa que apenas cerca de 4,4% delas podem ser resolvidas sem contexto adicional.
No nosso trabalho, apresentamos um dataset natural de perguntas visuais focando em perguntas que buscam informações detalhadas sobre o que tá mostrado nas imagens. Diferente de datasets anteriores, a fase de testes do nosso dataset é coletada em etapas por anotadores humanos para garantir que as perguntas não possam ser respondidas apenas pelo conteúdo visual.
Além do conjunto de testes criado manualmente, também usamos um dataset recente de reconhecimento de entidades visuais ligado a fontes de conhecimento externas pra criar uma vasta quantidade de pares de perguntas e respostas.
Mais de um milhão de combinações de perguntas e respostas foram geradas pra ajudar a treinar modelos multi-modais pra responder perguntas visuais de busca de informação. Estruturamos o dataset de forma que memorizar a informação de treinamento não seja eficaz-modelos precisam usar o conhecimento adquirido durante o pré-treinamento ou recuperar informações de uma base de conhecimento externa.
Usando esse dataset, a gente avalia a capacidade dos modelos de ponta pra responder perguntas visuais de busca de informação. Descobrimos que modelos pré-treinados de visão e linguagem, seja treinados do zero ou usando componentes congelados, têm dificuldades em se sair bem em cenários de zero-shot, embora alguns modelos tenham mostrado resultados melhores que outros.
Depois de aplicar técnicas de fine-tuning no nosso extenso dataset de treinamento, um modelo alcançou melhorias significativas e superou outro modelo fine-tuned mesmo com perguntas que não faziam parte do processo de fine-tuning. Isso mostra que, enquanto o modelo pré-treinado já tem muito conhecimento, um pequeno treinamento adicional pode aumentar bastante suas capacidades.
Além disso, descobrimos que modelos fine-tuned podem generalizar pra perguntas totalmente novas e tipos de entidades visuais, mostrando sua adaptabilidade.
Incorporar reconhecimento de entidades visuais e fornecer informações relevantes de fontes externas melhora a performance geral em comparação àqueles que dependem apenas do conhecimento adquirido. No entanto, alguns modelos que usam processamento end-to-end se saem melhor em perguntas mais simples que pedem informações amplas, mesmo pra entidades menos conhecidas. Nossos testes indicam que aprimorar o reconhecimento de entidades visuais pode aumentar notavelmente a habilidade dos modelos de responder perguntas visuais de busca de informação.
A Necessidade de um Novo Benchmark de Busca de Informação Visual
Muitas perguntas exigem conhecimento específico pra fornecer respostas precisas, e embora vários benchmarks pra perguntas visuais intensivas em conhecimento tenham sido criados, nenhum mede efetivamente as habilidades de busca de informação. Os primeiros esforços contaram com grafos de conhecimento específicos de domínio, enquanto datasets mais novos adotaram uma abordagem mais aberta, mas ainda incorporam conhecimento comum.
A maioria dos benchmarks existentes tem desvantagens significativas em como desenvolvem perguntas e avaliam o conhecimento dos modelos. Por exemplo, muitas perguntas no OK-VQA tendem a se concentrar em fatos amplamente conhecidos que não exigem uma investigação mais profunda, tornando-as inadequadas pra avaliar modelos sobre sua capacidade de lidar com Conhecimentos sutis e long-tail.
Diferente do OK-VQA, o dataset ViQuAE se esforça pra examinar o conhecimento detalhado de entidades visuais ao combinar perguntas de trivia com imagens. No entanto, um grande número de perguntas do ViQuAE ainda pode ser resolvido sem examinar as imagens, já que elas contêm informações suficientes pra respostas.
Pra medir a eficácia desses datasets, analisamos quão bem os modelos respondem a perguntas que requerem uma compreensão rica do conteúdo representado. Nossas análises revelam que muitos datasets existentes não avaliam corretamente os requisitos únicos das perguntas de busca de informação.
Dadas essas limitações, desenvolvemos um novo benchmark pra avaliar modelos multi-modais pré-treinados em perguntas visuais de busca de informação.
Nosso dataset incorpora reconhecimento de entidades visuais, indo além da identificação simples pra examinar de forma abrangente o conhecimento de várias entidades visuais.
Dados de VQA Natural de Busca de Informação Anotados por Humanos
Pra garantir que as perguntas no nosso dataset exijam compreensão visual e não permitam que modelos respondam sem se engajar com as imagens, usamos um sistema de anotação em duas fases. Essa abordagem foi inspirada por metodologias existentes pra garantir que as perguntas reflitam interesses genuínos em aprender informações relevantes, em vez de reformular descrições dadas ou fazer perguntas simples.
Na primeira fase, anotadores criam várias perguntas sobre uma entidade visual com base em sua curiosidade. Eles recebem orientações que incluem imagens da entidade, uma breve descrição e uma lista de títulos de seções da Wikipedia. Esse arranjo ajuda a guiar os anotadores a elaborar perguntas que busquem conhecimento significativo.
Na segunda fase, diferentes anotadores rotulam respostas baseadas em informações da Wikipedia. Cada pergunta é apresentada a eles junto com o artigo da Wikipedia da entidade, onde eles devem encontrar respostas concisas e classificar as perguntas em tipos distintos-temporais, numéricas ou baseadas em strings.
Nosso trabalho construiu grandes conjuntos de pares de perguntas e respostas que podem ser confirmados por revisores humanos, garantindo um alto padrão de qualidade em todo o dataset.
Pra manter uma ampla variedade de perguntas e respostas extraídas da Wikipedia, filtramos pares sem respostas precisas e equilibramos a representação de diferentes tipos de entidades.
Dados Automatizados de VQA da Wikipedia
Criar um dataset dessa escala depende não apenas do esforço humano, mas também da automação. Geramos milhões de exemplos traduzindo triples de conhecimento de bases de conhecimento externas em perguntas e respostas em linguagem natural.
Por meio dessa abordagem, garantimos a manutenção de uma cobertura abrangente de várias entidades visuais enquanto otimiza a diversidade do nosso dataset. Um sistema de verificação e balanceamento foi implementado durante todo o processo de geração de dados pra verificar a correção e relevância das respostas.
Nosso protocolo de avaliação busca medir as habilidades de generalização de modelos pré-treinados testando-os em perguntas e entidades não vistas. Categorizamos perguntas que requerem tipos específicos de respostas, cada uma avaliada usando métricas diferentes pra medir com precisão o desempenho.
Avaliando Modelos com Diferentes Acessos à Informação
Introduzimos dois métodos de avaliação: um onde os modelos devem prever respostas apenas com base em imagens e perguntas e outro onde eles podem usar uma base de conhecimento externa. O primeiro método exige que os modelos mantenham conhecimento do pré-treinamento, enquanto o segundo incentiva os modelos a aproveitar o reconhecimento de entidades visuais em conjunto com o raciocínio textual.
Comparando essas duas condições, podemos determinar quanto conhecimento os modelos retêm e sua eficácia em acessar informações externas pra melhorar a performance.
Na primeira condição, os modelos analisam diretamente as imagens e perguntas, contando apenas com parâmetros armazenados durante o treinamento. O objetivo é descobrir quão bem eles podem responder com base em seu entendimento inato do mundo.
A segunda condição permite que os modelos utilizem informações de uma base de conhecimento, fundamentando perguntas visuais em um contexto mais amplo. Esse método incentiva os modelos a reconhecer entidades visuais antes de prosseguir para perguntas baseadas em linguagem, aumentando assim o potencial pra respostas precisas.
Resultados e Conclusões
Nossos resultados indicam que modelos existentes se saem de forma inconsistente em perguntas que requerem conhecimento aprofundado. Alguns modelos mostraram um desempenho razoável quando nenhuma informação externa está disponível, enquanto outros se destacam em acessar conhecimento externo.
Ajustar modelos existentes com nosso dataset ajudou a aumentar a capacidade deles de responder perguntas de forma eficaz, mostrando que o treinamento certo pode desbloquear conhecimento latente dentro desses modelos pré-treinados.
Apesar do progresso, ainda é evidente que muitos modelos precisam de mais refinamento pra lidar com as complexidades das tarefas de busca de informação visual de forma eficaz. A variação no desempenho baseada na complexidade das perguntas ressalta a necessidade de desenvolvimento contínuo nessa área.
Conclusão
Neste estudo, destacamos os desafios enfrentados pelos atuais modelos de visão e linguagem ao responder perguntas visuais de busca de informação. Embora melhorias significativas possam ser feitas por meio de datasets e métodos de treinamento especialmente projetados, mais trabalho é necessário pra aumentar a capacidade deles de lidar com consultas complexas.
A introdução do nosso dataset fornece um recurso valioso pra futuras pesquisas, permitindo uma melhor avaliação e treinamento de modelos. Ao compreender a relação entre o conteúdo visual e o conhecimento externo, podemos refinar abordagens que levarão a modelos mais capazes e adaptáveis no futuro.
Nossas descobertas abrem caminho pra mais avanços na área, enquanto nos esforçamos pra construir sistemas que possam interagir e entender dados visuais no contexto de perguntas do mundo real. O desenvolvimento contínuo dessas tecnologias melhorará nossa habilidade de preencher lacunas de conhecimento e fornecer informações precisas nesse mundo cada vez mais visual.
À medida que a pesquisa avança, esperamos descobrir ainda mais insights sobre como esses modelos podem atender melhor às diversas necessidades de informação dos usuários em vários contextos.
Título: Can Pre-trained Vision and Language Models Answer Visual Information-Seeking Questions?
Resumo: Pre-trained vision and language models have demonstrated state-of-the-art capabilities over existing tasks involving images and texts, including visual question answering. However, it remains unclear whether these models possess the capability to answer questions that are not only querying visual content but knowledge-intensive and information-seeking. In this study, we introduce InfoSeek, a visual question answering dataset tailored for information-seeking questions that cannot be answered with only common sense knowledge. Using InfoSeek, we analyze various pre-trained visual question answering models and gain insights into their characteristics. Our findings reveal that state-of-the-art pre-trained multi-modal models (e.g., PaLI-X, BLIP2, etc.) face challenges in answering visual information-seeking questions, but fine-tuning on the InfoSeek dataset elicits models to use fine-grained knowledge that was learned during their pre-training. Furthermore, we show that accurate visual entity recognition can be used to improve performance on InfoSeek by retrieving relevant documents, showing a significant space for improvement.
Autores: Yang Chen, Hexiang Hu, Yi Luan, Haitian Sun, Soravit Changpinyo, Alan Ritter, Ming-Wei Chang
Última atualização: 2023-10-17 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2302.11713
Fonte PDF: https://arxiv.org/pdf/2302.11713
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.