Avanços em Perguntas e Respostas Visuais com Conhecimento Externo
Novos métodos melhoram a forma como os sistemas respondem a perguntas baseadas em imagens usando conhecimento externo.
― 5 min ler
Índice
A resposta a perguntas visuais com conhecimento externo (OK-VQA) é uma tarefa onde as pessoas fazem perguntas sobre imagens e precisam encontrar respostas que vão além do que a imagem mostra só por si. Tipo, se alguém mostra uma foto de um gato e pergunta, "Até onde esse bicho consegue pular?", a resposta precisa de mais do que o que dá pra ver na imagem. É preciso saber sobre gatos que se encontra em fontes externas como livros ou artigos.
Pra fazer o OK-VQA funcionar bem, os sistemas têm que conseguir buscar documentos relevantes que tenham esse conhecimento externo. Isso envolve usar tanto a imagem quanto o texto da pergunta pra achar as informações certas.
O Desafio da Recuperação de Documentos
Os métodos atuais usados para OK-VQA costumam depender de modelos complexos que têm duas partes: uma maneira de entender a consulta multi-modal (que inclui imagens e texto) e um método separado pra processar os documentos de texto. Esses setups geralmente precisam de muita data de treinamento pra funcionar direito. Isso pode ser um problemão porque coletar grandes quantidades de dados rotulados dá um trabalho danado e é caro.
Pra contornar isso, os pesquisadores sugeriram criar um sistema que pode gerar dados de treinamento automaticamente. Esse sistema ajuda a melhorar o desempenho desses Modelos de Recuperação sem precisar de uma montanha de dados rotulados manualmente.
O Processo de Geração de Dados
O processo de geração de dados automática começa selecionando uma coleção de imagens, como o conjunto de dados MS COCO, que tem uma variedade enorme de fotos. A partir dessas imagens, as legendas são geradas usando um modelo de aprendizado de máquina treinado pra descrever visuais com palavras. Cada legenda gerada funciona como uma consulta pra encontrar textos relevantes de uma grande coleção, tipo a Wikipedia.
Depois que os trechos de texto relevantes são recuperados, os pesquisadores escolhem possíveis respostas - na maioria das vezes, frases nominais - e criam perguntas baseadas nessas respostas. Por exemplo, de um trecho sobre gatos, o sistema pode puxar "gato Siamês" como uma resposta possível e gerar uma pergunta tipo "Que tipo de gato é esse?".
Pra garantir a qualidade das perguntas, um modelo verifica se elas podem ser respondidas com base nos textos recuperados, filtrando as que são de baixa qualidade. Isso ajuda a criar um conjunto de dados robusto que consiste em pares de perguntas e imagens, que podem ser usados pra treinar os modelos efetivamente.
Melhorando os Modelos de Recuperação
O conjunto de dados gerado é então usado pra treinar modelos de recuperação densa. Esses modelos aprendem a combinar as consultas multi-modais com os trechos textuais. O processo de recuperação é melhorado usando técnicas avançadas que permitem ao sistema entender as conexões entre as perguntas, imagens e fontes de conhecimento externo.
Esse setup de treinamento resulta em modelos que conseguem recuperar trechos relevantes muito melhor do que as abordagens anteriores. Em testes, esses modelos mostraram melhorias significativas em como eles realizaram as tarefas de OK-VQA, especialmente em situações onde não tinham encontrado dados semelhantes antes (cenários zero-shot).
Resultados e Descobertas Experimentais
Nos experimentos, o novo método de geração de dados levou a aumentos notáveis nas métricas de desempenho em comparação com os modelos existentes. Por exemplo, uma medida padrão conhecida como Precisão@5 (que checa quantos dos cinco documentos recuperados são relevantes) mostrou melhorias de cerca de 27% usando o novo pipeline de treinamento.
Os modelos que foram pré-treinados com os dados gerados superaram aqueles que não passaram por essa fase de pré-treinamento. Eles também alcançaram um ponto de estabilidade no desempenho após serem expostos a apenas metade dos dados supervisionados disponíveis, indicando que a nova abordagem realmente reduz a necessidade de grandes conjuntos de dados rotulados.
Aplicações do OK-VQA
As implicações dos sistemas OK-VQA se estendem a várias aplicações práticas. Por exemplo, compradores podem tirar fotos de produtos e perguntar sobre especificações ou alternativas. Na educação, estudantes poderiam consultar visuais de livros didáticos, perguntando por esclarecimentos ou mais informações que não estão detalhadas na imagem.
Além disso, a técnica pode ser aplicada em áreas como herança e interpretação de arte, onde os usuários podem perguntar sobre contextos históricos ou significados com base em imagens de artefatos ou obras de arte.
Direções Futuras
Essa pesquisa abre portas pra mais desenvolvimento na área de resposta a perguntas visuais. Enquanto o foco atual está em cenários onde consultas combinam imagens e perguntas pra buscar textos relevantes, trabalhos futuros poderiam explorar a integração de outras formas de dados e melhorar os modelos pra lidar com uma gama mais ampla de tarefas.
Uma área notável de melhoria é lidar com as limitações presentes nos conjuntos de dados atuais. Ao incorporar uma variedade maior de imagens no processo de treinamento, os modelos podem acabar performando melhor em diferentes categorias que não estão suficientemente representadas nas coleções existentes.
Pra concluir, o OK-VQA apresenta um desafio empolgante em conectar entradas visuais com conhecimento externo. Os avanços na geração de dados e no treinamento de modelos estão abrindo caminho pra sistemas melhores que conseguem responder perguntas complexas sobre imagens, tornando a tecnologia mais útil no dia a dia e em várias áreas profissionais.
Título: Pre-Training Multi-Modal Dense Retrievers for Outside-Knowledge Visual Question Answering
Resumo: This paper studies a category of visual question answering tasks, in which accessing external knowledge is necessary for answering the questions. This category is called outside-knowledge visual question answering (OK-VQA). A major step in developing OK-VQA systems is to retrieve relevant documents for the given multi-modal query. Current state-of-the-art asymmetric dense retrieval model for this task uses an architecture with a multi-modal query encoder and a uni-modal document encoder. Such an architecture requires a large amount of training data for effective performance. We propose an automatic data generation pipeline for pre-training passage retrieval models for OK-VQA tasks. The proposed approach leads to 26.9% Precision@5 improvements compared to the current state-of-the-art asymmetric architecture. Additionally, the proposed pre-training approach exhibits a good ability in zero-shot retrieval scenarios.
Autores: Alireza Salemi, Mahta Rafiee, Hamed Zamani
Última atualização: 2023-06-28 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.16478
Fonte PDF: https://arxiv.org/pdf/2306.16478
Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://cocodataset.org/#explore?id=233553
- https://farm4.staticflickr.com/3129/2788695458_3ee66e1b55_z.jpg
- https://flickr.com/photo.gne?id=589841807
- https://www.flickr.com/photos/subliminal/589841807
- https://github.com/alirezasalemi7/pretraining-multimodal-dense-retriever-for-okvqa
- https://doi.org/10.48550/arxiv.2209.00179
- https://ciir.cs.umass.edu/downloads/ORConvQA/all_blocks.txt.gz
- https://spacy.io/
- https://huggingface.co/lmqg/t5-large-squad-qg
- https://huggingface.co/deepset/roberta-base-squad2