Melhorando a Resolução de Perguntas Visuais com Sistemas Guiados pelo Usuário
O sistema AVIS melhora a resposta a perguntas visuais com fluxos de trabalho estruturados e grafos de transição.
― 7 min ler
Índice
- Comparação com a Base Autônoma sem o Gráfico de Transição
- Resultados dos Modelos
- Análise da Sequência de Execução de Ferramentas no AVIS
- Componente Raciocinador no AVIS
- Detalhes do Conjunto de Dados
- Resultados do VQA
- Exemplos de Prompt para o Fluxo de Trabalho do AVIS
- Conclusão
- Fonte original
- Ligações de referência
Configurar o sistema AVIs foi de boa usando um código específico. Durante os testes, a gente usou APIs do Google Search, LENS, PALI e PALM direto. Esse processo não precisou de muita potência de computação como GPUs ou TPUs. Para Ferramentas que não precisavam de consultas de entrada, tipo detecção de objetos e busca de imagens, os resultados foram preparados antes com dois conjuntos de dados pra economizar tempo. Outras ferramentas, como Visual Question Answering (VQA), busca de texto e LLM QA foram usadas enquanto o sistema tava rodando.
Comparação com a Base Autônoma sem o Gráfico de Transição
Uma parte grande do nosso trampo é usar um gráfico de transição feito a partir de um estudo real com usuários. Pra mostrar como esse gráfico e os prompts dos usuários são importantes pro AVIS, criamos uma base que não usa esse gráfico. Nesse caso, o modelo vê uma lista completa de todas as ferramentas com descrições das tarefas em cada passo. Essa base é parecida com projetos recentes como AutoGPT e BabyAGI, que tentaram usar LLMs como agentes independentes pra escolher ações disponíveis online.
Os resultados tão na tabela de resultados. A base não se saiu tão bem quanto o AVIS com o gráfico de transição e os prompts dos usuários. O principal problema é a natureza geral da lista de ferramentas. Por exemplo, a gente frequentemente começa lidando com perguntas visuais usando detecção de objetos e busca de imagens, e depois trata de perguntas de conhecimento com Google Search e LLM. Se o modelo confiar só nas descrições das tarefas, sem o comportamento humano como guia, pode acabar escolhendo ferramentas inapropriadas. Vamos explicar melhor essa ideia nas seções seguintes.
Resultados dos Modelos
| Modelo & Infoseek | OKVQA |
|---|---|
| AVIS s/ Gráfico de Transição | 38.2 |
| AVIS c/ Gráfico de Transição | 50.7 |
Análise da Sequência de Execução de Ferramentas no AVIS
A gente investigou se tem padrões comuns em como o modelo AVIS executa suas tarefas. Coletamos dados sobre as ferramentas usadas em todos os exemplos do conjunto de dados Infoseek. Primeiro, mostramos com que frequência cada ferramenta é invocada. Depois, detalhamos as quatro ferramentas mais usadas.
O modelo AVIS, quando guiado pelo gráfico de transição e pelos prompts, não usa todas as combinações de ferramentas possíveis, mas tende a favorecer certos pares. Por exemplo, "selecionar objeto" é usado bastante no início, e durante o terceiro passo, o modelo costuma usar "busca na web" pra coletar mais informações.
A gente também calculou a probabilidade de transição do gráfico criado. Essa estrutura é um pouco diferente do gráfico de transição guiado porque, durante o uso real, o modelo não prevê todas as conexões. No geral, mostra um padrão claro de duas etapas na resolução de perguntas. Primeiro, o AVIS coleta informações visuais usando ferramentas como detecção de objetos e depois usa LLM QA pra obter a resposta visual. Após isso, chama frequentemente a busca na web e LLM QA com um prompt pra encontrar a resposta final.
A gente também analisou os comprimentos das sequências de ações geradas. Os comprimentos diferem bastante, em vez de serem fixos, mas um comprimento de 5 é o mais comum pra essas sequências.
Componente Raciocinador no AVIS
Outra parte interessante é o nosso componente raciocinador, que verifica se a saída de cada ferramenta é "informativa", "não informativa" ou "respondível". Mostramos a frequência geral dessas previsões. O modelo geralmente classifica a maioria das saídas como informativas ou respondíveis. No entanto, cerca de 8,1% das saídas são rotuladas como "não informativas". Nesses casos, o AVIS volta e escolhe ações alternativas.
Exemplos de Previsões
Aqui estão alguns exemplos mostrando como o raciocinador funciona e suas decisões.
| Pergunta | Ação | Conteúdo Retornado | Saída do Raciocinador |
|---|---|---|---|
| Onde fica a ilha? | Busca de Imagem | [...] | Não informativa |
| Quem ou o que mantém esse lugar? | LLM QA | Trafalgar Square é o foco... | Não informativa |
| Qual é a quantidade total de itens produzidos para esse tipo de aeronave? | Busca de Imagem | [...] | Respondível |
| Qual é o nome dessa montanha? | Busca de Imagem | O Monte das Oliveiras... | Respondível |
Detalhes do Conjunto de Dados
Infoseek é um conjunto de dados de Visual Question Answering (VQA) focado em perguntas que precisam de mais do que conhecimento básico pra serem respondidas. Foi criado a partir da coleta de perguntas anotadas por humanos e ligando-as a dados visuais existentes pra criar pares complexos de perguntas e respostas. Na hora da submissão, a gente só teve acesso à parte do Wikidata.
OK-VQA é outro conjunto de dados de VQA que pede conhecimento externo que não está diretamente visível nas imagens. Esse conjunto foi criado com a ajuda de muitas pessoas que escreveram perguntas detalhadas baseadas em conhecimento da Wikipedia.
Resultados do VQA
| Modelo | Entidade Não Vista | Pergunta Não Vista |
|---|---|---|
| PALM (só Q, few-shot) | 6.6 | 4.8 |
| OFA (fine-tune) | 2.9 | 6.2 |
| PALI (fine-tune) | 5.9 | 13.3 |
| PALM c/ CLIP (few-shot + conhecimento externo) | 14.9 | 15.6 |
| FiD c/ CLIP (fine-tune + conhecimento externo) | 17.6 | 18.9 |
| O nosso (few-shot) | 31.4 | 33.6 |
Exemplos de Prompt para o Fluxo de Trabalho do AVIS
Abaixo, mostramos diferentes exemplos de prompts que suportam o fluxo de trabalho do AVIS. O primeiro prompt ajuda a planejar quais ferramentas usar e quais perguntas fazer.
Esqueleto do Prompt de Planejamento e Instruções da Tarefa
planner_prompt = """
Seu objetivo é responder à seguinte consulta:
Pra isso, você vai ter as seguintes ferramentas:
Por favor, tome a decisão com base no contexto atual.
task_instructions =
'Você vai fazer perguntas simples sobre essa imagem pra um módulo externo de QA.',
'Você vai selecionar um objeto que detectamos pra investigar mais.',
'Você vai ver legendas de todas as imagens idênticas à imagem dada.',
'Você vai ver legendas de todas as imagens semelhantes a esse objeto.',
'Você vai enviar perguntas pro Google Search pra conhecimento.',
'Você vai perguntar a um módulo de QA quando a questão for direta.'
Exemplos de Prompts de Planejamento
vqa_plan_prompts = [
"""Consulta: o que o trem está transportando?
um trem viajando pelos trilhos...
Ação: vqa
"""
]
Decompondo Perguntas em Sub-Perguntas
A gente também mostra como o AVIS quebra perguntas em componentes visuais e de conhecimento no início pra guiar o uso posterior das ferramentas.
question_decomposition_prompt = """
Leia a seguinte pergunta para uma imagem dada. Decomponha a pergunta em duas sub-perguntas.
A primeira vai perguntar sobre a imagem, e a segunda vai precisar de [Raciocínio](/pt/keywords/raciocinio--kkyoevl) sobre o conhecimento.
"""
Conclusão
O sistema AVIS mostra como ele pode ser eficaz em lidar com perguntas visuais complexas quando apoiado por fluxos de trabalho estruturados e guiado por prompts de usuários. O uso de gráficos de transição agrega muito valor, permitindo que o sistema opere de forma mais eficiente do que modelos que não têm essa abordagem estruturada. Ao implementar esses métodos, o AVIS consegue entender e responder melhor perguntas que requerem respostas visuais e baseadas em conhecimento.
Através da análise cuidadosa do uso das ferramentas e da integração de um raciocinador, temos uma visão mais clara não só do que o AVIS faz, mas de como ele faz isso de forma eficaz. Esse desenvolvimento permite respostas mais confiáveis em tarefas de perguntas visuais, abrindo caminho pra futuras melhorias e aplicações nesse campo.
Título: AVIS: Autonomous Visual Information Seeking with Large Language Model Agent
Resumo: In this paper, we propose an autonomous information seeking visual question answering framework, AVIS. Our method leverages a Large Language Model (LLM) to dynamically strategize the utilization of external tools and to investigate their outputs, thereby acquiring the indispensable knowledge needed to provide answers to the posed questions. Responding to visual questions that necessitate external knowledge, such as "What event is commemorated by the building depicted in this image?", is a complex task. This task presents a combinatorial search space that demands a sequence of actions, including invoking APIs, analyzing their responses, and making informed decisions. We conduct a user study to collect a variety of instances of human decision-making when faced with this task. This data is then used to design a system comprised of three components: an LLM-powered planner that dynamically determines which tool to use next, an LLM-powered reasoner that analyzes and extracts key information from the tool outputs, and a working memory component that retains the acquired information throughout the process. The collected user behavior serves as a guide for our system in two key ways. First, we create a transition graph by analyzing the sequence of decisions made by users. This graph delineates distinct states and confines the set of actions available at each state. Second, we use examples of user decision-making to provide our LLM-powered planner and reasoner with relevant contextual instances, enhancing their capacity to make informed decisions. We show that AVIS achieves state-of-the-art results on knowledge-intensive visual question answering benchmarks such as Infoseek and OK-VQA.
Autores: Ziniu Hu, Ahmet Iscen, Chen Sun, Kai-Wei Chang, Yizhou Sun, David A Ross, Cordelia Schmid, Alireza Fathi
Última atualização: 2023-11-02 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.08129
Fonte PDF: https://arxiv.org/pdf/2306.08129
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.