Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Inteligência Artificial# Computação e linguagem

Melhorando a Resolução de Perguntas Visuais com Sistemas Guiados pelo Usuário

O sistema AVIS melhora a resposta a perguntas visuais com fluxos de trabalho estruturados e grafos de transição.

― 7 min ler


AVIS: Uma Nova AbordagemAVIS: Uma Nova Abordagempara VQAresponder perguntas visuais.AVIS revela novos métodos para
Índice

Configurar o sistema AVIs foi de boa usando um código específico. Durante os testes, a gente usou APIs do Google Search, LENS, PALI e PALM direto. Esse processo não precisou de muita potência de computação como GPUs ou TPUs. Para Ferramentas que não precisavam de consultas de entrada, tipo detecção de objetos e busca de imagens, os resultados foram preparados antes com dois conjuntos de dados pra economizar tempo. Outras ferramentas, como Visual Question Answering (VQA), busca de texto e LLM QA foram usadas enquanto o sistema tava rodando.

Comparação com a Base Autônoma sem o Gráfico de Transição

Uma parte grande do nosso trampo é usar um gráfico de transição feito a partir de um estudo real com usuários. Pra mostrar como esse gráfico e os prompts dos usuários são importantes pro AVIS, criamos uma base que não usa esse gráfico. Nesse caso, o modelo vê uma lista completa de todas as ferramentas com descrições das tarefas em cada passo. Essa base é parecida com projetos recentes como AutoGPT e BabyAGI, que tentaram usar LLMs como agentes independentes pra escolher ações disponíveis online.

Os resultados tão na tabela de resultados. A base não se saiu tão bem quanto o AVIS com o gráfico de transição e os prompts dos usuários. O principal problema é a natureza geral da lista de ferramentas. Por exemplo, a gente frequentemente começa lidando com perguntas visuais usando detecção de objetos e busca de imagens, e depois trata de perguntas de conhecimento com Google Search e LLM. Se o modelo confiar só nas descrições das tarefas, sem o comportamento humano como guia, pode acabar escolhendo ferramentas inapropriadas. Vamos explicar melhor essa ideia nas seções seguintes.

Resultados dos Modelos

Modelo & InfoseekOKVQA
AVIS s/ Gráfico de Transição38.2
AVIS c/ Gráfico de Transição50.7

Análise da Sequência de Execução de Ferramentas no AVIS

A gente investigou se tem padrões comuns em como o modelo AVIS executa suas tarefas. Coletamos dados sobre as ferramentas usadas em todos os exemplos do conjunto de dados Infoseek. Primeiro, mostramos com que frequência cada ferramenta é invocada. Depois, detalhamos as quatro ferramentas mais usadas.

O modelo AVIS, quando guiado pelo gráfico de transição e pelos prompts, não usa todas as combinações de ferramentas possíveis, mas tende a favorecer certos pares. Por exemplo, "selecionar objeto" é usado bastante no início, e durante o terceiro passo, o modelo costuma usar "busca na web" pra coletar mais informações.

A gente também calculou a probabilidade de transição do gráfico criado. Essa estrutura é um pouco diferente do gráfico de transição guiado porque, durante o uso real, o modelo não prevê todas as conexões. No geral, mostra um padrão claro de duas etapas na resolução de perguntas. Primeiro, o AVIS coleta informações visuais usando ferramentas como detecção de objetos e depois usa LLM QA pra obter a resposta visual. Após isso, chama frequentemente a busca na web e LLM QA com um prompt pra encontrar a resposta final.

A gente também analisou os comprimentos das sequências de ações geradas. Os comprimentos diferem bastante, em vez de serem fixos, mas um comprimento de 5 é o mais comum pra essas sequências.

Componente Raciocinador no AVIS

Outra parte interessante é o nosso componente raciocinador, que verifica se a saída de cada ferramenta é "informativa", "não informativa" ou "respondível". Mostramos a frequência geral dessas previsões. O modelo geralmente classifica a maioria das saídas como informativas ou respondíveis. No entanto, cerca de 8,1% das saídas são rotuladas como "não informativas". Nesses casos, o AVIS volta e escolhe ações alternativas.

Exemplos de Previsões

Aqui estão alguns exemplos mostrando como o raciocinador funciona e suas decisões.

PerguntaAçãoConteúdo RetornadoSaída do Raciocinador
Onde fica a ilha?Busca de Imagem[...]Não informativa
Quem ou o que mantém esse lugar?LLM QATrafalgar Square é o foco...Não informativa
Qual é a quantidade total de itens produzidos para esse tipo de aeronave?Busca de Imagem[...]Respondível
Qual é o nome dessa montanha?Busca de ImagemO Monte das Oliveiras...Respondível

Detalhes do Conjunto de Dados

Infoseek é um conjunto de dados de Visual Question Answering (VQA) focado em perguntas que precisam de mais do que conhecimento básico pra serem respondidas. Foi criado a partir da coleta de perguntas anotadas por humanos e ligando-as a dados visuais existentes pra criar pares complexos de perguntas e respostas. Na hora da submissão, a gente só teve acesso à parte do Wikidata.

OK-VQA é outro conjunto de dados de VQA que pede conhecimento externo que não está diretamente visível nas imagens. Esse conjunto foi criado com a ajuda de muitas pessoas que escreveram perguntas detalhadas baseadas em conhecimento da Wikipedia.

Resultados do VQA

ModeloEntidade Não VistaPergunta Não Vista
PALM (só Q, few-shot)6.64.8
OFA (fine-tune)2.96.2
PALI (fine-tune)5.913.3
PALM c/ CLIP (few-shot + conhecimento externo)14.915.6
FiD c/ CLIP (fine-tune + conhecimento externo)17.618.9
O nosso (few-shot)31.433.6

Exemplos de Prompt para o Fluxo de Trabalho do AVIS

Abaixo, mostramos diferentes exemplos de prompts que suportam o fluxo de trabalho do AVIS. O primeiro prompt ajuda a planejar quais ferramentas usar e quais perguntas fazer.

Esqueleto do Prompt de Planejamento e Instruções da Tarefa

planner_prompt = """
Seu objetivo é responder à seguinte consulta:
Pra isso, você vai ter as seguintes ferramentas:
Por favor, tome a decisão com base no contexto atual.
task_instructions = 
'Você vai fazer perguntas simples sobre essa imagem pra um módulo externo de QA.',
'Você vai selecionar um objeto que detectamos pra investigar mais.',
'Você vai ver legendas de todas as imagens idênticas à imagem dada.',
'Você vai ver legendas de todas as imagens semelhantes a esse objeto.',
'Você vai enviar perguntas pro Google Search pra conhecimento.',
'Você vai perguntar a um módulo de QA quando a questão for direta.'

Exemplos de Prompts de Planejamento

vqa_plan_prompts = [
"""Consulta: o que o trem está transportando?
um trem viajando pelos trilhos... 
Ação: vqa
""" 
]

Decompondo Perguntas em Sub-Perguntas

A gente também mostra como o AVIS quebra perguntas em componentes visuais e de conhecimento no início pra guiar o uso posterior das ferramentas.

question_decomposition_prompt = """
Leia a seguinte pergunta para uma imagem dada. Decomponha a pergunta em duas sub-perguntas.
A primeira vai perguntar sobre a imagem, e a segunda vai precisar de [Raciocínio](/pt/keywords/raciocinio--kkyoevl) sobre o conhecimento.
"""

Conclusão

O sistema AVIS mostra como ele pode ser eficaz em lidar com perguntas visuais complexas quando apoiado por fluxos de trabalho estruturados e guiado por prompts de usuários. O uso de gráficos de transição agrega muito valor, permitindo que o sistema opere de forma mais eficiente do que modelos que não têm essa abordagem estruturada. Ao implementar esses métodos, o AVIS consegue entender e responder melhor perguntas que requerem respostas visuais e baseadas em conhecimento.

Através da análise cuidadosa do uso das ferramentas e da integração de um raciocinador, temos uma visão mais clara não só do que o AVIS faz, mas de como ele faz isso de forma eficaz. Esse desenvolvimento permite respostas mais confiáveis em tarefas de perguntas visuais, abrindo caminho pra futuras melhorias e aplicações nesse campo.

Fonte original

Título: AVIS: Autonomous Visual Information Seeking with Large Language Model Agent

Resumo: In this paper, we propose an autonomous information seeking visual question answering framework, AVIS. Our method leverages a Large Language Model (LLM) to dynamically strategize the utilization of external tools and to investigate their outputs, thereby acquiring the indispensable knowledge needed to provide answers to the posed questions. Responding to visual questions that necessitate external knowledge, such as "What event is commemorated by the building depicted in this image?", is a complex task. This task presents a combinatorial search space that demands a sequence of actions, including invoking APIs, analyzing their responses, and making informed decisions. We conduct a user study to collect a variety of instances of human decision-making when faced with this task. This data is then used to design a system comprised of three components: an LLM-powered planner that dynamically determines which tool to use next, an LLM-powered reasoner that analyzes and extracts key information from the tool outputs, and a working memory component that retains the acquired information throughout the process. The collected user behavior serves as a guide for our system in two key ways. First, we create a transition graph by analyzing the sequence of decisions made by users. This graph delineates distinct states and confines the set of actions available at each state. Second, we use examples of user decision-making to provide our LLM-powered planner and reasoner with relevant contextual instances, enhancing their capacity to make informed decisions. We show that AVIS achieves state-of-the-art results on knowledge-intensive visual question answering benchmarks such as Infoseek and OK-VQA.

Autores: Ziniu Hu, Ahmet Iscen, Chen Sun, Kai-Wei Chang, Yizhou Sun, David A Ross, Cordelia Schmid, Alireza Fathi

Última atualização: 2023-11-02 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2306.08129

Fonte PDF: https://arxiv.org/pdf/2306.08129

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes