Melhorando a Resolução de Perguntas Visuais com Sistemas Guiados pelo Usuário

Índice

Comparação com a Base Autônoma sem o Gráfico de Transição
Resultados dos Modelos
Análise da Sequência de Execução de Ferramentas no AVIS
Componente Raciocinador no AVIS
Detalhes do Conjunto de Dados
Resultados do VQA
Exemplos de Prompt para o Fluxo de Trabalho do AVIS
Conclusão
Fonte original
Ligações de referência

Configurar o sistema AVIs foi de boa usando um código específico. Durante os testes, a gente usou APIs do Google Search, LENS, PALI e PALM direto. Esse processo não precisou de muita potência de computação como GPUs ou TPUs. Para Ferramentas que não precisavam de consultas de entrada, tipo detecção de objetos e busca de imagens, os resultados foram preparados antes com dois conjuntos de dados pra economizar tempo. Outras ferramentas, como Visual Question Answering (VQA), busca de texto e LLM QA foram usadas enquanto o sistema tava rodando.

Comparação com a Base Autônoma sem o Gráfico de Transição

Uma parte grande do nosso trampo é usar um gráfico de transição feito a partir de um estudo real com usuários. Pra mostrar como esse gráfico e os prompts dos usuários são importantes pro AVIS, criamos uma base que não usa esse gráfico. Nesse caso, o modelo vê uma lista completa de todas as ferramentas com descrições das tarefas em cada passo. Essa base é parecida com projetos recentes como AutoGPT e BabyAGI, que tentaram usar LLMs como agentes independentes pra escolher ações disponíveis online.

Os resultados tão na tabela de resultados. A base não se saiu tão bem quanto o AVIS com o gráfico de transição e os prompts dos usuários. O principal problema é a natureza geral da lista de ferramentas. Por exemplo, a gente frequentemente começa lidando com perguntas visuais usando detecção de objetos e busca de imagens, e depois trata de perguntas de conhecimento com Google Search e LLM. Se o modelo confiar só nas descrições das tarefas, sem o comportamento humano como guia, pode acabar escolhendo ferramentas inapropriadas. Vamos explicar melhor essa ideia nas seções seguintes.

Resultados dos Modelos

Modelo & Infoseek	OKVQA
AVIS s/ Gráfico de Transição	38.2
AVIS c/ Gráfico de Transição	50.7

Análise da Sequência de Execução de Ferramentas no AVIS

A gente investigou se tem padrões comuns em como o modelo AVIS executa suas tarefas. Coletamos dados sobre as ferramentas usadas em todos os exemplos do conjunto de dados Infoseek. Primeiro, mostramos com que frequência cada ferramenta é invocada. Depois, detalhamos as quatro ferramentas mais usadas.

O modelo AVIS, quando guiado pelo gráfico de transição e pelos prompts, não usa todas as combinações de ferramentas possíveis, mas tende a favorecer certos pares. Por exemplo, "selecionar objeto" é usado bastante no início, e durante o terceiro passo, o modelo costuma usar "busca na web" pra coletar mais informações.

A gente também calculou a probabilidade de transição do gráfico criado. Essa estrutura é um pouco diferente do gráfico de transição guiado porque, durante o uso real, o modelo não prevê todas as conexões. No geral, mostra um padrão claro de duas etapas na resolução de perguntas. Primeiro, o AVIS coleta informações visuais usando ferramentas como detecção de objetos e depois usa LLM QA pra obter a resposta visual. Após isso, chama frequentemente a busca na web e LLM QA com um prompt pra encontrar a resposta final.

A gente também analisou os comprimentos das sequências de ações geradas. Os comprimentos diferem bastante, em vez de serem fixos, mas um comprimento de 5 é o mais comum pra essas sequências.

Componente Raciocinador no AVIS

Outra parte interessante é o nosso componente raciocinador, que verifica se a saída de cada ferramenta é "informativa", "não informativa" ou "respondível". Mostramos a frequência geral dessas previsões. O modelo geralmente classifica a maioria das saídas como informativas ou respondíveis. No entanto, cerca de 8,1% das saídas são rotuladas como "não informativas". Nesses casos, o AVIS volta e escolhe ações alternativas.

Exemplos de Previsões

Aqui estão alguns exemplos mostrando como o raciocinador funciona e suas decisões.

Pergunta	Ação	Conteúdo Retornado	Saída do Raciocinador
Onde fica a ilha?	Busca de Imagem	[...]	Não informativa
Quem ou o que mantém esse lugar?	LLM QA	Trafalgar Square é o foco...	Não informativa
Qual é a quantidade total de itens produzidos para esse tipo de aeronave?	Busca de Imagem	[...]	Respondível
Qual é o nome dessa montanha?	Busca de Imagem	O Monte das Oliveiras...	Respondível

Detalhes do Conjunto de Dados

Infoseek é um conjunto de dados de Visual Question Answering (VQA) focado em perguntas que precisam de mais do que conhecimento básico pra serem respondidas. Foi criado a partir da coleta de perguntas anotadas por humanos e ligando-as a dados visuais existentes pra criar pares complexos de perguntas e respostas. Na hora da submissão, a gente só teve acesso à parte do Wikidata.

OK-VQA é outro conjunto de dados de VQA que pede conhecimento externo que não está diretamente visível nas imagens. Esse conjunto foi criado com a ajuda de muitas pessoas que escreveram perguntas detalhadas baseadas em conhecimento da Wikipedia.

Resultados do VQA

Modelo	Entidade Não Vista	Pergunta Não Vista
PALM (só Q, few-shot)	6.6	4.8
OFA (fine-tune)	2.9	6.2
PALI (fine-tune)	5.9	13.3
PALM c/ CLIP (few-shot + conhecimento externo)	14.9	15.6
FiD c/ CLIP (fine-tune + conhecimento externo)	17.6	18.9
O nosso (few-shot)	31.4	33.6

Exemplos de Prompt para o Fluxo de Trabalho do AVIS

Abaixo, mostramos diferentes exemplos de prompts que suportam o fluxo de trabalho do AVIS. O primeiro prompt ajuda a planejar quais ferramentas usar e quais perguntas fazer.

Esqueleto do Prompt de Planejamento e Instruções da Tarefa

planner_prompt = """
Seu objetivo é responder à seguinte consulta:
Pra isso, você vai ter as seguintes ferramentas:
Por favor, tome a decisão com base no contexto atual.
task_instructions = 
'Você vai fazer perguntas simples sobre essa imagem pra um módulo externo de QA.',
'Você vai selecionar um objeto que detectamos pra investigar mais.',
'Você vai ver legendas de todas as imagens idênticas à imagem dada.',
'Você vai ver legendas de todas as imagens semelhantes a esse objeto.',
'Você vai enviar perguntas pro Google Search pra conhecimento.',
'Você vai perguntar a um módulo de QA quando a questão for direta.'

Exemplos de Prompts de Planejamento

vqa_plan_prompts = [
"""Consulta: o que o trem está transportando?
um trem viajando pelos trilhos... 
Ação: vqa
""" 
]

Decompondo Perguntas em Sub-Perguntas

A gente também mostra como o AVIS quebra perguntas em componentes visuais e de conhecimento no início pra guiar o uso posterior das ferramentas.

question_decomposition_prompt = """
Leia a seguinte pergunta para uma imagem dada. Decomponha a pergunta em duas sub-perguntas.
A primeira vai perguntar sobre a imagem, e a segunda vai precisar de [Raciocínio](/pt/keywords/raciocinio--kkyoevl) sobre o conhecimento.
"""

Conclusão

O sistema AVIS mostra como ele pode ser eficaz em lidar com perguntas visuais complexas quando apoiado por fluxos de trabalho estruturados e guiado por prompts de usuários. O uso de gráficos de transição agrega muito valor, permitindo que o sistema opere de forma mais eficiente do que modelos que não têm essa abordagem estruturada. Ao implementar esses métodos, o AVIS consegue entender e responder melhor perguntas que requerem respostas visuais e baseadas em conhecimento.

Através da análise cuidadosa do uso das ferramentas e da integração de um raciocinador, temos uma visão mais clara não só do que o AVIS faz, mas de como ele faz isso de forma eficaz. Esse desenvolvimento permite respostas mais confiáveis em tarefas de perguntas visuais, abrindo caminho pra futuras melhorias e aplicações nesse campo.

Melhorando a Resolução de Perguntas Visuais com Sistemas Guiados pelo Usuário

O sistema AVIS melhora a resposta a perguntas visuais com fluxos de trabalho estruturados e grafos de transição.

Comparação com a Base Autônoma sem o Gráfico de Transição

Resultados dos Modelos

Análise da Sequência de Execução de Ferramentas no AVIS

Componente Raciocinador no AVIS

Exemplos de Previsões

Detalhes do Conjunto de Dados

Resultados do VQA

Exemplos de Prompt para o Fluxo de Trabalho do AVIS

Esqueleto do Prompt de Planejamento e Instruções da Tarefa

Exemplos de Prompts de Planejamento

Decompondo Perguntas em Sub-Perguntas

Conclusão

Ligações de referência

Tópicos referenciados

Melhorando a Resolução de Perguntas Visuais com Sistemas Guiados pelo Usuário

O sistema AVIS melhora a resposta a perguntas visuais com fluxos de trabalho estruturados e grafos de transição.

#Comparação com a Base Autônoma sem o Gráfico de Transição

#Resultados dos Modelos

#Análise da Sequência de Execução de Ferramentas no AVIS

#Componente Raciocinador no AVIS

#Exemplos de Previsões

#Detalhes do Conjunto de Dados

#Resultados do VQA

#Exemplos de Prompt para o Fluxo de Trabalho do AVIS

#Esqueleto do Prompt de Planejamento e Instruções da Tarefa

#Exemplos de Prompts de Planejamento

#Decompondo Perguntas em Sub-Perguntas

#Conclusão

Ligações de referência

Tópicos referenciados

Comparação com a Base Autônoma sem o Gráfico de Transição

Resultados dos Modelos

Análise da Sequência de Execução de Ferramentas no AVIS

Componente Raciocinador no AVIS

Exemplos de Previsões

Detalhes do Conjunto de Dados

Resultados do VQA

Exemplos de Prompt para o Fluxo de Trabalho do AVIS

Esqueleto do Prompt de Planejamento e Instruções da Tarefa

Exemplos de Prompts de Planejamento

Decompondo Perguntas em Sub-Perguntas

Conclusão