Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões

Abordando o Viés na Geração de Gráficos de Cena

Um novo método melhora a precisão na compreensão de relações dentro das imagens.

― 8 min ler


Viés em Gráficos de CenaViés em Gráficos de Cenapra aumentar a precisão.Apresentando um modelo de duas etapas
Índice

A Geração de Grafo de Cena (SGG) é uma forma de entender imagens descrevendo os vários objetos e suas relações dentro de uma cena. O objetivo é criar uma representação estruturada que mostre o que tá rolando na imagem. A ideia principal é capturar relações entre objetos, tipo "um homem montando um cavalo" ou "um gato sentado em um tapete." Essa representação estruturada pode ajudar máquinas a processar imagens de forma mais eficaz e é útil para aplicações como responder perguntas visuais e recuperação de imagens.

Mas, criar grafos de cena precisos é complicado. Métodos recentes têm mostrado bons resultados, mas muitas vezes cometem erros. Um problema comum é o viés nas previsões, significa que algumas relações são previstas mais frequentemente do que deveriam, enquanto outras são deixadas de lado. Esse problema pode vir de uma distribuição de dados desigual ou confusão entre relações parecidas.

O Problema do Viés em SGG

O viés em SGG pode surgir de duas fontes principais. A primeira é a distribuição longa das relações nos dados de treino. Isso quer dizer que algumas relações aparecem muito mais frequentemente, enquanto outras são raras. Por exemplo, a relação "em cima" pode ocorrer bem mais que "sentado em" ou "em pé perto." Como resultado, modelos treinados com esses dados desequilibrados tendem a se sair bem em relações comuns, mas mal em relações menos frequentes.

A segunda fonte de viés é a confusão semântica. Isso acontece quando diferentes relações compartilham significados ou estruturas parecidas, levando a classificações erradas. Por exemplo, um modelo pode confundir "carregando" com "segurando," que envolvem uma pessoa e um objeto. Essa similaridade pode gerar previsões incorretas quando o modelo encontra esses termos.

A Abordagem para Abordar o Viés

Para enfrentar esses desafios, um novo método chamado Modelagem Causal em Duas Etapas (TsCM) foi proposto. Esse método foca em remover os viéses passo a passo. A primeira etapa lida com a confusão semântica, enquanto a segunda etapa cuida da distribuição longa.

Etapa 1: Aprendizado de Representação Causal

Na primeira etapa, o objetivo é corrigir o viés causado pela confusão semântica. Para isso, uma nova função de perda chamada Perda Populacional (P-Loss) é introduzida. Em vez de tratar todas as relações igualmente, essa função de perda foca nas relações que são semanticamente similares. Assim, ela encoraja o modelo a aprender representações melhores que claramente diferenciam entre relações similares.

A ideia chave aqui é identificar quais relações são mais similares e focar em melhorar a capacidade do modelo de distinguir entre elas. Essa abordagem ajuda a reduzir a confusão e leva a uma representação mais precisa das relações no grafo de cena gerado.

Etapa 2: Aprendizado de Calibração Causal

A segunda etapa do TsCM foca no viés da distribuição longa. Essa etapa usa Ajuste Logit Adaptativo (AL-Adjustment) para modificar as previsões de saída do modelo. O objetivo é garantir que relações raras não sejam ignoradas e sejam previstas com mais precisão.

O AL-Adjustment funciona ajustando a saída do modelo com base na distribuição das relações encontradas nos dados. Isso melhora a capacidade do modelo de prever relações raras enquanto mantém a precisão nas comuns. Esse equilíbrio é crucial para alcançar previsões sem viés.

Os Benefícios do TsCM

Os benefícios de usar o TsCM em relação aos métodos tradicionais são significativos. Primeiro, ao abordar a confusão semântica e a distribuição longa separadamente, o TsCM permite previsões mais claras. A abordagem em duas etapas ajuda a manter a precisão geral enquanto melhora o tratamento das relações sub-representadas.

Segundo, o TsCM mostrou um desempenho forte em testes experimentais. Quando avaliado em conjuntos de dados padrão de SGG, o método alcançou resultados de ponta em termos de taxas de recall, significando que identifica relações com mais frequência de forma precisa. Isso é especialmente importante para aplicações do mundo real onde previsões balanceadas e confiáveis são necessárias.

Trabalhos Relacionados

A Geração de Grafo de Cena evoluiu bastante ao longo dos anos, e várias abordagens foram propostas. Métodos iniciais focavam principalmente em extração de características, usando diferentes arquiteturas de redes neurais como Redes Neurais Convolucionais (CNNs) e Redes Neurais de Grafo (GNNs). Esses modelos iniciais enfrentaram dificuldades para lidar com viéses, especialmente o problema da distribuição longa.

Métodos de reamostragem foram uma das primeiras tentativas para aliviar o viés. Eles envolviam ajustar os dados de treino seja aumentando a amostra de relações raras ou diminuindo a amostra das comuns. No entanto, esses métodos podiam levar involuntariamente a overfitting ou perda de dados valiosos.

Métodos de reavaliação introduziram uma abordagem diferente ao modificar a função de perda para prestar mais atenção a relações raras. Esse método tentava balancear a importância de cada relação com base na sua frequência no conjunto de treino.

Métodos de ajuste, por outro lado, visavam corrigir as previsões após o treino. Eles ajustavam as saídas de modelos tendenciosos com base em conhecimentos prévios sobre relações. Embora esses métodos mostrassem promessas, muitas vezes lutavam para manter a precisão entre diferentes categorias de relação.

Métodos híbridos combinavam várias estratégias para melhorar ainda mais o desempenho. No entanto, a maioria das técnicas existentes tendia a se concentrar em um único tipo de viés, limitando sua eficácia. Em contraste, o TsCM considera tanto a confusão semântica quanto viéses de distribuição longa, levando a um desempenho geral melhor.

Experimentos

A eficácia do TsCM foi testada em três backbones populares de SGG: MotifsNet, VCTree e Transformer. Esses experimentos tinham o objetivo de avaliar o desempenho em diferentes modos de avaliação, incluindo classificação de predicados, classificação de grafo de cena e detecção de grafo de cena.

Os experimentos foram projetados para medir taxas de recall, particularmente a taxa média de recall que considera o desempenho em todas as categorias de relação, incluindo as menos frequentes. Isso dá uma visão abrangente da capacidade do modelo de lidar tanto com relações comuns quanto raras.

Os resultados mostraram que o TsCM superou consistentemente os métodos existentes em termos de taxas médias de recall. O método proposto alcançou um melhor equilíbrio entre capturar os detalhes das relações comuns enquanto também prevê efetivamente as raras.

Visão Geral dos Resultados

Em termos de resultados quantitativos, o TsCM superou os métodos tradicionais por uma margem significativa. Por exemplo, melhorias nas taxas de recall foram notadas em múltiplos backbones, tanto para relações comuns quanto raras. Isso demonstra a capacidade do método em lidar com as complexidades dos dados do mundo real.

Resultados Qualitativos

Além do desempenho numérico, resultados qualitativos também foram analisados. As previsões do modelo foram examinadas para ver como bem ele distinguiu entre relações similares. Por exemplo, o modelo conseguiu melhorar previsões como "em pé em cima" versus "sentado em cima," mostrando uma melhor compreensão de distinguir o contexto com base na relação espacial apresentada nas imagens.

Conclusão

A geração de grafo de cena é uma área importante na compreensão de imagens que se beneficia de previsões precisas de relações. Os desafios impostos por distribuições longas e confusão semântica podem prejudicar o desempenho. No entanto, o método TsCM apresenta uma solução inovadora ao desacoplar os problemas em duas etapas manejáveis.

Ao abordar ambos os viéses de forma eficaz, o TsCM não apenas melhora o desempenho para relações comuns, mas também garante que relações menos frequentes sejam previstas com precisão. Os resultados experimentais fornecem fortes evidências do valor do método, tornando-o uma abordagem promissora para futuros avanços na geração de grafo de cena.

À medida que o campo continua a evoluir, futuros trabalhos vão focar em explorar viéses adicionais e refinar a estrutura do TsCM para se adaptar a cenários ainda mais complexos, buscando uma precisão e confiabilidade maiores em tarefas de geração de grafo de cena.

Fonte original

Título: Unbiased Scene Graph Generation via Two-stage Causal Modeling

Resumo: Despite the impressive performance of recent unbiased Scene Graph Generation (SGG) methods, the current debiasing literature mainly focuses on the long-tailed distribution problem, whereas it overlooks another source of bias, i.e., semantic confusion, which makes the SGG model prone to yield false predictions for similar relationships. In this paper, we explore a debiasing procedure for the SGG task leveraging causal inference. Our central insight is that the Sparse Mechanism Shift (SMS) in causality allows independent intervention on multiple biases, thereby potentially preserving head category performance while pursuing the prediction of high-informative tail relationships. However, the noisy datasets lead to unobserved confounders for the SGG task, and thus the constructed causal models are always causal-insufficient to benefit from SMS. To remedy this, we propose Two-stage Causal Modeling (TsCM) for the SGG task, which takes the long-tailed distribution and semantic confusion as confounders to the Structural Causal Model (SCM) and then decouples the causal intervention into two stages. The first stage is causal representation learning, where we use a novel Population Loss (P-Loss) to intervene in the semantic confusion confounder. The second stage introduces the Adaptive Logit Adjustment (AL-Adjustment) to eliminate the long-tailed distribution confounder to complete causal calibration learning. These two stages are model agnostic and thus can be used in any SGG model that seeks unbiased predictions. Comprehensive experiments conducted on the popular SGG backbones and benchmarks show that our TsCM can achieve state-of-the-art performance in terms of mean recall rate. Furthermore, TsCM can maintain a higher recall rate than other debiasing methods, which indicates that our method can achieve a better tradeoff between head and tail relationships.

Autores: Shuzhou Sun, Shuaifeng Zhi, Qing Liao, Janne Heikkilä, Li Liu

Última atualização: 2023-07-11 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2307.05276

Fonte PDF: https://arxiv.org/pdf/2307.05276

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes