Simple Science

Ciência de ponta explicada de forma simples

# Informática# Visão computacional e reconhecimento de padrões# Inteligência Artificial

Avanços nas Técnicas de Segmentação Semântica com Poucos Exemplos

Uma nova abordagem melhora a segmentação com dados mínimos.

― 5 min ler


Avanço na Segmentação comAvanço na Segmentação comPoucos Exemploscom poucos exemplos.Novo modelo se sai bem em classificar
Índice

Na área de visão computacional, especialmente em segmentação semântica, tá rolando uma necessidade crescente de reconhecer e classificar imagens com poucos exemplos rotulados. Isso é importante porque obter dados rotulados pode ser demorado e caro. A segmentação semântica de poucos exemplos é um método que tenta resolver esse problema, permitindo que os modelos aprendam com apenas algumas imagens anotadas. No entanto, as abordagens tradicionais enfrentam desafios quando se trata de reconhecer classes conhecidas e desconhecidas ao mesmo tempo, especialmente em um cenário generalizado.

O Desafio da Segmentação Semântica Generalizada de Poucos Exemplos

A Segmentação Semântica Generalizada de Poucos Exemplos (GFSS) representa um avanço em relação aos métodos anteriores, permitindo a segmentação de classes conhecidas e desconhecidas durante a avaliação. Enquanto as abordagens anteriores geralmente dependiam de componentes extras para restringir seu foco, ainda lutavam com a divisão de representações e o viés de incorporação. Isso significa que, embora pudessem aprender com classes conhecidas, sua capacidade de generalizar para classes desconhecidas era limitada.

Os problemas principais são dois: a separação entre representações de classes conhecidas e desconhecidas e uma tendência a classificar mal novos alvos como fundo, devido a noções preconcebidas aprendidas a partir de classes conhecidas. Abordar esses problemas é crucial para a eficácia dos modelos de segmentação de poucos exemplos.

Solução Proposta

Para enfrentar esses desafios, foi desenvolvida uma combinação de duas estratégias: aprendizado de núcleo prototípico e percepção de primeiro plano de conjunto aberto.

Aprendizado de Núcleo Prototípico

Essa abordagem envolve criar um conjunto de núcleos aprendíveis, que lidam com tarefas de segmentação separadamente para cada classe. Atualizando esses núcleos com base nas características extraídas das imagens de entrada, o modelo pode manter uma representação consistente de classes conhecidas, enquanto também aprende com poucos exemplos de classes desconhecidas. Cada núcleo é adaptado para refletir melhor as características das amostras que processa, melhorando sua capacidade de generalizar.

Percepção de Primeiro Plano de Conjunto Aberto

Complementando o aprendizado de núcleos, a percepção de primeiro plano de conjunto aberto permite que o modelo identifique elementos do primeiro plano dentro de uma imagem sem estar restrito a classes específicas. Isso proporciona a habilidade de detectar novos objetos que não faziam parte do conjunto de treinamento, reduzindo as chances de classificar novos alvos como fundo.

Estrutura de Treinamento

A estrutura de treinamento consiste em três componentes principais:

  1. Aprendizado de Núcleo Prototípico (PKL): Esse componente foca em refinar os núcleos responsáveis pela segmentação. Processa as imagens de entrada e ajusta os núcleos com base no que aprende, garantindo que eles permaneçam eficazes tanto para classes conhecidas quanto desconhecidas.

  2. Percepção Contextual do Primeiro Plano (FCP): Esse módulo é responsável por aprender o contexto dentro das imagens que ajuda a identificar elementos do primeiro plano, o que é essencial para detectar novas classes.

  3. Inferência Baseada em Viés Condicional (CBBI): Esse componente junta as saídas dos dois módulos anteriores para fazer previsões finais de segmentação. Basicamente, integra as informações aprendidas para melhorar a tomada de decisão ao classificar pixels em uma imagem.

O Processo de Aprendizado

Durante o treinamento, o modelo aprende a atualizar seus núcleos com base nas características das imagens de entrada. À medida que processa mais imagens, ele se torna melhor na segmentação de classes conhecidas, enquanto também aprende a reconhecer características indicativas de classes desconhecidas. Essa capacidade dupla é crucial para uma segmentação eficaz em cenários do mundo real, onde novos objetos aparecem com frequência.

O modelo também utiliza um lote de imagens durante o treinamento para simular várias situações. Misturando amostras de diferentes classes, ele aprende a generalizar melhor em diversas situações.

Avaliação dos Resultados

Os métodos propostos foram avaliados usando conjuntos de dados conhecidos. Ao testar o modelo em imagens com classes familiares e desconhecidas, foi observado que a abordagem integrada alcançou resultados superiores em comparação com métodos anteriores. As melhorias não ficaram restritas à segmentação de classes conhecidas; o modelo também demonstrou uma habilidade significativa de identificar novas classes.

Comparação com Métodos Existentes

Quando comparado a outros métodos de ponta, a abordagem proposta superou consistentemente os demais em várias métricas. Não só se destacou em identificar classes conhecidas, mas também mostrou uma melhoria marcante em reconhecer classes novas, que é um aspecto crítico do aprendizado de poucos exemplos generalizado.

Conclusão

Resumindo, os avanços na segmentação semântica generalizada de poucos exemplos prometem um desempenho melhorado em tarefas de visão computacional. Ao combinar aprendizado de núcleo prototípico com percepção de primeiro plano de conjunto aberto, o modelo consegue separar e generalizar efetivamente entre classes conhecidas e desconhecidas. Isso leva a um sistema mais robusto capaz de lidar com as complexidades de aplicações do mundo real onde dados limitados estão disponíveis.

Em uma era onde modelos de aprendizado de máquina precisam se adaptar rápida e eficientemente, as técnicas discutidas oferecem ferramentas valiosas para ampliar as capacidades dos modelos de segmentação. A pesquisa e o refinamento contínuos nessa área continuarão a aumentar a precisão e a aplicabilidade da segmentação semântica, tornando-a mais eficaz para uma ampla gama de tarefas em vários domínios.

Fonte original

Título: Prototypical Kernel Learning and Open-set Foreground Perception for Generalized Few-shot Semantic Segmentation

Resumo: Generalized Few-shot Semantic Segmentation (GFSS) extends Few-shot Semantic Segmentation (FSS) to simultaneously segment unseen classes and seen classes during evaluation. Previous works leverage additional branch or prototypical aggregation to eliminate the constrained setting of FSS. However, representation division and embedding prejudice, which heavily results in poor performance of GFSS, have not been synthetical considered. We address the aforementioned problems by jointing the prototypical kernel learning and open-set foreground perception. Specifically, a group of learnable kernels is proposed to perform segmentation with each kernel in charge of a stuff class. Then, we explore to merge the prototypical learning to the update of base-class kernels, which is consistent with the prototype knowledge aggregation of few-shot novel classes. In addition, a foreground contextual perception module cooperating with conditional bias based inference is adopted to perform class-agnostic as well as open-set foreground detection, thus to mitigate the embedding prejudice and prevent novel targets from being misclassified as background. Moreover, we also adjust our method to the Class Incremental Few-shot Semantic Segmentation (CIFSS) which takes the knowledge of novel classes in a incremental stream. Extensive experiments on PASCAL-5i and COCO-20i datasets demonstrate that our method performs better than previous state-of-the-art.

Autores: Kai Huang, Feigege Wang, Ye Xi, Yutao Gao

Última atualização: 2023-08-18 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2308.04952

Fonte PDF: https://arxiv.org/pdf/2308.04952

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes