Avançando a Segmentação Semântica com Supervisão Fraca
Um novo método melhora a segmentação com anotações mínimas para classes desconhecidas.
― 6 min ler
Índice
A segmentação semântica é uma área da visão computacional que tem como objetivo categorizar cada pixel de uma imagem em classes específicas. Com os avanços em deep learning, várias técnicas foram desenvolvidas para melhorar o desempenho nessa área. Tradicionalmente, esses métodos precisam de grandes quantidades de anotações detalhadas nível pixel, o que pode ser caro e demorado de conseguir. Em contraste, os humanos conseguem reconhecer e identificar novos objetos sem nunca tê-los visto antes, o que apresenta um desafio para modelos artificiais.
A nova abordagem foca na Segmentação Semântica de Vocabulário Aberto (OVSS), onde o objetivo é segmentar objetos que o modelo não foi treinado, usando menos anotações. Isso é parecido com os métodos de Segmentação Zero-shot e few-shot, que visam fazer o modelo funcionar com poucos ou nenhum dado de treinamento para novas classes. Este artigo apresenta uma estrutura unificada que permite segmentação semântica usando Supervisão Fraca, que só requer rótulos básicos em nível de imagem ao invés de anotações detalhadas em nível de pixel.
O Desafio da Segmentação Tradicional
Os métodos tradicionais de segmentação semântica dependem muito de rótulos detalhados em nível de pixel. Coletar esses rótulos para cada categoria muitas vezes é impraticável. Como resultado, há um interesse crescente em encontrar formas para que os modelos generalizem o conhecimento de classes vistas para classes não vistas. Os modelos precisam ser capazes de se sair bem em novas classes baseando-se em dados de treinamento limitados ou inexistentes.
Segmentação Semântica de Vocabulário Aberto
A Segmentação Semântica de Vocabulário Aberto (OVSS) busca atender à necessidade de métodos de anotação mais eficientes. Esse conceito foca em segmentar objetos arbitrários que não estão necessariamente presentes nos dados de treinamento. Inclui tarefas como Segmentação Zero-Shot (ZSS) e Segmentação Few-Shot (FSS). A ZSS espera que o modelo reconheça classes novas após ser treinado em um conjunto de classes conhecidas, enquanto a FSS permite alguns exemplos das novas classes durante o treinamento.
Supervisão Fraca na Segmentação
Métodos de segmentação supervisionada de forma fraca tentam aliviar o fardo de obter anotações detalhadas. Em vez de rótulos em nível de pixel, esses métodos utilizam rótulos mais simples e fracos, como tags de imagem, caixas delimitadoras ou rabiscos. O objetivo é fornecer ao modelo informações suficientes para aprender características úteis sem precisar de anotações extensivas.
Este artigo propõe um novo método de segmentação semântica supervisionada de forma fraca que é mais eficiente e prático. Usando rótulos em nível de imagem para classes vistas e não vistas, o modelo pode generalizar melhor e se sair bem em novas classes.
O Método Proposto
A abordagem proposta é chamada de Rede de Segmentação Guiada por Linguagem Supervisionada de Forma Fraca (WLSegNet). Esta rede tem vários componentes-chave:
Aprendizado de Contexto: WLSegNet aprende vetores de contexto que ajudam a mapear os prompts de classe para características da imagem. Esses vetores de contexto são projetados para evitar overfitting em classes vistas e melhorar o desempenho em classes não vistas.
Desacoplamento de Tarefas: O método separa as tarefas de segmentação supervisionada de forma fraca e segmentação zero-shot. Isso permite que o modelo aprenda com classes vistas enquanto consegue generalizar para classes não vistas.
Aprendizado Eficiente de Prompts: O método incorpora uma estratégia de aprendizado de prompts consciente da média, que gera prompts que podem se adaptar a novas classes e reduzir o tempo de computação.
Sem Necessidade de Ajuste Fino: WLSegNet pode funcionar sem ajuste fino ou necessidade de conjuntos de dados externos, tornando-o escalável e mais acessível para uso prático.
Configuração Experimental
O método foi testado em conjuntos de dados comumente usados, como PASCAL VOC e MS COCO. Os experimentos envolveram avaliar o desempenho do modelo usando várias métricas comuns na área.
Conjuntos de Dados
PASCAL VOC: Este conjunto de dados consiste em imagens rotuladas contendo uma variedade de classes. Para os experimentos, algumas classes foram usadas para treinamento, enquanto outras foram reservadas para teste.
MS COCO: Semelhante ao PASCAL VOC, este conjunto de dados inclui um grande número de imagens com anotações em várias classes.
Métricas de Avaliação
O desempenho do WLSegNet foi comparado com métodos existentes através de várias métricas de avaliação. Essas métricas ajudam a quantificar quão bem o modelo se sai em identificar e segmentar as novas classes.
Resultados dos Experimentos
Os resultados mostraram que WLSegNet superou significativamente os métodos de supervisão fraca existentes. Ele alcançou alta precisão tanto em configurações de Segmentação Zero-Shot quanto Few-Shot.
Segmentação Zero-Shot
Em configurações Zero-Shot, o modelo conseguiu segmentar imagens em classes vistas e não vistas. A avaliação mostrou que o WLSegNet poderia identificar efetivamente classes novas sem ter sido explicitamente treinado nelas.
Segmentação Few-Shot
Para tarefas de segmentação Few-Shot, o WLSegNet se saiu excepcionalmente bem, mesmo com apenas alguns exemplos das novas classes. Também demonstrou melhorias significativas em relação a outros métodos de base.
Performance em Vários Conjuntos de Dados
O WLSegNet também foi testado em diferentes conjuntos de dados e ainda manteve um desempenho competitivo. Isso mostra a capacidade do modelo de se adaptar a diferentes conjuntos de dados, tornando-o versátil.
Análise Qualitativa
Uma inspeção visual das máscaras segmentadas forneceu insights sobre como o método se sai na prática. As saídas do WLSegNet mostraram segmentação clara e precisa de vários objetos, mesmo em situações desafiadoras onde outros métodos enfrentaram dificuldades.
Conclusão
Em conclusão, a Rede de Segmentação Guiada por Linguagem Supervisionada de Forma Fraca (WLSegNet) proposta apresenta um método valioso para segmentação semântica, especialmente em ambientes onde dados rotulados são escassos. A capacidade de generalizar para classes não vistas enquanto depende de supervisão fraca abre novas oportunidades para aplicar a segmentação semântica em cenários do mundo real.
Este trabalho não apenas acrescenta ao conhecimento na área, mas também serve como uma base para futuras pesquisas. Ao focar em abordagens eficientes em termos de dados, o objetivo é criar modelos inteligentes que possam ter um bom desempenho sem o alto custo de anotações extensivas.
Título: A Language-Guided Benchmark for Weakly Supervised Open Vocabulary Semantic Segmentation
Resumo: Increasing attention is being diverted to data-efficient problem settings like Open Vocabulary Semantic Segmentation (OVSS) which deals with segmenting an arbitrary object that may or may not be seen during training. The closest standard problems related to OVSS are Zero-Shot and Few-Shot Segmentation (ZSS, FSS) and their Cross-dataset variants where zero to few annotations are needed to segment novel classes. The existing FSS and ZSS methods utilize fully supervised pixel-labelled seen classes to segment unseen classes. Pixel-level labels are hard to obtain, and using weak supervision in the form of inexpensive image-level labels is often more practical. To this end, we propose a novel unified weakly supervised OVSS pipeline that can perform ZSS, FSS and Cross-dataset segmentation on novel classes without using pixel-level labels for either the base (seen) or the novel (unseen) classes in an inductive setting. We propose Weakly-Supervised Language-Guided Segmentation Network (WLSegNet), a novel language-guided segmentation pipeline that i) learns generalizable context vectors with batch aggregates (mean) to map class prompts to image features using frozen CLIP (a vision-language model) and ii) decouples weak ZSS/FSS into weak semantic segmentation and Zero-Shot segmentation. The learned context vectors avoid overfitting on seen classes during training and transfer better to novel classes during testing. WLSegNet avoids fine-tuning and the use of external datasets during training. The proposed pipeline beats existing methods for weak generalized Zero-Shot and weak Few-Shot semantic segmentation by 39 and 3 mIOU points respectively on PASCAL VOC and weak Few-Shot semantic segmentation by 5 mIOU points on MS COCO. On a harder setting of 2-way 1-shot weak FSS, WLSegNet beats the baselines by 13 and 22 mIOU points on PASCAL VOC and MS COCO, respectively.
Autores: Prashant Pandey, Mustafa Chasmai, Monish Natarajan, Brejesh Lall
Última atualização: 2023-02-27 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2302.14163
Fonte PDF: https://arxiv.org/pdf/2302.14163
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.