Melhorando a Segmentação Semântica Fraca com CoSA
Um novo método melhora a precisão da segmentação usando mapas de ativação de classe.
― 6 min ler
Índice
A segmentação semântica fracamente supervisionada (WSSS) é um método usado pra identificar e segmentar objetos em imagens sem precisar de rótulos detalhados em nível de pixel. Em vez disso, usa formas de rotulagem mais simples, como rótulos de classe que só dizem quais objetos estão numa imagem. Essa abordagem reduz muito o tempo e o esforço necessários pra anotar imagens.
Uma forma comum de gerar rótulos pra segmentação é através de Mapas de Ativação de Classe (CAMs). Esses mapas mostram quais partes de uma imagem são mais importantes pra reconhecer um objeto. Mas, às vezes, os CAMs podem ser inconsistentes ou imprecisos. Isso pode causar problemas no treinamento de modelos de segmentação, já que os mapas podem não mostrar corretamente as localizações reais dos objetos.
Neste artigo, apresentamos um novo método chamado Co-training with Swapping Assignments (CoSA). Essa abordagem tem como objetivo melhorar a qualidade dos CAMs e tornar o processo de segmentação mais preciso. O CoSA permite o treinamento simultâneo de modelos de segmentação e CAMs, reduzindo a necessidade de etapas adicionais de refinamento que podem complicar o processo de treinamento.
O Problema com as Abordagens Atuais
Muitos métodos existentes pra WSSS dependem de múltiplas etapas: gerar CAMs, refiná-los e treinar o modelo de segmentação usando esses mapas. Esse processo pode ser lento e pode não funcionar bem em todas as situações, porque geralmente requer ajustes finos em diferentes modelos em diferentes estágios.
Modelos de etapa única, que tentam combinar todos esses passos em um só, são mais rápidos, mas normalmente têm um desempenho pior porque não conseguem otimizar os CAMs de forma eficaz durante o treinamento. Como resultado, esses modelos frequentemente precisam de etapas de pós-processamento adicionais pra melhorar a qualidade dos CAMs.
Os problemas com os CAMs incluem:
Ativação Inconsistente: Os CAMs podem variar em qualidade dependendo das mudanças na imagem de entrada, levando a representações inconsistentes do mesmo objeto.
Ativação Inaccurada: Os CAMs podem cobrir apenas certas partes de um objeto, perdendo informações importantes ou incluindo áreas de fundo irrelevantes.
Esses problemas são o motivo pelo qual muitos pesquisadores focam em refinar os CAMs depois que eles são criados, mas essa etapa adicional pode limitar a flexibilidade e a velocidade.
A Abordagem CoSA
O CoSA oferece uma nova perspectiva sobre esses desafios ao permitir que os CAMs sejam otimizados em tempo real durante o treinamento. Em vez de precisar refinar os CAMs separadamente, o CoSA integra diretamente o processo de geração e uso de CAMs para segmentação em uma única estrutura coesa.
O CoSA é construído em um modelo de fluxo duplo que consiste em duas redes: a rede de atribuição (AN) e a rede online (ON). Essas duas redes trabalham juntas trocando pseudo-rótulos. A rede de atribuição produz pseudo-rótulos de CAM (CPL) e pseudo-rótulos de segmentação (SPL). Esses rótulos, por sua vez, orientam o treinamento da rede online.
Inovações Chave
CAMs Guiados: O CoSA inclui um mecanismo pra guiar os CAMs durante o treinamento, permitindo que eles evoluam com base nas Previsões de Segmentação. Isso resulta em CAMs mais precisos e consistentes sem precisar de um processo de refinamento separado.
Troca de Atribuições: O uso de SPL e CPL permite que as duas redes reforcem o aprendizado uma da outra. Os CAMs melhoram as previsões de segmentação, enquanto as previsões de segmentação aumentam a qualidade dos CAMs.
Pesagem Adaptativa: Essa técnica ajusta a importância de diferentes segmentos no processo de treinamento com base na sua confiabilidade, que é estimada usando uma medida de incerteza. Esse ajuste dinâmico melhora o desempenho geral da segmentação.
Limitação Dinâmica: Em vez de usar um limite fixo pra separar diferentes regiões em uma imagem, o CoSA ajusta os limites durante o treinamento pra se adequar melhor às previsões em evolução do modelo.
Separação Contrastiva: Essa abordagem resolve o problema de coexistência, onde objetos semelhantes são mesclados incorretamente. Ao focar em detalhes de baixo nível, o CoSA consegue diferenciar entre classes sobrepostas de forma mais eficaz.
Resultados Experimentais
O CoSA foi testado em conjuntos de dados amplamente utilizados, incluindo PASCAL VOC e MS-COCO, ambos conhecidos pela sua complexidade e variedade nas classes de objetos. Os resultados indicam que o CoSA supera os métodos de etapa única anteriores, alcançando maior precisão na segmentação de objetos em imagens.
No conjunto de dados PASCAL VOC, o CoSA obteve uma pontuação média de Interseção sobre União (mIoU) de 76,2%, superando significativamente o melhor modelo de etapa única existente. No COCO, também demonstrou uma melhoria marcante em relação a outros métodos, indicando sua eficácia em diferentes conjuntos de dados e tarefas.
Impacto dos Componentes
Os vários elementos do CoSA foram examinados em detalhes pra entender suas contribuições pro desempenho. Cada componente, incluindo os CAMs guiados, troca de atribuições, pesagem adaptativa e limitação dinâmica, teve um impacto positivo nos resultados. Notavelmente, a remoção de qualquer componente único levou a uma queda no desempenho, enfatizando a importância da abordagem integrada.
Visualizações e Comparações Qualitativas
Avaliações visuais dos resultados mostraram que o CoSA produz segmentações mais claras. Comparado a outros métodos de ponta, o CoSA demonstrou uma melhor separação entre objetos e fundos. Ele lidou efetivamente com interações entre classes, que geralmente é um desafio pra muitas técnicas existentes.
Por exemplo, ao segmentar uma pessoa segurando um objeto, o CoSA conseguiu segmentar tanto a pessoa quanto o objeto de forma distinta, enquanto métodos tradicionais tendiam a mesclá-los em uma única segmentação. Essa capacidade foi particularmente evidente em cenas complexas com objetos sobrepostos ou oclusão significativa.
Conclusão
O CoSA representa um avanço significativo no campo da segmentação semântica fracamente supervisionada. Ao combinar tarefas de classificação de imagem e segmentação em uma estrutura unificada, ele reduz a necessidade de um grande refinamento dos CAMs. As melhorias possibilitadas por CAMs guiados, limitação dinâmica e pesagem adaptativa permitem previsões mais confiáveis na tarefa de segmentação.
A eficiência e eficácia do método sugerem que ele poderia ser aplicável a várias tarefas em visão computacional além da segmentação semântica. Uma exploração mais aprofundada dessas ideias pode levar a inovações mais amplas no campo, melhorando a forma como as máquinas interpretam e segmentam informações visuais em imagens.
Título: Weakly Supervised Co-training with Swapping Assignments for Semantic Segmentation
Resumo: Class activation maps (CAMs) are commonly employed in weakly supervised semantic segmentation (WSSS) to produce pseudo-labels. Due to incomplete or excessive class activation, existing studies often resort to offline CAM refinement, introducing additional stages or proposing offline modules. This can cause optimization difficulties for single-stage methods and limit generalizability. In this study, we aim to reduce the observed CAM inconsistency and error to mitigate reliance on refinement processes. We propose an end-to-end WSSS model incorporating guided CAMs, wherein our segmentation model is trained while concurrently optimizing CAMs online. Our method, Co-training with Swapping Assignments (CoSA), leverages a dual-stream framework, where one sub-network learns from the swapped assignments generated by the other. We introduce three techniques: i) soft perplexity-based regularization to penalize uncertain regions; ii) a threshold-searching approach to dynamically revise the confidence threshold; and iii) contrastive separation to address the coexistence problem. CoSA demonstrates exceptional performance, achieving mIoU of 76.2\% and 51.0\% on VOC and COCO validation datasets, respectively, surpassing existing baselines by a substantial margin. Notably, CoSA is the first single-stage approach to outperform all existing multi-stage methods including those with additional supervision. Code is avilable at \url{https://github.com/youshyee/CoSA}.
Autores: Xinyu Yang, Hossein Rahmani, Sue Black, Bryan M. Williams
Última atualização: 2024-07-09 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.17891
Fonte PDF: https://arxiv.org/pdf/2402.17891
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://ctan.org/pkg/pifont
- https://host.robots.ox.ac.uk:8080/anonymous/UEMZQP.html
- https://host.robots.ox.ac.uk:8080/anonymous/BWWBSW.html
- https://host.robots.ox.ac.uk:8080/anonymous/LGFR47.html
- https://host.robots.ox.ac.uk:8080/anonymous/GOZOHI.html
- https://host.robots.ox.ac.uk:8080/anonymous/4SW3UJ.html