Melhorando a Segmentação Semântica com Correção Ativa de Rótulos
Um novo método melhora a qualidade dos conjuntos de dados de segmentação semântica.
― 6 min ler
Índice
- Técnicas Chave do ALC
- Resultados dos Experimentos
- Criando Datasets de Segmentação Limpos
- A Necessidade da Correção Ativa de Rótulos
- Projetando Consultas Eficazes
- Utilizando Modelos Base
- Ajustando Técnicas de Superpixel
- O Framework ALC na Prática
- Resultados e Melhorias
- Resultados do Estudo com Usuários
- Comparação de Funções de Aquisição
- Aplicação em Datasets Médicos
- Analisando Contribuições
- Pensamentos Finais
- Fonte original
- Ligações de referência
Treinar modelos para segmentação semântica é uma tarefa complicada que precisa de anotações detalhadas para cada pixel nas imagens. Esse processo é demorado e, muitas vezes, leva a erros. Embora existam ferramentas como modelos base ou dados crowdsourced para ajudar, elas também podem introduzir erros.
Para resolver esse problema, a gente apresenta um novo método chamado Correção Ativa de Rótulos (ALC). Esse framework foi feito pra melhorar a qualidade dos rótulos dos pixels usando consultas de correção. Essas consultas pedem que os anotadores confirmem se um determinado rótulo de pixel tá certo ou não. O design da nossa consulta de correção é mais amigável comparado aos métodos tradicionais, que geralmente pedem que os anotadores escolham um rótulo direto.
Técnicas Chave do ALC
O método ALC se baseia em duas técnicas principais:
Consultas de Correção Amigáveis: Em vez de pedir que os anotadores escolham um rótulo, nosso método só pede pra corrigir se tiver errado. Isso economiza tempo e minimiza anotações desnecessárias.
Função de Aquisição Antecipada: Essa função prevê como expandir um rótulo corrigido para pixels similares próximos (superpixels) vai ajudar. Focando nos superpixels, a gente consegue corrigir áreas maiores com menos cliques.
Resultados dos Experimentos
Testamos nosso framework ALC em vários datasets conhecidos, como PASCAL, Cityscapes e Kvasir-SEG. Os resultados mostram que nosso método é melhor que os anteriores para segmentação semântica e correção de rótulos. Por exemplo, conseguimos corrigir 2,6 milhões de rótulos de pixels no dataset PASCAL.
Criando Datasets de Segmentação Limpos
Pra gerar datasets confiáveis mais rápido, usamos ALC com modelos base. Veja como funciona:
Rótulos Pseudo Iniciais: Começamos com os rótulos pseudo gerados pelos modelos base.
Processo de Correção: Os anotadores conferem cada rótulo, corrigindo com um clique se tiver errado.
Expansão de Superpixels: Assim que um rótulo de pixel é corrigido, expandimos essa correção para incluir todos os pixels similares agrupados em um superpixel.
Essa abordagem é mais eficiente que os métodos tradicionais que começam com imagens totalmente não rotuladas.
A Necessidade da Correção Ativa de Rótulos
A segmentação semântica é crucial em várias áreas, mas criar um dataset rotulado ainda é um desafio. Os métodos tradicionais envolvem anotações pixel a pixel que são não só lentas, mas também sujeitas a erros. Avanços recentes em modelos base oferecem soluções potenciais, mas não são perfeitas. Erros podem ocorrer, especialmente em datasets que precisam de conhecimento especializado, como na área médica.
A Correção Ativa de Rótulos visa melhorar datasets pixel a pixel com mínima intervenção humana. Ao identificar e corrigir rótulos ruidosos rapidamente, conseguimos deixar todo o processo mais eficiente. Nosso método permite mais consultas enquanto se mantém dentro dos limites de orçamento, melhorando efetivamente a qualidade do dataset.
Projetando Consultas Eficazes
Projetar o tipo certo de consulta é essencial pra reduzir custos de anotação. A gente distingue entre consultas tradicionais de classificação, que pedem rótulos específicos de pixels, e nossas consultas de correção, que só precisam da confirmação de rótulos existentes.
Nosso estudo com usuários indicou que as consultas de correção são mais rápidas de trabalhar e custam menos no geral em comparação com as consultas de classificação. Isso deixa o processo de anotação mais suave para os anotadores, resultando em uma criação de dataset mais rápida.
Utilizando Modelos Base
Modelos base conseguiram avanços notáveis em gerar rótulos pseudo densos para imagens. Ao inserir descrições de classes relevantes, conseguimos identificar e segmentar objetos dentro das imagens, nos dando um conjunto inicial de rótulos.
No entanto, esses rótulos geralmente contêm erros, o que impacta negativamente no desempenho do modelo. Pra corrigir isso, o ALC foca em corrigir esses rótulos ruidosos e expandir correções para todos os pixels similares em um superpixel, melhorando a precisão do dataset final.
Ajustando Técnicas de Superpixel
Superpixels ajudam a agrupar pixels similares, facilitando a aplicação de correções. A gente utiliza superpixels semânticos definidos por modelos base pra garantir que nossas correções sejam contextualmente apropriadas, resultando em melhores resultados do que usar métodos tradicionais baseados apenas em cor.
O Framework ALC na Prática
O framework ALC simplifica o processo de criação de datasets através de várias etapas:
Preparação: Começamos com um dataset inicial ruidoso. Rótulos pseudo iniciais são gerados usando modelos base.
Consultas: Cada rodada inclui consultar os anotadores sobre pixels que precisam de correção. Nosso método otimiza pra ter menos cliques no geral.
Treinamento: Um modelo é treinado com os rótulos corrigidos, e o processo se repete até que a qualidade do dataset atinja os padrões desejados.
Resultados e Melhorias
Em vários datasets, o ALC mostrou melhorias notáveis em eficiência. Por exemplo, pra alcançar 95% do desempenho totalmente supervisionado no PASCAL e Cityscapes, a gente só precisou de uma fração do orçamento tradicional de anotação.
Resultados do Estudo com Usuários
No nosso estudo com usuários, encontramos que as consultas de correção precisavam de cerca de 75% do tempo de anotação das consultas de classificação tradicionais, mostrando que o ALC não só otimiza o processo, mas também mantém a precisão. Ambos os tipos de consultas tiveram taxas de precisão semelhantes de cerca de 95%.
Comparação de Funções de Aquisição
Nós também comparamos várias funções de aquisição usadas no nosso framework. No geral, nosso método mostrou um desempenho melhor na identificação de rótulos ruidosos, alcançando altas taxas de precisão e recall. Isso demonstra que nossa abordagem melhora efetivamente a qualidade dos datasets.
Aplicação em Datasets Médicos
A gente estendeu nosso framework para a área médica usando o dataset Kvasir-SEG. Mesmo com altos níveis de ruído inicial, o ALC melhorou o desempenho significativamente enquanto minimizava o orçamento de correção.
Analisando Contribuições
As contribuições do nosso framework incluem o pool de pixels diversificado e um conceito de antecipação para aquisição. Cada componente agrega valor e melhora a qualidade do dataset.
Pensamentos Finais
Nosso framework ALC apresenta um avanço significativo na velocidade e precisão de criação de datasets de segmentação de alta qualidade. Ele utiliza modelos base pra garantir que os rótulos de pixels corrigidos sejam confiáveis, levando a um desempenho melhor para modelos treinados nesses datasets. O método não só torna o processo de anotação mais eficiente, mas também melhora a confiabilidade geral das aplicações de machine learning em várias áreas.
Título: Active Label Correction for Semantic Segmentation with Foundation Models
Resumo: Training and validating models for semantic segmentation require datasets with pixel-wise annotations, which are notoriously labor-intensive. Although useful priors such as foundation models or crowdsourced datasets are available, they are error-prone. We hence propose an effective framework of active label correction (ALC) based on a design of correction query to rectify pseudo labels of pixels, which in turn is more annotator-friendly than the standard one inquiring to classify a pixel directly according to our theoretical analysis and user study. Specifically, leveraging foundation models providing useful zero-shot predictions on pseudo labels and superpixels, our method comprises two key techniques: (i) an annotator-friendly design of correction query with the pseudo labels, and (ii) an acquisition function looking ahead label expansions based on the superpixels. Experimental results on PASCAL, Cityscapes, and Kvasir-SEG datasets demonstrate the effectiveness of our ALC framework, outperforming prior methods for active semantic segmentation and label correction. Notably, utilizing our method, we obtained a revised dataset of PASCAL by rectifying errors in 2.6 million pixels in PASCAL dataset.
Autores: Hoyoung Kim, Sehyun Hwang, Suha Kwak, Jungseul Ok
Última atualização: 2024-06-04 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2403.10820
Fonte PDF: https://arxiv.org/pdf/2403.10820
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.