ASPIRE: Uma Solução para Problemas de Classificação de Imagens
Um novo método melhora a classificação de imagens ao lidar com características enganosas.
― 8 min ler
Índice
No campo da Classificação de Imagens, muitos modelos têm dificuldades porque aprendem a depender de certas características que não ajudam de verdade a identificar os sujeitos nas imagens. Isso geralmente leva a erros quando o mesmo modelo encontra imagens que não têm essas Características Enganosas. Para resolver esse problema, foi desenvolvido um novo método chamado ASPIRE. ASPIRE significa Aumento Guiado por Linguagem para Classificação de Imagens Robusta. Esse método ajuda a criar imagens de treinamento adicionais que não têm essas características enganadoras, permitindo que os modelos aprendam melhor.
Problema com Modelos Atuais
Classificadores de imagem costumam fazer previsões com base em características que não são preditivas e que não têm conexão real com o sujeito da imagem. Por exemplo, se os modelos são treinados com fotos de um trenó de cachorro que sempre têm um cachorro, eles podem falhar em reconhecer um trenó se aparecer sem um cachorro. Esse problema surge porque os modelos se agarram a essas características enganosas, ignorando efetivamente as verdadeiras características que definem o sujeito.
Nos conjuntos de dados, algumas imagens pertencem a um grupo majoritário, que tem muitos exemplos com características enganosas. Por outro lado, os Grupos Minoritários têm menos imagens, frequentemente sem essas características. Modelos treinados nesses conjuntos de dados tendem a ter um desempenho ruim em grupos minoritários devido a seus exemplos limitados.
ASPIRE: Uma Visão Geral
ASPIRE tem como objetivo gerar novas imagens que não tenham essas características enganosas e faz isso sem precisar de exemplos rotulados adicionais. Ele usa descrições textuais das imagens para identificar características principais e trocar as enganosas. ASPIRE usa modelos de linguagem avançados para identificar elementos importantes nas imagens e produzir Imagens Sintéticas com as características desejadas.
O processo começa com um modelo treinado no conjunto de dados original para reconhecer quais características são enganosas. Uma vez que essas características são identificadas, ASPIRE cria novas imagens que não as possuem, que são então usadas para re-treinar o modelo. Esse ciclo promove a capacidade do modelo de generalizar e melhorar sua compreensão dos sujeitos em várias condições.
Os Passos do ASPIRE
Passo 1: Treinando um Classificador Base
Inicialmente, um classificador padrão é treinado usando um método comum chamado Minimização do Risco Empírico (ERM). Esse treinamento ajuda o modelo a aprender a reconhecer padrões nas imagens e seus respectivos rótulos. Depois que o modelo é treinado, ele extrai um pequeno conjunto de imagens corretamente identificadas, que serão centrais para os próximos passos do processo.
Passo 2: Legendas de Imagens
Em seguida, o ASPIRE gera descrições textuais para cada imagem no conjunto selecionado. Isso é feito usando um modelo de legendagem que pode identificar e descrever tanto os objetos em primeiro plano quanto o fundo das imagens. Essas descrições formam a base para identificar quais elementos são preditivos e quais são enganosos.
Passo 3: Extraindo Características
Depois de obter as descrições das imagens, o ASPIRE emprega modelos de linguagem para extrair características relevantes. Esses modelos identificam quais partes da descrição correspondem aos principais objetos na imagem e as configurações de fundo. Essa informação é crucial, pois restringe a busca por características enganosas.
Passo 4: Identificando Características Enganosas
Neste passo, o ASPIRE verifica as características identificadas editando as imagens. Ao remover ou mudar um objeto de cada vez, o modelo prevê se a imagem ainda pertence à mesma classe. Se o modelo classifica erroneamente a imagem editada, isso significa que a característica removida provavelmente era enganosa. Essa informação é registrada para a próxima etapa de geração de imagens sintéticas.
Passo 5: Gerando Imagens Não Enganosas
Uma vez identificadas as características enganosas, a próxima fase é criar novas imagens que não incluam essas características. O ASPIRE personaliza um modelo de difusão para produzir novas imagens, garantindo que elas permaneçam relevantes para o conjunto de dados. Esse processo é crucial, pois assegura que as imagens geradas não sejam de fora da distribuição esperada, o que poderia introduzir novos problemas.
Passo 6: Re-treinando o Classificador
Finalmente, as imagens geradas são adicionadas ao conjunto de treinamento original, e o modelo passa por um novo treinamento. Essa nova rodada de treinamento ajuda o modelo a aprender com os novos dados, focando menos nas características enganosas e melhorando seu desempenho em grupos minoritários.
Vantagens do ASPIRE
O ASPIRE tem vantagens distintas em relação aos métodos tradicionais. Ele pode trabalhar com qualquer conjunto de dados existente sem precisar de imagens adicionais rotuladas. O método é projetado para melhorar o desempenho geral dos classificadores, promovendo o aprendizado a partir de imagens diversas sem depender de correlações enganosas. O ASPIRE fornece uma maneira sistemática de identificar e mitigar esses problemas, criando dados sintéticos relevantes.
Avaliando o ASPIRE
A eficácia do ASPIRE foi avaliada usando conjuntos de dados de referência. Esses conjuntos contêm vários exemplos, incluindo aqueles com e sem características enganosas. Em cada caso, os modelos treinados com ASPIRE mostraram melhorias marcantes no desempenho, especialmente em grupos minoritários. Isso destaca como o ASPIRE pode ajudar os classificadores a identificar melhor os sujeitos em diferentes cenários.
Estudos de Caso
Exemplo 1: Conjunto de Dados Waterbirds
No conjunto de dados Waterbirds, imagens de pássaros são combinadas com diferentes fundos para criar vários cenários. O modelo aprendeu a reconhecer pássaros aquáticos em fundos de água e terra. Porém, muitas imagens classificavam incorretamente os pássaros devido a fundos irrelevantes, levando a uma baixa precisão em grupos minoritários como pássaros aquáticos em terra. Depois de aplicar o ASPIRE, a capacidade do modelo de classificar corretamente esses grupos minoritários melhorou significativamente.
Exemplo 2: Conjunto de Dados CelebA
O conjunto de dados CelebA é usado para reconhecimento de características faciais, com vários grupos categorizados com base em atributos como cor de cabelo. O grupo minoritário nesse contexto compreende homens loiros. Modelos sem o ASPIRE tiveram dificuldades com esse grupo, mas mostraram precisão melhorada quando imagens geradas pelo ASPIRE foram incluídas nos dados de treinamento. Essa melhoria ilustra como abordar características espúrias pode ajudar a aprender atributos chave.
Exemplo 3: Conjunto de Dados Hard ImageNet
Hard ImageNet é um conjunto de dados complexo com várias categorias e múltiplas correlações espúrias por classe. Treinar modelos nesse conjunto normalmente leva a altas instâncias de classificação incorreta em grupos minoritários. No entanto, com a aplicação do ASPIRE, os modelos conseguiram focar mais efetivamente nas características principais, resultando em uma taxa de precisão mais alta em comparação com métodos tradicionais.
Desafios e Limitações
Embora o ASPIRE demonstre melhorias significativas na classificação de imagens, ele tem limitações. Por exemplo, o sucesso do ASPIRE depende de quão precisamente o modelo de legendagem consegue descrever as imagens. Se as descrições textuais carecem de clareza, as características identificadas podem não ser representativas. Além disso, às vezes as imagens geradas podem não se alinhar bem com os dados originais, levando a um desempenho reduzido.
Como o método depende de processos guiados por linguagem, sua eficiência pode ser influenciada pela qualidade do modelo de linguagem empregado. Nem todos os modelos de linguagem são iguais, e avanços nessa área poderiam aumentar ainda mais a eficácia do ASPIRE.
Conclusão
O ASPIRE oferece uma abordagem nova para melhorar os modelos de classificação de imagens gerando novas imagens que ajudam a reduzir a dependência de correlações espúrias. Ao combinar orientação por linguagem com técnicas de edição de imagem, o ASPIRE permite que os modelos aprendam de forma mais eficaz a partir de dados diversos, sem supervisão adicional. Através de avaliações bem-sucedidas em vários conjuntos de dados, o ASPIRE mostra promessas em corrigir as limitações dos métodos de classificação tradicionais, especialmente em relação ao desempenho de grupos minoritários.
Daqui pra frente, abordar as limitações atuais e melhorar a precisão das descrições textuais será crucial para aumentar as capacidades do ASPIRE. O futuro da classificação de imagens pode se beneficiar muito de métodos como o ASPIRE, levando a modelos mais robustos e confiáveis em tarefas de visão computacional.
Título: ASPIRE: Language-Guided Data Augmentation for Improving Robustness Against Spurious Correlations
Resumo: Neural image classifiers can often learn to make predictions by overly relying on non-predictive features that are spuriously correlated with the class labels in the training data. This leads to poor performance in real-world atypical scenarios where such features are absent. This paper presents ASPIRE (Language-guided Data Augmentation for SPurIous correlation REmoval), a simple yet effective solution for supplementing the training dataset with images without spurious features, for robust learning against spurious correlations via better generalization. ASPIRE, guided by language at various steps, can generate non-spurious images without requiring any group labeling or existing non-spurious images in the training set. Precisely, we employ LLMs to first extract foreground and background features from textual descriptions of an image, followed by advanced language-guided image editing to discover the features that are spuriously correlated with the class label. Finally, we personalize a text-to-image generation model using the edited images to generate diverse in-domain images without spurious features. ASPIRE is complementary to all prior robust training methods in literature, and we demonstrate its effectiveness across 4 datasets and 9 baselines and show that ASPIRE improves the worst-group classification accuracy of prior methods by 1% - 38%. We also contribute a novel test set for the challenging Hard ImageNet dataset.
Autores: Sreyan Ghosh, Chandra Kiran Reddy Evuru, Sonal Kumar, Utkarsh Tyagi, Sakshi Singh, Sanjoy Chowdhury, Dinesh Manocha
Última atualização: 2024-06-06 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2308.10103
Fonte PDF: https://arxiv.org/pdf/2308.10103
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.