O Impacto da Aumento de Rótulos no Treinamento de Modelos
Investigando como a augmentação de rótulos afeta o aprendizado em modelos de machine learning.
― 9 min ler
Índice
Aumentação de dados é um método usado pra melhorar o treinamento de modelos de machine learning, especialmente em tarefas como classificação de imagens. Ela tem sido crucial pra tornar os modelos de deep learning mais eficazes nos últimos dez anos. Um tipo específico de aumentação de dados altera não apenas os dados de entrada, mas também os rótulos associados a esses dados no processo de treinamento. Isso inclui técnicas como Suavização de Rótulos e Mixup.
Nesta discussão, a gente foca em como a aumentação de rótulos impacta o treinamento do modelo. Mostramos que, ao usar aumentação de rótulos em dados que podem ser separados linearmente, os modelos tendem a aprender características com a menor variância. Por outro lado, modelos treinados com métodos padrões, que incluem degradação de peso, podem aprender características com variância maior. Uma desvantagem significativa da aumentação de rótulos é que ela pode tornar os modelos menos robustos contra pequenas mudanças ou ataques nos dados de treinamento em comparação com métodos padrão. Fazemos experimentos tanto em dados falsos quanto em tarefas padrão de classificação de imagens, mostrando que nossas descobertas se confirmam na prática.
Introdução
Treinar modelos poderosos de visão computacional envolve usar diferentes técnicas de aumentação de dados. Alguns métodos só mudam os dados de entrada, usando técnicas como recorte aleatório ou rotação de imagens. No entanto, alguns métodos também mudam os rótulos dos dados de treinamento junto com os dados de entrada.
Suavização de rótulos e Mixup são dois métodos amplamente usados nessa segunda categoria. A suavização de rótulos modifica os rótulos tradicionais one-hot, tornando-os mais suaves, dando probabilidades não nulas a todas as classes possíveis. O Mixup leva isso um passo adiante, misturando diferentes pontos de dados e seus rótulos juntos pra criar novos exemplos de treinamento.
Esses métodos se tornaram populares, fazendo os pesquisadores questionarem a efetividade deles em melhorar o desempenho do modelo. Muitos estudos adotaram várias abordagens pra investigar isso, analisando aspectos como regularização, robustez a ataques adversariais, calibração do modelo, aprendizado de características e quantos exemplos são necessários pra treinar de forma eficaz.
Apesar de alguma compreensão sobre as conexões entre suavização de rótulos e Mixup, falta uma teoria unificada que explique por que modelos que usam essas abordagens se comportam de forma semelhante. Nosso objetivo aqui é fornecer essa clareza, estendendo pesquisas anteriores sobre aprendizado de características pra explorar especificamente a aumentação de rótulos. Nossa investigação vai revelar que tanto o Mixup quanto a suavização de rótulos muitas vezes ignoram características com variância maior ao aprender com os dados.
Principais Contribuições
Nossas principais contribuições podem ser resumidas em alguns pontos-chave:
Em situações onde os dados podem ser separados linearmente e múltiplas características estão disponíveis, modelos que utilizam Mixup ou suavização de rótulos aprendem principalmente características com variância mínima.
Explicamos essas alegações delineando o histórico das técnicas de Mixup e suavização de rótulos, definindo formalmente os tipos de distribuições de dados com as quais elas trabalham. Essa definição simplifica uma ideia complexa anterior, facilitando a compreensão.
Provamos que modelos lineares que usam Mixup ou suavização de rótulos nesse tipo de dado só se conectam com características de variância mínima. Por outro lado, modelos lineares treinados usando métodos padrão com degradação de peso podem se correlacionar com características de variância maior.
Nossa análise destaca uma diferença distinta entre como o Mixup e a suavização de rótulos funcionam em comparação com o treinamento padrão, mostrando que características de variância maior são ignoradas pelos primeiros.
Sustentamos nossa teoria com vários experimentos, demonstrando que modelos treinados sob nossas suposições teóricas não generalizam bem em tarefas envolvendo características de alta variância.
Modelo de Dados
A gente foca em problemas de classificação binária onde algumas dimensões da entrada representam características de baixa variância e outras representam características com variância maior. Por exemplo, podemos imaginar dados de treinamento onde pixels específicos ajudam consistentemente a identificar uma classe enquanto outras partes da imagem variam de forma mais significativa. O objetivo é que os modelos aprendam a partir de ambos os tipos de características.
Nossa teoria mostra que, ao usar técnicas de aumentação de rótulos como suavização de rótulos ou Mixup em dados com características de baixa e alta variância, o modelo resultante tende a focar apenas nas características de baixa variância, limitando sua capacidade de generalizar de forma eficaz.
Suavização de Rótulos e Mixup
A suavização de rótulos substitui os rótulos tradicionais one-hot por uma Mistura do rótulo original e uma distribuição uniforme sobre as classes. Isso significa que, em vez de dizer "Isso é um gato" (1,0 para gato vs. cachorro), pode dizer "Isso é meio gato e meio cachorro" (0,9 para gato, 0,1 para cachorro).
Da mesma forma, o Mixup combina duas amostras de treinamento pra criar uma nova. Por exemplo, se temos uma imagem de um gato e uma de um cachorro, o Mixup pode criar uma nova imagem que é 70% gato e 30% cachorro, enquanto também média seus rótulos.
Apesar de essas técnicas serem usadas pra melhorar o treinamento, nossas descobertas sugerem que elas podem, inadvertidamente, levar os modelos a perder características importantes que poderiam melhorar o desempenho em tarefas envolvendo dados mais variados.
O Papel da Degradação de Peso
A degradação de peso é um método usado pra evitar que os modelos se tornem muito complexos, penalizando pesos maiores. Quando modelos são treinados usando degradação de peso, eles costumam capturar uma gama mais ampla de características, incluindo aquelas com variância maior. Essa é uma das características que distingue métodos de treinamento padrão daqueles que usam aumentação de rótulos.
Durante nossos experimentos, modelos treinados com degradação de peso mostraram uma forte correlação com as características de maior variância, enquanto aqueles treinados com suavização de rótulos ou Mixup não mostraram essa correlação.
Experimentos com Dados Sintéticos
Primeiro, testamos nossa teoria usando dados sintéticos que se encaixam nas nossas definições. Nesse cenário, treinamos modelos de regressão logística enquanto variávamos os parâmetros de degradação de peso, suavização de rótulos e Mixup.
Os resultados mostraram que modelos usando degradação de peso mantiveram uma conexão com características de baixa e alta variância. Por outro lado, modelos treinados com estratégias de aumentação de rótulos, incluindo Mixup e suavização de rótulos, rapidamente aprenderam a depender exclusivamente das características de baixa variância.
Essa descoberta indica que confiar na aumentação de rótulos poderia levar a uma falta de diversidade no que o modelo aprende, afetando, em última análise, sua robustez e desempenho em tarefas do mundo real.
Experimentos com Dados Reais: CIFAR-10 e CIFAR-100
Em seguida, aplicamos nossas descobertas a dados reais usando os conjuntos de dados CIFAR-10 e CIFAR-100. Transformamos esses conjuntos de dados em tarefas de classificação binária, mantendo apenas duas classes e modificando os dados de treinamento pra isolar características com muita variância.
Os modelos resultantes foram avaliados com base em seus erros de teste. Aqui, modelos treinados sem aumentação tiveram desempenho significativamente melhor do que aqueles treinados com suavização de rótulos ou Mixup. Os únicos modelos que conseguiram erros de teste mais baixos foram aqueles que utilizaram degradação de peso em seu processo de treinamento.
Notavelmente, mesmo quando ajustamos os dados de treinamento introduzindo variância nas características identificadoras, os efeitos prejudiciais da aumentação de rótulos persistiram. Os resultados confirmaram que Mixup e suavização de rótulos ainda levaram os modelos a aprender principalmente com características marcadas por baixa variância.
Classificação de Imagens Multiclasse com ResNet
Por fim, queríamos ver se nossos resultados se mantinham ao usar modelos mais complexos. Realizamos experimentos com arquiteturas ResNet nos conjuntos de dados CIFAR-10 e CIFAR-100. Novamente, descobrimos que treinar com Mixup e suavização de rótulos levava os modelos a se sobreajustarem às características de baixa variância.
Embora essas técnicas inicialmente ajudassem a reduzir as taxas de erro no início do processo de treinamento, mais tarde causavam o não ajuste dos modelos, resultando em erros de teste significativos. Em contraste, modelos que usavam degradação de peso melhoravam consistentemente seu desempenho ao longo do tempo.
Conclusão
Em resumo, mostramos que para distribuições de dados linearmente separáveis que apresentam elementos de alta e baixa variância, modelos treinados com técnicas de aumentação como suavização de rótulos ou Mixup frequentemente deixam de aprender características importantes que têm variância maior. Enquanto isso, métodos de treinamento padrão que utilizam degradação de peso permitem uma abordagem mais equilibrada, aprendendo com sucesso a partir de ambos os tipos de características.
Essas descobertas ressaltam que, embora a suavização de rótulos e o Mixup tenham se tornado métodos populares em machine learning, eles podem não levar sempre a um melhor desempenho e poderiam prejudicar a capacidade dos modelos de generalizar de forma eficaz. Trabalhos futuros vão explorar as implicações desses resultados em cenários mais complexos e não lineares, potencialmente fornecendo insights mais profundos sobre as nuances das estratégias de treinamento de modelos.
Título: For Better or For Worse? Learning Minimum Variance Features With Label Augmentation
Resumo: Data augmentation has been pivotal in successfully training deep learning models on classification tasks over the past decade. An important subclass of data augmentation techniques - which includes both label smoothing and Mixup - involves modifying not only the input data but also the input label during model training. In this work, we analyze the role played by the label augmentation aspect of such methods. We first prove that linear models on binary classification data trained with label augmentation learn only the minimum variance features in the data, while standard training (which includes weight decay) can learn higher variance features. We then use our techniques to show that even for nonlinear models and general data distributions, the label smoothing and Mixup losses are lower bounded by a function of the model output variance. An important consequence of our results is negative: label smoothing and Mixup can be less robust to spurious correlations in the data. We verify that our theory reflects practice via experiments on image classification benchmarks modified to have spurious correlations.
Autores: Muthu Chidambaram, Rong Ge
Última atualização: 2024-05-27 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.06855
Fonte PDF: https://arxiv.org/pdf/2402.06855
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.