Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas# Inteligência Artificial

Repensando o Treinamento de Modelos: O Papel do Esquecimento na Generalização

Esse artigo fala sobre como os modelos podem esquecer preconceitos pra melhorar as previsões.

― 6 min ler


Esqueça os preconceitosEsqueça os preconceitospra ter modelos melhores.generalização e o desempenho do modelo.O esquecimento ativo melhora a
Índice

Aprendizado de máquina fez grandes avanços nos últimos anos, principalmente em como os modelos aprendem com os dados. Uma área de foco é como os modelos generalizam a partir dos dados de treinamento para novos dados que nunca viram. Uma técnica comum usada é chamada de Minimização Consciente de Nitidez (SAM), que busca melhorar a Generalização deixando a superfície de perda mais plana. Mas a relação entre nitidez e generalização não é simples, o que gera novas ideias sobre como os modelos aprendem e esquecem preconceitos.

O Desafio da Generalização

Quando um modelo é treinado, ele aprende padrões a partir dos dados que processa. Idealmente, ele deveria aplicar esse conhecimento a novos dados. Essa habilidade é chamada de generalização. Infelizmente, muitos modelos se saem bem em memorizar os dados de treinamento, mas têm dificuldades quando se deparam com novos exemplos. Esse fenômeno é chamado de Overfitting, e geralmente acontece porque o modelo aprende preconceitos indesejados do conjunto de dados de treinamento.

Abordagens tradicionais para lidar com o overfitting envolvem minimizar a nitidez, buscando áreas mais planas da superfície de perda onde as previsões do modelo permanecem consistentes mesmo com pequenas mudanças nos inputs. No entanto, pesquisas mostram que a nitidez nem sempre está relacionada a uma melhor generalização, levando à exploração de métodos alternativos.

Uma Perspectiva Alternativa: Esquecimento Perturbado

Trabalhos recentes propõem uma nova visão do SAM ao focar no que acontece durante o treinamento. Em vez de simplesmente tentar reduzir a nitidez, a ideia é que as perturbações usadas no SAM permitem que o modelo “esqueça” preconceitos indesejáveis enquanto aprende. Em outras palavras, ao fazer pequenas mudanças nos parâmetros do modelo, ele pode descartar preconceitos que não o ajudam a generalizar bem.

Esse processo de esquecimento é importante porque modelos podem captar informações irrelevantes que levam a previsões ruins em novos dados. Usando o que é chamado de "esquecimento perturbado", os modelos podem identificar e descartar melhor esses preconceitos durante o treinamento.

Como Funciona o Esquecimento Perturbado

Quando um modelo é treinado usando SAM, ele passa por várias etapas onde os parâmetros do modelo são ajustados levemente. Esses ajustes ou perturbações são cruciais, pois oferecem oportunidades para o modelo esquecer preconceitos que aprendeu. Por exemplo, se um modelo começa a associar certas características nos dados de treinamento com previsões erradas, as perturbações podem ajudá-lo a desaprender essas associações ruins.

A ideia central é tratar essas perturbações como um meio de refinar o processo de aprendizagem. Em vez de minimizar estritamente a nitidez, o modelo foca em descobrir e deixar de lado preconceitos que impactam negativamente o desempenho em novos dados.

Conexões com a Teoria da Informação

Para entender como esse esquecimento acontece, podemos olhar para o princípio do gargalo de informação. Esse princípio sugere que um modelo deve reter apenas as informações que são úteis para fazer previsões. Qualquer informação irrelevante deve idealmente ser descartada, o que está relacionado a uma melhor generalização.

Ao ver as perturbações do SAM através dessa lente, vemos que elas podem ajudar os modelos a esquecer preconceitos desnecessários, tornando-os mais robustos e melhores em generalizar a partir dos dados de treinamento para situações não vistas. Essa estrutura ajuda a esclarecer por que pequenas perturbações podem levar a uma generalização mais forte em comparação com mudanças maiores e mais indiscriminadas.

Elaborando Novas Perturbações

O SAM tradicional usa um método chamado de subida mais íngreme para direcionar preconceitos do modelo ao esquecimento. No entanto, novas percepções sugerem que também podemos direcionar preconceitos revelados pelas saídas do modelo. Isso leva a um novo método chamado de esquecimento de preconceitos de saída (OBF), que é especificamente projetado para combater preconceitos que surgem das previsões do modelo.

Com o OBF, o modelo se concentra em maximizar a probabilidade de previsões corretas sem amplificar preconceitos existentes. Essencialmente, ele empurra suavemente o modelo em direção a previsões que são uniformemente distribuídas quando necessário, permitindo um esquecimento mais forte de preconceitos que podem interferir no aprendizado.

Implicações para o Treinamento de Modelos

A introdução do OBF sugere que a forma como pensamos sobre o treinamento de modelos precisa mudar. Embora muitos na área tenham focado na ideia de alcançar superfícies de perda mais planas, essa nova perspectiva enfatiza que o esquecimento ativo de preconceitos pode ser uma abordagem mais eficaz.

Na prática, modelos treinados com OBF mostraram ter um desempenho melhor do que aqueles treinados com métodos padrão em vários benchmarks. Isso indica que, ao permitir que os modelos esqueçam informações indesejadas, podemos melhorar seu desempenho geral sem nos preocuparmos excessivamente em alcançar os mínimos mais planos possíveis na paisagem de perda.

Aplicações no Mundo Real e Benchmarks

A eficácia da nova perspectiva e dos métodos pode ser vista ao examinar o desempenho em conjuntos de dados padrão. Por exemplo, quando os modelos são treinados em conjuntos de dados complexos como o ImageNet, aqueles que utilizam OBF demonstram melhor generalização para novos dados e maior robustez contra vários desafios.

Da mesma forma, em cenários de aprendizado transferido, modelos pré-treinados com OBF tiveram um desempenho significativamente melhor quando ajustados em conjuntos de dados mais simples, como CIFAR-10 e CIFAR-100. Isso sugere que as vantagens de esquecer preconceitos podem ser transferidas entre diferentes tarefas e conjuntos de dados, aprimorando o desempenho geral do modelo.

Conclusão

A exploração do treinamento de modelos pela ótica do esquecimento perturbado oferece uma nova perspectiva que desafia as visões tradicionais sobre nitidez e generalização. Ao focar em como os modelos podem ativamente esquecer preconceitos indesejáveis, podemos melhorar sua capacidade de generalizar e ter um desempenho confiável.

À medida que o campo de aprendizado de máquina continua a crescer, essas percepções serão inestimáveis para desenvolver algoritmos de treinamento mais eficazes e melhorar o desempenho dos modelos em uma ampla gama de tarefas. A mudança de um foco exclusivo na minimização da nitidez permite uma compreensão mais holística de como os modelos aprendem e se adaptam, fornecendo um caminho mais claro para alcançar uma melhor generalização em várias aplicações.

Fonte original

Título: Forget Sharpness: Perturbed Forgetting of Model Biases Within SAM Dynamics

Resumo: Despite attaining high empirical generalization, the sharpness of models trained with sharpness-aware minimization (SAM) do not always correlate with generalization error. Instead of viewing SAM as minimizing sharpness to improve generalization, our paper considers a new perspective based on SAM's training dynamics. We propose that perturbations in SAM perform perturbed forgetting, where they discard undesirable model biases to exhibit learning signals that generalize better. We relate our notion of forgetting to the information bottleneck principle, use it to explain observations like the better generalization of smaller perturbation batches, and show that perturbed forgetting can exhibit a stronger correlation with generalization than flatness. While standard SAM targets model biases exposed by the steepest ascent directions, we propose a new perturbation that targets biases exposed through the model's outputs. Our output bias forgetting perturbations outperform standard SAM, GSAM, and ASAM on ImageNet, robustness benchmarks, and transfer to CIFAR-{10,100}, while sometimes converging to sharper regions. Our results suggest that the benefits of SAM can be explained by alternative mechanistic principles that do not require flatness of the loss surface.

Autores: Ankit Vani, Frederick Tung, Gabriel L. Oliveira, Hossein Sharifi-Noghabi

Última atualização: 2024-06-10 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2406.06700

Fonte PDF: https://arxiv.org/pdf/2406.06700

Licença: https://creativecommons.org/licenses/by-nc-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes