Abordando o esquecimento em Aprendizado por Reforço
Analisando maneiras de manter as habilidades em RL durante o ajuste fino.
― 7 min ler
Índice
Ajuste fino é uma prática comum onde modelos, já treinados em uma tarefa, são ajustados para funcionarem melhor em outra tarefa relacionada. Essa ideia tem sido bem-sucedida em várias áreas, como processamento de linguagem e reconhecimento de imagem. No entanto, o mesmo sucesso não foi completamente visto em aprendizado por reforço (RL). No RL, os modelos aprendem interagindo com o ambiente e recebendo recompensas ou punições com base nas suas ações. Fazer ajustes finos nesses modelos pode ser complicado por causa da maneira única como eles aprendem.
Um grande problema surge quando um modelo treinado para uma tarefa esquece como se sair bem em partes de uma tarefa relacionada depois do ajuste fino. Esse problema é causado pela forma como o modelo interage com o ambiente. Quando o modelo foca em novas tarefas, pode perder suas habilidades anteriores em partes do estado que não visitou durante o ajuste fino. Em termos simples, é como se o modelo esquecesse o que aprendeu antes porque está muito ocupado aprendendo algo novo.
Essa discussão identifica e explica esse problema de esquecimento, com que frequência ele ocorre e como pode levar a um desempenho ruim em tarefas de RL. Também exploramos várias estratégias para ajudar os modelos a manterem suas habilidades previamente aprendidas enquanto estão sendo ajustados.
O Desafio do Ajuste Fino em Aprendizado por Reforço
No aprendizado supervisionado tradicional, os dados permanecem constantes, o que ajuda os modelos a aprenderem de forma eficaz. No entanto, no RL, a experiência do modelo muda continuamente enquanto ele interage com o ambiente. Essa interação leva a um foco que muda em diferentes estados. Um agente pode começar com algumas habilidades, mas se não interagir com esses estados novamente durante o ajuste fino, pode perder esse conhecimento.
Por exemplo, ajustar um modelo em uma tarefa de jogo pode permitir que ele se saia bem em alguns níveis (vamos chamá-los de "Longe"), mas se o ajuste fino acontecer em níveis diferentes ("Perto"), o modelo pode esquecer como jogar bem nos níveis "Longe". Essa situação pode ser catastrófica para o desempenho do modelo na tarefa como um todo.
Para ilustrar esse problema, considere um agente pré-treinado que pode jogar um jogo proficientemente em níveis mais altos, mas começa a ter um desempenho ruim em níveis mais baixos quando o ajuste fino começa. O equilíbrio entre focar em novas tarefas e manter habilidades antigas leva a uma grande falha no desempenho. Esse esquecimento pode afetar drasticamente a capacidade do agente de se sair bem no geral.
Reconhecendo o Problema do Esquecimento
Podemos descrever o problema do esquecimento em dois casos principais:
- Caso A: Um modelo começa forte em uma parte, mas piora quando é ajustado em outra.
- Caso B: Um modelo é competente apenas nas novas tarefas perto, mas perde habilidades nas tarefas distantes devido à exposição insuficiente durante o ajuste fino.
Ambos os cenários indicam que o esquecimento pode desempenhar um papel substancial em como um agente se sai em RL. É essencial entender que isso não é uma complicação menor; pode prejudicar severamente a capacidade do modelo de utilizar seu treinamento anterior de forma eficaz.
Técnicas de Retenção de Conhecimento
Felizmente, existem diferentes métodos para ajudar um agente a reter conhecimento enquanto se adapta a novas tarefas. Algumas dessas incluem:
Consolidação de Peso Elástico (EWC): Essa técnica ajuda a evitar mudanças significativas nos pesos que o modelo aprendeu a depender em tarefas anteriores. Ao aplicar uma penalidade a mudanças em certos parâmetros do modelo, ela incentiva o modelo a manter suas habilidades anteriores.
Clonagem Comportamental (BC): Essa abordagem envolve treinar o modelo em ações bem-sucedidas anteriores realizadas em tarefas passadas. Ao repetir essas ações, o agente pode reforçar seu conhecimento anterior enquanto aprende novas habilidades.
Reinício (KS): Esse método foca em minimizar diferenças nas ações entre as novas tarefas e o modelo pré-treinado. Ajuda a garantir que o modelo não se desvie muito do que já sabe.
Memória Episódica (EM): Essa técnica mantém um registro de experiências passadas (pares estado-ação-recompensa) durante o treinamento. Ao reforçar essas memórias, os agentes podem transferir seu conhecimento para novas situações de forma mais eficaz.
Usar essas técnicas pode ajudar a gerenciar o problema do esquecimento, permitindo que os agentes mantenham um bom nível de desempenho enquanto se adaptam a novas tarefas.
Análise Experimental
Para testar a eficácia desses métodos, implementamos experimentos em vários ambientes. Por exemplo, exploramos como os modelos se saíram em jogos complexos como NetHack e Montezuma's Revenge. Essas tarefas requerem tomada de decisão inteligente e envolvem vários cenários complexos.
Durante esses testes, focamos em como modelos treinados com métodos de retenção de conhecimento se compararam àqueles que não foram. Os resultados indicaram consistentemente que modelos que utilizam técnicas de retenção de conhecimento superaram aqueles treinados apenas com ajuste fino tradicional.
Por exemplo, no jogo NetHack, onde os jogadores navegam por uma masmorra gerada aleatoriamente, descobrimos que modelos que utilizavam EWC e BC conseguiram manter suas habilidades de níveis anteriores enquanto ainda aprendiam novas estratégias. Notavelmente, os modelos com essas técnicas pontuaram significativamente mais alto do que os sem.
Em Montezuma's Revenge, as recompensas escassas tornaram o aprendizado desafiador, mas mesmo assim, modelos usando BC conseguiram explorar melhor o ambiente e mantiveram suas capacidades por mais tempo do que aqueles treinados sem ela.
A Importância de Escolher a Técnica Certa
Escolher o método certo de retenção de conhecimento é crucial, pois tarefas diferentes podem se beneficiar de abordagens diferentes. Observamos que enquanto BC teve um bom desempenho em alguns ambientes, EWC mostrou melhores resultados em outros. Métodos de retenção de conhecimento devem ser selecionados com base nas características específicas da tarefa em questão.
Por exemplo, em situações de jogos complexos onde as tarefas variam bastante, uma combinação de BC e EWC poderia gerar os melhores resultados. Dessa forma, o agente pode construir seu conhecimento anterior enquanto também aprimora seu desempenho através de novos desafios.
Explorando Mais Cenários
Através de mais explorações, identificamos nuances sobre como variar a estrutura das tarefas afetava o desempenho dos modelos. Por exemplo, quando as tarefas exigiam uma abordagem sequencial, onde cada nova habilidade dependia das anteriormente aprendidas, modelos que mantiveram conhecimento anterior se saíram melhor no geral.
Também observamos que quando as tarefas foram organizadas para exigir que o agente revisitasse habilidades conhecidas após focar em novas, os agentes treinados com métodos de retenção de conhecimento tiveram mais sucesso. As evidências mostraram que, à medida que os agentes encontravam tarefas que já conheciam, seu desempenho melhorava, destacando a importância da experiência anterior.
Conclusão
Em resumo, a capacidade de manter o conhecimento anterior enquanto se adapta a novas tarefas é vital no aprendizado por reforço. O problema do esquecimento apresenta um desafio significativo, mas empregar técnicas como EWC, BC, KS e EM pode melhorar muito os esforços de ajuste fino.
Nossas descobertas mostram que agentes com métodos de retenção de conhecimento implementados consistentemente superam aqueles treinados por ajuste fino tradicional. À medida que o campo do aprendizado por reforço continua a crescer, entender e abordar os desafios do esquecimento será fundamental para melhorar o desempenho e a adaptabilidade dos modelos de RL.
Ao escolher e combinar cuidadosamente as técnicas, profissionais podem aprimorar a transferência de conhecimento entre diferentes tarefas, abrindo caminho para agentes mais avançados e capazes em ambientes cada vez mais complexos.
Título: Fine-tuning Reinforcement Learning Models is Secretly a Forgetting Mitigation Problem
Resumo: Fine-tuning is a widespread technique that allows practitioners to transfer pre-trained capabilities, as recently showcased by the successful applications of foundation models. However, fine-tuning reinforcement learning (RL) models remains a challenge. This work conceptualizes one specific cause of poor transfer, accentuated in the RL setting by the interplay between actions and observations: forgetting of pre-trained capabilities. Namely, a model deteriorates on the state subspace of the downstream task not visited in the initial phase of fine-tuning, on which the model behaved well due to pre-training. This way, we lose the anticipated transfer benefits. We identify conditions when this problem occurs, showing that it is common and, in many cases, catastrophic. Through a detailed empirical analysis of the challenging NetHack and Montezuma's Revenge environments, we show that standard knowledge retention techniques mitigate the problem and thus allow us to take full advantage of the pre-trained capabilities. In particular, in NetHack, we achieve a new state-of-the-art for neural models, improving the previous best score from $5$K to over $10$K points in the Human Monk scenario.
Autores: Maciej Wołczyk, Bartłomiej Cupiał, Mateusz Ostaszewski, Michał Bortkiewicz, Michał Zając, Razvan Pascanu, Łukasz Kuciński, Piotr Miłoś
Última atualização: 2024-07-17 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.02868
Fonte PDF: https://arxiv.org/pdf/2402.02868
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://openai.com/research/procgen-benchmark
- https://nethackwiki.com/wiki/Sokoban
- https://twitter.com/HannesStaerk/status/1751615484091646214?t=79rCkWFRRoIVxm6FuL1LFw&s=19
- https://nethackwiki.com/wiki/Branch
- https://github.com/jcwleo/random-network-distillation-pytorch
- https://pitfallharry.tripod.com/MapRoom/MontezumasRevengeLvl1.html