Avançando o Clonagem Comportamental com Métodos Baseados em Busca
Nova abordagem melhora a adaptabilidade dos agentes em ambientes complexos.
― 9 min ler
Índice
- Declaração do Problema
- Espaço Latente
- Motivação para o Estudo
- Clonagem Comportamental Baseada em Busca (S-BC)
- Trabalhos Relacionados
- Nossa Abordagem
- Clonagem Comportamental Baseada em Busca Explicada
- Visão Geral do Experimento
- Avaliação de Desempenho
- Situações Únicas e Variabilidade de Desempenho
- Visualização do Espaço Latente
- Conclusão
- Fonte original
- Ligações de referência
Clonagem comportamental é um método onde um agente aprende a realizar tarefas observando demonstrações de especialistas. Ele se baseia em um conjunto de dados dessas demonstrações para criar uma política comportamental. No entanto, existem desafios em aprender e adaptar essa política, especialmente quando enfrenta novas situações. Este artigo discute uma nova abordagem chamada clonagem comportamental baseada em busca (S-BC), que ajuda um agente a aprender com experiências passadas de um jeito mais eficaz.
Declaração do Problema
A clonagem comportamental geralmente enfrenta alguns problemas. Primeiro, costuma precisar de bastante poder computacional para treinar os modelos. Segundo, quando um agente encontra novas situações, muitas vezes precisa ser retrainado, o que consome tempo. Terceiro, há um problema de adaptabilidade-os agentes geralmente não conseguem se ajustar rapidamente a novas tarefas sem treinamento adicional. Muitos estudos estão analisando esses desafios em áreas como processamento de linguagem e reconhecimento de imagem, mas ainda há muito trabalho pela frente. Encontrar novas maneiras de treinar agentes poderia ajudar a resolver esses problemas, especialmente em situações específicas.
Espaço Latente
Um espaço latente multimodal pode medir a semelhança entre diferentes situações. Uma maneira comum de criar esse espaço é através de técnicas como aprendizado contrastivo e aprendizado supervisionado. No aprendizado supervisionado, as últimas camadas de um modelo podem ser usadas para formar esse espaço latente multimodal. Para Tarefas de Controle, tal espaço conecta as experiências visuais com as ações mostradas pelos especialistas. Buscar dentro deste espaço pode fornecer ao agente as ações necessárias para executar em situações reais. Esse método pode ajudar a enfrentar os principais desafios da clonagem comportamental.
Motivação para o Estudo
Este estudo é motivado por um desafio envolvendo um jogo chamado Minecraft. Nesse desafio, um agente precisa completar quatro tarefas: encontrar uma caverna, construir um cercado para animais, construir uma casa de vila e criar uma cachoeira. As tarefas não têm uma função de recompensa, o que torna a Avaliação baseada no julgamento humano necessária. Contratantes humanos avaliam o sucesso do agente e quão próximo ele se aproxima do comportamento humano. Os participantes tinham acesso a demonstrações de especialistas dessas tarefas.
A maneira mais simples de resolver as tarefas seria através da clonagem comportamental. No entanto, essa abordagem é limitada pelas demonstrações de especialistas disponíveis para treinamento. Os agentes enfrentam diferentes situações durante o jogo, onde algumas podem envolver evitar obstáculos enquanto outras exigem a busca por locais. Situações diferentes exigem ações diferentes para ter sucesso.
Clonagem Comportamental Baseada em Busca (S-BC)
Para lidar com as limitações da clonagem comportamental tradicional, introduzimos a clonagem comportamental baseada em busca. Essa abordagem cria um espaço latente usando as trajetórias dos especialistas, que captura tanto experiências atuais quanto passadas, e reformula a tarefa como um problema de busca. Ao procurar a situação mais próxima no conjunto de trajetórias dos especialistas, a S-BC permite que o agente se adapte às condições que enfrenta durante a avaliação.
O modelo que usamos para este estudo processa entradas visuais através de um IMPALA CNN, passando a informação por cabeçotes de transformadores para prever ações com base no estado atual do agente. O mecanismo de busca rastreia a distância entre a situação atual e uma situação de referência. Se a distância exceder um limite, uma nova busca ocorre para encontrar uma situação de referência mais adequada.
Trabalhos Relacionados
A clonagem comportamental tem sido eficaz em várias tarefas de controle, incluindo direção autônoma e jogos. Apesar de sua popularidade devido à simplicidade, ela enfrenta vários problemas, como confusão entre causa e efeito, e mudanças na distribuição de situações. Outros métodos como aprendizado por reforço inverso e aprendizado adversarial generativo têm sido propostos para abordar essas preocupações, mas muitas vezes requerem significativos recursos computacionais e são difíceis de treinar para problemas complexos.
Um modelo recentemente introduzido chamado Video Pre-Training (VPT) serve como base para a clonagem comportamental. Esse modelo foi treinado com uma quantidade substancial de conteúdo em vídeo disponível online, permitindo que ele realize tarefas simples sem extensa ajuste fino ou aprendizado por reforço.
Nossa Abordagem
Nosso objetivo é enfrentar um problema desafiador dentro do Minecraft, onde não são fornecidas recompensas explícitas. Os únicos dados disponíveis são um conjunto de Trajetórias de Especialistas que demonstram como completar uma tarefa específica. A ideia principal por trás do nosso método é tratar o problema de controle como um problema de busca sobre essas demonstrações.
Nós utilizamos um modelo VPT pré-treinado para codificar situações em um espaço latente. O modelo usado para este estudo está acessível através de um repositório público e vem em três versões com pesos variados.
Clonagem Comportamental Baseada em Busca Explicada
A S-BC recupera experiências passadas relevantes das demonstrações de especialistas para resolver problemas de controle. Uma situação é definida como um conjunto de pares de observação-ação consecutivos. Usando VPT, extraímos embeddings de um subconjunto do conjunto de dados de demonstração. Esses embeddings criam um espaço latente multidimensional que a S-BC explora. A suposição de que os especialistas agiram otimamente em suas situações ajuda a garantir que o agente aprenda com ações eficazes.
Durante o teste, a situação atual também é passada pelo VPT, e a S-BC busca o embedding mais próximo no espaço latente. A similaridade é medida usando a distância L1. As ações da situação selecionada são copiadas. À medida que o agente avança, as distâncias entre situações atuais e de referência são recalculadas. Se elas divergirem ao longo do tempo, uma nova busca é acionada.
A S-BC é projetada para operar mais rápido do que métodos tradicionais, como o ajuste fino de um agente baseado em VPT ou o uso de técnicas de aprendizado por reforço. Cada observação do ambiente do Minecraft é codificada através do VPT, e se a situação atual divergir da referência, uma nova situação adequada é selecionada.
Visão Geral do Experimento
O conjunto de dados usado para nossos experimentos consiste em 5466 trajetórias de especialistas da competição MineRL BASALT. Cada trajetória inclui pares de imagem-ação representando um único episódio onde um especialista humano completou uma tarefa. Nosso estudo foca em um pequeno subconjunto dessas demonstrações. Também coletamos trajetórias adicionais de especialistas para as tarefas MineDojo.
A avaliação da S-BC envolve compará-la com outros modelos de ponta no domínio do Minecraft. Cada modelo é ajustado com os dados coletados, e também treinamos um modelo de aprendizado por imitação adversarial generativa (GAIL) para aumentar a eficiência do treinamento, reduzindo a complexidade do espaço de observação. Várias tarefas do framework MineDojo servem como benchmarks para o desempenho do nosso modelo.
Avaliação de Desempenho
Avaliaremos a S-BC em comparação com vários modelos usando resultados numéricos do framework MineDojo. As tarefas se dividem em duas categorias: tarefas de verdade, que têm objetivos bem definidos, e tarefas criativas, que não têm. O processo de avaliação inclui medir taxas de sucesso e tempos de conclusão das tarefas.
Para tarefas específicas, como combate e colheita, a S-BC geralmente performa no mesmo nível ou melhor que outros modelos. Notavelmente, a S-BC conseguiu completar tarefas de combate enquanto outros modelos tiveram dificuldades. Completando as tarefas de colheita, a S-BC mostra apenas uma leve queda no desempenho em comparação com modelos de aprendizado significativamente maiores. Em situações onde o GAIL não conseguiu realizar nenhuma das tarefas, a S-BC demonstrou vantagens claras.
Situações Únicas e Variabilidade de Desempenho
O processo de avaliação também considera situações únicas encontradas durante o jogo. Por exemplo, agentes podem entrar numa caverna, mas falhar em passar tempo suficiente lá dentro para serem considerados bem-sucedidos. Avaliações manuais identificam essas instâncias não padronizadas.
Além disso, examinamos como o número de trajetórias de especialistas impacta o desempenho da S-BC. Essa análise ilustra como o modelo pode ter dificuldades com poucas trajetórias devido à falta de dados e conhecimento para navegar nas complexidades. Aumentar o número de trajetórias melhora significativamente a capacidade da S-BC.
Visualização do Espaço Latente
Para entender melhor nossa abordagem, visualizamos o espaço latente usado pela S-BC. A representação t-SNE nos permite observar e analisar a posição de diferentes quadros, especialmente aqueles que indicam cavernas versus quadros de exploração. Essa visualização revela como o agente navega pelo espaço e reage a diferentes situações.
Conclusão
Introduzimos a clonagem comportamental baseada em busca, um método inovador que utiliza experiências passadas de especialistas para enfrentar problemas de controle enfrentados por agentes. Nossos experimentos demonstram que a S-BC performa de forma similar ou melhor que modelos existentes. Esse método requer menos tempo de treinamento e permite aprendizado com poucas amostras, mantendo a capacidade de lidar com tarefas multi-habilidade de forma eficaz.
Com a S-BC, os agentes conseguem imitar comportamentos semelhantes aos humanos enquanto completam tarefas complexas em ambientes como o Minecraft. Os resultados da avaliação indicam que nossa abordagem pode igualar ou superar o desempenho de métodos estabelecidos sem a necessidade de treinamento extensivo ou ajuste fino.
À medida que continuamos a aprimorar esse método, o potencial para aplicações práticas em várias áreas se torna mais evidente, abrindo caminho para agentes mais eficientes e adaptáveis tanto em ambientes simulados quanto no mundo real.
Título: Behavioral Cloning via Search in Embedded Demonstration Dataset
Resumo: Behavioural cloning uses a dataset of demonstrations to learn a behavioural policy. To overcome various learning and policy adaptation problems, we propose to use latent space to index a demonstration dataset, instantly access similar relevant experiences, and copy behavior from these situations. Actions from a selected similar situation can be performed by the agent until representations of the agent's current situation and the selected experience diverge in the latent space. Thus, we formulate our control problem as a search problem over a dataset of experts' demonstrations. We test our approach on BASALT MineRL-dataset in the latent representation of a Video PreTraining model. We compare our model to state-of-the-art Minecraft agents. Our approach can effectively recover meaningful demonstrations and show human-like behavior of an agent in the Minecraft environment in a wide variety of scenarios. Experimental results reveal that performance of our search-based approach is comparable to trained models, while allowing zero-shot task adaptation by changing the demonstration examples.
Autores: Federico Malato, Florian Leopold, Ville Hautamaki, Andrew Melnik
Última atualização: 2023-06-15 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2306.09082
Fonte PDF: https://arxiv.org/pdf/2306.09082
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.