Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas# Inteligência Artificial

Avançando na Avaliação Off-Policy para Políticas Determinísticas

Um novo método melhora a avaliação de modelos de aprendizado por reforço com políticas determinísticas.

― 5 min ler


Avanço em Aprendizado deAvanço em Aprendizado deMétricas Kerneloff-policy para RL.Novo método melhora a avaliação
Índice

A Avaliação Off-policy (OPE) é um método usado pra avaliar o quão bem um modelo de aprendizado por reforço (RL) consegue performar usando dados históricos coletados de uma política diferente, conhecida como política de comportamento. Isso é importante porque testar agentes de RL de verdade pode ser caro ou arriscado em situações do mundo real, especialmente em áreas sensíveis como saúde e robótica. Um desafio grande aparece quando a gente quer avaliar Políticas Determinísticas, que são regras que sempre escolhem a mesma ação na mesma situação. A maioria dos métodos OPE atuais funcionam melhor com políticas estocásticas, o que resulta em dificuldades com as determinísticas.

Desafios na OPE para Políticas Determinísticas

Avaliar políticas determinísticas usando OPE é complicado por causa da alta variância nos métodos de amostragem de importância. Esses métodos reponderam as recompensas dos dados com base em quão semelhante a política de comportamento era à política alvo. Mas, quando a política de comportamento diverge muito da política alvo, as estimativas podem ser pouco confiáveis. Essa divergência é especialmente evidente em espaços de ação contínuos, onde as ações podem ter uma ampla gama de valores ao invés de um conjunto fixo.

Os avanços mais recentes nessa área usam uma técnica conhecida como amostragem de importância marginalizada (MIS), que tenta estabilizar as estimativas criando uma razão de distribuições. Embora essa abordagem reduza um pouco da variância, ainda tem dificuldades com políticas determinísticas. Há uma necessidade urgente de novos métodos que consigam avaliar efetivamente políticas que sempre fornecem a mesma ação em uma determinada situação.

Método: Aprendizado de Métricas por Kernel

Pra enfrentar esses desafios, foi introduzido um novo método chamado Aprendizado de Métricas por Kernel para Avaliação de Q Ajustada em Amostra. Esse método tem como objetivo melhorar a avaliação off-policy especificamente para políticas determinísticas em espaços de ação contínuos. A ideia principal por trás dessa abordagem é relaxar a política alvo determinística usando um kernel. Permitindo um pouco de flexibilidade, conseguimos aprender métricas que minimizam os erros gerais nas nossas estimativas.

O método opera em duas fases. Primeiro, ele calcula o Erro Quadrático Médio (MSE) das estimativas feitas sob essa política relaxada pra encontrar a melhor forma de minimizar os erros. A partir disso, derivamos a largura de banda ideal, que é uma medida de quanto podemos relaxar a política sem introduzir muito erro. Depois, derivamos a forma métrica ideal que pode reduzir o viés causado por esse relaxamento.

A Importância da Análise de Erros

Entender os diferentes tipos de erros nas estimativas é chave pra melhorar a performance desse método. Os dois tipos de erros que nos preocupamos são viés e variância. O viés se refere ao erro introduzido ao aproximar a situação real, enquanto a variância mede o quanto as estimativas podem mudar com amostras diferentes. Um bom método de avaliação deve equilibrar os dois, reduzindo o viés enquanto controla a variância.

O método também inclui etapas pra analisar esses erros e garantir que a função Q, que ajuda a estimar o valor das ações, seja o mais precisa possível. Derivando limites nos erros, conseguimos verificar que nossas avaliações vão refletir de forma confiável o desempenho da política alvo.

Validação Empírica

Pra garantir que esse novo método funcione bem, vários testes foram feitos usando diversos ambientes. Primeiro, um cenário simples, Pendulum-v0, foi ajustado pra incluir dimensões de ação fictícias que não estavam relacionadas ao desempenho real. Isso permitiu que os pesquisadores vissem se o novo método conseguia distinguir entre ações úteis e irrelevantes.

Nesse cenário, os resultados mostraram que o novo método aprendeu a ignorar as ações fictícias enquanto ainda estimava valores com precisão para as ações relevantes. As melhorias no desempenho confirmaram que o método reduz efetivamente o viés e a variância como pretendido.

O mesmo método também foi testado em ambientes mais complexos, especificamente o MuJoCo, que envolve movimentos e interações mais intricadas. Aqui, o novo método mostrou melhorias consistentes em relação às técnicas existentes, especialmente ao avaliar políticas determinísticas.

Por fim, testes em conjuntos de dados amostrados de várias políticas de comportamento demonstraram que o método manteve o desempenho mesmo com dados coletados de políticas de diferentes qualidades.

Conclusão

A introdução do Aprendizado de Métricas por Kernel para Avaliação de Q Ajustada em Amostra marca um passo importante na avaliação off-policy, particularmente para políticas determinísticas em espaços de ação contínuos. Ao abordar as limitações dos métodos anteriores, essa nova abordagem permite uma avaliação mais confiável das políticas enquanto controla potenciais erros. Os resultados empíricos destacam sua eficácia em diferentes ambientes, tornando-se uma ferramenta valiosa pra futuras pesquisas e aplicações em aprendizado por reforço.

Fonte original

Título: Kernel Metric Learning for In-Sample Off-Policy Evaluation of Deterministic RL Policies

Resumo: We consider off-policy evaluation (OPE) of deterministic target policies for reinforcement learning (RL) in environments with continuous action spaces. While it is common to use importance sampling for OPE, it suffers from high variance when the behavior policy deviates significantly from the target policy. In order to address this issue, some recent works on OPE proposed in-sample learning with importance resampling. Yet, these approaches are not applicable to deterministic target policies for continuous action spaces. To address this limitation, we propose to relax the deterministic target policy using a kernel and learn the kernel metrics that minimize the overall mean squared error of the estimated temporal difference update vector of an action value function, where the action value function is used for policy evaluation. We derive the bias and variance of the estimation error due to this relaxation and provide analytic solutions for the optimal kernel metric. In empirical studies using various test domains, we show that the OPE with in-sample learning using the kernel with optimized metric achieves significantly improved accuracy than other baselines.

Autores: Haanvid Lee, Tri Wahyu Guntara, Jongmin Lee, Yung-Kyun Noh, Kee-Eung Kim

Última atualização: 2024-05-29 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.18792

Fonte PDF: https://arxiv.org/pdf/2405.18792

Licença: https://creativecommons.org/licenses/by-sa/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes