Adaptando Aprendizado por Reforço com Feedback Humano
Esse método personaliza sistemas ao integrar as preferências dos usuários por meio da fusão dinâmica de políticas.
Ajsal Shereef Palattuparambil, Thommen George Karimpanal, Santu Rana
― 7 min ler
Índice
Aprendizado por reforço profundo (RL) é uma ferramenta poderosa usada em várias áreas, como jogos, robôs e carros autônomos. Esses sistemas aprendem a realizar tarefas recebendo recompensas; quanto mais recompensas eles ganham, melhor eles se saem. Mas um desafio aparece quando esses sistemas não estão alinhados com o que os humanos preferem. Por exemplo, um sistema de navegação que foca na rota mais rápida pode ignorar caminhos cênicos ou evitar pedágios, que alguns usuários podem preferir.
Uma forma de resolver esse problema é re-treinar o sistema de RL usando uma nova função de recompensa que considere as preferências pessoais do usuário. Infelizmente, criar essa função de recompensa pode ser difícil, e re-treinar o agente do zero pode ser demorado e caro. Em vez de começar tudo de novo, sugerimos uma abordagem mais eficaz: modificar o sistema já treinado para se adequar melhor às necessidades do usuário ouvindo o Feedback humano.
O método que propomos coleta feedback sobre as Preferências do Usuário com base nas ações dele. Esse feedback nos permite fundir o sistema focado na tarefa inicial com as preferências específicas do usuário de forma dinâmica. Isso significa que podemos adaptar o sistema pré-treinado sem precisar de novas interações com o ambiente a cada vez, tornando tudo mais eficiente.
Como o Sistema Funciona
No começo, o sistema de RL aprende por meio de interações regulares com o ambiente para realizar uma tarefa de forma eficiente. Mas o que acontece depois que ele aprende essa tarefa? Se um usuário desejar um foco diferente que não esteja alinhado com o comportamento atual do sistema, precisamos ajustar suas ações com base no feedback do usuário.
É aí que entra o feedback em nível de trajetória. Quando o sistema realiza uma tarefa, os caminhos que ele percorre, ou as trajetórias, podem ser avaliados. Por exemplo, se o usuário prefere uma rota cênica, podemos avaliar as rotas tomadas com base em quão bem elas se encaixam nessa preferência. Esses dados de feedback são então usados para entender a intenção específica do usuário e modificar o sistema de acordo.
O Conceito de Fusão de Políticas
Para alcançar a personalização, precisamos combinar dois tipos de políticas. A primeira política é específica para a tarefa, que foca apenas em completar a tarefa. A segunda política é específica para a intenção, moldada pelas preferências do usuário para respeitar o que ele deseja do processo.
Unir essas duas políticas cria uma política personalizada que pode realizar a tarefa enquanto também respeita as preferências humanas. O desafio é garantir que a política personalizada não se desvie muito da política original focada na tarefa. Desenvolvemos um método que mantém quaisquer mudanças dentro de um certo limite.
Limitações da Fusão de Políticas Estática
Um método inicial para combinar essas políticas é chamado de fusão de políticas estática. Isso significa que, uma vez que as duas políticas são combinadas, elas permanecem fixas. No entanto, percebemos que isso pode levar uma política a ofuscar a outra. Por exemplo, em uma tarefa de navegação, se o usuário quer visitar um local específico enquanto ignora a rota mais rápida, a fusão estática pode fazer com que o sistema continue retornando a esse ponto, perdendo de vista o objetivo de chegar ao destino.
Para evitar esses problemas, introduzimos um método mais dinâmico para combinar políticas. Em vez de uma solução única para todos, essa abordagem permite ajustes com base em quão bem a política personalizada está seguindo as preferências do usuário em relação a completar a tarefa.
Fusão de Políticas Dinâmica: A Abordagem Interativa
Na fusão de políticas dinâmica, o equilíbrio entre as políticas de tarefa e de preferência é ajustado em tempo real. Quando o feedback indica que a política específica da intenção está sendo priorizada demais, podemos diminuir sua influência. Por outro lado, se parecer que ela está sendo negligenciada, podemos amplificar seu efeito.
Esse método funciona usando um parâmetro de temperatura. Quando o feedback indica forte adesão às preferências do usuário, a temperatura é aumentada, o que torna as ações mais uniformes, reduzindo a influência específica da intenção. Quando o oposto ocorre, a temperatura é diminuída, destacando as preferências do usuário mais claramente no processo de tomada de decisão.
Ambientes Usados Para Testes
Para nossos testes, trabalhamos com três ambientes diferentes: um ambiente de navegação 2D simples, um jogo de Pong e um cenário de direção em rodovia. Cada ambiente apresentou desafios únicos para a conclusão da tarefa e a preferência do usuário.
Ambiente de Navegação 2D
No ambiente de navegação 2D, o objetivo é chegar a um alvo enquanto evita certas áreas indesejadas e visita locais desejados específicos. Aqui, o sistema navega com base em entradas visuais e recebe recompensas por alcançar o alvo e penalidades por entrar em áreas indesejadas.
Jogo de Pong
No Pong, o sistema controla uma das raquetes. O objetivo é ganhar o jogo marcando pontos, mas também há uma preferência do usuário para que a raquete esteja posicionada em uma certa área da tela. Isso acrescenta complexidade, já que marcar pontos e atender à preferência do usuário podem entrar em conflito.
Cenário de Direção em Rodovia
O cenário da rodovia envolve navegar pelo tráfego. O sistema deve tomar decisões sobre mudanças de faixa enquanto tenta maximizar a velocidade e evitar colisões. Aqui, as preferências do usuário podem incluir evitar certas faixas ou preferir certas velocidades.
Desempenho do Método Proposto
Comparamos nossa abordagem de fusão de políticas dinâmica com vários métodos de base, incluindo fusão estática e técnicas simples de aprendizado por reforço. Em nossos experimentos, constatamos consistentemente que a fusão de políticas dinâmica superou os métodos estáticos, especialmente em cenários onde as preferências do usuário eram críticas.
Na tarefa de navegação 2D, um método de fusão dinâmica não apenas atingiu a tarefa pretendida, mas também respeitou as preferências do usuário sem sobrecarregar o objetivo principal. Os resultados mostraram que a fusão estática muitas vezes fazia o sistema favorecer as preferências do usuário em detrimento da tarefa, enquanto nosso método manteve uma abordagem mais equilibrada.
Padrões de desempenho semelhantes apareceram nos ambientes da rodovia e do Pong, garantindo que a fusão dinâmica permitiu aderir às necessidades do usuário sem comprometer severamente os resultados da tarefa.
Conclusão
Nossa exploração da fusão de políticas dinâmica mostrou resultados promissores na personalização de sistemas de RL pré-treinados para se alinhar melhor com as preferências dos usuários. Ao permitir ajustes com base em feedback real em vez de re-treinamento do zero, esse método é tanto eficiente quanto prático para aplicações do mundo real.
À medida que a personalização se torna cada vez mais importante na tecnologia, abordagens como a nossa podem levar a melhores experiências do usuário em várias áreas, como chatbots, carros autônomos e assistentes robóticos. Melhorias futuras poderiam envolver a adaptação às mudanças nas preferências humanas ao longo do tempo, explorando ambientes mais complexos e aprimorando a robustez de nossa abordagem contra a variabilidade do feedback.
Em resumo, a fusão de políticas dinâmica é um passo crucial para tornar sistemas inteligentes mais sintonizados com as necessidades individuais, garantindo uma interação mais fluida entre máquinas e humanos em várias tarefas.
Título: Personalisation via Dynamic Policy Fusion
Resumo: Deep reinforcement learning (RL) policies, although optimal in terms of task rewards, may not align with the personal preferences of human users. To ensure this alignment, a naive solution would be to retrain the agent using a reward function that encodes the user's specific preferences. However, such a reward function is typically not readily available, and as such, retraining the agent from scratch can be prohibitively expensive. We propose a more practical approach - to adapt the already trained policy to user-specific needs with the help of human feedback. To this end, we infer the user's intent through trajectory-level feedback and combine it with the trained task policy via a theoretically grounded dynamic policy fusion approach. As our approach collects human feedback on the very same trajectories used to learn the task policy, it does not require any additional interactions with the environment, making it a zero-shot approach. We empirically demonstrate in a number of environments that our proposed dynamic policy fusion approach consistently achieves the intended task while simultaneously adhering to user-specific needs.
Autores: Ajsal Shereef Palattuparambil, Thommen George Karimpanal, Santu Rana
Última atualização: 2024-10-02 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2409.20016
Fonte PDF: https://arxiv.org/pdf/2409.20016
Licença: https://creativecommons.org/publicdomain/zero/1.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.