Aprendizado Seguro em Sistemas de Reforço
Uma abordagem inovadora para a coleta eficiente de feedback em aprendizado por reforço para segurança.
― 11 min ler
Índice
- Contexto
- Visão Geral do Método
- Processo de Coleta de Feedback
- Inferindo a Função de Custo
- Amostragem Eficiente
- Melhoria da Política com Custo Inferido
- Avaliação Experimental
- Cenários de Direção
- Transferibilidade de Custo
- Comparação com Outros Métodos
- Limitações e Trabalhos Futuros
- Conclusão
- Fonte original
- Ligações de referência
Aprendizado por Reforço (RL) é um método utilizado em aprendizado de máquina onde um agente aprende como se comportar em um ambiente ao tomar ações e receber Feedback dessas ações. Um dos principais focos do RL é a segurança, especialmente em situações onde erros podem ser prejudiciais, como em carros autônomos. Uma abordagem comum em RL seguro é adicionar uma Função de Custo. Essa função de custo é separada da função de recompensa, que orienta o agente em direção a comportamentos desejáveis.
No entanto, criar e testar uma função de custo pode ser muito complexo e caro. Por exemplo, se pensarmos em carros autônomos, é difícil criar uma função de custo que abranja efetivamente todos os comportamentos perigosos, uma vez que precisa considerar vários fatores, como outros carros e pedestres. Para facilitar isso, o feedback pode ser coletado durante o treinamento, seja de uma máquina ou de um observador humano. Os métodos tradicionais de coleta de feedback não se adaptaram bem a ambientes mais complexos e frequentemente dependem de obter feedback de cada estado individual, o que não é prático.
Nós propomos uma nova abordagem que pode lidar com situações mais complexas e pode coletar feedback não apenas de estados individuais, mas também de Trajetórias, ou sequências de ações tomadas pelo agente. Isso reduz o esforço necessário do avaliador. No entanto, descobrir quais ações ou estados individuais creditar a um resultado particular é um desafio ao usar feedback de trajetórias inteiras em vez de estados individuais.
Para resolver isso, criamos um método que simplifica o processo transformando-o em uma tarefa de classificação mais gerenciável. Além disso, abordamos outro desafio ao determinar quais trajetórias valem a pena mostrar ao avaliador e quantas delas são necessárias para um aprendizado eficaz. Nosso método consulta seletivamente o avaliador apenas quando o agente encontra novas situações, o que torna a coleta de feedback mais eficiente.
Em nossos experimentos, demonstramos a eficácia de nosso método usando vários benchmarks em ambientes seguros e cenários de direção autônoma. No geral, descobrimos que nossa abordagem pode ter um desempenho quase tão bom quanto quando a função de custo é conhecida, utilizando apenas feedback de trajetórias inteiras, o que enfatiza tanto sua eficácia quanto eficiência.
Contexto
O Aprendizado por Reforço é particularmente útil para aprender de forma segura, pois cria Políticas para agentes que podem atuar em ambientes incertos e potencialmente perigosos. O desafio está em projetar recompensas e custos que realmente reflitam a segurança. Em tarefas relacionadas à segurança, uma função de custo pode ser adicionada para ajudar a orientar o agente longe de ações perigosas.
Por exemplo, em um sistema de direção autônoma, a função de recompensa poderia ser baseada em quão rapidamente o agente chega ao seu destino. No entanto, criar uma função de custo para penalizar ações inseguras, como excesso de velocidade ou mudanças de faixa agressivas, é complicado. A tarefa requer um entendimento abrangente de muitas variáveis, incluindo os comportamentos de outros carros e obstáculos. Um caminho mais fácil poderia ser aprender essa função de custo por meio de feedback.
O feedback pode vir de um avaliador humano ou de um sistema automatizado que avalia as ações do agente. O objetivo geral é coletar esse feedback sem sobrecarregar o avaliador com muitos pedidos, tornando o processo mais eficiente.
Visão Geral do Método
Nós propomos um método chamado Aprendizado por Reforço a partir de Feedback de Segurança (RLSF), que é projetado para coletar feedback sobre a segurança das ações do agente de forma eficaz. Nossa abordagem possui várias características principais:
Feedback em horizontes mais longos: Em vez de apenas olhar para pares de estado-ação individuais, coletamos feedback ao longo de sequências mais longas (trajetórias). O feedback é categorizado como seguro ou inseguro com base na presença de estados inseguros dentro de cada segmento da trajetória.
Amostragem baseada em novidade: Selecionamos quais trajetórias mostrar ao avaliador com base no fato de apresentarem situações novas. Isso significa que pedimos feedback apenas sobre novas experiências, o que ajuda a reduzir a quantidade total de feedback necessário.
Valores de custo binários: Nossa abordagem simplifica o processo de feedback utilizando valores de custo binários, onde ações ou estados são classificados como seguros (0) ou inseguros (1). Esse método facilita para avaliadores humanos fornecerem feedback.
Melhoria eficiente da política: Uma vez que o feedback é coletado, utilizamos isso para inferir a função de custo e melhorar a política do agente, tornando-a mais segura e eficiente.
Processo de Coleta de Feedback
O método RLSF começa coletando feedback durante o processo de treinamento. O avaliador é apresentado com trajetórias inteiras, que são então divididas em segmentos para os quais o feedback é coletado. Isso significa que os avaliadores não precisam inspecionar cada estado individual, mas podem se concentrar em segmentos de ações, tornando o processo menos demorado e mais eficaz.
Após a coleta de feedback, os segmentos são rotulados como seguros ou inseguros. Um segmento é considerado inseguro se contiver qualquer estado inseguro. Essa classificação clara permite um feedback consistente do avaliador e reduz a ambiguidade.
Inferindo a Função de Custo
Uma vez obtido o feedback, ele é usado para estimar a função de custo subjacente com base nas respostas do avaliador. O feedback indica se determinados segmentos das trajetórias são seguros ou não. O desafio reside em estimar com precisão a função de custo sem o risco de fazer suposições ruins devido a feedback incompleto ou ruidoso.
Para lidar com isso, processamos eficientemente o feedback para transformar a tarefa em um problema de classificação binária supervisionada. Em vez de avaliar o segmento inteiro, analisamos estados individuais dentro dos segmentos. Ao utilizar amostragem aleatória e minimizar a perda de entropia cruzada binária, conseguimos classificar estados corretamente, mesmo quando enfrentamos rótulos ruidosos.
Essa transformação nos permite transformar um problema de aprendizado potencialmente complexo em uma tarefa de classificação mais simples, tornando mais fácil inferir a função de custo.
Amostragem Eficiente
Uma parte importante de nossa abordagem é reduzir o número de consultas feitas ao avaliador. Fazemos isso através de uma abordagem de amostragem baseada em novidade. Avaliamos se uma trajetória contém estados novos em comparação com aqueles já vistos. Se a trajetória incluir novos estados, ela é apresentada ao avaliador para feedback.
Essa estratégia reduz a quantidade total de tempo que o avaliador precisa gastar fornecendo feedback, uma vez que nos concentramos apenas nas situações que provavelmente gerarão insights valiosos sobre o comportamento do agente. À medida que o agente aprende e explora seu ambiente, o número de trajetórias novas geralmente diminui, o que reduz naturalmente a carga de feedback sobre o avaliador ao longo do tempo.
Melhoria da Política com Custo Inferido
Após coletar e inferir a função de custo, o próximo passo é usar essas informações para melhorar a política do agente. A política informa ao agente como agir no ambiente para maximizar recompensas enquanto minimiza custos. A função de custo inferida atua como uma diretriz, orientando o agente longe de comportamentos inseguros enquanto ainda permite que ele busque recompensas.
Demonstramos nosso método utilizando um algoritmo de aprendizado por reforço popular, conhecido como Otimização de Política Proximal (PPO), combinado com uma técnica que assegura segurança através da função de custo. Essa combinação permite que o agente aprenda comportamentos seguros e eficazes em vários ambientes.
Avaliação Experimental
Para validar a eficácia de nosso método proposto, realizamos vários experimentos em diferentes ambientes que testam a segurança em diferentes cenários. Estes incluem ambientes de um conjunto de benchmarks bem conhecidos para aprendizado por reforço seguro, como o Safety Gymnasium.
Nesses experimentos, medimos tanto o desempenho do agente (em termos de recompensas obtidas) quanto sua segurança (em termos de violações de custo). Comparamos o desempenho do RLSF contra vários métodos de linha de base, incluindo aqueles que usam estratégias tradicionais de coleta de feedback e aqueles que tentam aprender a partir de demonstrações de especialistas.
Nossos resultados indicam que o RLSF supera os métodos de linha de base, alcançando consistentemente altas recompensas enquanto minimiza violações de custo. Em muitos ambientes, ele se aproxima do desempenho de agentes que têm acesso a uma função de custo conhecida, destacando a eficácia de nossa abordagem.
Cenários de Direção
Uma das principais aplicações de nosso método é o aprendizado de políticas seguras para carros autônomos. Realizamos experimentos em um ambiente de direção simulado, onde o agente teve que navegar enquanto evitava colisões e respeitando restrições de segurança.
Nesses cenários de direção, o agente recebia recompensas por navegar com sucesso e incorria em custos por ações inseguras, como sair da estrada ou se aproximar de outros carros de forma inadequada. Nossos resultados indicam que o método RLSF ensina efetivamente o agente a tomar decisões mais seguras em situações de direção complexas, com desempenho comparável a métodos tradicionais que utilizam uma função de custo conhecida.
Transferibilidade de Custo
Outra contribuição significativa de nosso trabalho é a capacidade de transferir a função de custo inferida entre diferentes agentes. Demonstramos que um agente treinado em uma determinada tarefa poderia utilizar a função de custo aprendida de outro agente para treinar do zero, sem precisar de mais feedback.
Isso mostra a flexibilidade e a utilidade da função de custo inferida, enfatizando sua aplicação mais ampla além de um único agente ou tarefa. A função de custo transferida permitiu que o novo agente performasse comparavelmente a aqueles treinados com custos conhecidos, mostrando o potencial para eficiência e escalabilidade no aprendizado por reforço seguro.
Comparação com Outros Métodos
Ao longo de nossos experimentos, comparamos nossa estratégia de amostragem baseada em novidade com vários outros métodos usados na literatura. Esses incluíam métodos que dependem de amostragem aleatória ou cronogramas fixos para coleta de feedback.
Os resultados ilustraram que nossa abordagem baseada em novidade consistentemente superou essas alternativas, não apenas em termos de eficiência, mas também na qualidade do feedback coletado. Ao nos concentrar em situações novas, nosso método garantiu que os avaliadores estivessem engajados de maneiras significativas, resultando em melhores resultados de aprendizado para o agente.
Limitações e Trabalhos Futuros
Embora nosso método tenha mostrado resultados promissores, há limitações a serem consideradas. Em alguns ambientes, coletar feedback em nível de estado ainda é necessário, o que pode levar a ineficiências se os avaliadores humanos se tornarem sobrecarregados. Pesquisas futuras poderiam se concentrar em explorar maneiras de reduzir ainda mais a carga ou desenvolver proxies para feedback que minimizem a necessidade de input humano.
Além disso, enquanto nossa abordagem enfatiza a segurança, ela também levanta questões sobre responsabilidade e confiança em sistemas autônomos. À medida que esses sistemas se tornam mais integrados à vida cotidiana, é essencial abordar essas preocupações éticas diretamente.
Conclusão
Em resumo, apresentamos uma abordagem abrangente para o aprendizado por reforço que enfatiza a segurança por meio da coleta eficiente de feedback e inferência de custo. Ao utilizar feedback de trajetórias mais longas e uma estratégia de amostragem baseada em novidade, nosso método reduz efetivamente a carga sobre avaliadores humanos enquanto mantém resultados de aprendizado robustos.
Nossos resultados positivos em vários ambientes, incluindo cenários de direção autônoma, destacam o potencial dessa abordagem para melhorar a segurança em aplicações complexas de aprendizado por reforço. À medida que continuamos a desenvolver e refinar esses métodos, existe grande promessa na implementação de aprendizado por reforço seguro em contextos do mundo real.
Título: Safety through feedback in Constrained RL
Resumo: In safety-critical RL settings, the inclusion of an additional cost function is often favoured over the arduous task of modifying the reward function to ensure the agent's safe behaviour. However, designing or evaluating such a cost function can be prohibitively expensive. For instance, in the domain of self-driving, designing a cost function that encompasses all unsafe behaviours (e.g. aggressive lane changes) is inherently complex. In such scenarios, the cost function can be learned from feedback collected offline in between training rounds. This feedback can be system generated or elicited from a human observing the training process. Previous approaches have not been able to scale to complex environments and are constrained to receiving feedback at the state level which can be expensive to collect. To this end, we introduce an approach that scales to more complex domains and extends to beyond state-level feedback, thus, reducing the burden on the evaluator. Inferring the cost function in such settings poses challenges, particularly in assigning credit to individual states based on trajectory-level feedback. To address this, we propose a surrogate objective that transforms the problem into a state-level supervised classification task with noisy labels, which can be solved efficiently. Additionally, it is often infeasible to collect feedback on every trajectory generated by the agent, hence, two fundamental questions arise: (1) Which trajectories should be presented to the human? and (2) How many trajectories are necessary for effective learning? To address these questions, we introduce \textit{novelty-based sampling} that selectively involves the evaluator only when the the agent encounters a \textit{novel} trajectory. We showcase the efficiency of our method through experimentation on several benchmark Safety Gymnasium environments and realistic self-driving scenarios.
Autores: Shashank Reddy Chirra, Pradeep Varakantham, Praveen Paruchuri
Última atualização: 2024-11-05 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.19626
Fonte PDF: https://arxiv.org/pdf/2406.19626
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.