Simple Science

Ciência de ponta explicada de forma simples

# Informática# Robótica# Interação Homem-Computador# Aprendizagem de máquinas

Melhorando o Movimento dos Robôs com Feedback Humano

Um novo método melhora o comportamento dos robôs usando preferências humanas baseadas em vídeo.

― 9 min ler


O Feedback Humano MelhoraO Feedback Humano Melhoraas Habilidades dos Robôsatravés de feedback em clipes de vídeo.Os robôs aprendem melhores movimentos
Índice

Criar robôs que conseguem imitar o comportamento humano é um trampo danado, principalmente quando se trata de fazer Tarefas que exigem movimentos cuidadosos com mãos robóticas. Só de escrever regras sobre como esses robôs devem se mover é quase impossível, porque tem um montão de jeitos diferentes de controlá-los. Treinar usando aprendizagem por reforço (RL) é complicado e geralmente faz com que os robôs ajam de maneiras estranhas. Para resolver esses problemas, sugerimos um novo sistema que usa feedback direto de humanos assistindo vídeos. Esse sistema aprende o que os humanos preferem quando os robôs fazem 20 tarefas diferentes usando duas mãos robóticas em um ambiente virtual, sem precisar de exemplos humanos.

Contexto

Robôs com mãos que se movem como dedos humanos estão se tornando mais populares entre os pesquisadores porque conseguem fazer trabalhos complicados, como virar objetos ou abrir garrafas. Garra robótica tradicional tem dificuldade com essas tarefas porque seus movimentos são limitados. Planejar os movimentos dessas mãos multifuncionais é desafiador por causa das várias maneiras que os dedos podem se mover. Isso fez com que os pesquisadores usassem métodos de aprendizagem sem modelos, como o deep reinforcement learning, para ajudar os robôs a aprenderem a completar essas tarefas.

Porém, mesmo usando esses métodos, os robôs muitas vezes ainda se movem de maneiras não naturais. Por exemplo, um robô pode torcer os dedos de um jeito esquisito depois de fazer uma tarefa ou segurar um objeto de forma estranha. Esses movimentos estranhos podem deixar as pessoas desconfortáveis ou inseguras perto do robô, reduzindo a confiança nas habilidades dele. Além disso, movimentos parecidos com os humanos geralmente são os mais eficientes, usando menos energia e protegendo as articulações do robô. No entanto, guiar os robôs a fazer esses movimentos parecidos com humanos pode ser difícil de especificar.

Aprendendo com o Feedback Humano

Nosso projeto se inspirou em avanços recentes em aprendizagem por reforço que incluem feedback humano. Nessa abordagem, os robôs aprendem recebendo orientação das pessoas, semelhante ao jeito que alguns modelos de linguagem são treinados. Em vez de precisar de muitos exemplos, nosso método se concentra em reunir Preferências humanas a partir de clipes de vídeo. Esse processo facilita para as pessoas darem feedback, já que não precisam realizar as tarefas diretamente.

Nosso método tem três passos principais: primeiro, geramos diferentes padrões de movimento para os robôs; depois, pedimos para as pessoas assistirem a esses movimentos e nos dizerem quais eles preferem; finalmente, usamos o feedback coletado para refinar os movimentos dos robôs. Através desse processo iterativo de gerar movimentos, coletar feedback e ajustar o treinamento, nosso objetivo é fazer os robôs agirem de forma mais parecida com humanos, enquanto também melhoramos a capacidade deles de completar as tarefas.

Resumo do Método

Colocamos nosso método à prova em um ambiente de simulação que incluía 20 tarefas diferentes. Nesse setup, cada mão robótica tem 24 partes móveis, levando a movimentos complexos. As tarefas variam bastante, envolvendo ações desde agarrar objetos simples até manipulações mais complexas. Um desafio comum é que métodos tradicionais tendem a focar apenas se uma tarefa foi completada com sucesso, e não como o robô parece humano enquanto a completa.

Passo 1: Gerando Políticas

Para coletar feedback útil, primeiro precisamos criar vários padrões de movimento para os robôs. Usamos um método de aprendizagem que incentiva a diversidade nesses movimentos. Se não incluíssemos esse aspecto de diversidade, mesmo com diferentes pontos de partida, os robôs provavelmente acabariam se movendo de maneiras muito similares.

Passo 2: Coletando Preferências Humanas

Em seguida, pedimos para as pessoas escolherem quais movimentos dos robôs elas acham mais naturais. Criamos uma interface simples onde quatro observadores humanos podem rapidamente dar suas opiniões sobre pares de movimentos robóticos. Coletar esse feedback nos ajuda a entender melhor as preferências humanas e nos permite construir um sistema de recompensas que reflete essas preferências.

Passo 3: Treinando o Modelo de Recompensa

Depois que coletamos feedback suficiente, treinamos um modelo de recompensa que aprende a prever quais movimentos estão mais alinhados com as preferências humanas. Esse modelo pode então ser usado para guiar os robôs durante a fase de treinamento, melhorando o desempenho deles em várias tarefas.

Os Desafios da Manipulação Habilidosa

Manipular objetos com mãos robóticas envolve vários obstáculos. Cada mão robótica pode realizar uma infinidade de movimentos, tornando difícil planejar como cumprir as tarefas. Como resultado, muitos pesquisadores têm recorrido à aprendizagem por reforço para tentar ensinar os robôs a completar essas tarefas delicadas.

Apesar do progresso nessa área, muitos robôs ainda produzem movimentos que parecem não naturais. Como há muito espaço para experimentação em como os dedos podem se mover, os robôs podem encontrar maneiras de atender aos requisitos da tarefa, mas ainda assim falham em imitar o comportamento humano. Esse problema cria uma barreira para implementar esses sistemas robóticos em ambientes do mundo real, já que as pessoas podem não se sentir seguras ou confortáveis perto deles.

A Importância dos Comportamentos Semelhantes aos Humanos

Comportamentos parecidos com os humanos não são só uma questão de estética; eles também significam padrões de movimento mais eficientes. Movimentos que se assemelham aos humanos tendem a consumir menos energia e proteger as partes mecânicas dos robôs. No entanto, especificar quão de perto os movimentos de um robô devem se igualar a características humanas pode ser desafiador.

Nossa abordagem foi especialmente projetada para focar nessas qualidades humanas usando feedback das pessoas. Ao aplicar a aprendizagem por reforço para melhorar os movimentos dos robôs com base nesse feedback, podemos gradualmente aprimorar o aspecto humano das ações dos robôs sem precisar mostrar como realizar as tarefas diretamente.

Experimentação e Resultados

Fizemos experimentos extensivos em um ambiente simulado para avaliar a eficácia do nosso método em várias tarefas. As tarefas incluíram diferentes graus de complexidade, desde manipulação simples de objetos até ações de múltiplos passos que exigiam coordenação precisa entre duas mãos robóticas.

Geração de Políticas e Coleta de Preferências Humanas

Durante as fases iniciais do nosso experimento, geramos várias políticas usando o algoritmo Proximal Policy Optimization (PPO). Cada política foi treinada para realizar uma tarefa específica, e criamos clipes de vídeo da performance para que avaliadores humanos revisassem. Os participantes deram feedback sobre quais movimentos pareciam mais semelhantes aos humanos, e esse feedback foi essencial para refinar nosso modelo de recompensa.

Nossos resultados mostraram uma melhoria significativa na qualidade humana dos comportamentos robóticos após o ajuste usando o modelo de recompensa. Avaliamos as preferências nos movimentos tanto antes quanto depois desse processo de ajuste, revelando que o uso de feedback humano melhorava de forma mensurável a percepção das ações do robô.

Generalização para Novas Tarefas

Além disso, queríamos testar se as melhorias que fizemos também se aplicariam a tarefas que os robôs não tinham encontrado durante a fase de treinamento. Usando o modelo de recompensa treinado, ajustamos os movimentos dos robôs para quatro novas tarefas. Mesmo que essas tarefas fossem diferentes das usadas no treinamento inicial, descobrimos que os robôs ainda produziam movimentos mais favoráveis.

Os resultados indicaram que o foco do nosso método nas preferências humanas ajudou os robôs a se adaptarem melhor a tarefas desconhecidas. As políticas ajustadas também conseguiram manter sua eficiência e eficácia em completar tarefas enquanto pareciam mais humanas.

Testes no Mundo Real

Para avaliar ainda mais nossa abordagem, fizemos experimentos com robôs reais guiados pelo mesmo modelo de recompensa treinado. Usando uma Shadow Hand montada em um braço robótico, testamos a habilidade dos robôs em completar tarefas no mundo real. Os experimentos mostraram que os robôs exibiram movimentos mais suaves com as políticas ajustadas. Eles conseguiram interagir com objetos de forma mais eficaz, demonstrando não apenas uma melhora na conclusão das tarefas, mas também movimentos que pareciam mais naturais.

Limitações e Trabalho Futuro

Embora tenhamos alcançado progresso significativo em melhorar comportamentos robóticos semelhantes aos humanos através da nossa abordagem, algumas limitações ainda permanecem. Fornecer dados de preferência humana ainda pode ser um pouco limitado, e conjuntos de dados mais extensos poderiam refinar ainda mais o modelo de recompensa. Além disso, algumas tarefas podem apresentar desafios inerentes que dificultam a produção de comportamentos humanos pelos robôs. No futuro, pretendemos explorar as maneiras mais eficientes de coletar feedback humano e aplicá-lo de forma eficaz para aprimorar o treinamento robótico.

Conclusão

Neste trabalho, demonstramos o potencial de aproveitar o feedback humano para melhorar como os robôs realizam tarefas complexas de manipulação usando seus dedos. Ao focar em gerar padrões de movimento diversificados, coletar preferências humanas e treinar um modelo de recompensa com base nesse feedback, conseguimos melhorar as qualidades humanas dos robôs sem precisar de demonstrações extensas.

Nossos experimentos mostraram que a abordagem aumentou efetivamente a naturalidade dos movimentos do robô e melhorou seu desempenho nas tarefas. A aplicação bem-sucedida do nosso método tanto em ambientes simulados quanto no mundo real sugere que ele pode aprimorar de forma significativa o desenvolvimento de robôs capazes de realizar tarefas habilidosas. A pesquisa futura continuará a refinar esses métodos, ampliando os limites do que os robôs podem alcançar em manipulação semelhante à humana.

Fonte original

Título: Learning a Universal Human Prior for Dexterous Manipulation from Human Preference

Resumo: Generating human-like behavior on robots is a great challenge especially in dexterous manipulation tasks with robotic hands. Scripting policies from scratch is intractable due to the high-dimensional control space, and training policies with reinforcement learning (RL) and manual reward engineering can also be hard and lead to unnatural motions. Leveraging the recent progress on RL from Human Feedback, we propose a framework that learns a universal human prior using direct human preference feedback over videos, for efficiently tuning the RL policies on 20 dual-hand robot manipulation tasks in simulation, without a single human demonstration. A task-agnostic reward model is trained through iteratively generating diverse polices and collecting human preference over the trajectories; it is then applied for regularizing the behavior of polices in the fine-tuning stage. Our method empirically demonstrates more human-like behaviors on robot hands in diverse tasks including even unseen tasks, indicating its generalization capability.

Autores: Zihan Ding, Yuanpei Chen, Allen Z. Ren, Shixiang Shane Gu, Qianxu Wang, Hao Dong, Chi Jin

Última atualização: 2023-09-13 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2304.04602

Fonte PDF: https://arxiv.org/pdf/2304.04602

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes