O Papel da IA em Guiar o Comportamento Humano
A IA pode influenciar como os humanos realizam tarefas em ambientes colaborativos.
― 13 min ler
Índice
Quando a IA interage com humanos, ela faz mais do que só mudar o ambiente; pode também afetar como as pessoas agem, suas intenções e estratégias. A maioria dos estudos sobre isso assumiu que os humanos se comportam quase perfeitamente, como em jogos competitivos ou em situações tipo carros autônomos dividindo a estrada com motoristas humanos. Mas nosso foco é ver como a IA pode influenciar pessoas que podem não agir da melhor forma por causa de preconceitos ou falta de informação. Por exemplo, se as pessoas têm dificuldade em trabalhar juntas em uma tarefa, como a IA pode ajudar elas a se saírem melhor? Assumir que as pessoas vão agir de forma ótima não vai ajudar aqui; a IA precisa aprender com interações reais com humanos. Mas, testar ideias com pessoas online pode ser arriscado, e criar um simulador detalhado da situação muitas vezes é complicado.
Para resolver isso, a gente propõe aprender com um conjunto de dados de interações entre humanos. Acreditamos que usar Aprendizado por Reforço Offline (RL) permite que a IA influencie efetivamente comportamentos subótimos dos humanos, combinando diferentes aspectos das interações humanas observadas.
Nossas descobertas sugerem que o RL offline pode lidar bem com dois desafios principais em influenciar comportamentos. Primeiro, mostramos que, ao analisar dados de várias interações humanas-nenhuma das quais demonstra influência bem-sucedida- a IA ainda pode aprender estratégias para ajudar os humanos a se saírem melhor, mesmo em novas tarefas. Em segundo lugar, demonstramos que, ao entender o comportamento humano, o RL offline pode influenciar não apenas as ações das pessoas, mas também suas estratégias, se adaptando a mudanças na forma como pensam e se comportam.
Em muitas áreas como jogos, saúde, sistemas de recomendação e robótica, a IA interage com as pessoas e influencia seus comportamentos. A maioria dos estudos anteriores se concentrou em casos onde os humanos atuavam quase perfeitamente, como em jogos estratégicos como Go ou em cenários de direção autônoma onde a IA tenta influenciar motoristas a desacelerar. Nosso trabalho é diferente porque mira situações onde humanos reais podem agir de forma irracional ou não ser ótimos, como em Tarefas Colaborativas com outros que podem não ser especialistas ou em interações sociais que não são estratégicas.
Por exemplo, imagine um robô e um humano trabalhando juntos para cozinhar uma refeição. O humano pode começar a cortar tomates para uma salada porque eles estão perto, mesmo que fosse melhor o robô cuidar da salada enquanto o humano prepara o prato principal. O robô pode tentar encorajar o humano a montar o prato colocando um prato ao lado dele ou até bloqueando o acesso aos tomates. Esse tipo de estratégia não seria necessário se o humano agisse com total entendimento do que deveria ser feito, por isso é crucial considerar como humanos reais se comportam e como podem ser influenciados pelas ações do robô.
Pesquisas anteriores sobre como influenciar comportamentos subótimos confiaram principalmente em modelos roteirizados ou simplistas de como as pessoas agem. No entanto, o comportamento humano é influenciado por muitos preconceitos cognitivos, tornando-o complexo e difícil de simular com precisão. Isso significa que ensinar uma IA a influenciar comportamento provavelmente precisará usar dados reais de humanos. Mas, testar ideias com pessoas online pode ser inseguro ou impraticável.
Então, como podemos encontrar estratégias de influência eficazes quando temos apenas dados de interações humanas? Nossa principal percepção é que a IA ainda pode aprender a influenciar o comportamento mesmo quando não viu demonstrações explícitas de influência. Especificamente, o aprendizado por reforço offline pode aprender a influenciar juntando diferentes partes do comportamento humano observadas em várias interações. Um exemplo simples disso em uma situação de cozinhar ilustra a ideia: em algumas interações, uma pessoa comete um erro e vai pegar cebolas em vez de montar o prato, enquanto em outra, ela pega um prato que está perto. Ao combinar esses dois comportamentos, a IA aprende que colocar um prato ao lado do humano pode incentivá-lo a montar o prato.
Nossa principal contribuição é mostrar que o RL offline pode superar dois desafios significativos em influenciar o comportamento humano subóptimo. Primeiro, demonstramos que os métodos existentes de RL offline podem derivar estratégias para influenciar ações humanas mesmo quando não há exemplos de tais estratégias nos dados de treinamento. Em segundo lugar, ao melhorar algoritmos de RL offline com percepções sobre as estratégias ocultas dos humanos, podemos permitir que a IA influencie não apenas as ações do humano, mas também sua abordagem geral.
Na área de aprendizado por reforço, os agentes visam aprender como tomar decisões que maximizem suas recompensas ao longo do tempo. Neste caso, estamos interessados em como a IA pode aprender a influenciar as ações e estratégias de parceiros humanos em tarefas colaborativas.
Trabalhos Relacionados
Já houve uma quantidade considerável de trabalho usando aprendizado por reforço em configurações de múltiplos agentes, onde vários agentes operam em situações competitivas ou cooperativas. Métodos tradicionais costumam modelar como as ações de todos os agentes impactam o ambiente e podem envolver treinamento centralizado para levar em conta as ações dos outros agentes. Algumas abordagens até introduziram canais de comunicação para que os agentes compartilhassem suas estratégias. No entanto, nosso trabalho se concentra especificamente em como a IA pode interagir com humanos, que podem não seguir padrões previsíveis ou racionais.
Recentemente, também houve um aumento em pesquisas focadas em projetar IA que interage com humanos. Os primeiros esforços incluem treinar agentes para superar jogadores humanos em jogos competitivos como Go e Poker, onde o objetivo era modelar o humano como quase ótimo. No entanto, em tarefas do mundo real, tratar os humanos como tomadores de decisão perfeitos é insuficiente, especialmente em contextos colaborativos ou sociais.
Por exemplo, trabalhos anteriores analisaram desafios de coordenação com humanos em ambientes semelhantes a jogos. No entanto, nós nos diferenciamos desse trabalho ao focar em influenciar o comportamento em vez de apenas levá-lo em conta. Tratamos tarefas onde uma IA precisa mudar como um humano se comporta para ter sucesso. O essencial na nossa abordagem é que não presumimos acesso a um simulador e precisamos aprender puramente observando interações humanas passadas.
Nossa investigação visa treinar agentes de IA para encorajar humanos a se comportarem de maneiras que levam a resultados melhores em tarefas compartilhadas. Outros estudos também exploraram o uso de influência em jogos ou ambientes colaborativos. Esses estudos propuseram abordagens tanto livres de modelo quanto baseadas em modelo. Métodos livres de modelo preveem como outros agentes vão alterar suas estratégias sem aprender as dinâmicas subjacentes do ambiente. Em contextos competitivos, métodos como LOLA avaliam as atualizações dos jogadores e usam isso para informar os próximos movimentos do agente.
Em contraste, nosso foco é ajudar os agentes a influenciar humanos em tempo real. O objetivo do aprendizado por reforço é aprender uma estratégia que maximize recompensas cumulativas em uma dada situação, modelada como um processo de decisão de Markov. Nosso problema se concentra em tarefas que exigem interação com humanos, cujas estratégias e comportamentos são desconhecidos.
Nós modelamos o comportamento humano como tendo uma camada estratégica oculta, que guia suas ações. Nossa abordagem pode ser vista como uma espécie especial de processo de decisão parcialmente observável, focando nos aspectos ocultos da Interação Humana.
Aprendizado por Reforço Offline
Utilizamos aprendizado por reforço offline para desenvolver estratégias de coordenação com parceiros humanos sem precisar de interações ao vivo ou um simulador. No RL offline, operamos em um conjunto de dados fixo que contém vários dados de interação. Algoritmos típicos usam uma estrutura de ator-crítico que aprende a maximizar recompensas esperadas a partir das experiências registradas.
Dado que dependemos apenas de dados passados, métodos tradicionais podem ter dificuldade em situações onde as ações da IA não estão representadas no conjunto de dados. Para combater isso, utilizamos Q-learning conservador, que penaliza ações que se desviam do que foi visto no conjunto de dados, garantindo que nossos comportamentos aprendidos fiquem dentro dos limites das interações humanas observadas.
Influência no Ambiente Overcooked
Para testar nossas ideias, escolhemos uma versão simplificada do jogo Overcooked, onde os jogadores devem coordenar para cozinhar refeições. Esse jogo é bem adequado para estudar interações humanas porque os jogadores frequentemente agem de forma subótima devido a problemas de comunicação e coordenação.
Nesse ambiente, dois jogadores navegam por uma cozinha cheia de ingredientes e instrumentos de cozinha. Eles devem trabalhar juntos para preparar pratos enquanto lidam com obstáculos. O sucesso depende de cada jogador completar tarefas na ordem certa e colaborar efetivamente.
No nosso trabalho, identificamos dois principais desafios em aprender a influenciar o comportamento humano nesse ambiente. O primeiro desafio é reconhecer como deduzir novas estratégias de influência com base nos dados disponíveis. O segundo desafio é garantir que a IA possa adaptar sua abordagem a mudanças no comportamento humano ao longo do tempo.
Desafio 1: Deducindo Novas Estratégias de Influência
Coletar dados sobre comportamento humano no ambiente Overcooked é relativamente fácil, mas identificar estratégias de influência eficazes é desafiador. Isso acontece porque os humanos costumam reagir de forma passiva aos seus parceiros, completando tarefas à medida que surgem sem tentar ativamente mudar o comportamento do parceiro. Por exemplo, se uma IA sabe que seu parceiro humano está mais apto para certas tarefas, idealmente deveria influenciar esse parceiro a assumir esses papéis.
No entanto, como os humanos geralmente não têm como objetivo coordenar ativamente nos dados coletados, precisamos elaborar estratégias para aprender a influenciar os outros com base nos dados existentes. Propomos que o RL offline pode derivar novas estratégias de influência combinando comportamentos existentes vistos no conjunto de dados. Ao juntar subtarefas de várias interações, a IA pode identificar maneiras de guiar os humanos em direção a uma melhor coordenação sem precisar de exemplos explícitos de influência.
Desafio 2: Influência de Longo Prazo de Estratégias Latentes
Simplesmente fazer um humano executar ações específicas pode não ser suficiente. Pode ser mais benéfico mudar sua abordagem ou estratégia subjacente. Por exemplo, se uma IA quer que um humano se concentre em tarefas específicas, pode precisar bloquear o acesso a distrações por um período prolongado, mudando assim a estratégia do humano ao longo do tempo.
A influência eficaz exige que a IA reconheça e responda à estratégia em evolução do humano. Nosso método proposto permite que o RL offline se adapte ao comportamento humano em mudança enquanto influencia suas decisões. Acreditamos que, mesmo com dados mostrando poucos exemplos de coordenação bem-sucedida, o sistema ainda pode se adaptar utilizando trajetórias de falhas para entender diferentes comportamentos.
Aprendendo Estratégias de Influência com Comportamentos Diversos
Nesta seção, mostramos que uma IA usando RL offline pode aprender a influenciar e melhorar comportamentos humanos recombinando efetivamente comportamentos observados nos dados. Nosso objetivo é desenvolver um método onde a IA possa usar interações passadas para desenvolver estratégias que não precisam ser necessariamente evidentes em exemplos anteriores.
Em nossos experimentos, focamos em quão bem o RL offline pode generalizar para novas tarefas, especificamente no domínio do Overcooked. Ao mudar a estrutura de recompensas em nossos experimentos, podemos motivar a IA a influenciar seu parceiro humano de uma forma que melhore o desempenho nas tarefas.
Coleta de Dados
Coletamos dados de interações humanas enquanto jogavam o jogo em várias condições. Um conjunto de instruções permitiu que os jogadores operassem com um objetivo padrão, enquanto outro focou em papéis específicos sem o conhecimento do parceiro, levando a uma variedade de ações subótimas.
Em nossas avaliações, comparamos o desempenho do RL offline com métodos tradicionais, como clonagem de comportamento e variações de aprendizado por reforço que não aproveitam a riqueza da cooperação humana.
Alcançando Influência de Longo Prazo de Estratégias Latentes
Para influenciar efetivamente a estratégia geral de um humano, a IA precisa entender o que o humano é provável de fazer. Em nossos experimentos, introduzimos um método onde a IA aprende uma representação da estratégia oculta do humano e condiciona suas decisões com base nesse entendimento.
Por meio de uma combinação de interações passadas e observações presentes, podemos treinar a IA para adaptar sua estratégia de influência à medida que o comportamento do humano muda ao longo do tempo. Essa abordagem permite que a IA seja mais responsiva e eficaz em suas interações.
Descrição da Tarefa
Em nossa avaliação, montamos diferentes layouts no domínio do Overcooked que permitem que os jogadores se influenciem diretamente. Consideramos quão efetivamente a IA pode alterar o comportamento de seu parceiro oferecendo recompensas por resultados desejados, como entregar sopas feitas apenas com ingredientes específicos.
Conclusão
Os humanos frequentemente agem de forma subótima devido a preconceitos ou falta de informação. Exploramos como o RL offline pode aprender a influenciar o comportamento humano utilizando dados de interações humanas. Nossas descobertas indicam que os métodos existentes de RL offline podem derivar novas estratégias de influência a partir de comportamentos humanos diversos. Além disso, ao reconhecer e se adaptar a mudanças nas estratégias humanas, a IA pode guiar com sucesso os humanos em direção a um desempenho melhor.
Limitações e Trabalho Futuro
Nossa pesquisa se concentra principalmente no jogo Overcooked devido às suas regras e dinâmicas claras, o que facilita o estudo da influência humana. No entanto, esse ambiente é mais simples do que situações do mundo real que exigem colaboração com humanos. Estudos futuros devem abordar se nossas descobertas se mantêm verdadeiras em cenários mais complexos e reais, como em sistemas de diálogo.
Além disso, isolamos dois desafios na influência humana: aprender estratégias não vistas e alcançar uma influência de longo prazo adaptável. Resta saber se o RL offline pode abordar ambos os desafios em uma abordagem coesa, aprendendo com interações humanas diversas para direcionar seu comportamento futuro de forma eficaz.
Implicações Éticas
A ideia de influenciar o comportamento humano é complexa. Embora haja benefícios-como ajudar as pessoas a melhorar comportamentos subótimos-também existem riscos. Se a IA operar com suposições erradas ou não entender os valores humanos, influenciá-los pode levar a consequências negativas. Compreender as implicações éticas da influência da IA é crucial para um desenvolvimento e aplicação responsáveis.
Título: Learning to Influence Human Behavior with Offline Reinforcement Learning
Resumo: When interacting with people, AI agents do not just influence the state of the world -- they also influence the actions people take in response to the agent, and even their underlying intentions and strategies. Accounting for and leveraging this influence has mostly been studied in settings where it is sufficient to assume that human behavior is near-optimal: competitive games, or general-sum settings like autonomous driving alongside human drivers. Instead, we focus on influence in settings where there is a need to capture human suboptimality. For instance, imagine a collaborative task in which, due either to cognitive biases or lack of information, people do not perform very well -- how could an agent influence them towards more optimal behavior? Assuming near-optimal human behavior will not work here, and so the agent needs to learn from real human data. But experimenting online with humans is potentially unsafe, and creating a high-fidelity simulator of the environment is often impractical. Hence, we focus on learning from an offline dataset of human-human interactions. Our observation is that offline reinforcement learning (RL) can learn to effectively influence suboptimal humans by extending and combining elements of observed human-human behavior. We demonstrate that offline RL can solve two challenges with effective influence. First, we show that by learning from a dataset of suboptimal human-human interaction on a variety of tasks -- none of which contains examples of successful influence -- an agent can learn influence strategies to steer humans towards better performance even on new tasks. Second, we show that by also modeling and conditioning on human behavior, offline RL can learn to affect not just the human's actions but also their underlying strategy, and adapt to changes in their strategy.
Autores: Joey Hong, Sergey Levine, Anca Dragan
Última atualização: 2023-10-27 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2303.02265
Fonte PDF: https://arxiv.org/pdf/2303.02265
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.