Simple Science

Ciência de ponta explicada de forma simples

# Informática# Aprendizagem de máquinas# Computação e linguagem

Melhorando a Aprendizagem de Preferências Através de Consultas Baseadas em Recursos

Um novo método pra entender preferências usando comparações de nível de características.

― 5 min ler


Avançando Técnicas deAvançando Técnicas deAprendizado dePreferênciausuários.compreensão das preferências dosNovos métodos melhoram nossa
Índice

Os humanos costumam usar dicas sociais pra mostrar o que gostam e o que não gostam. Isso ajuda a entender as Preferências deles, que podem ser vistas como suas "funções de recompensa." Essas preferências podem guiar como tomamos decisões, mas os métodos atuais pra coletar essas informações muitas vezes ignoram o contexto da aprendizagem social.

Neste trabalho, a gente olha como podemos coletar melhor informações sobre por que alguém prefere uma opção em vez da outra. Queremos fazer perguntas que ajudem a aprender mais sobre as características específicas que influenciam essas preferências. Em vez de apenas perguntar qual opção é melhor, a gente também quer saber quais traços específicos dessas opções são importantes.

Pra fazer isso, a gente sugere um novo jeito de perguntar que combina perguntas simples de "sim ou não" sobre exemplos com perguntas sobre as características desses exemplos. Depois, usamos essas informações detalhadas pra criar um entendimento mais preciso do que as pessoas estão buscando em termos de recompensa.

A Importância do Feedback Humano

Saber o que as pessoas querem pode ajudar a melhorar a tecnologia, tipo fazendo robôs funcionarem melhor ou criando software mais seguro. Métodos tradicionais que pedem pras pessoas escolherem entre duas opções às vezes ignoram insights valiosos. Por exemplo, se alguém prefere um cogumelo a outro, pode ser por causa do sabor, mas esse detalhe importante muitas vezes se perde.

As pessoas têm ideias diferentes sobre o que faz uma opção ser boa. Por exemplo, um chef pode focar no sabor, enquanto um colecionador pode se importar mais com a aparência visual. Essas preferências variadas significam que cada indivíduo tem um conjunto único de características que importam pra ele.

Se a gente ver as pessoas como professores que estão dando material de aprendizagem, em vez de apenas fornecedoras de rótulos, conseguimos coletar informações mais ricas sobre suas preferências. Essa perspectiva permite criar melhores modelos de treino pra algoritmos.

Uma Nova Abordagem pra Aprendizagem de Preferências

A gente apresenta uma estrutura pra coletar preferências que foca tanto em comparações de nível de características quanto em comparações de nível de exemplos. Nossa abordagem se baseia em duas ideias principais:

  1. Comparações de Nível de Características: Em vez de só perguntar qual exemplo é preferido, a gente pode pedir pras pessoas compararem traços específicos. Por exemplo, em vez de apenas perguntar se o Cogumelo A é melhor que o Cogumelo B, a gente pode perguntar se eles preferem a cor ou o tamanho do Cogumelo A.

  2. Aumento de Dados Pragmático: Quando os usuários nos dizem suas preferências, a gente também pode aprender sobre quais características eles não se importam. Isso ajuda a criar novos Pontos de Dados, permitindo expandir nosso conjunto de dados de treino e refinar nossos modelos ainda mais.

Testando Nossa Abordagem

Pra ver se nosso novo método funciona, fizemos experimentos em duas áreas: uma tarefa de coleta de cogumelos e uma tarefa de reserva de voos. Queríamos determinar quão eficazes eram as consultas de nível de características em definir com precisão as recompensas das pessoas com menos exemplos.

Tarefa de Coleta de Cogumelos

Na tarefa de coleta de cogumelos, os cogumelos foram definidos por diferentes características, como cor, cheiro e tamanho. Criamos diferentes maneiras de mostrar preferências pedindo pros participantes fazerem várias comparações entre os cogumelos.

Os participantes ficaram aliviados ao descobrir que ainda podiam descrever efetivamente suas preferências usando nosso método. Os resultados mostraram que as consultas de nível de características ajudaram a alcançar um entendimento mais preciso das preferências das pessoas em menos etapas do que comparações tradicionais que olham só os exemplos.

Tarefa de Reserva de Voos

Depois, focamos na reserva de voos, onde a comparação era menos visual e mais baseada em diferentes características como preço, horário de chegada e número de escalas. Usamos dados reais de usuários pra ver como nossa estrutura lidava com descrições linguísticas mais complexas.

Mesmo com feedback imperfeito e menos estruturado dos usuários, nosso método ainda se saiu bem em entender as preferências deles. Ele mostrou sua força quando ligado a características específicas que as pessoas se importavam.

Estudo com Usuários

Também fizemos um estudo com usuários pra comparar os esforços colocados nas nossas novas consultas de características com as comparações tradicionais de pares. Os participantes assumiram o papel de colecionadores de cogumelos, usando as mesmas funções de recompensa dos nossos experimentos anteriores.

Durante o estudo, fizemos várias perguntas aos participantes sobre suas preferências em relação a exemplos de cogumelos e características específicas. Depois, coletamos feedback sobre como eles se sentiram em relação à tarefa. Os usuários não acharam nosso método significativamente mais pesado do que os métodos tradicionais.

Conclusão

Em resumo, exploramos uma nova maneira de aprender sobre as preferências das pessoas através do uso de consultas baseadas em características. Levando em conta o que os usuários dizem sobre suas preferências e os traços que valorizam, podemos criar modelos melhores que refletem as necessidades individuais.

Esse entendimento mais profundo pode ajudar a melhorar várias tecnologias, permitindo que elas se alinhem mais de perto com os desejos humanos. Trabalhos futuros poderiam explorar como aprimorar ainda mais esse processo pra garantir que façamos as perguntas certas enquanto trabalhamos com as informações dos usuários.

Fonte original

Título: Pragmatic Feature Preferences: Learning Reward-Relevant Preferences from Human Input

Resumo: Humans use social context to specify preferences over behaviors, i.e. their reward functions. Yet, algorithms for inferring reward models from preference data do not take this social learning view into account. Inspired by pragmatic human communication, we study how to extract fine-grained data regarding why an example is preferred that is useful for learning more accurate reward models. We propose to enrich binary preference queries to ask both (1) which features of a given example are preferable in addition to (2) comparisons between examples themselves. We derive an approach for learning from these feature-level preferences, both for cases where users specify which features are reward-relevant, and when users do not. We evaluate our approach on linear bandit settings in both vision- and language-based domains. Results support the efficiency of our approach in quickly converging to accurate rewards with fewer comparisons vs. example-only labels. Finally, we validate the real-world applicability with a behavioral experiment on a mushroom foraging task. Our findings suggest that incorporating pragmatic feature preferences is a promising approach for more efficient user-aligned reward learning.

Autores: Andi Peng, Yuying Sun, Tianmin Shu, David Abel

Última atualização: 2024-05-23 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2405.14769

Fonte PDF: https://arxiv.org/pdf/2405.14769

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes