Seleção Automatizada de Estimadores para Avaliação Off-Policy
Um novo método pra selecionar estimadores de forma eficiente em tarefas de avaliação off-policy.
― 8 min ler
A Avaliação Off-policy (OPE) é sobre descobrir quão bem uma nova estratégia, ou política, funcionaria baseado em dados coletados de uma estratégia diferente. Isso é importante em várias áreas, incluindo sistemas de recomendação, tratamentos médicos e publicidade. O objetivo é estimar como uma nova política se sairia sem testá-la no mundo real, que pode ser arriscado e caro.
Pra isso, usamos estimadores. Esses são ferramentas que ajudam a prever a eficácia das novas políticas com base nos dados que temos das existentes. Existem vários tipos de estimadores, cada um com suas vantagens e desvantagens. Alguns podem funcionar melhor para certos tipos de dados do que outros. Por causa disso, escolher o Estimador certo é crucial para uma avaliação precisa.
Mas, escolher o melhor estimador para uma situação específica é muitas vezes negligenciado na literatura de pesquisa. Neste trabalho, apresentamos um novo método que automatiza o processo de seleção do estimador apropriado usando técnicas de aprendizado de máquina.
Conceitos Chave de OPE
No mundo da tomada de decisão, especialmente em sistemas complexos, é essencial que máquinas ou algoritmos interajam com ambientes que mudam. Isso significa que eles devem continuamente fazer escolhas para alcançar objetivos específicos. Um bom exemplo é um sistema de recomendação. Nesse cenário, o sistema observa os comportamentos e preferências dos usuários (contextos) e tenta sugerir itens que os usuários possam gostar (ações) pra ganhar recompensas, como satisfação do usuário ou vendas.
Um grande desafio nessa área é avaliar novas estratégias sem implementá-las no mundo real. Fazer isso pode às vezes levar a desvantagens significativas, como perder dinheiro em anúncios ou chatear usuários se as recomendações erradas forem feitas. É aí que a OPE entra. Ela nos permite avaliar o desempenho potencial dessas novas estratégias usando dados de uma estratégia diferente, que é conhecida como Política de Registro. Ao avaliar efetivamente o desempenho de novas estratégias, as organizações podem tomar decisões informadas sem riscos desnecessários.
Importância dos Estimadores
A eficácia da OPE depende muito dos estimadores usados pra prever como uma nova política se sairia. Diferentes tipos de estimadores foram desenvolvidos pra enfrentar esse desafio, cada um com características matemáticas únicas. Por exemplo, o Inverse Propensity Scoring (IPS) é um dos estimadores mais conhecidos. Ele compensa o viés nas previsões reponderando as recompensas observadas com base em quão prováveis foram as ações sob a política de registro. Ações que acontecem menos frequentemente (mas que devem ser avaliadas) recebem mais peso, enquanto as mais comuns são rebaixadas.
Apesar da existência de muitos estimadores, não existe uma solução única que sirva pra todos. Alguns estimadores podem performar melhor sob condições específicas, enquanto outros podem ser menos eficazes. Isso cria um problema: como escolher o melhor estimador pra uma tarefa de avaliação específica?
O Problema da Seleção de Estimadores
O problema da seleção de estimadores se resume a isso: dado uma nova tarefa de OPE, como encontramos o melhor estimador pra usar? Isso é essencial, já que a precisão das nossas avaliações depende da eficácia do estimador que escolhemos. Infelizmente, esse problema tem sido ignorado na área.
Pra resolver isso, propomos uma abordagem automatizada e orientada por dados. A ideia central é criar várias tarefas de OPE sintéticas com diferentes características. Então, treinamos um modelo de aprendizado de máquina com esses Dados Sintéticos pra prever qual estimador funcionaria melhor pra uma tarefa específica.
Geração de Dados Sintéticos
Pra treinar nosso modelo, geramos um grande conjunto de tarefas de OPE sintéticas. Essas são criadas variando diferentes características, como as políticas de registro usadas e o número de ações disponíveis. Como sabemos o verdadeiro desempenho das políticas nessas situações sintéticas, podemos avaliar quão bem vários estimadores se saem comparando suas saídas com os resultados conhecidos.
Ao alimentar um modelo de aprendizado de máquina com essas tarefas sintéticas e seus respectivos resultados, podemos ensiná-lo a reconhecer padrões e fazer previsões precisas sobre qual estimador usar para tarefas não vistas no futuro.
Resultados Experimentais
Testamos nosso método em vários conjuntos de dados do mundo real pra ver quão bem ele se saiu comparado com os métodos de referência. Os resultados mostram que nossa abordagem seleciona estimadores de alto desempenho de forma mais eficaz do que os métodos existentes, tudo isso exigindo muito menos esforço computacional.
Problema do Bandido Contextual
No fundo, o problema do Bandido Contextual é um desafio de tomada de decisão. Nesses cenários, um agente observa uma situação (o contexto) e deve escolher uma ação de um conjunto de ações possíveis com base no contexto observado. O objetivo é maximizar algum tipo de recompensa.
Aqui vai um exemplo: um sistema de recomendação que sugere filmes. Cada vez que um usuário faz login, o sistema coleta dados sobre suas preferências (o contexto) e então decide qual filme recomendar (a ação). O desempenho do agente é muitas vezes medido pelo valor esperado das recompensas que ele coleta com base em suas escolhas.
Avaliação Off-Policy em Profundidade
Dentro da Avaliação Off-Policy, nosso objetivo é estimar como uma estratégia específica se sairá com base em dados coletados de outra estratégia. Isso envolve usar políticas de registro pra coletar dados, com os quais criamos nossas políticas de avaliação.
Pra medir como uma estratégia se sairia, precisamos de estimadores que consigam analisar os dados da política de registro e fornecer uma estimativa do desempenho da política de avaliação. Esses estimadores servem pra conectar a diferença entre as recompensas reais vistas sob a política de registro e as recompensas previstas sob a política de avaliação.
Apesar da variedade de estimadores disponíveis, escolher o certo pode ser complicado. É aqui que nosso método automatizado de seleção entra, facilitando a busca pelo estimador mais eficaz pra qualquer tarefa.
A Necessidade de Automação
Dada a complexidade do problema de seleção de estimadores, automatizar o processo pode economizar tempo e recursos. Muitos métodos existentes exigem um ajuste e treinamento extensos, tornando-os impraticáveis pra aplicações no mundo real. Nossa abordagem simplifica isso usando um modelo pré-treinado que pode rapidamente prever o melhor estimador pra qualquer tarefa sem necessidade de mais treinamento.
Além disso, usar dados sintéticos permite a rápida geração e teste de uma variedade de cenários, o que não seria viável com dados do mundo real que podem ser limitados e caros de obter.
Análise Experimental
Realizamos testes extensivos usando dados sintéticos e conjuntos de dados do mundo real pra avaliar o desempenho do nosso método. Em ambos os cenários, nosso método consistentemente superou as técnicas de referência ao prever com precisão o melhor estimador, além de ser computacionalmente eficiente.
Por exemplo, ao testar com o Conjunto de Dados Open Bandit, nosso método mostrou um Regreto Relativo mais baixo, indicando um desempenho melhor em comparação com os métodos existentes.
Além disso, testamos em vários conjuntos de dados da UCI, validando ainda mais a capacidade do nosso método de generalizar através de diferentes distribuições de dados. Os resultados afirmam que nossa abordagem automatizada oferece uma solução robusta pro problema de seleção de estimadores.
Direções Futuras
Seguindo em frente, mais pesquisas poderiam explorar diferentes modelos de aprendizado de máquina pra aumentar a confiabilidade das previsões. Além disso, examinar a relação entre características das tarefas e desempenho dos estimadores poderia levar a melhorias nas estratégias de seleção.
Nosso método foca principalmente na área do Bandido Contextual, mas os princípios estabelecidos aqui também poderiam ser adaptados para contextos mais amplos de Aprendizado por Reforço, potencialmente revolucionando a forma como abordamos a avaliação de políticas em várias áreas.
Conclusão
Selecionar o estimador certo é crucial pra uma Avaliação Off-Policy eficaz. Nossa abordagem automatizada e orientada por dados oferece uma solução pra esse problema muitas vezes negligenciado, permitindo uma melhor tomada de decisão em vários contextos. As melhorias no desempenho e as reduções nos custos computacionais demonstram o potencial impacto do método em pesquisas futuras e aplicações nessa área importante.
Título: Automated Off-Policy Estimator Selection via Supervised Learning
Resumo: The Off-Policy Evaluation (OPE) problem consists of evaluating the performance of counterfactual policies with data collected by another one. To solve the OPE problem, we resort to estimators, which aim to estimate in the most accurate way possible the performance that the counterfactual policies would have had if they were deployed in place of the logging policy. In the literature, several estimators have been developed, all with different characteristics and theoretical guarantees. Therefore, there is no dominant estimator and each estimator may be the best for different OPE problems, depending on the characteristics of the dataset at hand. Although the selection of the estimator is a crucial choice for an accurate OPE, this problem has been widely overlooked in the literature. We propose an automated data-driven OPE estimator selection method based on supervised learning. In particular, the core idea we propose in this paper is to create several synthetic OPE tasks and use a machine learning model trained to predict the best estimator for those synthetic tasks. We empirically show how our method is able to perform a better estimator selection compared to a baseline method on several real-world datasets, with a computational cost significantly lower than the one of the baseline.
Autores: Nicolò Felicioni, Michael Benigni, Maurizio Ferrari Dacrema
Última atualização: 2024-11-09 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2406.18022
Fonte PDF: https://arxiv.org/pdf/2406.18022
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.
Ligações de referência
- https://nips.cc/public/guides/CodeSubmissionPolicy
- https://neurips.cc/public/EthicsGuidelines
- https://anonymous.4open.science/r/auto-ope-28F3/
- https://github.com/scikit-learn/scikit-learn
- https://github.com/microsoft/LightGBM/tree/master
- https://github.com/st-tech/zr-obp
- https://scikit-learn.org/stable/modules/generated/sklearn.ensemble.RandomForestRegressor.html
- https://github.com/scikit-optimize/scikit-optimize/tree/master