Simple Science

Ciência de ponta explicada de forma simples

# Estatística# Aprendizagem de máquinas# Recuperação de informação# Aprendizagem automática

Desafios do A/B Testing em Aprendizado de Máquina

Analisando os problemas com testes online de modelos de aprendizado de máquina.

― 6 min ler


Problemas de MachineProblemas de MachineLearning em Testes A/Bmodelos de machine learning.Examinando falhas em testes A/B para
Índice

Testes online como os testes A/B são super comuns nos sites hoje em dia. Esses testes ajudam as empresas a descobrir como mudar alguma coisa, tipo um modelo ou uma funcionalidade, pode afetar o comportamento dos usuários. Normalmente, uma versão de algo, chamada "A", é comparada com outra, chamada "B". Isso permite que as empresas vejam qual versão funciona melhor com base em metas específicas, como cliques, compras ou qualquer outra medição importante.

Esse artigo foca em testes online onde diferentes versões se relacionam a Modelos de machine learning. A ideia geral é que o teste online ajuda a decidir qual modelo é melhor e deve ser usado a longo prazo. Embora os métodos usados nesses experimentos sejam confiáveis para muitos pesquisadores, ainda tem questões importantes a considerar ao aplicar isso em machine learning.

Uma grande preocupação é que as suposições por trás desses testes muitas vezes não se aplicam quando se fala de machine learning. Essas suposições são necessárias para garantir que as comparações feitas entre "A" e "B" sejam justas e corretas. Um desafio chave é que quando diferentes modelos aprendem com o mesmo conjunto de dados, seus resultados podem ficar interligados. Isso significa que as conclusões dos testes online podem ser enganosas.

Ensaios Controlados Randomizados e suas necessidades

Ensaios controlados randomizados (RCTs) têm uma longa história de pesquisa, com cerca de 140 anos. Usados inicialmente na psicologia, os RCTs se tornaram um padrão em várias áreas científicas. Esses ensaios atribuem aleatoriamente os participantes a um grupo de tratamento ou a um grupo de controle. Os resultados médios de ambos os grupos fornecem uma estimativa do efeito do tratamento.

Por exemplo, considere um estudo sobre diferentes tipos de fertilizantes aplicados nas plantações. Nesse caso, os pesquisadores atribuíriam aleatoriamente parcelas de terra para receber um fertilizante específico (o tratamento) ou nenhum fertilizante (o controle). Comparando as colheitas, os pesquisadores podem estimar o efeito médio do fertilizante.

Nos testes online, a ideia é semelhante. Os usuários são aleatoriamente designados para experimentar a versão "A" ou a versão "B". Em condições normais, os pesquisadores assumem que não há efeitos de um grupo sobre o outro, conhecidos como "efeitos de transbordamento". No entanto, em muitas situações, essas suposições podem não ser verdadeiras, especialmente em testes online com machine learning.

Testes online com modelos de machine learning

Imagina que você tem um site que usa um sistema de recomendações. Esse sistema guia os usuários para itens que eles podem gostar com base no comportamento passado. Ao testar diferentes sistemas de recomendação, uma abordagem comum envolve designar aleatoriamente os usuários para uma nova ou uma política de recomendação existente. Isso é parecido com o exemplo anterior onde diferentes tratamentos foram aplicados.

Mas na prática, a situação pode ficar complicada. Quando informações coletadas de uma política são usadas para melhorar outra, os resultados podem não ser precisos. Essa situação acontece frequentemente, seja porque as pessoas não percebem o problema ou porque ignoram, achando que os efeitos não serão significativos.

Neste artigo, vamos olhar para duas situações comuns onde essa interferência ocorre: quando diferentes Políticas compartilham dados para aprender e quando as características usadas para fazer recomendações são influenciadas por dados de diferentes políticas.

Os problemas com Dados Compartilhados

Vamos detalhar isso melhor. Quando diferentes políticas compartilham dados das mesmas interações de usuários, a interferência acontece. Por exemplo, se uma política aprende com cliques e não-cliques de todas as ações feitas pelos usuários, ela pode ganhar uma vantagem injusta, que distorce os resultados.

Em outro caso, se as características usadas em uma política são atualizadas com base nos dados de todas as políticas, isso também pode criar problemas. Embora essas questões possam não ser imediatamente óbvias, elas podem levar a resultados falhos nos experimentos. Mesmo quando esses testes parecem válidos, eles podem não refletir com precisão o que aconteceria se apenas um modelo fosse usado.

Por que dados compartilhados são tão comuns

A abordagem de dados compartilhados é bem atraente por algumas razões. Primeiro, simplifica os processos de engenharia. Colocando todas as interações dos usuários em um só lugar, é mais fácil coletar dados para treinar modelos de machine learning sem ter que organizá-los depois.

Em segundo lugar, quando se trabalha com modelos de deep learning, ter uma grande quantidade de dados de treinamento é essencial. Reduzir os dados disponíveis para treinamento parece impraticável, especialmente quando se busca um desempenho melhor nos testes. Isso muitas vezes leva os profissionais a ignorar as possíveis questões que surgem do uso de dados compartilhados.

Por fim, as empresas costumam focar em melhorar métricas de desempenho, tomando decisões rápidas com base nos resultados dos testes, em vez de examinar se os resultados são realmente válidos. Essa tendência pode levar a uma ênfase maior em obter bons números do que em garantir que os testes sejam cientificamente sólidos.

A necessidade de conscientização

Enquanto este artigo não tem a intenção de desmerecer o valor dos testes A/B, ele enfatiza a necessidade de estar ciente das suposições feitas nesses experimentos online. É crucial que todos os envolvidos, de pesquisadores a praticantes, reconheçam quando essas suposições podem não ser verdadeiras.

Como os experimentos online são frequentemente considerados o padrão ouro para avaliar novas tecnologias, é importante entender as condições sob as quais eles podem fornecer insights confiáveis. Se as suposições forem violadas, especialmente em situações onde modelos de machine learning compartilham dados ou características, os resultados podem não ser confiáveis.

Conclusões

Testar modelos de machine learning através de experimentos online pode ser bem desafiador, especialmente quando estudos anteriores mostraram resultados conflitantes. O principal problema surge quando testes online são tratados como o método definitivo de avaliação, apesar do potencial para suposições falhas.

Nesta discussão, destacamos que práticas comuns, como compartilhar dados entre múltiplos modelos, podem comprometer a integridade dos experimentos. À medida que essas práticas se tornam mainstream, deve haver um apelo para que todos os envolvidos sejam mais críticos ao analisar os resultados de seus testes online.

Essa discussão levanta perguntas importantes sobre como os dados compartilhados impactam os resultados e como os pesquisadores podem avaliar melhor esses experimentos. Trabalhos futuros devem focar em entender os preconceitos introduzidos por essas práticas e oferecer melhores diretrizes para conduzir testes online confiáveis.

Ao melhorar a conscientização e entender essas nuances, isso pode levar a uma melhor precisão na avaliação de métodos de machine learning e garantir que os insights derivados desses experimentos contribuam de forma significativa para o campo.

Fonte original

Título: A Common Misassumption in Online Experiments with Machine Learning Models

Resumo: Online experiments such as Randomised Controlled Trials (RCTs) or A/B-tests are the bread and butter of modern platforms on the web. They are conducted continuously to allow platforms to estimate the causal effect of replacing system variant "A" with variant "B", on some metric of interest. These variants can differ in many aspects. In this paper, we focus on the common use-case where they correspond to machine learning models. The online experiment then serves as the final arbiter to decide which model is superior, and should thus be shipped. The statistical literature on causal effect estimation from RCTs has a substantial history, which contributes deservedly to the level of trust researchers and practitioners have in this "gold standard" of evaluation practices. Nevertheless, in the particular case of machine learning experiments, we remark that certain critical issues remain. Specifically, the assumptions that are required to ascertain that A/B-tests yield unbiased estimates of the causal effect, are seldom met in practical applications. We argue that, because variants typically learn using pooled data, a lack of model interference cannot be guaranteed. This undermines the conclusions we can draw from online experiments with machine learning models. We discuss the implications this has for practitioners, and for the research literature.

Autores: Olivier Jeunen

Última atualização: 2023-04-21 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2304.10900

Fonte PDF: https://arxiv.org/pdf/2304.10900

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais do autor

Artigos semelhantes