Novas Métricas para Decisões de Testes A/B Mais Rápidas
Uma nova abordagem para métricas melhora a eficiência dos testes A/B e a tomada de decisões.
― 8 min ler
Índice
- A Necessidade de Métricas Eficazes
- Problemas Comuns com Métodos Atuais
- Nossa Abordagem para Aprender Métricas
- Aprendendo com Experimentos Passados
- Adotando um Novo Objetivo
- Testando Nossas Métricas
- Analisando Sensibilidade
- Concordância com as Métricas North Star
- Aumento de Poder e Redução de Custos
- Resultados Experimentais
- Insights e Conclusões
- Principais Conclusões
- Fonte original
Experimentos controlados online, conhecidos como Testes A/B, são super comuns nas empresas de tecnologia pra ajudar a tomar decisões mais certeiras. Nesses testes, diferentes versões de um sistema ou produto são comparadas pra ver qual se sai melhor com base em uma medida chave chamada de métrica North Star. Isso pode ser algo tipo receita a longo prazo ou com que frequência os usuários voltam. A versão que mostra uma melhoria significativa nessa métrica geralmente é escolhida como a melhor opção.
Mas essas métricas North Star costumam demorar pra mostrar resultados e podem ser insensíveis a mudanças rápidas. Isso pode fazer com que o custo de rodar esses experimentos seja alto. Os testes normalmente precisam rodar por um bom tempo, e às vezes eles perdem mudanças importantes, resultando em conclusões erradas sobre qual versão é melhor.
Pra resolver esses problemas, estamos apresentando uma nova maneira de criar métricas que focam em sinais de curto prazo. Usando esses sinais, podemos aumentar as chances de identificar melhorias reais mais rápido e de forma mais confiável. Nossa pesquisa mostra que os métodos existentes muitas vezes não funcionam bem. Só porque uma métrica média parece sensível, isso não significa que diminui as chances de perder mudanças significativas. A gente propõe minimizar os erros estatísticos vistos em experimentos passados.
Usando dados de dois grandes aplicativos de redes sociais com milhões de usuários ativos, analisamos testes A/B pra validar nossas ideias. Os resultados indicam que nossas novas métricas podem aumentar significativamente a eficiência desses testes, permitindo que as empresas tomem decisões mais rápidas e confiantes.
A Necessidade de Métricas Eficazes
À medida que as empresas de tecnologia evoluem, elas precisam melhorar continuamente seus produtos e experiências dos usuários. Isso é essencial pra se manter competitivo e manter os usuários engajados. Decisões sobre design, interface de usuário e tecnologia de backend têm um impacto direto na satisfação e retenção dos usuários.
Testes A/B são uma maneira sistemática de tomar essas decisões. Ao dividir os usuários em grupos que experimentam diferentes variações do produto, as empresas podem comparar diretamente como essas versões se saem. No entanto, usar métricas North Star tem suas desvantagens. Elas geralmente exigem coleta de dados extensa por longos períodos, levando a atrasos na tomada de decisões. Por isso, muitas empresas recorrem a métricas secundárias que podem dar uma visão mais imediata, mesmo que sejam menos confiáveis.
Problemas Comuns com Métodos Atuais
Os principais problemas com os métodos existentes para analisar testes A/B incluem:
Overfitting: As abordagens atuais às vezes focam demais em adaptar os dados que têm, em vez de generalizar de forma eficaz pra novos testes. Isso pode levar a falsos positivos, onde parece que uma variação é melhor do que realmente é.
Erros Tipo-II: Isso acontece quando um teste não consegue detectar um efeito real, levando a oportunidades perdidas. Altos erros tipo-II significam que mudanças potencialmente benéficas são ignoradas.
Longos Tempos de Experimentação: A necessidade de esperar mudanças substanciais na métrica North Star pode atrasar a tomada de decisões e custar tempo e recursos para as empresas.
Pra lidar com esses problemas de forma eficaz, propomos uma nova estrutura para desenvolver métricas que focam em maximizar o poder dos testes A/B.
Nossa Abordagem para Aprender Métricas
Nosso objetivo é criar métricas que forneçam uma imagem mais precisa de como diferentes versões do sistema estão se saindo. Aprendendo com sinais de curto prazo, podemos aumentar o Poder Estatístico dos testes A/B.
Aprendendo com Experimentos Passados
A base da nossa abordagem envolve analisar dados de testes A/B passados. Esses dados incluem várias métricas em muitos experimentos, permitindo que vejamos quais métricas se correlacionam com resultados bem-sucedidos. A gente olha especificamente pra:
- Níveis de engajamento, como visualizações de vídeo e interações dos usuários.
- Métricas de longo prazo como taxas de retenção e receita.
Ao examinar essas relações, podemos identificar quais sinais de curto prazo correspondem mais de perto à métrica North Star.
Adotando um Novo Objetivo
Em vez de depender apenas da sensibilidade da métrica média, propomos minimizar o número de erros associados às nossas métricas. Isso significa focar na redução de erros tipo-II, enquanto ainda tomamos cuidado com erros tipo-I, que ocorrem quando um teste mostra incorretamente um efeito significativo.
Nosso método envolve uma transformação matemática que nos ajuda a encontrar o equilíbrio certo. Esse ajuste garante que nossas métricas não sejam apenas sensíveis, mas também funcionem efetivamente em vários testes sem resultados enganosos.
Testando Nossas Métricas
Nossas métricas propostas foram validadas usando dados de duas plataformas populares de vídeos curtos. Com uma base enorme de mais de 160 milhões de usuários ativos mensais, essas plataformas ofereceram dados suficientes pra garantir uma validação robusta.
Analisando Sensibilidade
Pra medir como nossas métricas se saíram, usamos uma técnica chamada validação cruzada leave-one-out. Isso significa que treinamos nossas métricas usando todos os experimentos, exceto um, usando o experimento deixado de fora como caso de teste. Isso nos permite ver como nossas métricas poderiam generalizar além dos dados de treinamento.
Os resultados mostraram que nossas novas métricas melhoraram tanto o desempenho médio quanto a confiabilidade dos testes estatísticos, levando a menos erros na identificação de variantes bem-sucedidas.
Concordância com as Métricas North Star
Um aspecto importante da nossa análise foi medir quão bem nossas métricas aprendidas correspondiam à métrica North Star. Queríamos garantir que, quando nossos testes indicavam uma melhoria significativa, realmente era uma melhoria segundo a North Star.
Comparando os resultados das nossas métricas com a North Star, pudemos identificar casos de erros tipo-III, onde uma métrica sugeriu uma mudança que, na verdade, não era benéfica. Nossa abordagem de otimização para valores minimizados ajudou a eliminar muitas dessas discrepâncias.
Aumento de Poder e Redução de Custos
Usando nossas métricas aprendidas, vimos aumentos notáveis no poder estatístico, o que significa que os testes poderiam detectar melhorias reais de forma mais eficaz.
Resultados Experimentais
Os resultados indicaram um aumento de poder de até 78% ao usar nossas métricas sozinhas. Quando combinadas com a North Star, esse poder poderia aumentar até 210%. Isso significa que as empresas podem chegar a conclusões significativas mais rápido e com mais confiança em suas decisões.
Além disso, ao otimizar o poder estatístico, as empresas poderiam rodar experimentos com tamanhos de amostra significativamente menores-às vezes chegando a apenas 12% do que um teste típico da North Star exigiria. Essa redução se traduz diretamente em custos mais baixos para rodar experimentos, permitindo que as empresas experimentem mais rápido e com mais frequência.
Insights e Conclusões
Nossa pesquisa nos leva a concluir que aprender métricas eficazes não é só benéfico; é quase necessário pra empresas de tecnologia moderna que dependem da tomada de decisão baseada em dados.
Principais Conclusões
Sinais de Curto Prazo Importam: Focando em métricas que refletem o engajamento do usuário a curto prazo, as empresas podem obter insights que são relevantes e imediatos, ajudando na tomada de decisões mais rápidas.
Seleção Cuidadosa de Métricas: Aprender com testes A/B passados permite a criação de métricas que estão mais alinhadas com os objetivos de negócios, garantindo que as decisões sejam tomadas com base em dados confiáveis.
Melhorando a Eficiência: A capacidade de alcançar resultados significativos com tamanhos de amostra menores reduz custos, ajudando as empresas a serem ágeis em um ambiente competitivo.
Em resumo, nossa abordagem proposta de desenvolver métricas que maximizam o poder estatístico representa uma melhoria significativa em relação aos métodos tradicionais. Ao promover uma tomada de decisão mais rápida e precisa, as empresas de tecnologia podem aprimorar seus produtos e servir melhor seus usuários.
Título: Learning Metrics that Maximise Power for Accelerated A/B-Tests
Resumo: Online controlled experiments are a crucial tool to allow for confident decision-making in technology companies. A North Star metric is defined (such as long-term revenue or user retention), and system variants that statistically significantly improve on this metric in an A/B-test can be considered superior. North Star metrics are typically delayed and insensitive. As a result, the cost of experimentation is high: experiments need to run for a long time, and even then, type-II errors (i.e. false negatives) are prevalent. We propose to tackle this by learning metrics from short-term signals that directly maximise the statistical power they harness with respect to the North Star. We show that existing approaches are prone to overfitting, in that higher average metric sensitivity does not imply improved type-II errors, and propose to instead minimise the $p$-values a metric would have produced on a log of past experiments. We collect such datasets from two social media applications with over 160 million Monthly Active Users each, totalling over 153 A/B-pairs. Empirical results show that we are able to increase statistical power by up to 78% when using our learnt metrics stand-alone, and by up to 210% when used in tandem with the North Star. Alternatively, we can obtain constant statistical power at a sample size that is down to 12% of what the North Star requires, significantly reducing the cost of experimentation.
Autores: Olivier Jeunen, Aleksei Ustimenko
Última atualização: 2024-06-13 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2402.03915
Fonte PDF: https://arxiv.org/pdf/2402.03915
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.