Métricas de Proxy: Um Novo Jeito de Medir Sucesso
Descubra como métricas proxy aumentam a tomada de decisão e melhoram a avaliação de produtos.
― 10 min ler
Índice
- Entendendo as Métricas Proxy
- Medindo o Desempenho das Métricas Proxy
- Sensibilidade nas Métricas
- Direcionalidade e Sua Importância
- Equilibrando Sensibilidade e Direcionalidade
- O Conceito de Otimalidade de Pareto
- Algoritmos para Encontrar Métricas Proxy
- Aplicação Prática das Métricas Proxy
- Considerações Práticas para Usar Métricas Proxy
- Benefícios Adicionais das Métricas Proxy
- Limitações e Direções Futuras
- Conclusão
- Fonte original
Empresas de tecnologia como Airbnb, Uber e Google costumam usar umas métricas específicas chamadas métricas norte para acompanhar como estão se saindo. Essas métricas ajudam as equipes a tomar decisões sobre melhorias de produtos, revisar o progresso e decidir se novos recursos devem ser lançados. Mas avaliar experimentos diretamente com base nessas métricas pode ser complicado por algumas razões.
Primeiro, as métricas norte podem ser lentas para reagir às mudanças. Isso significa que, às vezes, os resultados dos experimentos podem não mostrar claramente se uma mudança está melhorando as coisas. Segundo, o que acontece a curto prazo pode ser diferente do que acontece a longo prazo. Por exemplo, um recurso pode parecer funcionar bem no início, mas não se sustentar com o tempo, ou vice-versa.
Para lidar com esses problemas, as equipes costumam olhar para algo chamado Métricas Proxy em vez de depender apenas das métricas norte. As métricas proxy podem dar uma imagem mais clara dos impactos de curto prazo, enquanto ainda estão conectadas aos objetivos de longo prazo.
Entendendo as Métricas Proxy
As métricas proxy, também conhecidas como métricas substitutas, têm o objetivo de fornecer uma noção mais imediata de como um experimento está indo. As melhores métricas proxy são sensíveis a curto prazo e podem prever com precisão os resultados a longo prazo relacionados à métrica norte.
O uso de métricas proxy permite que as equipes respondam mais rapidamente ao avaliar os experimentos. Por exemplo, elas podem executar um teste em pequena escala de um novo recurso, verificar as métricas proxy para um feedback rápido e, em seguida, decidir se devem lançá-lo para todos.
Apesar de sua utilidade, as métricas proxy também têm seus próprios desafios. A maioria dos estudos existentes sobre métricas proxy focou em estimar impactos de longo prazo sem considerar quão sensíveis essas métricas são no curto prazo. Este artigo apresenta um novo método que otimiza tanto a precisão da previsão para resultados de longo prazo quanto a Sensibilidade no curto prazo, conhecido como métricas proxy ótimas de Pareto.
Medindo o Desempenho das Métricas Proxy
Quando se trata de avaliar o desempenho das métricas proxy, duas características importantes entram em jogo: sensibilidade e Direcionalidade.
- Sensibilidade se refere a quão bem uma métrica pode detectar um efeito significativo.
- Direcionalidade avalia se as mudanças na métrica proxy estão alinhadas com as mudanças na métrica norte.
Essas duas propriedades geralmente estão interconectadas. À medida que uma aumenta, a outra muitas vezes diminui. Encontrar um equilíbrio entre sensibilidade e estar alinhado com os objetivos de longo prazo é crucial para criar métricas proxy eficazes.
Sensibilidade nas Métricas
A sensibilidade é uma característica vital que determina quão bem uma métrica pode captar mudanças. Se uma métrica tem alta sensibilidade, ela pode mostrar rapidamente se um novo recurso está tendo um efeito positivo ou negativo.
Por exemplo, em experimentos, grupos de usuários são geralmente divididos em grupos de tratamento e controle. O desempenho de ambos os grupos é medido e os resultados são comparados para ver se há uma diferença significativa. Níveis altos de sensibilidade são importantes porque ajudam as equipes a tomar decisões mais rápidas e informadas.
No entanto, a sensibilidade pode variar dependendo do tipo de produto. Por exemplo, métricas relacionadas à qualidade de pesquisa podem ser mais sensíveis em experimentos relacionados a pesquisa do que em outras áreas, como notificações ou recomendações.
Direcionalidade e Sua Importância
Enquanto a sensibilidade mede quão bem uma métrica pode detectar mudanças, a direcionalidade verifica quão bem a métrica se alinha com o impacto de longo prazo da métrica norte. Em outras palavras, a direcionalidade mostra se melhorar a métrica proxy leva a melhorias reais na experiência do usuário, conforme representado pela métrica norte.
Medir a direcionalidade pode ser complicado porque muitas vezes requer dados de longo prazo que podem ser barulhentos. Uma maneira de lidar com essa complexidade é avaliar a correlação entre resultados de curto prazo e resultados de longo prazo em vários experimentos.
Duas abordagens para quantificar a direcionalidade são o erro quadrático médio e a correlação empírica. Ambos os métodos fornecem insights sobre quão estreitamente relacionada uma métrica proxy está com a métrica norte e ajudam as equipes a avaliar quais proxies usar.
Equilibrando Sensibilidade e Direcionalidade
A relação entre sensibilidade e direcionalidade muitas vezes representa um desafio: à medida que as equipes tentam tornar as métricas mais sensíveis, elas podem inadvertidamente reduzir sua capacidade de prever com precisão os resultados de longo prazo. Isso cria um trade-off que as equipes devem navegar com cuidado.
O objetivo é criar uma métrica proxy que equilibre essas duas qualidades. Para alcançar esse equilíbrio ótimo, um método chamado métricas proxy ótimas de Pareto é proposto. Essa abordagem utiliza otimização de múltiplos objetivos para encontrar métricas proxy que se destacam tanto em sensibilidade quanto em direcionalidade.
O Conceito de Otimalidade de Pareto
Em termos mais simples, a otimalidade de Pareto refere-se a uma situação em que melhorar um aspecto de uma métrica resulta em uma queda em outro. No caso das métricas proxy, melhorar a sensibilidade pode levar a uma menor direcionalidade, e vice-versa.
Para resolver isso, o objetivo é encontrar um conjunto de pesos para as métricas proxy que não sejam ofuscados por outras - isso significa encontrar pesos que alcancem o melhor equilíbrio possível entre sensibilidade e direcionalidade.
Algoritmos para Encontrar Métricas Proxy
Para encontrar métricas proxy ótimas, vários algoritmos podem ser implementados. Estratégias comuns incluem métodos que dependem de amostragem e técnicas de otimização não lineares. Ao rodar esses algoritmos, as equipes podem extrair efetivamente as melhores métricas proxy que são sensíveis e alinhadas direcionalmente com a métrica norte.
Uma abordagem é uma busca aleatória que testa várias combinações de pesos em métricas auxiliares. Essa exploração permite que as equipes avaliem uma gama de possibilidades e identifiquem quais combinações produzem os melhores resultados tanto para sensibilidade quanto para direcionalidade.
Outro método envolve restringir a sensibilidade a certos limites e otimizar a direcionalidade de acordo. Essa abordagem direcionada pode agilizar o processo e gerar métricas proxy eficazes.
Aplicação Prática das Métricas Proxy
Na prática, a metodologia foi testada em um sistema de recomendação em larga escala, utilizando uma variedade de experimentos. Ao implementar as novas métricas proxy, as equipes descobriram que essas métricas eram significativamente mais sensíveis - às vezes, até oito vezes mais sensíveis do que a métrica norte.
Esse nível de sensibilidade permitiu avaliações mais rápidas e decisões mais confiáveis sobre lançamentos de recursos. Em cenários onde a métrica norte de longo prazo era estatisticamente significativa, a métrica proxy foi capaz de orientar decisões positivamente, provando seu valor prático.
Considerações Práticas para Usar Métricas Proxy
Embora as métricas proxy ofereçam várias vantagens, as equipes devem ter cuidado para garantir que as estejam utilizando efetivamente. Aqui estão algumas considerações importantes:
Avaliar a Necessidade de Proxies: Antes de desenvolver métricas proxy, as equipes devem confirmar que enfrentam problemas com a métrica norte, como baixa sensibilidade ou diferenças significativas entre efeitos de curto e longo prazo.
O Design do Experimento Importa: Em vez de pular direto para a criação de proxies, as equipes devem primeiro avaliar se um design de experimento melhor pode ajudar a melhorar a sensibilidade. Às vezes, experimentos maiores ou mais longos podem fornecer resultados mais claros sem a necessidade de métricas proxy.
Senso Comum na Escolha de Proxies: As melhores métricas proxy geralmente capturam aspectos claros e intuitivos da experiência do usuário. As equipes devem confiar em sua compreensão dos usuários e do design do produto ao selecionar métricas auxiliares para seus proxies.
Validação e Monitoramento: É crucial validar e monitorar continuamente as métricas proxy para garantir que permaneçam eficazes. As equipes devem realizar avaliações regulares para confirmar que essas métricas ainda refletem os resultados desejados.
Benefícios Adicionais das Métricas Proxy
Implementar métricas proxy levou a vantagens inesperadas além de apenas melhorar a tomada de decisões. Um benefício significativo é a compreensão aprimorada que as equipes ganham sobre suas métricas e como elas se inter-relacionam. Essa compreensão pode levar a melhores escolhas de design e coleta de dados mais sistemática.
Além disso, o processo de desenvolvimento de métricas proxy pode revelar métricas auxiliares adicionais que, embora não sejam adequadas para inclusão no proxy, ainda podem fornecer insights valiosos sobre o desempenho geral do produto. Esses insights podem ser integrados em sistemas de aprendizado de máquina para melhorar ainda mais os resultados a longo prazo.
Limitações e Direções Futuras
Embora essa metodologia represente um avanço substancial, muitas áreas ainda precisam de mais exploração. Uma área significativa de foco é a causalidade. A abordagem atual assume que os efeitos de tratamento em experimentos são extraídos da mesma distribuição, mas explorar métodos mais formais de avaliar causalidade poderia levar a resultados ainda melhores.
Outra área para crescimento é o aprimoramento dos processos de seleção para as métricas proxy finais. Insights do escore de proxy desenvolvido podem informar uma seleção melhor, levando a estratégias mais eficazes para avaliar e aprovar experimentos.
As equipes também ainda não exploraram completamente certas técnicas de modelagem que podem abordar problemas de não linearidade e seleção de recursos. Melhorias nessas áreas poderiam facilitar métricas proxy ainda mais eficazes e personalizadas.
Conclusão
Em resumo, o uso de métricas proxy bem elaboradas pode melhorar enormemente o processo de tomada de decisão nas empresas de tecnologia. Ao focar em métricas locais mais alinhadas com o contexto de experimentos específicos, as equipes podem alcançar uma sensibilidade muito maior do que apenas com as métricas norte, enquanto mantêm a direcionalidade que garante que as decisões levem a experiências positivas para os usuários. À medida que as equipes aprendem a iterar mais rapidamente e responder de forma mais eficaz, elas podem garantir que novos recursos realmente melhorem a experiência do usuário.
Título: Pareto optimal proxy metrics
Resumo: North star metrics and online experimentation play a central role in how technology companies improve their products. In many practical settings, however, evaluating experiments based on the north star metric directly can be difficult. The two most significant issues are 1) low sensitivity of the north star metric and 2) differences between the short-term and long-term impact on the north star metric. A common solution is to rely on proxy metrics rather than the north star in experiment evaluation and launch decisions. Existing literature on proxy metrics concentrates mainly on the estimation of the long-term impact from short-term experimental data. In this paper, instead, we focus on the trade-off between the estimation of the long-term impact and the sensitivity in the short term. In particular, we propose the Pareto optimal proxy metrics method, which simultaneously optimizes prediction accuracy and sensitivity. In addition, we give an efficient multi-objective optimization algorithm that outperforms standard methods. We applied our methodology to experiments from a large industrial recommendation system, and found proxy metrics that are eight times more sensitive than the north star and consistently moved in the same direction, increasing the velocity and the quality of the decisions to launch new features.
Autores: Lee Richardson, Alessandro Zito, Dylan Greaves, Jacopo Soriano
Última atualização: 2023-07-03 00:00:00
Idioma: English
Fonte URL: https://arxiv.org/abs/2307.01000
Fonte PDF: https://arxiv.org/pdf/2307.01000
Licença: https://creativecommons.org/licenses/by/4.0/
Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.
Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.