Mejorando las pruebas A/B con observaciones de disparador
Aprende cómo las observaciones de activación pueden mejorar tus resultados de pruebas A/B de manera efectiva.
Tanmoy Das, Dohyeon Lee, Arnab Sinha
― 5 minilectura
Tabla de contenidos
En el mundo de los negocios online, las empresas a menudo quieren saber si un cambio que hicieron realmente está marcando la diferencia. Para esto, usan herramientas como las pruebas A/B. Es bastante simple: tienes dos grupos, el grupo de control que ve la versión antigua de lo que estás probando y el grupo de tratamiento que ve la nueva versión. Después de un tiempo, miras los resultados para ver cuál versión tuvo mejor rendimiento.
Pero aquí está el truco. A veces, los cambios son tan pequeños que es difícil saber si realmente están haciendo una diferencia. Esto se debe a que los resultados pueden ser bastante ruidosos, y se vuelve complicado averiguar si los cambios están funcionando como se esperaba. Muchas veces, las empresas se pierden de implementar cambios útiles que podrían hacer a los clientes más felices porque no están seguras si los cambios son efectivos.
Aquí es donde entra la idea de las "observaciones activadoras". Piensa en estos momentos como esos especiales en los que los grupos de control y tratamiento realmente muestran resultados diferentes. Cuando solo miras estos momentos, puedes tener una imagen más clara de lo que funciona y lo que no. Esto podría ayudar a las empresas a implementar cambios que realmente mejoren la experiencia del cliente y su rentabilidad.
Observaciones Activadoras Explicadas
Supongamos que manejas una tienda online que tiene un montón de productos. Cada producto podría tener algunas imágenes que necesitan mostrarse en un orden específico para captar la atención de los clientes. Tienes una forma antigua de mostrar estas imágenes (el modelo de control) y una nueva que crees que será mejor (el modelo de tratamiento).
Ahora, no la experiencia de todos los clientes será diferente; algunos podrían ver los mismos resultados de ambos modelos. Estas se llaman observaciones no activadoras. Pero luego hay esos momentos en los que los dos modelos dan diferentes clasificaciones para las imágenes; esa es tu observación activadora. Si te concentras solo en estos momentos activadores, tus posibilidades de ver cambios reales pueden mejorar.
Conocimiento Total vs. Conocimiento Parcial
Diferentes empresas pueden tener dificultades para identificar todas las observaciones activadoras. Identificar cada una puede ser como buscar una aguja en un pajar: consume tiempo y es caro. Entonces, ¿qué puedes hacer?
Una opción es usar conocimiento total, lo que significa que conoces cada observación activadora. Esto puede darte los resultados más precisos, pero tiene un costo. También puedes considerar mirar solo una muestra de tus observaciones; esa es tu aproximación de conocimiento parcial. Aunque esta opción es más barata, puede introducir sesgos en tus hallazgos, como intentar adivinar qué hay dentro de un regalo envuelto sin abrirlo primero.
La Importancia del Tamaño de la Muestra
Cuando usas conocimiento parcial, el tamaño de tu muestra importa. Cuanto más grande sea tu muestra, mejor podrás estimar la intensidad del desencadenante, lo que significa que te acercarás más a los resultados reales. Si tu Tamaño de muestra es muy pequeño, puede llevar a adivinar resultados incorrectos, igual que intentar contar cuántos caramelos hay en un frasco y solo contar unos pocos.
Beneficios de Usar Observaciones Activadoras
-
Mejor Precisión: Al enfocarse en las observaciones activadoras, las empresas pueden ver resultados más claros. Es como limpiar tus gafas; de repente, todo se vuelve mucho más fácil de ver.
-
Más Significancia Estadística: Cuando reduces tu enfoque solo a esos momentos donde existe una diferencia, es más probable que encuentres resultados que importen. Esto podría llevar a identificar cambios que realmente mejoren la satisfacción del cliente o las ventas.
-
Soluciones Rentables: Con conocimiento parcial, las empresas pueden ahorrar dinero mientras aún obtienen información valiosa. Es como poder comprar un gran regalo sin arruinarte.
-
Validación en el Mundo Real: Cuando las empresas utilizan estos métodos en proyectos reales, a menudo descubren que sus resultados estimados están más cerca de la realidad que cuando iban a ciegas.
Ejemplo del Mundo Real
Supongamos que nuestro minorista online realizó una prueba A/B para un nuevo diseño de su página de producto. Usaron un modelo de tratamiento que mostraba imágenes en un nuevo orden. Cuando los clientes visitaban la página, registraron si el modelo de control y el modelo de tratamiento entregaron resultados diferentes.
En lugar de mirar todas las visitas de los clientes, se enfocaron en las observaciones activadoras donde los clientes reaccionaron de manera diferente. Después de algunas pruebas, encontraron que al usar solo esas observaciones, sus resultados mostraron una reducción del 36% en la incertidumbre sobre sus hallazgos. Los clientes estaban más propensos a apreciar los cambios, y eso podría aumentar potencialmente las ventas.
Conclusión
En pocas palabras, entender las observaciones activadoras puede ayudar a las empresas a darle sentido a sus pruebas A/B. Al enfocarse en esos momentos clave donde los resultados difieren, pueden obtener información más precisa y accionable. Este enfoque no solo es más inteligente; también es más fácil para el bolsillo. Así que la próxima vez que estés mirando esa nueva función o diseño de producto, recuerda que a veces vale la pena concentrarse en los momentos que realmente importan.
Título: Improving precision of A/B experiments using trigger intensity
Resumen: In industry, online randomized controlled experiment (a.k.a A/B experiment) is a standard approach to measure the impact of a causal change. These experiments have small treatment effect to reduce the potential blast radius. As a result, these experiments often lack statistical significance due to low signal-to-noise ratio. To improve the precision (or reduce standard error), we introduce the idea of trigger observations where the output of the treatment and the control model are different. We show that the evaluation with full information about trigger observations (full knowledge) improves the precision in comparison to a baseline method. However, detecting all such trigger observations is a costly affair, hence we propose a sampling based evaluation method (partial knowledge) to reduce the cost. The randomness of sampling introduces bias in the estimated outcome. We theoretically analyze this bias and show that the bias is inversely proportional to the number of observations used for sampling. We also compare the proposed evaluation methods using simulation and empirical data. In simulation, evaluation with full knowledge reduces the standard error as much as 85%. In empirical setup, evaluation with partial knowledge reduces the standard error by 36.48%.
Autores: Tanmoy Das, Dohyeon Lee, Arnab Sinha
Última actualización: 2024-11-05 00:00:00
Idioma: English
Fuente URL: https://arxiv.org/abs/2411.03530
Fuente PDF: https://arxiv.org/pdf/2411.03530
Licencia: https://creativecommons.org/licenses/by/4.0/
Cambios: Este resumen se ha elaborado con la ayuda de AI y puede contener imprecisiones. Para obtener información precisa, consulte los documentos originales enlazados aquí.
Gracias a arxiv por el uso de su interoperabilidad de acceso abierto.