Simple Science

Scienza all'avanguardia spiegata semplicemente

# Statistica# Apprendimento automatico# Recupero delle informazioni# Applicazioni# Apprendimento automatico

Nuove metriche per decisioni A/B testing più veloci

Un nuovo approccio alle metriche migliora l'efficienza dei test A/B e la presa di decisioni.

― 7 leggere min


Rivoluzionare le metricheRivoluzionare le metrichedei test A/Bla velocità nelle decisioni di testing.Nuove metriche aumentano l'efficienza e
Indice

Gli esperimenti controllati online, spesso chiamati Test A/B, sono super usati nelle aziende tech per prendere decisioni informate. In questi test, si confrontano diverse versioni di un sistema o prodotto per vedere quale funziona meglio in base a una misura chiave conosciuta come North Star metric. Può essere qualcosa come il fatturato a lungo termine o quanto spesso gli utenti tornano. La versione che mostra un miglioramento significativo in questa metrica di solito viene scelta come opzione migliore.

Tuttavia, queste North Star metrics spesso richiedono tempo per mostrare risultati e possono essere insensibili ai cambiamenti rapidi. Questo può far sì che il costo per condurre questi esperimenti sia alto. I test di solito devono durare a lungo e a volte saltano cambiamenti importanti, portando a conclusioni sbagliate su quale versione sia migliore.

Per affrontare questi problemi, stiamo introducendo un nuovo modo di creare metriche che si concentrano sui segnali a breve termine. Usando questi segnali, possiamo migliorare le possibilità di individuare miglioramenti reali più velocemente e in modo più affidabile. La nostra ricerca mostra che i metodi esistenti spesso non funzionano bene. Solo perché una metrica media sembra sensibile, non significa che riduca le possibilità di perdere cambiamenti significativi. Proponiamo invece di minimizzare gli errori statistici visti negli esperimenti passati.

Usando dati di due grandi applicazioni di social media con milioni di utenti attivi, abbiamo analizzato test A/B per convalidare le nostre idee. I risultati indicano che le nostre nuove metriche possono aumentare notevolmente l'efficienza di questi test, permettendo alle aziende di prendere decisioni più veloci e sicure.

La Necessità di Metriche Efficaci

Man mano che le aziende tecnologiche evolvono, devono continuamente migliorare i loro prodotti e le esperienze degli utenti. Questo è essenziale per rimanere competitivi e mantenere gli utenti coinvolti. Le decisioni riguardo al design, all'interfaccia utente e alla tecnologia di backend hanno un impatto diretto sulla soddisfazione e sulla retention degli utenti.

Il test A/B è un modo sistematico per prendere queste decisioni. Dividendo gli utenti in gruppi che sperimentano diverse variazioni del prodotto, le aziende possono confrontare direttamente quanto bene funzionano queste versioni. Tuttavia, usare le North Star metrics ha svantaggi. Richiedono spesso un'ampia raccolta di dati nel tempo, portando a ritardi nelle decisioni. Ecco perché molte aziende si rivolgono a metriche secondarie che possono dare loro intuizioni più immediate, anche se meno affidabili.

Problemi Comuni con i Metodi Attuali

I problemi principali con i metodi esistenti per analizzare i test A/B includono:

  1. Overfitting: Gli approcci attuali a volte si concentrano troppo sull'adattamento dei dati che hanno piuttosto che generalizzare efficacemente a nuovi test. Questo può portare a falsi positivi, dove sembra che una variazione sia migliore di quanto non sia.

  2. Errori di Tipo II: Questo è quando un test non riesce a rilevare un effetto reale, portando a opportunità mancate. Alti errori di tipo II significano che cambiamenti potenzialmente benefici vengono ignorati.

  3. Tempi di Sperimentazione Lunghi: La necessità di aspettare cambiamenti sostanziali nella North Star metric può ritardare il processo decisionale e costare tempo e risorse alle aziende.

Per affrontare efficacemente questi problemi, proponiamo un nuovo framework per sviluppare metriche che si concentrano massimo su potenziare i test A/B.

Il Nostro Approccio ai Metriche di Apprendimento

Il nostro obiettivo è creare metriche che offrano un quadro più preciso di come stanno performando le diverse versioni del sistema. Imparando dai segnali a breve termine, possiamo migliorare il Potere Statistico dei test A/B.

Imparare dagli Esperimenti Passati

La base del nostro approccio prevede l'analisi dei dati degli esperimenti A/B passati. Questi dati includono varie metriche attraverso molti esperimenti, permettendoci di vedere quali metriche sono correlate a risultati di successo. Guardiamo specificamente a:

  • Livelli di engagement, come visualizzazioni video e interazioni degli utenti.
  • Metriche a lungo termine come tassi di retention e fatturato.

Esaminando queste relazioni, possiamo identificare quali segnali a breve termine corrispondono più strettamente alla North Star metric.

Adottare un Nuovo Obiettivo

Invece di fare affidamento semplicemente sulla sensibilità delle metriche medie, proponiamo di minimizzare il numero di errori associati alle nostre metriche. Questo significa concentrarsi sulla riduzione degli errori di tipo II mentre si è comunque cauti sugli errori di tipo I, che si verificano quando un test mostra erroneamente un effetto significativo.

Il nostro metodo prevede una trasformazione matematica che ci aiuta a trovare il giusto equilibrio. Questo aggiustamento assicura che le nostre metriche siano non solo sensibili, ma anche efficaci in vari test senza risultati fuorvianti.

Testare le Nostre Metriche

Le metriche che proponiamo sono state convalidate usando dati di due piattaforme popolari di video brevi. Con una vasta base di oltre 160 milioni di utenti attivi mensili, queste piattaforme hanno offerto abbastanza dati per garantire una convalida robusta.

Analizzare la Sensibilità

Per misurare quanto bene le nostre metriche performano, abbiamo usato una tecnica chiamata leave-one-out cross-validation. Questo significa che abbiamo addestrato le nostre metriche usando tutti gli esperimenti tranne uno, usando l'esperimento lasciato fuori come caso di test. Questo ci permette di vedere quanto bene le nostre metriche potessero generalizzare oltre i dati di addestramento.

I risultati hanno mostrato che le nostre nuove metriche hanno migliorato sia la performance media che l'affidabilità dei test statistici, riducendo gli errori nell'identificare varianti di successo.

Accordo con le North Star Metrics

Un aspetto importante della nostra analisi è stato misurare quanto bene le nostre metriche apprese corrispondessero alla North Star metric. Volevamo assicurarci che quando i nostri test indicavano un miglioramento significativo, fosse davvero un miglioramento secondo la North Star.

Confrontando i risultati delle nostre metriche con la North Star, siamo riusciti a identificare casi di errori di tipo III, dove una metrica suggeriva un cambiamento che in realtà non era vantaggioso. Il nostro approccio all'ottimizzazione per minimizzare i valori p ha aiutato a eliminare molte di queste discrepanze.

Aumento del Potere e Riduzione dei Costi

Usando le nostre metriche apprese, abbiamo visto un notevole aumento del potere statistico, il che significa che i test potevano rilevare miglioramenti reali in modo più efficace.

Risultati Sperimentali

I risultati hanno indicato un aumento del potere fino al 78% quando usavamo solo le nostre metriche. Quando combinate con la North Star, questo potere poteva aumentare fino al 210%. Questo significa che le aziende possono raggiungere conclusioni significative più velocemente e con maggiore fiducia nelle loro decisioni.

Inoltre, ottimizzando per il potere statistico, le aziende potevano condurre esperimenti con dimensioni del campione significativamente più piccole, a volte ridotte fino al 12% di ciò che richiederebbe un tipico test North Star. Questa riduzione si traduce direttamente in costi inferiori per condurre esperimenti, permettendo alle aziende di sperimentare più velocemente e più frequentemente.

Intuizioni e Conclusioni

La nostra ricerca ci porta a concludere che l'apprendimento di metriche efficaci non è solo vantaggioso; è quasi necessario per le moderne aziende tecnologiche che si basano su decisioni guidate dai dati.

Punti Chiave

  1. I Segnali a Breve Termine Contano: Concentrandosi su metriche che riflettono l'engagement degli utenti a breve termine, le aziende possono ottenere intuizioni rilevanti e immediate, favorendo decisioni più rapide.

  2. Selezione Cauta delle Metriche: Imparare dagli esperimenti A/B passati consente la creazione di metriche più allineate con gli obiettivi aziendali, assicurando che le decisioni siano basate su dati affidabili.

  3. Migliorare l'Efficienza: La capacità di raggiungere risultati significativi con campioni di dimensioni più piccole riduce i costi, aiutando le aziende a essere agili in un ambiente competitivo.

In conclusione, il nostro approccio proposto di sviluppare metriche che massimizzano il potere statistico rappresenta un significativo miglioramento rispetto ai metodi tradizionali. Favorendo decisioni più rapide e accurate, le aziende tech possono migliorare i loro prodotti e servire meglio i loro utenti.

Fonte originale

Titolo: Learning Metrics that Maximise Power for Accelerated A/B-Tests

Estratto: Online controlled experiments are a crucial tool to allow for confident decision-making in technology companies. A North Star metric is defined (such as long-term revenue or user retention), and system variants that statistically significantly improve on this metric in an A/B-test can be considered superior. North Star metrics are typically delayed and insensitive. As a result, the cost of experimentation is high: experiments need to run for a long time, and even then, type-II errors (i.e. false negatives) are prevalent. We propose to tackle this by learning metrics from short-term signals that directly maximise the statistical power they harness with respect to the North Star. We show that existing approaches are prone to overfitting, in that higher average metric sensitivity does not imply improved type-II errors, and propose to instead minimise the $p$-values a metric would have produced on a log of past experiments. We collect such datasets from two social media applications with over 160 million Monthly Active Users each, totalling over 153 A/B-pairs. Empirical results show that we are able to increase statistical power by up to 78% when using our learnt metrics stand-alone, and by up to 210% when used in tandem with the North Star. Alternatively, we can obtain constant statistical power at a sample size that is down to 12% of what the North Star requires, significantly reducing the cost of experimentation.

Autori: Olivier Jeunen, Aleksei Ustimenko

Ultimo aggiornamento: 2024-06-13 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2402.03915

Fonte PDF: https://arxiv.org/pdf/2402.03915

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili