Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Recupero delle informazioni# Apprendimento automatico

FedAds: Un Nuovo Riferimento per la Stima del CVR

FedAds offre una soluzione per una stima efficace della CVR proteggendo la privacy degli utenti.

― 7 leggere min


FedAds ridefinisce laFedAds ridefinisce lastima del CVRprivacy degli utenti.previsione del CVR proteggendo laUn benchmark innovativo migliora la
Indice

Nella pubblicità online, è importante sapere quanto è probabile che qualcuno faccia un acquisto dopo aver cliccato su un annuncio. Questa previsione si chiama stima del Tasso di conversione (CVR). Le aziende devono capire come prevedere questi tassi proteggendo allo stesso tempo la Privacy degli utenti. Un metodo chiamato federated learning verticale (vFL) aiuta in questo perché consente a due gruppi diversi di lavorare insieme per addestrare un modello senza condividere i loro dati grezzi.

Tuttavia, molti studi mancano di dataset standardizzati e modi sistematici per valutare questi metodi vFL, il che rende difficile confrontare le tecniche diverse e rallenta il progresso in questo campo. Per affrontare questo problema, presentiamo FedAds, un nuovo benchmark per la stima del CVR usando vFL. Questo benchmark include un grande dataset reale e modi per valutare diversi approcci vFL.

Cos'è la Stima del CVR?

La stima del CVR è il processo di previsione se un utente completerà un'azione desiderata dopo aver interagito con un annuncio, come fare un acquisto. Le aziende spesso si basano sui dati degli utenti raccolti dai loro siti web per addestrare modelli che anticipano questo comportamento. Tuttavia, le preoccupazioni sulla privacy stanno aumentando, rendendo cruciale trovare metodi che proteggano i dati degli utenti.

In uno scenario tipico, quando un utente vede un annuncio e ci clicca, viene portato su un'altra pagina dove potrebbe compiere ulteriori azioni, come fare un acquisto. L'editore dell'annuncio raccoglie dati sulle interazioni degli utenti, mentre la piattaforma pubblicitaria raccoglie dati sui comportamenti post-click, come quanto tempo un utente resta sulla pagina e se fa un acquisto.

La Sfida della Privacy dei Dati

I dati degli utenti sono spesso sensibili e proteggerli è fondamentale. Gli approcci tradizionali alla stima del CVR potrebbero richiedere la condivisione diretta di dati personali, portando a potenziali abusi. Il vFL offre una soluzione consentendo a diverse parti di addestrare modelli collaborativamente senza condividere realmente dati grezzi. Invece, scambiano risultati intermedi, il che aiuta a mantenere la privacy degli utenti.

Necessità di Dataset Standardizzati

Nonostante i vantaggi del vFL, molti studi esistenti utilizzano dataset pubblici che non sono rappresentativi delle applicazioni del mondo reale. Alcuni studi creano i loro dataset dividendo manualmente le caratteristiche, il che non è ideale per un confronto equo. Questa incoerenza rende difficile trarre conclusioni affidabili dalla ricerca sugli Algoritmi vFL.

Presentazione di FedAds

FedAds mira a risolvere questi problemi fornendo un benchmark completo per la stima del CVR utilizzando metodi vFL. Esso consiste in due componenti principali.

  1. Un grande dataset reale raccolto da una piattaforma di pubblicità online che si basa su vFL per classificare gli annunci. Questo dataset include varie caratteristiche relative al comportamento degli utenti e ai risultati di conversione.

  2. Valutazioni sistematiche di più algoritmi vFL per valutare la loro efficacia e le capacità di protezione della privacy. Questo consente ai ricercatori di confrontare diversi approcci in modo equo e identificare quali metodi funzionano meglio.

Costruzione del Dataset

Il dataset utilizzato in FedAds si basa su un mese di eventi di clic degli utenti da un servizio di consegna degli annunci. Ogni record corrisponde a un evento di clic unico e informazioni di contesto come i timestamp vengono registrate. Questo dataset è suddiviso in due parti: una contenente campioni allineati (con caratteristiche da entrambe le parti) e un'altra con campioni non allineati (con caratteristiche solo di una parte).

Le etichette di conversione indicano se un utente ha fatto un acquisto dopo aver cliccato su un annuncio, e queste etichette sono create in base all'ultima interazione che l'utente ha avuto con l'annuncio. Il dataset include caratteristiche sia dall'editore online che dalla piattaforma pubblicitaria, per un totale di 16 dalla piattaforma pubblicitaria e 7 dall'editore online.

Valutazione degli Algoritmi vFL

Per valutare efficacemente le prestazioni degli algoritmi vFL, abbiamo condotto test sistematici usando il dataset FedAds. I test si sono concentrati su due aspetti principali:

  1. Metriche di efficacia: Queste includono AUC (Area Sotto la Curva) e NLL (Log Verosimiglianza Negativa), che misurano quanto bene il modello riesce a classificare i candidati e quanto accuratamente prevede le probabilità di conversione.

  2. Metriche di privacy: Queste metriche valutano la capacità degli algoritmi di proteggere i dati sensibili degli utenti da potenziali attacchi, come attacchi di inferenza delle etichette.

Strategie per Migliorare l'Efficacia

Date le limitazioni dei metodi vFL tradizionali, sono state esplorate due strategie chiave per migliorare l'efficacia:

Utilizzo di Campioni Non Allineati

La prima sfida è che molti approcci vFL si basano pesantemente su campioni allineati. Anche se questi campioni sono utili, sono spesso limitati in numero. Pertanto, proponiamo di sfruttare i campioni non allineati, che sono punti dati disponibili da una parte ma privi delle caratteristiche dell'altra parte.

Per incorporare campioni non allineati nel processo di addestramento vFL, utilizziamo una tecnica chiamata modello di diffusione. Questo modello aiuta a sintetizzare le caratteristiche mancanti in base ai dati disponibili, permettendo all'addestramento di attingere a un dataset più ampio.

Proteggere le Informazioni sulle Etichette

Quando si tratta di privacy, una delle principali preoccupazioni è che la condivisione dei gradienti possa portare a perdite di etichette. Le tecniche devono garantire che questi gradienti non rivelino inavvertitamente informazioni sensibili. Una soluzione che proponiamo è aggiungere rumore casuale ai gradienti durante la trasmissione. Questo metodo distrae potenziali attaccanti e rende più difficile per loro inferire etichette private.

Difendersi dagli Attacchi

Gli attacchi di inferenza delle etichette rappresentano un rischio significativo nel vFL, dove un attaccante può dedurre le etichette di dati non visti sulla base del flusso di informazioni durante l'addestramento del modello. Adottiamo una strategia chiamata MixPro, che prevede due passaggi:

  1. Mixup dei Gradienti: Questa tecnica combina gradienti da campioni diversi per aggiungere casualità. Mescolando i gradienti, riduciamo la probabilità di previsioni sicure che potrebbero rivelare informazioni sulle etichette.

  2. Proiezione dei Gradienti: Per ridurre ulteriormente il rischio di perdite, proiettiamo i gradienti miscelati su una direzione predefinita per garantire che rimangano all'interno di una regione specificata. Questo processo aggiunge un ulteriore strato di sicurezza contro potenziali attacchi.

Svolgimento di Esperimenti

Abbiamo condotto esperimenti per convalidare l'efficacia e gli approcci di privacy di vari metodi vFL utilizzando il dataset FedAds. I risultati indicano che incorporare campioni non allineati migliora generalmente le prestazioni del modello e che le tecniche di protezione della privacy riducono significativamente il rischio di perdite di etichette.

Risultati e Confronti

Gli esperimenti mostrano un chiaro miglioramento delle prestazioni quando si utilizzano campioni non allineati oltre a quelli allineati. I modelli addestrati con il nostro approccio MixPro, che include sia mixup che proiezione, dimostrano forti capacità di privacy rispetto ai metodi tradizionali.

In generale, FedAds fornisce una piattaforma robusta per i ricercatori per testare i loro algoritmi vFL mantenendo la privacy come priorità assoluta.

Conclusione e Direzioni Future

FedAds rappresenta un passo significativo verso il miglioramento della ricerca vFL nel campo della stima del CVR. Offrendo un benchmark ben strutturato che include un ricco dataset e metodi di valutazione, speriamo di stimolare l'innovazione e incoraggiare la collaborazione nel settore.

Guardando al futuro, il nostro lavoro si concentrerà su:

  • Migliorare le prestazioni di calibrazione dei modelli di stima del CVR.
  • Affrontare il bias di selezione dei campioni nella stima del CVR attraverso tecniche di debiasing mirate.
  • Migliorare l'efficienza dei metodi di addestramento vFL.
  • Espandere l'applicazione del vFL oltre la classificazione ad altre fasi nei sistemi pubblicitari online.

In sintesi, crediamo che l'introduzione di FedAds faciliterà progressi negli approcci di machine learning che preservano la privacy nel campo della pubblicità online.

Fonte originale

Titolo: FedAds: A Benchmark for Privacy-Preserving CVR Estimation with Vertical Federated Learning

Estratto: Conversion rate (CVR) estimation aims to predict the probability of conversion event after a user has clicked an ad. Typically, online publisher has user browsing interests and click feedbacks, while demand-side advertising platform collects users' post-click behaviors such as dwell time and conversion decisions. To estimate CVR accurately and protect data privacy better, vertical federated learning (vFL) is a natural solution to combine two sides' advantages for training models, without exchanging raw data. Both CVR estimation and applied vFL algorithms have attracted increasing research attentions. However, standardized and systematical evaluations are missing: due to the lack of standardized datasets, existing studies adopt public datasets to simulate a vFL setting via hand-crafted feature partition, which brings challenges to fair comparison. We introduce FedAds, the first benchmark for CVR estimation with vFL, to facilitate standardized and systematical evaluations for vFL algorithms. It contains a large-scale real world dataset collected from Alibaba's advertising platform, as well as systematical evaluations for both effectiveness and privacy aspects of various vFL algorithms. Besides, we also explore to incorporate unaligned data in vFL to improve effectiveness, and develop perturbation operations to protect privacy well. We hope that future research work in vFL and CVR estimation benefits from the FedAds benchmark.

Autori: Penghui Wei, Hongjian Dou, Shaoguo Liu, Rongjun Tang, Li Liu, Liang Wang, Bo Zheng

Ultimo aggiornamento: 2023-05-14 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2305.08328

Fonte PDF: https://arxiv.org/pdf/2305.08328

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili