Simple Science

La science de pointe expliquée simplement

# Informatique# Recherche d'informations# Apprentissage automatique

FedAds : Un nouveau standard pour l'estimation du CVR

FedAds propose une solution pour estimer le CVR de manière efficace tout en protégeant la vie privée des utilisateurs.

― 8 min lire


FedAds redéfinitFedAds redéfinitl'estimation du CVR.la vie privée des utilisateurs.la prédiction du CVR tout en protégeantUn nouveau benchmark innovant améliore
Table des matières

Dans la publicité en ligne, c'est super important de savoir à quel point quelqu'un est susceptible d'acheter après avoir cliqué sur une annonce. Cette prédiction s'appelle l'estimation du Taux de conversion (CVR). Les entreprises doivent trouver comment prédire ces taux tout en protégeant la Vie privée des utilisateurs. Un truc appelé l'Apprentissage Fédéré Vertical (vFL) aide avec ça parce qu'il permet à deux groupes différents de bosser ensemble sur l'entraînement d'un modèle sans partager leurs données brutes.

Cependant, de nombreuses études manquent de ensembles de données standardisés et de moyens systématiques pour évaluer ces méthodes vFL, ce qui rend difficile la comparaison des différentes techniques et retarde les progrès dans ce domaine. Pour remédier à ce problème, on présente FedAds, une nouvelle référence pour l'estimation du CVR utilisant vFL. Ce benchmark inclut un gros ensemble de données du monde réel et des moyens d'évaluer différentes approches vFL.

C'est quoi l'estimation du CVR ?

L'estimation du CVR, c'est le processus de prédire si un utilisateur va réaliser une action désirée après avoir interagi avec une annonce, comme faire un achat. Les entreprises s'appuient souvent sur les données des utilisateurs collectées sur leurs sites pour entraîner des modèles qui anticipent ce comportement. Mais, les préoccupations sur la vie privée augmentent, rendant crucial de trouver des méthodes qui protègent les données des utilisateurs.

Dans un scénario typique, quand un utilisateur voit une annonce et clique dessus, il est redirigé vers une autre page où il pourrait faire d'autres actions, comme acheter. Le diffuseur d'annonces collecte des données sur les interactions des utilisateurs, tandis que la plateforme publicitaire récupère des données sur les comportements après le clic, comme combien de temps un utilisateur reste sur la page et s'il achète ou pas.

Le défi de la vie privée des données

Les données des utilisateurs sont souvent sensibles, et il est crucial de les protéger. Les approches traditionnelles d'estimation du CVR peuvent nécessiter le partage direct de données personnelles, ce qui peut mener à un mauvais usage. Le vFL offre une solution en permettant à différentes parties d'entraîner des modèles ensemble sans partager les données brutes. À la place, elles échangent des résultats intermédiaires, ce qui aide à maintenir la vie privée des utilisateurs.

Besoin d'ensembles de données standardisés

Malgré les avantages du vFL, de nombreuses études existantes utilisent des ensembles de données publics qui ne reflètent pas les applications du monde réel. Certaines études créent leurs ensembles de données en divisant manuellement les caractéristiques, ce qui n'est pas idéal pour une comparaison juste. Cette inconsistance rend difficile de tirer des conclusions fiables de la recherche sur les Algorithmes vFL.

Présentation de FedAds

FedAds vise à résoudre ces problèmes en fournissant une référence complète pour l'estimation du CVR utilisant des méthodes vFL. Elle se compose de deux composants principaux.

  1. Un grand ensemble de données du monde réel collecté à partir d'une plateforme de publicité en ligne qui utilise le vFL pour classer les annonces. Cet ensemble de données comprend diverses caractéristiques liées au comportement des utilisateurs et aux résultats de conversion.

  2. Évaluations systématiques de plusieurs algorithmes vFL pour évaluer leur efficacité et leurs capacités de préservation de la vie privée. Cela permet aux chercheurs de comparer différentes approches de manière équitable et d'identifier celles qui fonctionnent le mieux.

Construction de l'ensemble de données

L'ensemble de données utilisé dans FedAds est basé sur un mois d'événements de clics d'utilisateurs d'un service de livraison d'annonces. Chaque enregistrement correspond à un événement de clic unique, et des informations contextuelles comme les horodatages sont enregistrées. Cet ensemble de données est divisé en deux parties : une contenant des échantillons alignés (avec des caractéristiques des deux parties) et une autre avec des échantillons non alignés (avec des caractéristiques provenant d'une seule partie).

Les étiquettes de conversion indiquent si un utilisateur a effectué un achat après avoir cliqué sur une annonce, et ces étiquettes sont créées en fonction de la dernière interaction de l'utilisateur avec l'annonce. L'ensemble de données comprend des caractéristiques à la fois de l'éditeur en ligne et de la plateforme publicitaire, totalisant 16 provenant de la plateforme publicitaire et 7 de l'éditeur en ligne.

Évaluation des algorithmes vFL

Pour évaluer efficacement les performances des algorithmes vFL, nous avons mené des tests systématiques en utilisant l'ensemble de données FedAds. Les tests ont porté sur deux aspects principaux :

  1. Métriques d'efficacité : Cela inclut l'AUC (Area Under the Curve) et le NLL (Negative Log Likelihood), qui mesurent la capacité du modèle à classer les candidats et à prédire avec précision les probabilités de conversion.

  2. Métriques de vie privée : Ces métriques évaluent la capacité des algorithmes à protéger les données sensibles des utilisateurs contre des attaques potentielles, comme les attaques d'inférence d'étiquettes.

Stratégies pour améliorer l'efficacité

Étant donné les limites des méthodes vFL traditionnelles, deux stratégies clés ont été explorées pour améliorer l'efficacité :

Utiliser des échantillons non alignés

Le premier défi est que de nombreuses approches vFL s'appuient fortement sur des échantillons alignés. Bien que ces échantillons soient utiles, leur nombre est souvent limité. Donc, on propose de tirer parti des échantillons non alignés, qui sont des points de données disponibles d'une partie mais manquant des caractéristiques de l'autre partie.

Pour incorporer des échantillons non alignés dans le processus d'entraînement vFL, on utilise une technique appelée un modèle de diffusion. Ce modèle aide à synthétiser les caractéristiques manquantes basées sur les données disponibles, permettant à l'entraînement de s'appuyer sur un plus grand ensemble de données.

Protéger les informations d'étiquette

En ce qui concerne la vie privée, une préoccupation majeure est que le partage de gradients peut mener à des fuites d'étiquettes. Les techniques doivent s'assurer que ces gradients ne révèlent pas involontairement des informations sensibles. Une solution qu'on propose est d'ajouter du bruit aléatoire aux gradients lors de leur transmission. Cette méthode distrait les attaquants potentiels et complique leur tâche pour déduire des étiquettes privées.

Défense contre les attaques

Les attaques d'inférence d'étiquettes représentent un risque significatif dans le vFL, où un attaquant peut déduire les étiquettes de données non vues en fonction de l'écoulement d'informations lors de l'entraînement du modèle. On emploie une stratégie appelée MixPro, qui implique deux étapes :

  1. Mélange de gradients : Cette technique combine des gradients de différents échantillons pour ajouter du caractère aléatoire. En mélangeant les gradients, on réduit la probabilité de prédictions confiantes qui pourraient révéler des informations d'étiquettes.

  2. Projection de gradients : Pour minimiser davantage le risque de fuite, on projette les gradients mélangés dans une direction prédéfinie pour garantir qu'ils restent dans une région spécifiée. Ce processus ajoute une couche de sécurité contre de potentielles attaques.

Réaliser des expériences

On a mené des expériences pour valider l'efficacité et les approches de vie privée des différentes méthodes vFL utilisant l'ensemble de données FedAds. Les résultats indiquent que l'incorporation d'échantillons non alignés améliore généralement les performances du modèle et que les techniques de préservation de la vie privée réduisent significativement le risque de fuite d'étiquettes.

Résultats et Comparaisons

Les expériences montrent une nette amélioration des performances lorsqu'on utilise des échantillons non alignés en plus des alignés. Les modèles entraînés avec notre approche MixPro, qui inclut à la fois mélange et projection, démontrent de solides capacités de vie privée par rapport aux méthodes traditionnelles.

Dans l'ensemble, FedAds offre une plateforme robuste pour que les chercheurs testent leurs algorithmes vFL tout en s'assurant que la vie privée reste une priorité.

Conclusion et futures directions

FedAds représente une avancée significative vers l'amélioration de la recherche vFL dans le domaine de l'estimation du CVR. En offrant une référence bien structurée qui comprend un ensemble de données riche et des méthodes d'évaluation, on espère favoriser l'innovation et encourager la collaboration dans le domaine.

Pour l'avenir, notre travail se concentrera sur :

  • Améliorer la performance de calibration des modèles d'estimation du CVR.
  • Traiter le biais de sélection d'échantillons dans l'estimation du CVR à travers des techniques de déséquilibrage ciblé.
  • Améliorer l'efficacité des méthodes d'entraînement vFL.
  • Étendre l'application du vFL au-delà du classement à d'autres étapes dans les systèmes de publicité en ligne.

En résumé, on pense que l'introduction de FedAds facilitera les avancées dans les approches d'apprentissage automatique de préservation de la vie privée dans le domaine de la publicité en ligne.

Source originale

Titre: FedAds: A Benchmark for Privacy-Preserving CVR Estimation with Vertical Federated Learning

Résumé: Conversion rate (CVR) estimation aims to predict the probability of conversion event after a user has clicked an ad. Typically, online publisher has user browsing interests and click feedbacks, while demand-side advertising platform collects users' post-click behaviors such as dwell time and conversion decisions. To estimate CVR accurately and protect data privacy better, vertical federated learning (vFL) is a natural solution to combine two sides' advantages for training models, without exchanging raw data. Both CVR estimation and applied vFL algorithms have attracted increasing research attentions. However, standardized and systematical evaluations are missing: due to the lack of standardized datasets, existing studies adopt public datasets to simulate a vFL setting via hand-crafted feature partition, which brings challenges to fair comparison. We introduce FedAds, the first benchmark for CVR estimation with vFL, to facilitate standardized and systematical evaluations for vFL algorithms. It contains a large-scale real world dataset collected from Alibaba's advertising platform, as well as systematical evaluations for both effectiveness and privacy aspects of various vFL algorithms. Besides, we also explore to incorporate unaligned data in vFL to improve effectiveness, and develop perturbation operations to protect privacy well. We hope that future research work in vFL and CVR estimation benefits from the FedAds benchmark.

Auteurs: Penghui Wei, Hongjian Dou, Shaoguo Liu, Rongjun Tang, Li Liu, Liang Wang, Bo Zheng

Dernière mise à jour: 2023-05-14 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.08328

Source PDF: https://arxiv.org/pdf/2305.08328

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires