Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Informationsbeschaffung# Maschinelles Lernen

FedAds: Ein neuer Massstab für die CVR-Schätzung

FedAds bietet eine Lösung für effektive CVR-Schätzungen und schützt dabei die Privatsphäre der Nutzer.

― 7 min Lesedauer


FedAds definiert dieFedAds definiert dieCVR-Schätzung neu.die Privatsphäre der Nutzer.CVR-Vorhersage und schützt gleichzeitigInnovativer Benchmark verbessert die
Inhaltsverzeichnis

Im Online-Werbung ist es wichtig zu wissen, wie wahrscheinlich es ist, dass jemand nach dem Klicken auf eine Anzeige einen Kauf tätigt. Diese Vorhersage nennt man Conversion-Rate (CVR) Schätzung. Firmen müssen herausfinden, wie sie diese Raten vorhersagen können und gleichzeitig die Privatsphäre der Nutzer schützen. Eine Methode namens vertikale föderierte Lern (vFL) hilft dabei, weil sie es zwei verschiedenen Gruppen ermöglicht, zusammen an einem Modell zu arbeiten, ohne ihre Rohdaten zu teilen.

Allerdings fehlt es vielen Studien an standardisierten Datensätzen und systematischen Wegen zur Bewertung dieser vFL-Methoden, was den Vergleich verschiedener Techniken erschwert und den Fortschritt in diesem Bereich bremst. Um dieses Problem anzugehen, präsentieren wir FedAds, ein neues Benchmark für die CVR-Schätzung mit vFL. Dieses Benchmark umfasst einen grossen realen Datensatz und Methoden zur Bewertung verschiedener vFL-Ansätze.

Was ist CVR Schätzung?

Die CVR-Schätzung ist der Prozess, um vorherzusagen, ob ein Nutzer eine gewünschte Aktion nach der Interaktion mit einer Anzeige ausführt, wie etwa einen Kauf. Firmen verlassen sich oft auf Nutzerdaten, die sie von ihren Websites gesammelt haben, um Modelle zu trainieren, die dieses Verhalten vorhersagen. Allerdings nehmen die Datenschutzbedenken zu, was es entscheidend macht, Methoden zu finden, die die Nutzerdaten schützen.

In einem typischen Szenario, wenn ein Nutzer eine Anzeige sieht und darauf klickt, wird er auf eine andere Seite geleitet, wo er weitere Aktionen ausführen könnte, wie etwa einen Kauf. Der Anzeigenanbieter sammelt Daten über die Nutzerinteraktionen, während die Werbeplattform Daten über das Verhalten nach dem Klick erfasst, wie lange ein Nutzer auf der Seite bleibt und ob er einen Kauf tätigt.

Die Herausforderung des Datenschutzes

Nutzerdaten sind oft sensibel, und es ist entscheidend, sie zu schützen. Traditionelle Ansätze zur CVR-Schätzung könnten erfordern, dass persönliche Daten direkt geteilt werden, was zu möglichem Missbrauch führen kann. vFL bietet eine Lösung, indem es verschiedenen Parteien ermöglicht, Modelle gemeinsam zu trainieren, ohne tatsächlich Rohdaten zu teilen. Stattdessen tauschen sie Zwischenergebnisse aus, was hilft, die Privatsphäre der Nutzer zu wahren.

Bedarf an standardisierten Datensätzen

Trotz der Vorteile von vFL nutzen viele bestehende Studien öffentliche Datensätze, die nicht repräsentativ für reale Anwendungen sind. Einige Studien erstellen ihre Datensätze, indem sie Merkmale manuell aufteilen, was für einen fairen Vergleich nicht ideal ist. Diese Inkonsistenz erschwert es, verlässliche Schlussfolgerungen aus der Forschung zu vFL-Algorithmen zu ziehen.

Einführung von FedAds

FedAds zielt darauf ab, diese Probleme zu lösen, indem es ein umfassendes Benchmark für die CVR-Schätzung mit vFL-Methoden bereitstellt. Es besteht aus zwei Hauptkomponenten.

  1. Ein grosser realer Datensatz, der von einer Online-Werbeplattform gesammelt wurde, die vFL für die Ranking-Anzeigen nutzt. Dieser Datensatz umfasst verschiedene Merkmale im Zusammenhang mit dem Nutzerverhalten und den Konversionsergebnissen.

  2. Systematische Bewertungen mehrerer vFL-Algorithmen, um deren Effektivität und datenschutzfreundliche Fähigkeiten zu beurteilen. Dadurch können Forscher verschiedene Ansätze fair vergleichen und herausfinden, welche Methoden am besten funktionieren.

Aufbau des Datensatzes

Der in FedAds verwendete Datensatz basiert auf einem Monat an Nutzer-Klickereignissen von einem Anzeigenbereitstellungsdienst. Jeder Datensatz entspricht einem einzigartigen Klickereignis, und Kontextinformationen wie Zeitstempel werden erfasst. Dieser Datensatz wird in zwei Teile aufgeteilt: einer mit ausgerichteten Proben (mit Merkmalen von beiden Parteien) und einer mit nicht ausgerichteten Proben (mit Merkmalen von nur einer Partei).

Konversionslabels zeigen an, ob ein Nutzer nach dem Klicken auf eine Anzeige einen Kauf getätigt hat, und diese Labels werden basierend auf der letzten Interaktion des Nutzers mit der Anzeige erstellt. Der Datensatz umfasst Merkmale sowohl vom Online-Publisher als auch von der Werbeplattform, insgesamt 16 von der Werbeplattform und 7 vom Online-Publisher.

Bewertung von vFL-Algorithmen

Um die Leistung von vFL-Algorithmen effektiv zu bewerten, führten wir systematische Tests mit dem FedAds-Datensatz durch. Die Tests konzentrierten sich auf zwei Hauptaspekte:

  1. Effektivitätsmetriken: Dazu gehören AUC (Area Under the Curve) und NLL (Negative Log Likelihood), die messen, wie gut das Modell Kandidaten rangiert und wie genau es die Konversionswahrscheinlichkeiten vorhersagt.

  2. Datenschutzmetriken: Diese Metriken bewerten die Fähigkeit der Algorithmen, sensible Nutzerdaten vor potenziellen Angriffen, wie z.B. Label-Inferenz-Angriffen, zu schützen.

Strategien zur Verbesserung der Effektivität

Angesichts der Einschränkungen traditioneller vFL-Methoden wurden zwei Hauptstrategien untersucht, um die Effektivität zu steigern:

Nutzung von nicht ausgerichteten Proben

Die erste Herausforderung ist, dass viele vFL-Ansätze stark auf ausgerichtete Proben angewiesen sind. Während diese Proben nützlich sind, sind sie oft in der Anzahl begrenzt. Daher schlagen wir vor, nicht ausgerichtete Proben zu nutzen, die Datenpunkte sind, die von einer Partei verfügbar sind, aber Merkmale der anderen Partei fehlen.

Um nicht ausgerichtete Proben in den vFL-Trainingsprozess einzubeziehen, verwenden wir eine Technik namens Diffusionsmodell. Dieses Modell hilft, die fehlenden Merkmale basierend auf verfügbaren Daten zu synthetisieren, sodass das Training auf einen grösseren Datensatz zurückgreifen kann.

Schutz von Labelinformationen

Beim Thema Datenschutz ist eine der Hauptsorgen, dass das Teilen von Gradienten zu einem Label-Leak führen kann. Techniken müssen sicherstellen, dass diese Gradienten keine sensiblen Informationen unbeabsichtigt offenbaren. Eine Lösung, die wir vorschlagen, ist es, während der Übertragung zufälliges Rauschen zu den Gradienten hinzuzufügen. Diese Methode verwirrt potenzielle Angreifer und erschwert es ihnen, private Labels zu erschliessen.

Verteidigung gegen Angriffe

Label-Inferenzangriffe stellen ein erhebliches Risiko bei vFL dar, bei dem ein Angreifer die Labels unsichtbarer Daten basierend auf dem Informationsfluss während des Modelltrainings ableiten kann. Wir wenden eine Strategie namens MixPro an, die zwei Schritte umfasst:

  1. Gradienten-Mixup: Diese Technik kombiniert Gradienten von verschiedenen Proben, um Zufälligkeit hinzuzufügen. Durch das Mischen von Gradienten reduzieren wir die Wahrscheinlichkeit von sicheren Vorhersagen, die Labelinformationen offenbaren könnten.

  2. Gradienten-Projektion: Um das Risiko eines Leaks weiter zu minimieren, projizieren wir die gemischten Gradienten in eine vordefinierte Richtung, um sicherzustellen, dass sie innerhalb eines bestimmten Bereichs bleiben. Dieser Prozess fügt eine weitere Sicherheitsebene gegen potenzielle Angriffe hinzu.

Durchführung von Experimenten

Wir haben Experimente durchgeführt, um die Effektivität und Datenschutzansätze verschiedener vFL-Methoden mit dem FedAds-Datensatz zu validieren. Die Ergebnisse weisen darauf hin, dass die Einbeziehung von nicht ausgerichteten Proben typischerweise die Modellleistung verbessert und dass datenschutzfreundliche Techniken das Risiko eines Label-Leaks erheblich reduzieren.

Ergebnisse und Vergleiche

Die Experimente zeigen eine deutliche Verbesserung der Leistung, wenn nicht ausgerichtete Proben zusätzlich zu ausgerichteten verwendet werden. Modelle, die mit unserem MixPro-Ansatz trainiert wurden, der sowohl Mixup als auch Projektion umfasst, zeigen starke Datenschutzfähigkeiten im Vergleich zu traditionellen Methoden.

Insgesamt bietet FedAds eine robuste Plattform für Forscher, um ihre vFL-Algorithmen zu testen, während die Privatsphäre eine hohe Priorität bleibt.

Fazit und zukünftige Richtungen

FedAds stellt einen bedeutenden Schritt zur Verbesserung der vFL-Forschung im Bereich der CVR-Schätzung dar. Durch das Angebot eines gut strukturierten Benchmarks, das einen reichen Datensatz und Bewertungsmethoden umfasst, hoffen wir, Innovationen zu fördern und die Zusammenarbeit im Bereich zu unterstützen.

In Zukunft wird sich unsere Arbeit auf folgende Punkte konzentrieren:

  • Verbesserung der Kalibrierungsleistung von CVR-Schätzungsmodellen.
  • Adressierung der Stichprobenauswahlverzerrung in der CVR-Schätzung durch gezielte Entbias-Techniken.
  • Verbesserung der Effizienz von vFL-Trainingsmethoden.
  • Erweiterung der Anwendung von vFL über das Ranking hinaus auf andere Phasen in Online-Werbesystemen.

Zusammenfassend glauben wir, dass die Einführung von FedAds Fortschritte in datenschutzfreundlichen maschinellen Lernansätzen im Bereich der Online-Werbung erleichtern wird.

Originalquelle

Titel: FedAds: A Benchmark for Privacy-Preserving CVR Estimation with Vertical Federated Learning

Zusammenfassung: Conversion rate (CVR) estimation aims to predict the probability of conversion event after a user has clicked an ad. Typically, online publisher has user browsing interests and click feedbacks, while demand-side advertising platform collects users' post-click behaviors such as dwell time and conversion decisions. To estimate CVR accurately and protect data privacy better, vertical federated learning (vFL) is a natural solution to combine two sides' advantages for training models, without exchanging raw data. Both CVR estimation and applied vFL algorithms have attracted increasing research attentions. However, standardized and systematical evaluations are missing: due to the lack of standardized datasets, existing studies adopt public datasets to simulate a vFL setting via hand-crafted feature partition, which brings challenges to fair comparison. We introduce FedAds, the first benchmark for CVR estimation with vFL, to facilitate standardized and systematical evaluations for vFL algorithms. It contains a large-scale real world dataset collected from Alibaba's advertising platform, as well as systematical evaluations for both effectiveness and privacy aspects of various vFL algorithms. Besides, we also explore to incorporate unaligned data in vFL to improve effectiveness, and develop perturbation operations to protect privacy well. We hope that future research work in vFL and CVR estimation benefits from the FedAds benchmark.

Autoren: Penghui Wei, Hongjian Dou, Shaoguo Liu, Rongjun Tang, Li Liu, Liang Wang, Bo Zheng

Letzte Aktualisierung: 2023-05-14 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2305.08328

Quell-PDF: https://arxiv.org/pdf/2305.08328

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel