Améliorer les prédictions de pubs en ligne avec DESC
Une nouvelle méthode améliore la précision des prévisions publicitaires dans le e-commerce.
― 9 min lire
Table des matières
- Le Problème de Calibration
- Défis de la Calibration Multi-Domaine
- La Méthode DESC
- Recherche Connexe
- Solutions Proposées
- Redéfinir la Calibration Multi-Domaine
- Fonctions de Calibration de Base
- Allocation de Forme Efficace
- Mécanisme d'Attention Global
- Application dans le Monde Réel
- Configuration Expérimentale
- Résultats et Analyse
- Analyse Approfondie des Résultats
- Conclusion
- Source originale
- Liens de référence
Dans le monde du shopping en ligne, la pub joue un rôle super important. Pour que ces pubs soient efficaces, c'est crucial de savoir à quel point les utilisateurs sont susceptibles de cliquer dessus et finalement faire un achat. Cette probabilité se mesure avec deux termes principaux : le Taux de clic (CTR) et le Taux de conversion (CVR). Avoir des estimations précises de ces taux peut vraiment aider les acheteurs, les vendeurs et les plateformes.
Cependant, estimer ces taux n'est pas simple. Parfois, les prédictions peuvent être moins précises que prévu, ce qui pose des problèmes pour tout le monde. Cet article discute d'une nouvelle méthode pour améliorer la précision de ces estimations.
Le Problème de Calibration
Pour améliorer l'efficacité de la pub, les chercheurs ont exploré différentes façons de s'assurer que les valeurs prédites pour le CTR et le CVR correspondent vraiment à la réalité. Ce processus d'ajustement s'appelle la calibration. Les méthodes actuelles reposent souvent sur la création d'un modèle qui corrige les erreurs dans les prédictions après coup. Cependant, dans la pub e-commerce, ce domaine présente un défi unique à cause des multiples facteurs influençant les résultats.
Quand il s'agit de différentes catégories de produits et de types d'utilisateurs, la calibration peut être divisée en deux tâches principales : la calibration de valeur et la calibration de forme. La calibration de valeur s'assure que les taux moyens prédit sont corrects pour des catégories spécifiques, tandis que la calibration de forme se concentre sur le fait que les prédictions restent précises sur une gamme de valeurs dans ces catégories.
Défis de la Calibration Multi-Domaine
Une des principales difficultés dans l'e-commerce, c'est que les utilisateurs et les produits peuvent être classés de plein de façons différentes. Par exemple, un utilisateur peut chercher des chaussures pour femmes, pendant qu'un autre cherche des appareils électroniques. Chacune de ces catégories nécessite sa propre calibration. Ça crée une situation complexe où les prédictions doivent non seulement être précises en moyenne, mais aussi maintenir leur précision à travers différents sous-ensembles de données.
Pour surmonter ces défis, nous avons développé une nouvelle méthode appelée Deep Ensemble Shape Calibration (DESC). Cette méthode vise à traiter à la fois la calibration de valeur et la calibration de forme en même temps, rendant le tout plus efficace pour le paysage complexe de la pub en ligne.
La Méthode DESC
DESC introduit plusieurs nouvelles fonctionnalités pour améliorer la manière dont nous calibrons les prédictions dans l'e-commerce :
Fonctions de Calibration de Base : DESC utilise différents types de fonctions (comme les fonctions puissances et logarithmiques) pour construire le modèle de calibration. Cela permet d'ajuster les prédictions de manière plus flexible et précise.
Allocateur de Forme : C'est une partie cruciale du cadre DESC. Il attribue les meilleures fonctions de calibration en fonction des erreurs spécifiques observées dans les prédictions. Ça veut dire que si certaines prédictions sont systématiquement à côté, DESC va s'adapter pour corriger ça.
Utilisation de Données : La méthode est conçue pour faire le meilleur usage des données disponibles. Étant donné que parfois il n'y a pas assez de données pour créer des prédictions précises pour chaque catégorie, DESC combine de manière optimale les infos provenant de différents domaines pour améliorer la précision globale des prédictions.
Performance Améliorée : Lors des tests, DESC a montré de bien meilleures performances que les méthodes existantes dans des jeux de données publics et des applications réelles. Par exemple, il a amélioré le CVR de 2,5% et le volume brut de marchandises (les ventes totales) de 4,0% dans des expériences en ligne.
Recherche Connexe
Avec l'importance croissante des prédictions fiables, différentes solutions ont été développées pour s'attaquer à la calibration des prédictions. Celles-ci peuvent être catégorisées en trois types principaux :
Méthodes Non Paramétriques : Ces méthodes ne supposent pas de forme spécifique pour les données et reposent souvent sur des techniques de regroupement. Elles classent les estimations et les regroupent selon la fréquence ou les intervalles.
Méthodes Paramétriques : Ces méthodes reposent sur des hypothèses de distribution spécifiques. Elles créent des fonctions de mapping basées sur ces hypothèses pour convertir les probabilités prédites en résultats réels.
Méthodes Hybrides : Celles-ci combinent des éléments des méthodes paramétriques et non paramétriques, utilisant souvent les infos de domaine pour créer des calibrateurs plus nuancés.
Cependant, les méthodes existantes peinent souvent avec les complexités trouvées dans plusieurs domaines. Par exemple, beaucoup de méthodes traditionnelles ne peuvent gérer efficacement qu'une seule catégorie à la fois, ce qui limite leur utilité dans un scénario de pub multi-domaine.
Solutions Proposées
Pour relever ces défis, DESC propose les améliorations suivantes :
Redéfinir la Calibration Multi-Domaine
L'approche DESC redéfinit la manière dont la calibration multi-domaine fonctionne. En abordant ensemble la calibration de forme et de valeur, DESC permet des prédictions plus précises à travers diverses catégories.
Fonctions de Calibration de Base
En utilisant un mélange de différentes fonctions, DESC peut modéliser efficacement les complexités de la calibration. Ces fonctions peuvent représenter une variété de formes essentielles pour une bonne calibration dans des scénarios variés.
Allocation de Forme Efficace
DESC inclut un allocateur qui attribue les fonctions de calibration les plus appropriées selon les distributions d'erreurs distinctes observées dans les données. C'est important pour atteindre une meilleure précision malgré les défis liés à la rareté des données.
Mécanisme d'Attention Global
Pour garantir que les différentes influences des domaines variés soient prises en compte, DESC utilise un mécanisme d'attention global. Cela aide à harmoniser les résultats à travers différents domaines et à réduire les conflits dans les prédictions.
Application dans le Monde Réel
Nous avons testé le modèle DESC en utilisant deux jeux de données publics et un jeu de données industriel. Les jeux de données publics incluaient des données provenant de plateformes de pub largement utilisées, tandis que le jeu de données industriel venait d'une vraie plateforme de shopping en ligne.
Les résultats ont montré que DESC surpassait systématiquement les autres méthodes de calibration en termes de précision. Les gains obtenus avec DESC étaient statistiquement significatifs, démontrant son efficacité dans des scénarios réels.
Configuration Expérimentale
Pour les expériences, plusieurs jeux de données ont été préparés. Les jeux de données publics comportaient des millions d'échantillons, tandis que le jeu de données industriel contenait des données des statistiques de pub en ligne. Différentes méthodes de calibration existantes ont servi de concurrents dans les tests.
Lors des tests, des métriques telles que l'Erreur de Calibration Attendue sur le Domaine (F-ECE) et l'Erreur de Calibration Attendue Moyenne sur le Domaine (MF-ECE) ont été utilisées pour évaluer la performance. Des valeurs plus basses dans ces métriques indiquaient une meilleure performance.
Résultats et Analyse
Les résultats des expériences ont montré que la méthode DESC réduisait efficacement les erreurs de calibration dans l'ensemble comparé aux méthodes traditionnelles. Notamment, DESC a non seulement obtenu de meilleures métriques de calibration mais a aussi amélioré la performance globale en termes de métriques AUC et Log-loss.
Analyse Approfondie des Résultats
Plusieurs expériences ont été menées pour mieux comprendre les forces de DESC :
Études d'Ablation de Structure : En retirant certains composants du cadre DESC, nous avons pu évaluer combien chaque partie est cruciale pour la performance globale. Les études ont montré que les composants Calibrateur de Forme et Calibrateur de Valeur étaient essentiels à son succès.
Utilisation des données : DESC a montré des capacités d'utilisation des données améliorées. Même avec un nombre réduit d'échantillons, DESC continuait à mieux performer que ses concurrents, soulignant sa robustesse.
Gestion de la Complexité de la Mal-Calibration : DESC a montré qu'il s'adapte mieux aux scénarios de mal-calibration plus complexes. Il a dépassé les autres quand il s'agissait de faire face à des formes diverses dans les données prédites, ce qui est courant dans des contextes réalistes.
Conclusion
En conclusion, une calibration efficace dans la pub en ligne est cruciale pour améliorer les prédictions de CTR et de CVR. La méthode DESC offre un avancement significatif dans le domaine en abordant simultanément la calibration de valeur et de forme.
Grâce à l'utilisation de fonctions de calibration innovantes, à une utilisation efficace des données et à un cadre structurel robuste, DESC non seulement permet de meilleures prédictions mais montre également de fortes performances dans des applications réelles.
En regardant vers l'avenir, d'autres recherches pourraient explorer l'utilisation de DESC dans d'autres domaines au-delà de l'e-commerce, ainsi que des moyens de réduire encore plus les erreurs de mal-calibration. Globalement, DESC montre un potentiel comme un outil puissant pour améliorer l'efficacité de la pub sur le marché numérique.
Titre: Deep Ensemble Shape Calibration: Multi-Field Post-hoc Calibration in Online Advertising
Résumé: In the e-commerce advertising scenario, estimating the true probabilities (known as a calibrated estimate) on Click-Through Rate (CTR) and Conversion Rate (CVR) is critical. Previous research has introduced numerous solutions for addressing the calibration problem. These methods typically involve the training of calibrators using a validation set and subsequently applying these calibrators to correct the original estimated values during online inference. However, what sets e-commerce advertising scenarios apart is the challenge of multi-field calibration. Multi-field calibration requires achieving calibration in each field. In order to achieve multi-field calibration, it is necessary to have a strong data utilization ability. Because the quantity of pCTR specified range for a single field-value (such as user ID and item ID) sample is relatively small, this makes the calibrator more difficult to train. However, existing methods have difficulty effectively addressing these issues. To solve these problems, we propose a new method named Deep Ensemble Shape Calibration (DESC). In terms of business understanding and interpretability, we decompose multi-field calibration into value calibration and shape calibration. We introduce innovative basis calibration functions, which enhance both function expression capabilities and data utilization by combining these basis calibration functions. A significant advancement lies in the development of an allocator capable of allocating the most suitable calibrators to different estimation error distributions within diverse fields and values. We achieve significant improvements in both public and industrial datasets. In online experiments, we observe a +2.5% increase in CVR and +4.0% in GMV (Gross Merchandise Volume). Our code is now available at: https://github.com/HaoYang0123/DESC.
Auteurs: Shuai Yang, Hao Yang, Zhuang Zou, Linhe Xu, Shuo Yuan, Yifan Zeng
Dernière mise à jour: 2024-05-20 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2401.09507
Source PDF: https://arxiv.org/pdf/2401.09507
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.