Bidding Automatique Génératif : L'Avenir des Annonces en Ligne
Découvrez comment le GAS améliore l'efficacité et l'efficience de la pub en ligne.
Yewen Li, Shuai Mao, Jingtong Gao, Nan Jiang, Yunjian Xu, Qingpeng Cai, Fei Pan, Peng Jiang, Bo An
― 8 min lire
Table des matières
- L'essor de l'auto-enchère générative
- Le problème de la qualité des données et des préférences
- Présentation de GAS : Auto-enchère générative avec recherche post-formation
- Comment GAS fonctionne
- L'importance de l'Apprentissage par renforcement
- Les défis à venir
- Évaluation de GAS
- L'expérience en direct
- Points clés à retenir
- Source originale
- Liens de référence
Dans le monde trépidant de la pub en ligne, les annonceurs veulent montrer leurs pubs à un max de clients potentiels. Mais y'a un hic : faut dépenser intelligemment. C'est là qu'intervient l'auto-enchère. Imagine que t'es à une enchère, en train d'essayer d'acheter quelque chose que tu veux vraiment tout en gardant ton portefeuille intact. L'auto-enchère, c'est comme avoir un assistant intelligent qui fait les enchères pour toi, en s'assurant que tu ne dépenses pas trop tout en essayant de gagner cet espace pub brillant-euh, je veux dire, cet emplacement de pub.
Les systèmes d'auto-enchère placent automatiquement des enchères sur les pubs, permettant aux annonceurs de se concentrer sur d'autres aspects de leurs campagnes tout en restant compétitifs pour l'espace publicitaire. Ils analysent divers facteurs pour déterminer combien enchérir, comme le nombre de personnes qui pourraient voir une pub et combien d'argent il leur reste à dépenser. Ça aide les entreprises à tirer le meilleur parti de leur argent.
L'essor de l'auto-enchère générative
Alors que le paysage numérique évolue, la technologie derrière l'auto-enchère aussi. Un nouveau venu, c'est l'auto-enchère générative, qui crée des enchères basées sur des conditions spécifiques en utilisant des modèles avancés. Pense à un chef qui ajuste sa recette selon les ingrédients qu'il a et le goût qu'il veut atteindre. Ces modèles peuvent apprendre les meilleures stratégies directement à partir des Données, rendant l'auto-enchère plus flexible et plus intelligente.
Mais parfois, y'a des embûches sur ce chemin vers la grandeur. Si les données ne sont pas top, ça peut mener à des enchères décalées. Par exemple, si un modèle pense qu'une enchère devrait être haute sur la base de mauvaises données, ça peut signifier de l'argent gaspillé. C'est un peu comme essayer de cuisiner un repas gastronomique avec des ingrédients pourris. De plus, beaucoup de modèles sont formés sur des données qui reflètent ce que la plupart des annonceurs préfèrent, ce qui peut laisser les petits acteurs sur le carreau.
Le problème de la qualité des données et des préférences
Obtenir des données de haute qualité pour former des modèles peut être un vrai casse-tête. Imagine essayer de peindre un chef-d'œuvre sans les bonnes couleurs. Si les données collectées ne sont pas fiables, les modèles ne peuvent pas apprendre efficacement. C'est un gros obstacle pour améliorer les systèmes d'auto-enchère. Ça veut aussi dire que si la majorité des données reflètent un seul type de préférences d'annonceurs, le modèle pourrait ignorer les besoins de ceux avec des préférences différentes.
Au lieu de collecter des montagnes de données de haute qualité pour chaque préférence possible, les coûts peuvent être exorbitants. Donc, la question est : comment faire fonctionner un modèle intelligent pour les différents besoins de chacun sans exploser le budget ?
Présentation de GAS : Auto-enchère générative avec recherche post-formation
Pour résoudre ces problèmes, une nouvelle approche appelée Auto-enchère Générative avec Recherche Post-Formation (GAS) est introduite. Pense à GAS comme un outil polyvalent qui affine un modèle d'enchère de base pour mieux convenir à divers annonceurs sans avoir besoin de réentraînement fréquent et coûteux.
L'idée derrière GAS est d'utiliser des modèles plus petits, appelés critiques, pour évaluer les enchères pour différentes préférences et améliorer les résultats d'un modèle de base. C'est un peu comme avoir un groupe d'amis qui te donnent des retours sur ta cuisine avant que tu ne servisses. Ces critiques, formés sur différentes préférences, guident le modèle principal pour prendre de meilleures décisions.
Comment GAS fonctionne
GAS fonctionne en quelques étapes : D'abord, ça commence avec une action ou une enchère de base proposée par le modèle principal. Ensuite, ça prend cette action et introduit un peu de hasard pour créer plusieurs variations. C'est comme essayer différentes épices en cuisinant pour voir laquelle a le meilleur goût.
Après avoir généré ces variations, GAS passe par un processus de sélection pour déterminer quelle action pourrait offrir le meilleur rapport qualité-prix. La prochaine étape est d'évaluer ces actions en utilisant les critiques, qui évaluent à quel point chacune s'aligne avec les préférences des annonceurs. Ça se fait par un mécanisme de vote, assurant que le choix final est bien informé et approprié.
Enfin, toutes ces informations sont utilisées pour affiner les enchères, conduisant à des actions qui sont plus en accord avec les préférences des différents annonceurs. En gros, GAS, c’est comme faire tester ton repas gastronomique par plusieurs dégustateurs avant le grand dîner.
Apprentissage par renforcement
L'importance de l'L'apprentissage par renforcement (RL) joue un rôle crucial dans l'amélioration des stratégies d'auto-enchère. Tout comme un petit enfant apprend à marcher par essais et erreurs, les agents RL apprennent à améliorer leurs stratégies d'enchère grâce aux retours de leurs actions dans un environnement publicitaire. Les méthodes traditionnelles de RL reposent souvent sur un concept appelé Processus de Décision de Markov (MDP), qui suppose que les décisions actuelles ne dépendent que de l'état présent.
Mais dans le monde imprévisible de la pub en ligne, les décisions passées influencent aussi le présent. Ça veut dire que les expériences passées d'un modèle, comme une personne qui se rappelle de ses dernières tentatives pour gagner un jeu, peuvent avoir un impact sur les actions futures. Des études récentes ont montré que l'utilisation d'informations historiques peut mener à des stratégies d'enchère plus stables et efficaces.
Les défis à venir
Malgré les promesses des modèles d'auto-enchère générative, y'a quelques défis de base à surmonter. La qualité du dataset reste critique, car la relation entre les conditions et les vraies valeurs d'action doit être précise. Supposons qu'un modèle prédit qu'une bonne action mènera au succès mais que le contraire se produit, il va falloir tout recommencer !
De plus, beaucoup de modèles génératifs tendent à favoriser les préférences majoritaires dans leur formation, ce qui veut dire qu'ils pourraient avoir du mal à s'adapter aux besoins des annonceurs minoritaires. Avoir un seul modèle capable de répondre à des préférences diverses sans réentraînement constant serait une révolution pour rendre l'auto-enchère plus accessible et efficace.
Évaluation de GAS
Quand GAS a été mis à l'épreuve, il a montré des résultats prometteurs dans des scénarios réels. Des expériences extensives ont été menées sur un grand dataset, et le système a subi des tests A/B sur une plateforme publicitaire renommée. En termes simples, ça veut dire que GAS a été mis en compétition avec des modèles existants pour voir lequel performait le mieux.
Les résultats ? GAS a non seulement amélioré la performance globale en termes d'impressions gagnées et de conversions, mais il l'a aussi fait sans frais supplémentaires. Imagine obtenir un meilleur repas préparé sans débourser un centime de plus-c'est ce que GAS a accompli.
L'expérience en direct
Pour vraiment voir comment GAS fonctionnait, il a été déployé dans un cadre en direct où les annonceurs devaient gérer budgets et contraintes. La réponse a été très positive, avec divers indicateurs de performance montrant des améliorations significatives par rapport aux méthodes traditionnelles.
En ajustant les enchères selon les résultats affinés fournis par GAS, les annonceurs ont obtenu de meilleurs résultats, y compris plus de conversions et un meilleur retour sur investissement (ROI) global. C'était le genre de succès dont rêvent les annonceurs-un système qui fonctionne pour tous sans exploser les coûts.
Points clés à retenir
Le monde de la pub en ligne est en constante évolution, et les méthodes d'enchère doivent suivre le rythme. Avec l'introduction de GAS, il y a un mouvement vers des stratégies d'auto-enchère plus efficaces et performantes. Cette approche simplifie non seulement le processus d'enchère, mais assure également que les annonceurs, grands et petits, trouvent de la valeur dans leurs campagnes.
La combinaison de modèles génératifs, d'apprentissage par renforcement et de méthodes de recherche innovantes crée un cadre solide pour l'auto-enchère qui peut s'adapter à différentes préférences et besoins. Avec un peu de créativité et les bons outils, les annonceurs peuvent maximiser leurs budgets tout en atteignant efficacement leurs audiences cibles.
Après tout, dans le jeu d'enchères de la publicité, avoir un assistant intelligent comme GAS peut aider à s'assurer que tu restes dans la course et que tu ressortes gagnant. Bonnes enchères !
Titre: GAS: Generative Auto-bidding with Post-training Search
Résumé: Auto-bidding is essential in facilitating online advertising by automatically placing bids on behalf of advertisers. Generative auto-bidding, which generates bids based on an adjustable condition using models like transformers and diffusers, has recently emerged as a new trend due to its potential to learn optimal strategies directly from data and adjust flexibly to preferences. However, generative models suffer from low-quality data leading to a mismatch between condition, return to go, and true action value, especially in long sequential decision-making. Besides, the majority preference in the dataset may hinder models' generalization ability on minority advertisers' preferences. While it is possible to collect high-quality data and retrain multiple models for different preferences, the high cost makes it unaffordable, hindering the advancement of auto-bidding into the era of large foundation models. To address this, we propose a flexible and practical Generative Auto-bidding scheme using post-training Search, termed GAS, to refine a base policy model's output and adapt to various preferences. We use weak-to-strong search alignment by training small critics for different preferences and an MCTS-inspired search to refine the model's output. Specifically, a novel voting mechanism with transformer-based critics trained with policy indications could enhance search alignment performance. Additionally, utilizing the search, we provide a fine-tuning method for high-frequency preference scenarios considering computational efficiency. Extensive experiments conducted on the real-world dataset and online A/B test on the Kuaishou advertising platform demonstrate the effectiveness of GAS, achieving significant improvements, e.g., 1.554% increment of target cost.
Auteurs: Yewen Li, Shuai Mao, Jingtong Gao, Nan Jiang, Yunjian Xu, Qingpeng Cai, Fei Pan, Peng Jiang, Bo An
Dernière mise à jour: Dec 22, 2024
Langue: English
Source URL: https://arxiv.org/abs/2412.17018
Source PDF: https://arxiv.org/pdf/2412.17018
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.