Simple Science

La science de pointe expliquée simplement

# Statistiques# Recherche d'informations# Apprentissage automatique

Avancer le ciblage des annonces avec des techniques de données rares

Des méthodes innovantes améliorent l'efficacité du ciblage des pubs en utilisant des données rares et des algos avancés.

― 6 min lire


Stratégies de donnéesStratégies de donnéesrares pour les pubspour un ciblage pub efficace.Exploitation de techniques avancées
Table des matières

Dans plein de domaines, surtout la tech et le marketing, on bosse avec des tonnes de données. Souvent, ces données sont éparpillées, ce qui veut dire qu'il y a plein de valeurs manquantes ou à zéro. Ça peut poser des problèmes quand on essaie de bosser efficacement avec les données. Les méthodes traditionnelles de gestion des données impliquent souvent de créer des caractéristiques spécifiques basées sur les données, qui peuvent aussi se retrouver éparpillées.

Pour résoudre ces problèmes, les chercheurs et les pros explorent de nouvelles méthodes. Un domaine prometteur, c'est d'utiliser des algorithmes avancés qui gèrent super bien les données éparpillées. Ça inclut des techniques qui utilisent des graphes pour trouver des voisins proches approximatifs.

Travailler avec le ciblage des pubs et les embeddings éparpillées

Une application de ces méthodes, c'est le ciblage des pubs, où les entreprises veulent relier les bonnes pubs aux bonnes personnes. Dans ce cadre, des données sur les utilisateurs et leurs comportements sont collectées. Ces données sont souvent transformées en embeddings, qui sont des représentations mathématiques de cette info. Mais les embeddings peuvent être très éparpillées quand on utilise certaines fonctions d'activation dans les modèles.

Quand on bosse avec des pubs, c'est crucial de créer des embeddings efficaces. En utilisant différents modèles, comme le modèle "cosinus à deux tours" et le nouveau modèle "chi-carré à deux tours", on peut générer des embeddings qui peuvent mieux fonctionner pour trouver des similitudes entre les utilisateurs et les pubs. Les deux modèles donnent des embeddings éparpillées, permettant un stockage et des calculs plus efficaces.

Le défi qui suit, c'est de trouver quelles pubs correspondent le mieux à un utilisateur. Pour ça, on doit explorer les embeddings. Des méthodes de recherche efficaces sont essentielles, surtout quand on gère de grands ensembles de données.

Le rôle des Algorithmes basés sur les graphes

Les algorithmes basés sur les graphes, comme HNSW, sont utiles pour explorer ces embeddings. HNSW signifie Hierarchical Navigable Small World, et il est connu pour être rapide et efficace pour trouver des éléments similaires dans un ensemble de données.

Quand on cherche dans les embeddings, l'algorithme recherche des voisins dans le graphe qui sont les plus proches de la requête de l'utilisateur. Chaque sommet dans le graphe représente un embedding, et les arêtes relient les embeddings voisins. En parcourant ce graphe, l'algorithme peut trouver les meilleures correspondances pour l'utilisateur basées sur son embedding.

La structure du graphe permet des recherches rapides, ce qui est vital dans des applications comme le ciblage des pubs, où le temps et l'efficacité peuvent grandement impacter la performance.

Avantages des embeddings éparpillées

Les embeddings éparpillées apportent plusieurs avantages. L'un des plus gros avantages, c'est qu'elles prennent moins d'espace mémoire. C'est super important quand on bosse avec de grands ensembles de données, car les coûts de stockage peuvent vite grimper. En plus, les embeddings éparpillées permettent des calculs plus rapides quand on calcule des similarités entre différents embeddings. Cette accélération vient du fait qu'il y a moins d'entrées non nulles dans les embeddings, donc moins de taf à faire pendant les calculs.

Par exemple, si on a un gros embedding avec des millions de dimensions, mais que seule une petite partie de ces dimensions est remplie de valeurs, on peut le traiter beaucoup plus rapidement. Le temps global pour effectuer des recherches ou des comparaisons peut être considérablement réduit.

Intégration d'autres techniques

Au-delà de se concentrer uniquement sur les embeddings éparpillées et les algorithmes basés sur les graphes, il y a des techniques supplémentaires qui peuvent encore améliorer la performance. Une de ces techniques s'appelle "sign cauchy random projections". Cette méthode aide à réduire encore plus le stockage nécessaire pour les embeddings en les compressant en petites bits.

En utilisant cette méthode, on peut transformer les embeddings en un format qui permet des opérations très rapides, ce qui est super utile pendant le processus de recherche. Ça peut conduire à des économies encore plus importantes en temps et en ressources quand on cherche les bonnes correspondances dans les applications de ciblage des pubs.

Comparaison des différentes mesures de similarité

Dans le cadre du ciblage des pubs, on doit aussi prendre en compte les méthodes utilisées pour mesurer la similarité entre différents embeddings. La mesure de similarité cosinus originale est souvent utilisée, mais il y a des alternatives comme la similarité chi-carré.

Les expériences montrent que la similarité chi-carré peut parfois donner de meilleurs résultats en termes de précision de récupération. Ça veut dire que quand on cherche des éléments similaires, la méthode qu’on choisit pour mesurer la similarité peut influencer l’efficacité de la recherche.

En appliquant différents modèles et techniques de mesure, on peut déterminer quelles méthodes fonctionnent le mieux dans diverses situations. Ça aide à fournir des pubs pertinentes aux utilisateurs basées sur leurs comportements et préférences.

Applications pratiques dans le ciblage des pubs

Dans des scénarios réels, les techniques et modèles discutés ont des applications pratiques. Par exemple, les entreprises peuvent utiliser ces méthodes pour créer des publicités plus pertinentes et ciblées. En entraînant des modèles sur diverses caractéristiques, comme les démographies et les comportements des utilisateurs, le système peut récupérer des pubs qui sont très pertinentes pour chaque utilisateur.

Le processus de formation de ces modèles implique de nourrir le système avec plein de données, lui permettant d'apprendre et d'améliorer au fil du temps. Une fois entraînés, ces modèles peuvent être déployés pour faire des recommandations en temps réel aux utilisateurs, augmentant l’efficacité de la publicité digitale.

Conclusion

En conclusion, le domaine du travail avec des données éparpillées, surtout dans le cadre du ciblage des pubs, est en évolution. En tirant parti d'algorithmes et de techniques avancés, on peut améliorer la façon dont on représente les données, les stocke et les recherche.

Alors qu'on continue à affiner ces méthodes, on est susceptibles de voir de meilleurs résultats dans différentes applications, menant à des pubs mieux ciblées et une expérience utilisateur améliorée. La combinaison d'embeddings éparpillées, d'algorithmes basés sur les graphes et de techniques innovantes offre une solide base pour les développements futurs dans ce domaine.

En se concentrant sur ces éléments clés, les entreprises peuvent tirer parti de la technologie pour améliorer leurs stratégies marketing, conduisant finalement à un plus grand succès et à une meilleure rentabilité. Alors que le paysage de la publicité digitale continue de changer, adopter ces avancées sera crucial pour rester compétitif.

Source originale

Titre: Practice with Graph-based ANN Algorithms on Sparse Data: Chi-square Two-tower model, HNSW, Sign Cauchy Projections

Résumé: Sparse data are common. The traditional ``handcrafted'' features are often sparse. Embedding vectors from trained models can also be very sparse, for example, embeddings trained via the ``ReLu'' activation function. In this paper, we report our exploration of efficient search in sparse data with graph-based ANN algorithms (e.g., HNSW, or SONG which is the GPU version of HNSW), which are popular in industrial practice, e.g., search and ads (advertising). We experiment with the proprietary ads targeting application, as well as benchmark public datasets. For ads targeting, we train embeddings with the standard ``cosine two-tower'' model and we also develop the ``chi-square two-tower'' model. Both models produce (highly) sparse embeddings when they are integrated with the ``ReLu'' activation function. In EBR (embedding-based retrieval) applications, after we the embeddings are trained, the next crucial task is the approximate near neighbor (ANN) search for serving. While there are many ANN algorithms we can choose from, in this study, we focus on the graph-based ANN algorithm (e.g., HNSW-type). Sparse embeddings should help improve the efficiency of EBR. One benefit is the reduced memory cost for the embeddings. The other obvious benefit is the reduced computational time for evaluating similarities, because, for graph-based ANN algorithms such as HNSW, computing similarities is often the dominating cost. In addition to the effort on leveraging data sparsity for storage and computation, we also integrate ``sign cauchy random projections'' (SignCRP) to hash vectors to bits, to further reduce the memory cost and speed up the ANN search. In NIPS'13, SignCRP was proposed to hash the chi-square similarity, which is a well-adopted nonlinear kernel in NLP and computer vision. Therefore, the chi-square two-tower model, SignCRP, and HNSW are now tightly integrated.

Auteurs: Ping Li, Weijie Zhao, Chao Wang, Qi Xia, Alice Wu, Lijun Peng

Dernière mise à jour: 2023-06-13 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2306.07607

Source PDF: https://arxiv.org/pdf/2306.07607

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires