Simple Science

Scienza all'avanguardia spiegata semplicemente

# Statistica# Recupero delle informazioni# Apprendimento automatico

Avanzare nel targeting degli annunci con tecniche di dati scarsi

Metodi innovativi migliorano l'efficienza del targeting degli annunci usando dati scarsi e algoritmi avanzati.

― 5 leggere min


Strategie per Dati SparsiStrategie per Dati Sparsiper Annuncitargeting pubblicitario efficace.Sfruttando tecniche avanzate per un
Indice

In molti settori, soprattutto nella tecnologia e nel marketing, ci troviamo a dover gestire grandi quantità di dati. Spesso, questi dati sono sparsi, il che significa che ci sono molti valori mancanti o zero. Questo può creare problemi quando si cerca di lavorare con i dati in modo efficace. I metodi tradizionali per gestire i dati spesso prevedono la creazione di caratteristiche specifiche o attributi basati sui dati, che possono anche risultare essere sparsi.

Per affrontare queste sfide, i ricercatori e i praticanti stanno cercando nuovi metodi. Un'area promettente è l'uso di algoritmi avanzati che sono particolarmente bravi a gestire dati sparsi. Questi includono tecniche che utilizzano grafi per trovare i vicini più prossimi in modo approssimativo.

Lavorare con la Targetizzazione degli Annunci e gli Embeddings Sparsi

Un'applicazione significativa di questi metodi è nella targetizzazione degli annunci, dove le aziende cercano di collegare gli annunci giusti con le persone giuste. In questo contesto, vengono raccolti dati sugli utenti e sul loro comportamento. Questi dati vengono spesso trasformati in embeddings, che sono rappresentazioni matematiche di quelle informazioni. Tuttavia, gli embeddings possono essere molto sparsi quando si usano certe funzioni di attivazione nei modelli.

Quando si lavora con gli annunci, è fondamentale creare embeddings efficaci. Utilizzando modelli diversi, come il modello "coseno a due torri" e il nuovo modello "chi-quadro a due torri", possiamo generare embeddings che potrebbero funzionare meglio per trovare somiglianze tra utenti e annunci. Entrambi i modelli producono embeddings sparsi, permettendo uno stoccaggio e un calcolo più efficienti.

La sfida successiva è trovare quali annunci corrispondono meglio a un utente. Per questo, dobbiamo cercare tra gli embeddings. Metodi di ricerca efficienti sono essenziali qui, specialmente quando si tratta di grandi dataset.

Il Ruolo degli Algoritmi Basati su Grafi

Gli algoritmi basati su grafi, come HNSW, sono utili per cercare tra questi embeddings. HNSW sta per Hierarchical Navigable Small World e si conosce per essere veloce ed efficiente nel trovare elementi simili all'interno di un dataset.

Quando si cerca tra gli embeddings, l'algoritmo cerca i vicini nel grafo che sono più vicini alla query dell'utente. Ogni vertice nel grafo rappresenta un embedding e i bordi collegano gli embeddings vicini. Attraversando questo grafo, l'algoritmo può trovare le migliori corrispondenze per l'utente in base al loro embedding.

La struttura del grafo permette ricerche rapide, il che è vitale in applicazioni come la targetizzazione degli annunci, dove il tempo e l'efficienza possono influenzare notevolmente le prestazioni.

Vantaggi degli Embeddings Sparsi

Gli embeddings sparsi hanno diversi vantaggi. Uno dei più significativi è che occupano meno spazio in memoria. Questo è particolarmente importante quando si lavora con grandi dataset, poiché i costi di stoccaggio possono rapidamente aumentare. Inoltre, gli embeddings sparsi consentono calcoli più veloci quando si calcolano somiglianze tra diversi embeddings. Questo aumento di velocità deriva dal fatto che meno voci non nulle negli embeddings significano meno lavoro da fare durante i calcoli.

Ad esempio, se abbiamo un grande embedding con milioni di dimensioni, ma solo una piccola frazione di quelle dimensioni è riempita con valori, possiamo elaborarlo molto più rapidamente. Il tempo complessivo necessario per effettuare ricerche o confronti può essere notevolmente ridotto.

Integrazione di Altre Tecniche

Oltre a concentrarsi solo sugli embeddings sparsi e sugli algoritmi basati su grafi, ci sono tecniche aggiuntive che possono migliorare ulteriormente le prestazioni. Una di queste tecniche si chiama "proiezioni casuali sign cauchy". Questo metodo aiuta a ridurre ulteriormente lo spazio di archiviazione necessario per gli embeddings comprimendoli in bit più piccoli.

Utilizzando questo metodo, possiamo trasformare gli embeddings in un formato che consente operazioni molto veloci, il che è particolarmente utile durante il processo di ricerca. Questo può portare a risparmi ancora maggiori sia in termini di tempo che di risorse quando si cercano le corrispondenze giuste nelle applicazioni di targetizzazione degli annunci.

Confrontare Diverse Misure di Somiglianza

Nel contesto della targetizzazione degli annunci, dobbiamo anche considerare i metodi utilizzati per misurare la somiglianza tra diversi embeddings. La misura di Somiglianza Coseno originale è spesso utilizzata, ma ci sono alternative come la somiglianza chi-quadro.

Gli esperimenti mostrano che la somiglianza chi-quadro può a volte dare risultati migliori in termini di accuratezza di recupero. Questo significa che, quando si cerca di trovare articoli simili, il metodo che scegliamo per misurare la somiglianza può influenzare l'efficacia della ricerca.

Applicando diversi modelli e tecniche di misurazione, possiamo determinare quali metodi funzionano meglio in varie situazioni. Questo aiuta a fornire annunci pertinenti agli utenti in base al loro comportamento e alle loro preferenze.

Applicazioni Pratiche nella Targetizzazione degli Annunci

Nei casi reali, le tecniche e i modelli discussi hanno applicazioni pratiche. Ad esempio, le aziende possono utilizzare questi metodi per creare pubblicità più pertinenti e mirate. Addestrando modelli su varie caratteristiche, come le demografie e i comportamenti degli utenti, il sistema può recuperare annunci altamente pertinenti per singoli utenti.

Il processo di addestramento di questi modelli comporta l'alimentazione di grandi quantità di dati nel sistema, consentendogli di apprendere e migliorare nel tempo. Una volta addestrati, questi modelli possono essere utilizzati per fare raccomandazioni in tempo reale agli utenti, aumentando l'efficacia della pubblicità digitale.

Conclusione

In conclusione, il campo del lavoro con dati sparsi, specialmente nel contesto della targetizzazione degli annunci, sta evolvendo. Sfruttando algoritmi e tecniche avanzate, possiamo migliorare il modo in cui rappresentiamo i dati, li memorizziamo e li cerchiamo.

Man mano che continuiamo a perfezionare questi metodi, è probabile che vedremo risultati migliori in varie applicazioni, portando a pubblicità più efficientemente mirate e a un'esperienza utente migliorata. La combinazione di embeddings sparsi, algoritmi basati su grafi e tecniche innovative offre una solida base per futuri sviluppi in quest'area.

Concentrandosi su questi elementi fondamentali, le aziende possono sfruttare la tecnologia per migliorare le loro strategie di marketing, portando a un successo e una redditività maggiore. Con il panorama della pubblicità digitale che continua a cambiare, abbracciare questi progressi sarà fondamentale per rimanere competitivi.

Fonte originale

Titolo: Practice with Graph-based ANN Algorithms on Sparse Data: Chi-square Two-tower model, HNSW, Sign Cauchy Projections

Estratto: Sparse data are common. The traditional ``handcrafted'' features are often sparse. Embedding vectors from trained models can also be very sparse, for example, embeddings trained via the ``ReLu'' activation function. In this paper, we report our exploration of efficient search in sparse data with graph-based ANN algorithms (e.g., HNSW, or SONG which is the GPU version of HNSW), which are popular in industrial practice, e.g., search and ads (advertising). We experiment with the proprietary ads targeting application, as well as benchmark public datasets. For ads targeting, we train embeddings with the standard ``cosine two-tower'' model and we also develop the ``chi-square two-tower'' model. Both models produce (highly) sparse embeddings when they are integrated with the ``ReLu'' activation function. In EBR (embedding-based retrieval) applications, after we the embeddings are trained, the next crucial task is the approximate near neighbor (ANN) search for serving. While there are many ANN algorithms we can choose from, in this study, we focus on the graph-based ANN algorithm (e.g., HNSW-type). Sparse embeddings should help improve the efficiency of EBR. One benefit is the reduced memory cost for the embeddings. The other obvious benefit is the reduced computational time for evaluating similarities, because, for graph-based ANN algorithms such as HNSW, computing similarities is often the dominating cost. In addition to the effort on leveraging data sparsity for storage and computation, we also integrate ``sign cauchy random projections'' (SignCRP) to hash vectors to bits, to further reduce the memory cost and speed up the ANN search. In NIPS'13, SignCRP was proposed to hash the chi-square similarity, which is a well-adopted nonlinear kernel in NLP and computer vision. Therefore, the chi-square two-tower model, SignCRP, and HNSW are now tightly integrated.

Autori: Ping Li, Weijie Zhao, Chao Wang, Qi Xia, Alice Wu, Lijun Peng

Ultimo aggiornamento: 2023-06-13 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2306.07607

Fonte PDF: https://arxiv.org/pdf/2306.07607

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili