Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Recupero delle informazioni# Calcolo e linguaggio

Migliorare la ricerca online con EBRM

Presentiamo un nuovo modello per migliorare i risultati di ricerca nello shopping online.

― 6 leggere min


EBRM: Un punto di svoltaEBRM: Un punto di svoltanella ricercaentità.online con la pertinenza basata sulleTrasformare l'efficienza delle ricerche
Indice

Trovare gli articoli giusti quando si fa shopping online può essere complicato. Con tante scelte disponibili, è fondamentale che i sistemi di ricerca aiutino gli utenti a scoprire ciò che vogliono in fretta. Un aspetto chiave di questo processo è quanto bene un sistema riesca a abbinare le parole di ricerca di un utente con i prodotti nel suo database.

Il sistema di ricerca deve essere veloce e preciso. Tuttavia, i sistemi attuali a volte faticano. Alcuni modelli puntano sulla velocità ma perdono in accuratezza, mentre altri forniscono buoni risultati ma sono lenti. Questo articolo presenta un nuovo approccio chiamato Entity-Based Relevance Model (EBRM) che mira ad essere sia veloce che preciso.

La necessità di migliorare la ricerca

Oggi, molte persone fanno shopping online su piattaforme popolari come Amazon ed eBay. Con milioni di prodotti disponibili, gli utenti spesso digitano frasi brevi per descrivere ciò che vogliono, che possono risultare vaghe. Dall'altra parte, i venditori di solito scrivono titoli di prodotto lunghi e dettagliati. Questa differenza rende difficile per i sistemi di ricerca collegare le query degli utenti ai giusti articoli.

I metodi tradizionali basati su parole chiave, come BM25 e TF-IDF, guardano a quanto spesso le parole compaiono in una query e nei titoli dei prodotti per decidere quanto siano rilevanti. Ma questi metodi spesso non funzionano bene a causa delle differenze nel vocabolario tra utenti e venditori. Per esempio, se un utente cerca "pesi da palestra", un modello potrebbe erroneamente collegare questa richiesta a un articolo non correlato a causa di disallineamenti nel vocabolario.

Per affrontare questi problemi, i sistemi di ricerca moderni hanno cominciato a usare reti neurali che rappresentano query e articoli come vettori densi in uno spazio semantico. Questi metodi, soprattutto quelli che usano modelli basati su Transformer come BERT, hanno dimostrato di avere del potenziale nel recuperare informazioni rilevanti.

Le carenze dei modelli esistenti

Tuttavia, ci sono limiti a questi modelli avanzati. I bi-encoder, che creano rappresentazioni separate per query e articoli, possono memorizzare i risultati per velocità ma potrebbero sacrificare l'accuratezza. I cross-encoder offrono una migliore accuratezza poiché considerano l'interazione completa tra query e articolo ma tendono a essere lenti perché non possono pre-calcolare i vettori.

Inoltre, la maggior parte dei modelli esistenti fornisce semplicemente previsioni senza spiegare come siano arrivate a quei risultati. Gli umani possono facilmente giustificare le loro decisioni basate sugli articoli che corrispondono alla query. Ad esempio, se un utente scrive "pesi da palestra", si aspetta di vedere articoli come "manubri", che sono tipi specifici correlati alla query. Attualmente, se un modello di ricerca commette un errore, può richiedere molto tempo e sforzo per correggerlo.

Presentazione del modello Entity-Based Relevance Model (EBRM)

Per affrontare queste carenze, presentiamo il modello Entity-Based Relevance Model (EBRM). Questo nuovo approccio si concentra sulla comprensione delle entità-articoli specifici o categorie-in ogni prodotto. Identificando queste entità, possiamo ridurre il problema di rilevanza da coppie query-articolo a coppie query-entità. Questo ci consente di aggregare i risultati per migliorare le previsioni.

EBRM consiste in due componenti principali: un modulo di rilevanza query-entità e un modulo di previsione che utilizza logica soft. Il modulo di rilevanza è addestrato per valutare quanto bene una query si relaziona a entità specifiche all'interno degli articoli. Utilizzando questo metodo, non solo aumentiamo l'accuratezza delle nostre previsioni ma rendiamo anche il processo più facile da interpretare. Gli utenti possono capire perché alcuni articoli vengono mostrati in base alle loro entità corrispondenti.

Come funziona EBRM

Nel nostro modello, prima identifichiamo le entità rilevanti all'interno dei titoli dei prodotti. Ad esempio, se un utente cerca "pesi da palestra", il sistema riconosce che "manubrio" è un'entità corrispondente. Attraverso questo focus sulle entità, puntiamo a determinare se la query e un articolo sono rilevanti controllando se ci sono entità di tipo prodotto corrispondenti.

Il modello utilizza uno strato di logica soft per combinare i risultati delle previsioni di rilevanza query-entità in un punteggio finale di rilevanza query-articolo. Questo aiuta a semplificare il processo e consente di memorizzare i risultati, velocizzando le ricerche online.

Importanza del Riconoscimento delle entità

Un aspetto significativo di EBRM è il riconoscimento delle entità. Riconoscendo specifiche entità all'interno dei titoli dei prodotti, possiamo creare un collegamento più significativo tra quello che gli utenti stanno cercando e gli articoli disponibili. Questo non solo aiuta nelle previsioni accurate ma fornisce anche giustificazioni per i risultati previsti.

Ad esempio, se un titolo recita "I migliori manubri per palestra in casa", il sistema dovrebbe facilmente riconoscere "Manubri" come l'entità rilevante per la query "pesi da palestra". Questo processo consente al modello di filtrare più efficacemente tra i numerosi titoli di articoli disponibili in una piattaforma di e-commerce.

Addestrare il modello

Addestrare l'EBRM richiede un gran numero di dati, ma piuttosto che fare affidamento esclusivamente su dati etichettati meticolosamente, il nostro modello utilizza anche schemi dal comportamento degli utenti. Analizzando i log delle ricerche dalla piattaforma, possiamo creare dati pseudo-etichettati che riflettono cosa tendono a cliccare gli utenti. Questo metodo riduce significativamente la necessità di etichettatura manuale pur addestrando efficacemente il modello.

Raccogliamo dati dalle interazioni degli utenti, dove clic e acquisti forniscono spunti su quali articoli siano rilevanti per specifiche query. Analizzando queste interazioni, possiamo determinare quali articoli interessano agli utenti e usare queste informazioni per migliorare le previsioni del modello.

Valutare EBRM

Per garantire l'efficacia dell'EBRM, abbiamo condotto diversi esperimenti utilizzando sia dataset privati che pubblicamente disponibili. I risultati hanno mostrato che l'EBRM ha superato significativamente i modelli tradizionali in termini di accuratezza e velocità. Non solo fornisce previsioni più rapide, ma migliora anche l'esperienza di shopping globale riducendo i risultati irrilevanti.

Attraverso il processo di valutazione, è stato notato che l'EBRM opera in modo efficiente in applicazioni reali. La capacità del modello di memorizzare e recuperare previsioni di rilevanza delle entità gli consente di gestire rapidamente le richieste degli utenti, rendendolo uno strumento prezioso per le piattaforme di shopping online.

Applicazione e impatto nel mondo reale

L'EBRM è stato implementato in un ambiente di e-commerce reale, dove è stato sottoposto a test A/B rispetto ai modelli di ricerca esistenti. I risultati hanno confermato che l'EBRM ha migliorato la rilevanza della ricerca di una percentuale notevole. Questo dimostra il suo potenziale impatto nel migliorare l'esperienza di acquisto per gli utenti.

Inoltre, i requisiti di memorizzazione ridotti del modello sono un grande vantaggio per i sistemi di e-commerce. Con ogni articolo che ha un numero limitato di entità riconosciute, l'EBRM può operare senza richiedere eccessive risorse computazionali.

Conclusione

In sintesi, il modello Entity-Based Relevance Model offre una soluzione promettente alle sfide affrontate dai sistemi di ricerca online attuali. Concentrandosi sulle entità, l'EBRM migliora il collegamento tra le query degli utenti e le offerte di prodotti. Il modello è non solo accurato e veloce, ma anche interpretabile, consentendo agli utenti e agli operatori del sistema di capire il ragionamento dietro le sue previsioni.

Con la continua crescita dell'e-commerce, sistemi di ricerca efficaci saranno fondamentali per aiutare gli utenti a trovare i prodotti che desiderano. L'EBRM rappresenta un passo verso il raggiungimento di questo obiettivo affrontando le lacune presenti nei metodi di ricerca tradizionali e offrendo un framework robusto per i futuri miglioramenti nelle esperienze di shopping online.

Fonte originale

Titolo: Improving Text Matching in E-Commerce Search with A Rationalizable, Intervenable and Fast Entity-Based Relevance Model

Estratto: Discovering the intended items of user queries from a massive repository of items is one of the main goals of an e-commerce search system. Relevance prediction is essential to the search system since it helps improve performance. When online serving a relevance model, the model is required to perform fast and accurate inference. Currently, the widely used models such as Bi-encoder and Cross-encoder have their limitations in accuracy or inference speed respectively. In this work, we propose a novel model called the Entity-Based Relevance Model (EBRM). We identify the entities contained in an item and decompose the QI (query-item) relevance problem into multiple QE (query-entity) relevance problems; we then aggregate their results to form the QI prediction using a soft logic formulation. The decomposition allows us to use a Cross-encoder QE relevance module for high accuracy as well as cache QE predictions for fast online inference. Utilizing soft logic makes the prediction procedure interpretable and intervenable. We also show that pretraining the QE module with auto-generated QE data from user logs can further improve the overall performance. The proposed method is evaluated on labeled data from e-commerce websites. Empirical results show that it achieves promising improvements with computation efficiency.

Autori: Jiong Cai, Yong Jiang, Yue Zhang, Chengyue Jiang, Ke Yu, Jianhui Ji, Rong Xiao, Haihong Tang, Tao Wang, Zhongqiang Huang, Pengjun Xie, Fei Huang, Kewei Tu

Ultimo aggiornamento: 2023-07-19 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2307.00370

Fonte PDF: https://arxiv.org/pdf/2307.00370

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili