Simple Science

Scienza all'avanguardia spiegata semplicemente

# Informatica# Apprendimento automatico# Calcolo e linguaggio# Recupero delle informazioni

Migliorare la categorizzazione dei prodotti nell'e-commerce

Un nuovo modo per migliorare la coerenza nella categorizzazione dei prodotti online.

― 6 leggere min


Rivisitazione dellaRivisitazione dellacategorizzazioneE-Commercenel commercio online.un'etichettatura coerente dei prodottiUn approccio solido per
Indice

Nel mondo frenetico dello shopping online, organizzare i prodotti nelle giuste categorie è super importante. Una grande azienda web usa un modello di categorizzazione dei prodotti che aiuta a ordinare milioni di articoli ogni giorno. Questo modello prende il nome di un prodotto e decide a quale categoria appartiene da un lungo elenco di opzioni. Però, ci sono alcuni problemi che possono sorgere con questo modello, soprattutto quando i nomi dei prodotti vengono cambiati leggermente.

Per esempio, se due articoli sono simili ma uno è una "camicia blu" e l'altro è una "camicia blu grande", il modello potrebbe categorizarli in modo diverso. Questa inconsistenza può causare problemi nel modo in cui gli articoli vengono raccomandati o cercati, e questo può far arrabbiare gli utenti. Per risolvere questo, abbiamo sviluppato un nuovo modo di lavorare con il modello per assicurarci che sia più coerente nella sua categorizzazione.

Vogliamo migliorare questo modello senza rallentarlo, dato che deve gestire una quantità enorme di dati. Un approccio efficace è usare qualcosa chiamato Apprendimento semi-supervisionato, che ci permette di sfruttare meglio sia i dati etichettati (dove la categoria è conosciuta) sia i dati non etichettati (dove la categoria non è conosciuta). Abbiamo due metodi principali per migliorare la categorizzazione.

Il primo metodo usa i cataloghi di prodotti disponibili per aiutare a creare nuovi dati di addestramento. Questo comporta guardare gruppi di articoli simili e usarli per aiutare il modello a imparare meglio. Il secondo metodo usa un modello generativo per creare nuovi esempi che assomigliano ai prodotti veri ma differiscono in modi minori, senza cambiare il loro significato fondamentale.

L'ascesa delle piattaforme di e-commerce come Amazon ed eBay negli ultimi venti anni ha aumentato significativamente il numero di prodotti disponibili online. Queste piattaforme dipendono sia da descrizioni chiare dei prodotti che da categorie inferite per un'esperienza di shopping piacevole. La categoria assegnata a un prodotto può influenzare molto le vendite, poiché incide sui risultati di ricerca e sulle raccomandazioni.

Il nostro obiettivo è migliorare un modello di apprendimento automatico conosciuto come "il categorizzatore". Questo modello classifica rapidamente miliardi di prodotti ogni giorno, assegnando la categoria appropriata basata su una gerarchia stabilita chiamata Google Product Taxonomy. Tuttavia, recenti valutazioni hanno mostrato che mentre il modello è generalmente efficace, ha difficoltà con l'etichettatura coerente, specialmente quando i titoli dei prodotti cambiano leggermente, come colori o taglie diversi.

Numerosi studi nel campo del processamento del linguaggio naturale (NLP) hanno esaminato la Coerenza nei compiti di classificazione. Questi studi evidenziano come certe caratteristiche possano fuorviare i modelli, causando incoerenze quando i dettagli dei prodotti cambiano anche solo un po'.

Anche se il modello può funzionare bene in media, l'incoerenza può creare problemi significativi per gli utenti che dipendono da raccomandazioni e risultati di ricerca accurati. Per esempio, potrebbe etichettare diversamente un "abito rosso" e un "abito blu", anche se appartengono alla stessa categoria.

Per affrontare questa incoerenza, applichiamo varie tecniche di Aumento dei Dati per migliorare l'addestramento del modello. Aggiungendo più esempi vari di articoli simili, possiamo aiutare il modello a riconoscere che piccoli cambiamenti non dovrebbero portare a categorie diverse.

Usare l'aumento dei dati per migliorare i modelli di apprendimento automatico è ampiamente riconosciuto e ha dimostrato di aumentare l'affidabilità di tali sistemi. Continuiamo a usare la struttura del modello esistente per assicurarci che possa ancora elaborare milioni di articoli in modo efficace.

Il nostro nuovo framework si chiama Apprendimento Semi-Supervisionato Coerente (Consistent-SSL). Raccogliamo dati dai cataloghi di prodotti e creiamo cluster di articoli che sono simili ma hanno lievi differenze. Con questo setup, possiamo applicare due metodi per sfruttare i dati non etichettati: un metodo di auto-addestramento e un approccio generativo.

Il metodo di auto-addestramento crea prima pseudo-etichettature per i dati non etichettati. Addestriamo un modello di base con i dati etichettati e lo usiamo per assegnare queste pseudo-etichettature. Ogni volta che guardiamo un gruppo di articoli simili, ci assicuriamo che ricevano tutti la stessa pseudo-etichettatura. Questo può aiutare a migliorare la coerenza del modello.

Nel nostro metodo generativo, addestriamo un modello per capire come gli articoli possono variare. Per una coppia di articoli, il modello impara a creare nuove variazioni del primo articolo mantenendo la sua etichetta originale. Questo ci consente di generare più esempi da un singolo articolo, aumentando la quantità di dati di addestramento.

Filtriamo poi gli esempi generati per assicurarci che corrispondano a esempi del mondo reale. Questo aiuta a creare un set di addestramento che sia sia diversificato che coerente.

Abbiamo messo alla prova i nostri metodi usando un dataset di prodotti commerciali con etichette che rappresentano le loro categorie. Il dataset consisteva in campioni pre-etichettati e un'ampia collezione di prodotti non etichettati provenienti da vari rivenditori. Ogni campione conteneva dettagli sui prodotti, inclusi titolo e categoria.

I nostri esperimenti si sono concentrati su due aspetti: accuratezza e coerenza. I modelli accurati producono previsioni corrette, mentre i modelli coerenti producono la stessa previsione per articoli simili. Per misurare le prestazioni, abbiamo creato due set di test diversi. Il test di accuratezza ha utilizzato campioni etichettati per calcolare un punteggio, mentre il test di coerenza ha utilizzato coppie di titoli di prodotti simili per vedere se ricevevano la stessa etichetta.

Attraverso esperimenti, abbiamo confrontato i nostri metodi con modelli esistenti. Abbiamo scoperto che il nostro metodo di auto-addestramento ha migliorato i tassi di coerenza riducendo leggermente l'accuratezza complessiva. Allo stesso modo, il metodo generativo ha portato a una maggiore coerenza senza impattare significativamente l'accuratezza.

Questi risultati evidenziano l'influenza della qualità dei dati sulle prestazioni del modello. Più esempi di qualità possiamo fornire al modello durante l'addestramento, migliore diventa nella categorizzazione di articoli simili.

In generale, il nostro lavoro mostra che è essenziale considerare non solo la quantità di dati quando si addestrano modelli, ma anche la qualità e la distribuzione di quei dati. Abbiamo appreso che usare campioni del mondo reale è generalmente meglio che utilizzare quelli generati quando si tratta di ottenere buone prestazioni.

Anche se i nostri metodi hanno mostrato risultati promettenti, rimangono alcune limitazioni. Il nostro studio si è concentrato su un particolare modello e dataset, quindi i risultati possono variare in altri contesti. Inoltre, i nostri approcci si sono concentrati sull'aumento dei dati invece di alterare il design fondamentale del modello. Gli sforzi futuri potrebbero esplorare come integrare la coerenza direttamente nel design o negli obiettivi del modello.

Infine, è importante mantenere principi etici durante la conduzione di ricerche come questa. Il nostro studio ha rispettato le linee guida etiche e mirava ad assicurare che l'impatto sugli utenti fosse positivo.

In conclusione, abbiamo introdotto un nuovo modo per migliorare la categorizzazione dei prodotti e-commerce assicurandoci che articoli simili siano etichettati in modo coerente. Utilizzando tecniche di apprendimento semi-supervisionato, abbiamo dimostrato che è possibile migliorare l'addestramento del modello mantenendo la sua efficienza. Questo può portare a un'esperienza di shopping migliore per gli utenti migliorando l'accuratezza delle raccomandazioni e dei risultati di ricerca. Speriamo che questi progressi aprano la strada a ulteriori miglioramenti nella categorizzazione dei prodotti in un panorama e-commerce in rapido cambiamento.

Fonte originale

Titolo: Consistent Text Categorization using Data Augmentation in e-Commerce

Estratto: The categorization of massive e-Commerce data is a crucial, well-studied task, which is prevalent in industrial settings. In this work, we aim to improve an existing product categorization model that is already in use by a major web company, serving multiple applications. At its core, the product categorization model is a text classification model that takes a product title as an input and outputs the most suitable category out of thousands of available candidates. Upon a closer inspection, we found inconsistencies in the labeling of similar items. For example, minor modifications of the product title pertaining to colors or measurements majorly impacted the model's output. This phenomenon can negatively affect downstream recommendation or search applications, leading to a sub-optimal user experience. To address this issue, we propose a new framework for consistent text categorization. Our goal is to improve the model's consistency while maintaining its production-level performance. We use a semi-supervised approach for data augmentation and presents two different methods for utilizing unlabeled samples. One method relies directly on existing catalogs, while the other uses a generative model. We compare the pros and cons of each approach and present our experimental results.

Autori: Guy Horowitz, Stav Yanovsky Daye, Noa Avigdor-Elgrabli, Ariel Raviv

Ultimo aggiornamento: 2023-05-30 00:00:00

Lingua: English

URL di origine: https://arxiv.org/abs/2305.05402

Fonte PDF: https://arxiv.org/pdf/2305.05402

Licenza: https://creativecommons.org/licenses/by/4.0/

Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.

Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.

Altro dagli autori

Articoli simili