Migliorare l'estrazione di attributi e valori nell'e-commerce
Un nuovo modello migliora l'identificazione delle caratteristiche e dei valori dei prodotti nelle inserzioni online.
― 6 leggere min
Indice
L'e-commerce è cresciuto rapidamente, portando a un gran numero di prodotti disponibili online. Ogni prodotto di solito ha varie caratteristiche, spesso conosciute come attributi, e ogni attributo ha valori specifici. Ad esempio, uno smartphone può avere attributi come Marca, Colore e Nome Modello con valori come Samsung, Grigio Fantasma e Galaxy S21. Questi attributi e valori aiutano i clienti a trovare i prodotti che vogliono.
Tuttavia, le inserzioni dei venditori spesso hanno informazioni incomplete, che possono migliorare usando i dettagli del titolo del prodotto. Il compito di identificare automaticamente queste coppie attributo-valore è importante nell'e-commerce, ma può essere complicato a causa della varietà di categorie di prodotto e della quantità limitata di dati di addestramento etichettati disponibili.
La Sfida
Estrarre coppie attributo-valore dai nomi dei prodotti non è semplice. I venditori a volte forniscono dettagli che sono incompleti o incoerenti, rendendo difficile per i sistemi automatizzati funzionare bene. Inoltre, esistono molti attributi per vari prodotti, spesso nel migliaio, rendendo il compito ancora più complesso.
Inoltre, alcuni termini possono sovrapporsi o essere usati in modo intercambiabile, come Numero Modello e Modello N°. Queste incoerenze rappresentano una sfida per qualsiasi sistema progettato per classificare o estrarre queste informazioni.
In aggiunta, tali sistemi di estrazione devono spesso funzionare In tempo reale, specialmente in ambienti ad alto traffico, il che aggiunge un ulteriore livello di difficoltà.
La Nostra Soluzione
Per affrontare questi problemi, abbiamo sviluppato un modello a due fasi che estrae coppie attributo-valore dai titoli dei prodotti. Il modello è progettato per apprendere da dati parzialmente etichettati, il che significa che può lavorare con coppie attributo-valore incomplete, riducendo la necessità di set di dati completamente annotati.
Fase Uno: Estrazione degli Attributi
La prima fase del modello utilizza un modello generativo per prevedere potenziali attributi presenti nel titolo del prodotto. In altre parole, prende un nome di prodotto e restituisce un elenco di possibili attributi associati a quel nome.
Fase Due: Estrazione dei Valori
Una volta identificati gli attributi, la seconda fase entra in gioco. Questa fase utilizza un modello di classificazione per determinare i valori corrispondenti a ciascun attributo identificato.
Usando queste due fasi, il modello può gestire efficacemente le complessità coinvolte con vari attributi pur essendo addestrato su dati parzialmente etichettati.
Performance del Modello
Il nostro modello mostra un miglioramento significativo rispetto ai sistemi esistenti. Aumenta il numero di coppie attributo-valore correttamente identificate del 56.3% rispetto agli approcci precedenti. Inoltre, abbiamo introdotto un metodo chiamato "bootstrapping" che aiuta a rifinire e ampliare progressivamente il set di dati di addestramento.
Integrazione nelle Applicazioni Reali
Abbiamo integrato con successo questo modello nella più grande piattaforma di e-commerce B2B dell'India, ottenendo un aumento del 21.1% nell'identificazione accurata delle coppie attributo-valore rispetto ai sistemi esistenti, mantenendo un alto punteggio di precisione.
Importanza degli Attributi e dei Valori
Nel contesto dell'e-commerce, gli attributi e i valori svolgono un ruolo essenziale aiutando i clienti a raffinire le loro ricerche. Attributi comuni come Marca, Modello e Colore, aiutano i consumatori a prendere decisioni informate rapidamente.
Ad esempio, se un acquirente sta cercando un prodotto particolare, conoscere la sua Marca e Modello può restringere notevolmente i risultati di ricerca. Tuttavia, se le informazioni attributo-valore mancano o sono errate, possono portare a confusione o frustrazione per i clienti.
Metodologia per l'Estrazione di Attributo-Valore
Il modello utilizza un approccio a due fasi:
- Estrazione degli Attributi tramite Modello Generativo: Questo passaggio identifica tutti gli attributi pertinenti associati a un nome di prodotto.
- Estrazione dei Valori tramite Modello di Classificazione: Questo passaggio classifica ogni parola nel titolo del prodotto per determinare se rappresenta un valore per gli attributi identificati.
Addestramento con Dati Parzialmente Etichettati
Un aspetto unico del nostro metodo è la sua capacità di apprendere in modo efficace da dati parzialmente etichettati. Incorporando marker durante il processo di addestramento, il modello può comprendere meglio quali parole nel titolo del prodotto corrispondono ai valori per vari attributi.
Questi marker aiutano il modello a concentrarsi sulle parti rilevanti dell'input, permettendogli di generare predizioni più accurate e significative durante il processo di estrazione.
Potatura dei Valori
In aggiunta alle tecniche sopra, abbiamo introdotto un concetto chiamato "Potatura dei Valori". Questo assicura che il modello possa generare output nulli per eventuali attributi errati previsti dal sistema. Questo metodo migliora l'accuratezza complessiva dell'estrazione delle coppie attributo-valore filtrando fuori le predizioni irrilevanti, portando a un output più pulito.
Confronto con Modelli Esistenti
Rispetto ai modelli esistenti, il nostro sistema mostra prestazioni superiori sia in valutazioni automatizzate che manuali. La precisione-quante volte le predizioni del modello sono corrette-e il richiamo-quante predizioni corrette fa il modello-sono spesso più alte per il nostro modello.
Utilizzando diverse variazioni del nostro modello, abbiamo valutato come vari componenti come marker e potatura dei valori influenzano le prestazioni complessive. I risultati hanno indicato che entrambi sono cruciali per migliorare la capacità del modello di estrarre attributi e valori in modo accurato.
Impostazione Sperimentale
Per verificare l'efficacia del nostro modello, abbiamo condotto esperimenti utilizzando dati del mondo reale. Abbiamo prelevato inserzioni di prodotti da una popolare piattaforma di e-commerce B2B, assicurandoci di avere un set diversificato di attributi e prodotti per un test approfondito.
Utilizzando un set di dati con migliaia di coppie attributo-valore uniche, siamo stati in grado di addestrare il modello in modo efficace e valutare le sue prestazioni su un numero sostanziale di esempi.
Risultati
I risultati dei nostri esperimenti rivelano che il modello a due fasi supera costantemente i sistemi esistenti, in particolare in compiti che coinvolgono dati incompleti. L'uso di marker e potatura dei valori migliora significativamente l'equilibrio tra precisione e richiamo.
Gestione di Nomi di Prodotti Lunghi
Per valutare ulteriormente le prestazioni del modello, abbiamo esaminato quanto bene gestisce nomi di prodotti lunghi, poiché questi sono comuni nell'e-commerce. Il nostro modello ha mantenuto alta precisione anche con nomi di prodotti che contengono molte parole, dimostrando la sua robustezza e adattabilità.
Conclusione
In conclusione, il nostro modello a due fasi affronta efficacemente le sfide dell'estrazione delle coppie attributo-valore dai titoli dei prodotti nell'e-commerce. Integrando tecniche innovative come l'addestramento su dati parzialmente etichettati, embedding di marker e potatura dei valori, il nostro approccio offre un miglioramento sostanziale rispetto ai metodi tradizionali.
Il successo del nostro modello applicato a una grande piattaforma online evidenzia il suo valore pratico e il potenziale per un'applicazione più ampia nel settore dell'e-commerce.
Prevediamo che le future espansioni potrebbero coinvolgere più iterazioni di bootstrapping per continuare a migliorare la qualità dei dati. Con l'evolversi del panorama dell'e-commerce, la necessità di un'accurata Estrazione di attributi in tempo reale rimarrà critica, e il nostro modello è ben posizionato per soddisfare queste esigenze.
Titolo: A Framework for Leveraging Partially-Labeled Data for Product Attribute-Value Identification
Estratto: In the e-commerce domain, the accurate extraction of attribute-value pairs (e.g., Brand: Apple) from product titles and user search queries is crucial for enhancing search and recommendation systems. A major challenge with neural models for this task is the lack of high-quality training data, as the annotations for attribute-value pairs in the available datasets are often incomplete. To address this, we introduce GenToC, a model designed for training directly with partially-labeled data, eliminating the necessity for a fully annotated dataset. GenToC employs a marker-augmented generative model to identify potential attributes, followed by a token classification model that determines the associated values for each attribute. GenToC outperforms existing state-of-the-art models, exhibiting upto 56.3% increase in the number of accurate extractions. Furthermore, we utilize GenToC to regenerate the training dataset to expand attribute-value annotations. This bootstrapping substantially improves the data quality for training other standard NER models, which are typically faster but less capable in handling partially-labeled data, enabling them to achieve comparable performance to GenToC. Our results demonstrate GenToC's unique ability to learn from a limited set of partially-labeled data and improve the training of more efficient models, advancing the automated extraction of attribute-value pairs. Finally, our model has been successfully integrated into IndiaMART, India's largest B2B e-commerce platform, achieving a significant increase of 20.2% in the number of correctly identified attribute-value pairs over the existing deployed system while achieving a high precision of 89.5%.
Autori: D. Subhalingam, Keshav Kolluru, Mausam, Saurabh Singal
Ultimo aggiornamento: 2024-11-18 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2405.10918
Fonte PDF: https://arxiv.org/pdf/2405.10918
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.