Simple Science

Hochmoderne Wissenschaft einfach erklärt

# Computerwissenschaften# Rechnen und Sprache# Künstliche Intelligenz# Informationsbeschaffung# Maschinelles Lernen

Verbesserung der Attribut-Wert-Extraktion im E-Commerce

Ein neues Modell verbessert die Identifikation von Produkteigenschaften und Werten in Online-Anzeigen.

― 6 min Lesedauer


E-Commerce-DatenextraktionE-Commerce-DatenextraktionBoostProdukteigenschaften.der Extraktion vonNeues Modell verbessert die Genauigkeit
Inhaltsverzeichnis

E-Commerce hat sich schnell entwickelt, wodurch eine riesige Anzahl von Produkten online verfügbar ist. Jedes Produkt hat normalerweise verschiedene Merkmale, die oft als Attribute bekannt sind, und jedes Attribut hat spezifische Werte. Zum Beispiel könnte ein Smartphone Attribute wie Marke, Farbe und Modellname haben mit Werten wie Samsung, Phantom Grau und Galaxy S21. Diese Attribute und Werte helfen den Kunden, die Produkte zu finden, die sie wollen.

Allerdings haben Produktlisten von Verkäufern oft unvollständige Informationen, die durch Details aus dem Produkttitel verbessert werden können. Die Aufgabe, diese Attribut-Wert-Paare automatisch zu identifizieren, ist im E-Commerce wichtig, kann aber aufgrund der Vielfalt der Produktkategorien und der begrenzten Menge an beschrifteten Trainingsdaten kompliziert sein.

Die Herausforderung

Attribute-Wert-Paare aus Produktnamen zu extrahieren ist nicht einfach. Verkäufer geben manchmal Details an, die unvollständig oder inkonsistent sind, was es für automatisierte Systeme schwierig macht, gut zu funktionieren. Ausserdem gibt es viele Attribute für verschiedene Produkte, oft in den Tausenden, was die Aufgabe noch komplizierter macht.

Darüber hinaus können einige Begriffe überlappen oder austauschbar verwendet werden, wie Modellnummer und Modellenummer. Diese Inkonsistenzen stellen eine Herausforderung für jedes System dar, das darauf ausgelegt ist, diese Informationen zu klassifizieren oder zu extrahieren.

Zusätzlich müssen solche Extraktionssysteme oft in Echtzeit arbeiten, insbesondere in stark frequentierten Umgebungen, was eine weitere Schwierigkeit hinzufügt.

Unsere Lösung

Um diese Probleme anzugehen, haben wir ein zweistufiges Modell entwickelt, das Attribut-Wert-Paare aus Produkttiteln extrahiert. Das Modell ist so konzipiert, dass es aus teilweise beschrifteten Daten lernt, was bedeutet, dass es mit unvollständigen Attribut-Wert-Paaren arbeiten kann und so die Notwendigkeit für vollständig annotierte Datensätze verringert wird.

Erste Stufe: Attribut-Extraktion

Die erste Stufe des Modells verwendet ein generatives Modell, um potenzielle Attribute im Produkttitel vorherzusagen. Mit anderen Worten, es nimmt einen Produktnamen und gibt eine Liste möglicher Attribute aus, die mit diesem Namen verbunden sind.

Zweite Stufe: Wert-Extraktion

Sobald die Attribute identifiziert sind, kommt die zweite Stufe ins Spiel. Diese Stufe verwendet ein Klassifikationsmodell, um die entsprechenden Werte für jedes identifizierte Attribut zu bestimmen.

Durch die Verwendung dieser beiden Stufen kann das Modell die Komplexitäten, die mit verschiedenen Attributen verbunden sind, effektiv bewältigen und wird gleichzeitig auf teilweise beschrifteten Daten trainiert.

Modell-Leistung

Unser Modell zeigt signifikante Verbesserungen im Vergleich zu bestehenden Systemen. Es erhöht die Anzahl der korrekt identifizierten Attribut-Wert-Paare um 56,3 % im Vergleich zu vorherigen Ansätzen. Darüber hinaus haben wir eine Methode namens "Bootstrapping" eingeführt, die hilft, den Trainingsdatensatz schrittweise zu verfeinern und zu erweitern.

Integration in reale Anwendungen

Wir haben dieses Modell erfolgreich in Indiens grösster B2B-E-Commerce-Plattform integriert und dabei eine 21,1%ige Steigerung in der genauen Identifizierung von Attribut-Wert-Paaren im Vergleich zu bestehenden Systemen erzielt, während wir eine hohe Präzision beibehalten haben.

Wichtigkeit von Attributen und Werten

Im Kontext des E-Commerce spielen Attribute und Werte eine wesentliche Rolle, indem sie den Kunden helfen, ihre Suchen zu verfeinern. Häufige Attribute wie Marke, Modell und Farbe helfen den Verbrauchern, schnell informierte Entscheidungen zu treffen.

Wenn ein Käufer beispielsweise nach einem bestimmten Produkt sucht, kann das Wissen um die Marke und das Modell die Suchergebnisse erheblich eingrenzen. Wenn jedoch die Informationen zu Attributen und Werten fehlen oder falsch sind, kann das zu Verwirrung oder Frustration bei den Kunden führen.

Methodik zur Attribut-Wert-Extraktion

Das Modell verwendet einen zweistufigen Ansatz:

  1. Attribut-Extraktion über generatives Modell: Dieser Schritt identifiziert alle relevanten Attribute, die mit einem Produktnamen verbunden sind.
  2. Wert-Extraktion über Klassifikationsmodell: Dieser Schritt klassifiziert jedes Wort im Produkttitel, um festzustellen, ob es einen Wert für die identifizierten Attribute darstellt.

Training mit teilweise beschrifteten Daten

Ein einzigartiger Aspekt unserer Methode ist ihre Fähigkeit, effektiv aus teilweise beschrifteten Daten zu lernen. Durch die Einbeziehung von Markern während des Trainingsprozesses kann das Modell besser erfassen, welche Wörter im Produkttitel Werten für verschiedene Attribute entsprechen.

Diese Marker helfen dem Modell, sich auf die relevanten Teile des Inputs zu konzentrieren, was es ihm ermöglicht, genauere und aufschlussreichere Vorhersagen während des Extraktionsprozesses zu generieren.

Wert-Pruning

Neben den oben genannten Techniken haben wir ein Konzept namens "Wert-Pruning" eingeführt. Dies stellt sicher, dass das Modell Null-Ausgaben für alle falsch vorhergesagten Attribute des Systems erzeugen kann. Diese Methode verbessert die Gesamtgenauigkeit der Attribut-Wert-Paar-Extraktion, indem irrelevante Vorhersagen herausgefiltert werden, was zu einem klareren Ergebnis führt.

Vergleich mit bestehenden Modellen

Im Vergleich zu bestehenden Modellen zeigt unser System eine überlegene Leistung sowohl in automatisierten als auch in manuellen Bewertungen. Die Präzision – wie oft die Vorhersagen des Modells korrekt sind – und der Recall – wie viele korrekte Vorhersagen das Modell macht – sind oft höher bei unserem Modell.

Mit verschiedenen Variationen unseres Modells haben wir bewertet, wie verschiedene Komponenten wie Marker und Wert-Pruning die Gesamtleistung beeinflussen. Die Ergebnisse deuten darauf hin, dass beide entscheidend sind, um die Fähigkeit des Modells zur genauen Extraktion von Attributen und Werten zu verbessern.

Experimenteller Aufbau

Um die Wirksamkeit unseres Modells zu überprüfen, haben wir Experimente mit realen Daten durchgeführt. Wir haben Produktlisten von einer beliebten B2B-E-Commerce-Plattform abgerufen und sichergestellt, dass wir eine vielfältige Menge an Attributen und Produkten für umfassende Tests hatten.

Durch die Verwendung eines Datensatzes mit Tausenden von einzigartigen Attribut-Wert-Paaren konnten wir das Modell effektiv trainieren und seine Leistung an einer beträchtlichen Anzahl von Beispielen evaluieren.

Ergebnisse

Die Ergebnisse unserer Experimente zeigen, dass das zweistufige Modell bestehende Systeme konstant übertrifft, insbesondere bei Aufgaben, die unvollständige Daten betreffen. Die Verwendung von Markern und Wert-Pruning verbessert erheblich das Verhältnis zwischen Präzision und Recall.

Umgang mit langen Produktnamen

Um die Modellleistung weiter zu bewerten, haben wir untersucht, wie gut es mit langen Produktnamen umgeht, da diese im E-Commerce häufig sind. Unser Modell behielt auch bei Produktnamen mit vielen Wörtern eine hohe Genauigkeit bei, was seine Robustheit und Anpassungsfähigkeit demonstriert.

Fazit

Zusammenfassend lässt sich sagen, dass unser zweistufiges Modell die Herausforderungen bei der Extraktion von Attribut-Wert-Paaren aus Produkttiteln im E-Commerce effektiv angeht. Durch die Integration innovativer Techniken wie das Training mit teilweise beschrifteten Daten, Marker-Embeddings und Wert-Pruning bietet unser Ansatz eine erhebliche Verbesserung gegenüber traditionellen Methoden.

Der Erfolg unseres Modells, wenn es auf einer grossen Online-Plattform angewendet wird, zeigt seinen praktischen Wert und sein Potenzial für eine breitere Anwendung im E-Commerce-Sektor.

Wir stellen uns vor, dass zukünftige Erweiterungen mehr Iterationen des Bootstrappings beinhalten könnten, um die Datenqualität weiter zu verbessern. Da sich die E-Commerce-Landschaft weiterentwickelt, wird die Notwendigkeit für genaue, Echtzeit-Attribut-Extraktionen weiterhin entscheidend sein, und unser Modell ist gut positioniert, um diesen Bedürfnissen gerecht zu werden.

Originalquelle

Titel: A Framework for Leveraging Partially-Labeled Data for Product Attribute-Value Identification

Zusammenfassung: In the e-commerce domain, the accurate extraction of attribute-value pairs (e.g., Brand: Apple) from product titles and user search queries is crucial for enhancing search and recommendation systems. A major challenge with neural models for this task is the lack of high-quality training data, as the annotations for attribute-value pairs in the available datasets are often incomplete. To address this, we introduce GenToC, a model designed for training directly with partially-labeled data, eliminating the necessity for a fully annotated dataset. GenToC employs a marker-augmented generative model to identify potential attributes, followed by a token classification model that determines the associated values for each attribute. GenToC outperforms existing state-of-the-art models, exhibiting upto 56.3% increase in the number of accurate extractions. Furthermore, we utilize GenToC to regenerate the training dataset to expand attribute-value annotations. This bootstrapping substantially improves the data quality for training other standard NER models, which are typically faster but less capable in handling partially-labeled data, enabling them to achieve comparable performance to GenToC. Our results demonstrate GenToC's unique ability to learn from a limited set of partially-labeled data and improve the training of more efficient models, advancing the automated extraction of attribute-value pairs. Finally, our model has been successfully integrated into IndiaMART, India's largest B2B e-commerce platform, achieving a significant increase of 20.2% in the number of correctly identified attribute-value pairs over the existing deployed system while achieving a high precision of 89.5%.

Autoren: D. Subhalingam, Keshav Kolluru, Mausam, Saurabh Singal

Letzte Aktualisierung: 2024-11-18 00:00:00

Sprache: English

Quell-URL: https://arxiv.org/abs/2405.10918

Quell-PDF: https://arxiv.org/pdf/2405.10918

Lizenz: https://creativecommons.org/licenses/by/4.0/

Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.

Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.

Mehr von den Autoren

Ähnliche Artikel