Verbesserung der Produktkategorisierung im E-Commerce
Ein neuer Ansatz, um die Konsistenz bei der Online-Produktkategorisierung zu verbessern.
― 7 min Lesedauer
Inhaltsverzeichnis
In der hektischen Welt des Online-Shoppings ist es super wichtig, Produkte in die richtigen Kategorien zu sortieren. Ein führendes Webunternehmen hat ein Produktkategorisierungsmodell, das hilft, Millionen von Artikeln jeden Tag zu sortieren. Dieses Modell nimmt den Namen eines Produkts und entscheidet, zu welcher Kategorie es gehört, basierend auf einer riesigen Liste von Optionen. Aber es gibt ein paar Probleme, die bei diesem Modell auftreten können, besonders wenn sich die Produktnamen ein bisschen ändern.
Zum Beispiel, wenn zwei Artikel ähnlich sind, aber einer ein "blaues Hemd" und der andere ein "grosses blaues Hemd" ist, könnte das Modell sie unterschiedlich kategorisieren. Diese Inkonsistenz kann zu Problemen führen, wie die Artikel empfohlen oder gefunden werden, was die Nutzer frustrieren kann. Um das zu beheben, haben wir eine neue Arbeitsweise mit dem Modell entwickelt, um sicherzustellen, dass es konsistenter in der Kategorisierung ist.
Wir wollen dieses Modell verbessern, ohne es langsamer zu machen, da es eine riesige Menge an Daten verwalten muss. Ein effektiver Ansatz ist, etwas zu nutzen, das halbüberwachtes Lernen genannt wird, was es uns erlaubt, sowohl gelabelte Daten (wo die Kategorie bekannt ist) als auch ungelabelte Daten (wo die Kategorie nicht bekannt ist) besser zu nutzen. Wir haben zwei Hauptmethoden zur Verbesserung der Kategorisierung.
Die erste Methode nutzt verfügbare Produktkataloge, um neue Trainingsdaten zu erstellen. Dabei schauen wir uns Gruppen ähnlicher Artikel an und nutzen sie, um dem Modell besseres Lernen zu ermöglichen. Die zweite Methode verwendet ein generatives Modell, um neue Beispiele zu schaffen, die wie die tatsächlichen Produkte aussehen, aber in einigen kleinen Aspekten anders sind, ohne ihre grundlegende Bedeutung zu verändern.
Der Aufstieg von E-Commerce-Plattformen wie Amazon und eBay in den letzten zwanzig Jahren hat die Anzahl der online verfügbaren Produkte erheblich erhöht. Diese Plattformen hängen sowohl von klaren Produktbeschreibungen als auch von abgeleiteten Kategorien für ein angenehmes Einkaufserlebnis ab. Die Kategorie, die einem Produkt zugewiesen wird, kann stark beeinflussen, wie gut es verkauft wird, da sie die Suchergebnisse und Empfehlungen beeinflusst.
Unser Fokus liegt darauf, ein Machine-Learning-Modell zu verbessern, das als 'der Kategorisierer' bekannt ist. Dieses Modell klassifiziert täglich Milliarden von Produkten schnell und weist die passende Kategorie basierend auf einer etablierten Hierarchie namens Google Product Taxonomy zu. Neueste Bewertungen haben jedoch gezeigt, dass das Modell zwar im Allgemeinen effektiv ist, aber Schwierigkeiten hat, konsistent zu labeln, insbesondere wenn sich die Produkttitel leicht ändern, wie bei unterschiedlichen Farben oder Grössen.
Zahlreiche Studien im Bereich der natürlichen Sprachverarbeitung (NLP) haben sich mit der Konsistenz bei Klassifikationsaufgaben beschäftigt. Diese Studien zeigen, wie bestimmte Merkmale Modelle in die Irre führen können, was zu Inkonsistenzen bei Änderungen der Produktdetails führt.
Auch wenn das Modell im Durchschnitt gut funktioniert, kann die Inkonsistenz erhebliche Probleme für Nutzer schaffen, die auf präzise Empfehlungen und Suchergebnisse angewiesen sind. Zum Beispiel könnte es ein "rotes Kleid" und ein "blaues Kleid" unterschiedlich labeln, auch wenn sie zur gleichen Kategorie gehören.
Um diese Inkonsistenz anzugehen, wenden wir verschiedene Techniken der Datenaugmentation an, um das Training des Modells zu verbessern. Indem wir mehr vielfältige Beispiele ähnlicher Artikel hinzufügen, können wir dem Modell helfen zu erkennen, dass kleine Änderungen nicht zu unterschiedlichen Kategorien führen sollten.
Die Verwendung von Datenaugmentation zur Verbesserung von Machine-Learning-Modellen ist weit verbreitet und hat gezeigt, dass die Zuverlässigkeit solcher Systeme steigt. Wir nutzen weiterhin die bestehende Modellstruktur, um sicherzustellen, dass es Millionen von Artikeln effektiv verarbeiten kann.
Unser neues Framework heisst Konsistente Halboverwachtes Lernen (Consistent-SSL). Wir sammeln Daten aus Produktkatalogen und erstellen Cluster von Artikeln, die ähnlich sind, aber kleine Unterschiede aufweisen. Mit diesem Setup können wir zwei Methoden anwenden, um von den ungelabelten Daten zu profitieren: eine Selbsttrainingsmethode und einen generativen Ansatz.
Die Selbsttrainingsmethode erstellt zuerst Pseudo-Labels für die ungelabelten Daten. Wir trainieren ein Basis-Modell mit den gelabelten Daten und verwenden es, um diese Pseudo-Labels zuzuweisen. Jedes Mal, wenn wir uns eine Gruppe ähnlicher Artikel ansehen, stellen wir sicher, dass sie alle dasselbe Pseudo-Label erhalten. Das kann helfen, die Konsistenz des Modells zu verbessern.
In unserer generativen Methode trainieren wir ein Modell, um zu verstehen, wie sich Artikel unterscheiden können. Für ein Paar von Artikeln lernt das Modell, neue Varianten des ersten Artikels zu erstellen, während es sein ursprüngliches Label beibehält. Dadurch können wir mehrere Beispiele aus einem einzigen Artikel generieren, was die Menge an Trainingsdaten erhöht.
Dann filtern wir die generierten Beispiele, um sicherzustellen, dass sie mit realen Beispielen übereinstimmen. Das hilft, einen Trainingssatz zu erstellen, der sowohl vielfältig als auch konsistent ist.
Wir haben unsere Methoden mit einem Datensatz von Handelsprodukten getestet, dessen Labels ihre Kategorien repräsentieren. Der Datensatz bestand aus vorab gelabelten Samples und einer riesigen Sammlung von ungelabelten Produkten von verschiedenen Einzelhändlern. Jede Probe enthielt Details zu den Produkten, einschliesslich ihres Titels und ihrer Kategorie.
Unsere Experimente konzentrierten sich auf zwei Aspekte: Genauigkeit und Konsistenz. Exakte Modelle liefern korrekte Vorhersagen, während konsistente Modelle für ähnliche Artikel dieselbe Vorhersage abgeben. Um die Leistung zu messen, haben wir zwei verschiedene Testsets erstellt. Der Genauigkeitstest nutzte gelabelte Samples zur Berechnung eines Scores, während der Konsistenztest Paare ähnlicher Produkttitel verwendete, um zu sehen, ob sie dasselbe Label erhielten.
Durch Experimente haben wir unsere Methoden mit bestehenden Modellen verglichen. Wir haben herausgefunden, dass unsere Selbsttrainingsmethode die Konsistenzraten verbessert hat, während die Gesamtgenauigkeit leicht gesenkt wurde. Ähnlich führte die generative Methode ebenfalls zu besserer Konsistenz, ohne die Genauigkeit signifikant zu beeinflussen.
Diese Ergebnisse heben den Einfluss der Datenqualität auf die Leistung des Modells hervor. Je mehr qualitativ hochwertige Beispiele wir dem Modell während des Trainings bieten können, desto besser wird es darin, ähnliche Artikel zu kategorisieren.
Insgesamt zeigt unsere Arbeit, dass es wichtig ist, nicht nur die Menge der Daten beim Trainieren von Modellen zu berücksichtigen, sondern auch die Qualität und Verteilung dieser Daten. Wir haben gelernt, dass es im Allgemeinen besser ist, reale Beispiele zu verwenden als generierte, um gute Leistungen zu erzielen.
Während unsere Methoden vielversprechende Ergebnisse gezeigt haben, bleiben einige Einschränkungen. Unsere Studie konzentrierte sich nur auf ein bestimmtes Modell und einen Datensatz, daher können die Ergebnisse in anderen Kontexten unterschiedlich sein. Ausserdem lagen unsere Ansätze im Bereich der Datenaugmentation, statt das Kern-Design des Modells zu ändern. Zukünftige Bemühungen könnten erkunden, wie Konsistenz direkt in das Design oder die Ziele des Modells integriert werden kann.
Abschliessend ist es wichtig, ethische Grundsätze zu beachten, während man solche Forschung durchführt. Unsere Studie hielt sich an ethische Richtlinien und zielte darauf ab, sicherzustellen, dass die Auswirkungen auf die User positiv sind.
Zusammenfassend haben wir einen neuen Ansatz vorgestellt, um die Produktkategorisierung im E-Commerce zu verbessern, indem wir sicherstellen, dass ähnliche Artikel konsistent gelabelt werden. Durch die Anwendung halbüberwachter Lerntechniken haben wir gezeigt, dass es möglich ist, das Training des Modells zu verbessern, ohne seine Effizienz zu beeinträchtigen. Das kann zu einem besseren Einkaufserlebnis für die Nutzer führen, indem die Genauigkeit von Empfehlungen und Suchergebnissen verbessert wird. Wir hoffen, dass diese Fortschritte den Weg für weitere Verbesserungen in der Produktkategorisierung in einer sich schnell entwickelnden E-Commerce-Landschaft ebnen.
Titel: Consistent Text Categorization using Data Augmentation in e-Commerce
Zusammenfassung: The categorization of massive e-Commerce data is a crucial, well-studied task, which is prevalent in industrial settings. In this work, we aim to improve an existing product categorization model that is already in use by a major web company, serving multiple applications. At its core, the product categorization model is a text classification model that takes a product title as an input and outputs the most suitable category out of thousands of available candidates. Upon a closer inspection, we found inconsistencies in the labeling of similar items. For example, minor modifications of the product title pertaining to colors or measurements majorly impacted the model's output. This phenomenon can negatively affect downstream recommendation or search applications, leading to a sub-optimal user experience. To address this issue, we propose a new framework for consistent text categorization. Our goal is to improve the model's consistency while maintaining its production-level performance. We use a semi-supervised approach for data augmentation and presents two different methods for utilizing unlabeled samples. One method relies directly on existing catalogs, while the other uses a generative model. We compare the pros and cons of each approach and present our experimental results.
Autoren: Guy Horowitz, Stav Yanovsky Daye, Noa Avigdor-Elgrabli, Ariel Raviv
Letzte Aktualisierung: 2023-05-30 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2305.05402
Quell-PDF: https://arxiv.org/pdf/2305.05402
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.