Verbesserung der Produktkategorisierung im E-Commerce

Inhaltsverzeichnis

Originalquelle
Referenz Links

In der hektischen Welt des Online-Shoppings ist es super wichtig, Produkte in die richtigen Kategorien zu sortieren. Ein führendes Webunternehmen hat ein Produktkategorisierungsmodell, das hilft, Millionen von Artikeln jeden Tag zu sortieren. Dieses Modell nimmt den Namen eines Produkts und entscheidet, zu welcher Kategorie es gehört, basierend auf einer riesigen Liste von Optionen. Aber es gibt ein paar Probleme, die bei diesem Modell auftreten können, besonders wenn sich die Produktnamen ein bisschen ändern.

Zum Beispiel, wenn zwei Artikel ähnlich sind, aber einer ein "blaues Hemd" und der andere ein "grosses blaues Hemd" ist, könnte das Modell sie unterschiedlich kategorisieren. Diese Inkonsistenz kann zu Problemen führen, wie die Artikel empfohlen oder gefunden werden, was die Nutzer frustrieren kann. Um das zu beheben, haben wir eine neue Arbeitsweise mit dem Modell entwickelt, um sicherzustellen, dass es konsistenter in der Kategorisierung ist.

Wir wollen dieses Modell verbessern, ohne es langsamer zu machen, da es eine riesige Menge an Daten verwalten muss. Ein effektiver Ansatz ist, etwas zu nutzen, das halbüberwachtes Lernen genannt wird, was es uns erlaubt, sowohl gelabelte Daten (wo die Kategorie bekannt ist) als auch ungelabelte Daten (wo die Kategorie nicht bekannt ist) besser zu nutzen. Wir haben zwei Hauptmethoden zur Verbesserung der Kategorisierung.

Die erste Methode nutzt verfügbare Produktkataloge, um neue Trainingsdaten zu erstellen. Dabei schauen wir uns Gruppen ähnlicher Artikel an und nutzen sie, um dem Modell besseres Lernen zu ermöglichen. Die zweite Methode verwendet ein generatives Modell, um neue Beispiele zu schaffen, die wie die tatsächlichen Produkte aussehen, aber in einigen kleinen Aspekten anders sind, ohne ihre grundlegende Bedeutung zu verändern.

Der Aufstieg von E-Commerce-Plattformen wie Amazon und eBay in den letzten zwanzig Jahren hat die Anzahl der online verfügbaren Produkte erheblich erhöht. Diese Plattformen hängen sowohl von klaren Produktbeschreibungen als auch von abgeleiteten Kategorien für ein angenehmes Einkaufserlebnis ab. Die Kategorie, die einem Produkt zugewiesen wird, kann stark beeinflussen, wie gut es verkauft wird, da sie die Suchergebnisse und Empfehlungen beeinflusst.

Unser Fokus liegt darauf, ein Machine-Learning-Modell zu verbessern, das als 'der Kategorisierer' bekannt ist. Dieses Modell klassifiziert täglich Milliarden von Produkten schnell und weist die passende Kategorie basierend auf einer etablierten Hierarchie namens Google Product Taxonomy zu. Neueste Bewertungen haben jedoch gezeigt, dass das Modell zwar im Allgemeinen effektiv ist, aber Schwierigkeiten hat, konsistent zu labeln, insbesondere wenn sich die Produkttitel leicht ändern, wie bei unterschiedlichen Farben oder Grössen.

Zahlreiche Studien im Bereich der natürlichen Sprachverarbeitung (NLP) haben sich mit der Konsistenz bei Klassifikationsaufgaben beschäftigt. Diese Studien zeigen, wie bestimmte Merkmale Modelle in die Irre führen können, was zu Inkonsistenzen bei Änderungen der Produktdetails führt.

Auch wenn das Modell im Durchschnitt gut funktioniert, kann die Inkonsistenz erhebliche Probleme für Nutzer schaffen, die auf präzise Empfehlungen und Suchergebnisse angewiesen sind. Zum Beispiel könnte es ein "rotes Kleid" und ein "blaues Kleid" unterschiedlich labeln, auch wenn sie zur gleichen Kategorie gehören.

Um diese Inkonsistenz anzugehen, wenden wir verschiedene Techniken der Datenaugmentation an, um das Training des Modells zu verbessern. Indem wir mehr vielfältige Beispiele ähnlicher Artikel hinzufügen, können wir dem Modell helfen zu erkennen, dass kleine Änderungen nicht zu unterschiedlichen Kategorien führen sollten.

Die Verwendung von Datenaugmentation zur Verbesserung von Machine-Learning-Modellen ist weit verbreitet und hat gezeigt, dass die Zuverlässigkeit solcher Systeme steigt. Wir nutzen weiterhin die bestehende Modellstruktur, um sicherzustellen, dass es Millionen von Artikeln effektiv verarbeiten kann.

Unser neues Framework heisst Konsistente Halboverwachtes Lernen (Consistent-SSL). Wir sammeln Daten aus Produktkatalogen und erstellen Cluster von Artikeln, die ähnlich sind, aber kleine Unterschiede aufweisen. Mit diesem Setup können wir zwei Methoden anwenden, um von den ungelabelten Daten zu profitieren: eine Selbsttrainingsmethode und einen generativen Ansatz.

Die Selbsttrainingsmethode erstellt zuerst Pseudo-Labels für die ungelabelten Daten. Wir trainieren ein Basis-Modell mit den gelabelten Daten und verwenden es, um diese Pseudo-Labels zuzuweisen. Jedes Mal, wenn wir uns eine Gruppe ähnlicher Artikel ansehen, stellen wir sicher, dass sie alle dasselbe Pseudo-Label erhalten. Das kann helfen, die Konsistenz des Modells zu verbessern.

In unserer generativen Methode trainieren wir ein Modell, um zu verstehen, wie sich Artikel unterscheiden können. Für ein Paar von Artikeln lernt das Modell, neue Varianten des ersten Artikels zu erstellen, während es sein ursprüngliches Label beibehält. Dadurch können wir mehrere Beispiele aus einem einzigen Artikel generieren, was die Menge an Trainingsdaten erhöht.

Dann filtern wir die generierten Beispiele, um sicherzustellen, dass sie mit realen Beispielen übereinstimmen. Das hilft, einen Trainingssatz zu erstellen, der sowohl vielfältig als auch konsistent ist.

Wir haben unsere Methoden mit einem Datensatz von Handelsprodukten getestet, dessen Labels ihre Kategorien repräsentieren. Der Datensatz bestand aus vorab gelabelten Samples und einer riesigen Sammlung von ungelabelten Produkten von verschiedenen Einzelhändlern. Jede Probe enthielt Details zu den Produkten, einschliesslich ihres Titels und ihrer Kategorie.

Unsere Experimente konzentrierten sich auf zwei Aspekte: Genauigkeit und Konsistenz. Exakte Modelle liefern korrekte Vorhersagen, während konsistente Modelle für ähnliche Artikel dieselbe Vorhersage abgeben. Um die Leistung zu messen, haben wir zwei verschiedene Testsets erstellt. Der Genauigkeitstest nutzte gelabelte Samples zur Berechnung eines Scores, während der Konsistenztest Paare ähnlicher Produkttitel verwendete, um zu sehen, ob sie dasselbe Label erhielten.

Durch Experimente haben wir unsere Methoden mit bestehenden Modellen verglichen. Wir haben herausgefunden, dass unsere Selbsttrainingsmethode die Konsistenzraten verbessert hat, während die Gesamtgenauigkeit leicht gesenkt wurde. Ähnlich führte die generative Methode ebenfalls zu besserer Konsistenz, ohne die Genauigkeit signifikant zu beeinflussen.

Diese Ergebnisse heben den Einfluss der Datenqualität auf die Leistung des Modells hervor. Je mehr qualitativ hochwertige Beispiele wir dem Modell während des Trainings bieten können, desto besser wird es darin, ähnliche Artikel zu kategorisieren.

Insgesamt zeigt unsere Arbeit, dass es wichtig ist, nicht nur die Menge der Daten beim Trainieren von Modellen zu berücksichtigen, sondern auch die Qualität und Verteilung dieser Daten. Wir haben gelernt, dass es im Allgemeinen besser ist, reale Beispiele zu verwenden als generierte, um gute Leistungen zu erzielen.

Während unsere Methoden vielversprechende Ergebnisse gezeigt haben, bleiben einige Einschränkungen. Unsere Studie konzentrierte sich nur auf ein bestimmtes Modell und einen Datensatz, daher können die Ergebnisse in anderen Kontexten unterschiedlich sein. Ausserdem lagen unsere Ansätze im Bereich der Datenaugmentation, statt das Kern-Design des Modells zu ändern. Zukünftige Bemühungen könnten erkunden, wie Konsistenz direkt in das Design oder die Ziele des Modells integriert werden kann.

Abschliessend ist es wichtig, ethische Grundsätze zu beachten, während man solche Forschung durchführt. Unsere Studie hielt sich an ethische Richtlinien und zielte darauf ab, sicherzustellen, dass die Auswirkungen auf die User positiv sind.

Zusammenfassend haben wir einen neuen Ansatz vorgestellt, um die Produktkategorisierung im E-Commerce zu verbessern, indem wir sicherstellen, dass ähnliche Artikel konsistent gelabelt werden. Durch die Anwendung halbüberwachter Lerntechniken haben wir gezeigt, dass es möglich ist, das Training des Modells zu verbessern, ohne seine Effizienz zu beeinträchtigen. Das kann zu einem besseren Einkaufserlebnis für die Nutzer führen, indem die Genauigkeit von Empfehlungen und Suchergebnissen verbessert wird. Wir hoffen, dass diese Fortschritte den Weg für weitere Verbesserungen in der Produktkategorisierung in einer sich schnell entwickelnden E-Commerce-Landschaft ebnen.

Verbesserung der Produktkategorisierung im E-Commerce

Ein neuer Ansatz, um die Konsistenz bei der Online-Produktkategorisierung zu verbessern.

Referenz Links

Referenzierte Themen