Die Online-Shopping-Welt mit visueller Suche revolutionieren
Neue Technologie macht es einfacher, genau die richtigen Produkte online zu finden.
Xinliang Zhu, Michael Huang, Han Ding, Jinyu Yang, Kelvin Chen, Tao Zhou, Tal Neiman, Ouye Xie, Son Tran, Benjamin Yao, Doug Gray, Anuj Bindal, Arnab Dhua
― 7 min Lesedauer
Inhaltsverzeichnis
In der Welt des Online-Shoppings fühlt es sich manchmal an, als würde man nach einer Nadel im Heuhaufen suchen, wenn man genau das Produkt finden will, das man möchte. Stell dir vor, du versuchst, einen grünen Pullover in einem Haufen Kleidungsstücke zu finden, wo alles irgendwie nicht ganz passt. Jetzt stell dir vor, das für Millionen von Produkten auf verschiedenen Websites zu machen. Ziemlich hart, oder? Da kommt smarte Technologie ins Spiel, um das Leben ein bisschen einfacher zu machen.
Die Herausforderung der visuellen Suche
Wenn du durch einen Online-Shop stöberst, benutzt du oft Bilder, um deine Entscheidungen zu leiten. Aber was ist, wenn deine Suchanfrage ein chaotisches Lifestyle-Bild ist und der Produktkatalog mit ordentlichen, klaren Bildern gefüllt ist? Diese Situation schafft ein Problem, das als "Street-to-Shop"-Herausforderung bekannt ist. Warum ist das ein Problem? Weil diese Bilder aus unterschiedlichen Bereichen kommen und sie zusammenzubringen, ist kniffliger, als du denkst.
Wie funktioniert das? Normalerweise lädst du ein Foto hoch, und die Suchmaschine versucht, passende Artikel zu finden. Das Schwierige ist, dass der Computer sich zu sehr auf einige irrelevante Details konzentrieren könnte – wie einen schicken Hintergrund oder witzige (aber wenig hilfreiche) Dinge im Bild – anstatt sich darauf zu konzentrieren, was du wirklich willst. Wenn du also nach einem Haartrockner suchst, könnte das System denken, du suchst nach einer Katze, weil es einen flauschigen Schwanz im Hintergrund sieht. Das ist ein bisschen peinlich, oder?
Die Power der multimodalen Technologie
Um dieses Problem anzugehen, haben die Forscher etwas namens "Multimodalität" entdeckt, was einfach ein schickes Wort für die Nutzung mehrerer Datentypen – wie Bilder und Text – zusammen ist. Durch die Kombination dieser beiden wird der Suchprozess viel reibungsloser.
Wie machen sie das? Zuerst trainieren sie Modelle mit Bild-Text-Paaren. Dadurch kann das System nicht nur visuelle Merkmale erkennen, sondern auch verstehen, was diese Bilder repräsentieren. Zum Beispiel hilft ein Bild von einem gemütlichen Pullover, das mit den Worten "weicher Wollpullover" gekoppelt ist, dem Modell, die Verbindung zwischen den beiden zu lernen.
Mehr Daten und Modelltraining
Das Geheimnis, um dieses System besser funktionieren zu lassen, liegt darin, eine Menge Daten zu sammeln und die Modelle effektiv zu trainieren. Die Forscher haben Millionen von Bild-Text-Paaren aus verschiedenen Quellen gesammelt, einschliesslich sozialer Medien, Online-Shops und Datenbanken. Mit so einem Reichtum an Informationen können sie dem System beibringen, Muster und Konzepte besser zu erkennen.
Durch die Entwicklung von zwei Modellen – wir nennen sie mal das 3-Turm- und das 4-Turm-Modell – konnten die Forscher die Vorhersagegenauigkeit verbessern. Das 3-Turm-Modell verwendet drei Arten von Eingaben – ein Abbild, ein Produktbild und eine Produktbeschreibung. Das 4-Turm-Modell fügt eine weitere Ebene hinzu, indem es eine kurze Textanfrage einbezieht, was dem System mehr Informationen gibt.
Modelle trainieren
Das Training dieser Modelle ist ganz schön aufwendig. Dabei wird ihnen eine riesige Menge an Daten gefüttert, damit sie lernen, Bilder mit den richtigen Produkten zu verknüpfen. Stell es dir wie ein Spiel vor, bei dem die Modelle herausfinden müssen, wer in welche Gruppe gehört. Das Ziel ist, ähnliche Artikel nah beieinander zu platzieren, während unterschiedliche Artikel auseinander geschoben werden.
Während der Trainingsphase erkennen die Modelle, dass einige Artikel ähnlich aussehen, aber ganz unterschiedliche Funktionen haben. Indem sie aus vergangenen Fehlern lernen, werden die Modelle besser darin, die wesentlichen Merkmale zu erkennen, die wirklich wichtig sind.
Der Spass beim Matching
Lasst uns hier eine Prise Humor hinzufügen. Stell dir vor, dein Suchmaschine würde anstelle der besten Produkte zufällig Optionen vorschlagen, basierend darauf, was sie denkt, dass du mögen könntest. Du suchst nach einem Wintermantel, und sie schlägt stattdessen einen Pizzaschneider vor. Du könntest darüber lachen, aber dann knurrt dein Magen, und vielleicht überlegst du kurz, einfach eine Pizza zu bestellen, anstatt weiter zu suchen!
Multimodale Suche
Wenn man weiter denkt, ermöglicht diese Technologie auch etwas namens multimodale Suche. Das bedeutet im Wesentlichen, dass das System nicht nur Bilder zeigt, die deiner Anfrage entsprechen, sondern sowohl Bilder als auch Text nutzen kann, um die besten Ergebnisse zu finden. Wenn du also "Ich will einen warmen Pullover" eingibst, zeigt es dir nicht nur alle Pullover an. Es könnte auch Beschreibungen, Farben und Stile zeigen, die deinen Vorlieben entsprechen.
Dieses multimodale System kann Wunder wirken. Die Nutzer bekommen nicht einfach eine Sammlung von Bildern; sie bekommen eine massgeschneiderte Erfahrung, die ihren Bedürfnissen entspricht. Es ist wie ein persönlicher Einkäufer, der genau weiss, was du willst.
Trainingsdaten
Um die Magie zu ermöglichen, benötigten die Forscher eine riesige Menge an Trainingsdaten. Sie sammelten 100 Millionen Bilder von 23 Millionen verschiedenen Produkten. Das klingt nach viel, oder? Ist es auch! Jedes Bild wurde mit Produktbezeichnungen, Beschreibungen und anderen hilfreichen Details verbunden.
Beim Erstellen ihrer Datensätze stellten sie fest, dass sie einen Weg finden konnten, durch das Durcheinander zu filtern und den Kunden zu helfen, leichter zu finden, wonach sie suchen, ohne die üblichen Frustrationen, die mit Online-Shopping verbunden sind.
Evaluierungsprotokoll
Nach dem Aufbau dieser Modelle war der nächste Schritt die Bewertung. Wie gut funktionieren diese Systeme in der realen Welt? Die Bewertungen wurden entwickelt, um die Modelle anhand der Rückrufleistung zu bewerten. Das bedeutet, sie wollten herausfinden, wie oft die Modelle die richtigen Produkte basierend auf Benutzeranfragen erfolgreich identifizieren konnten.
Die Bewertung umfasste das Zusammenstellen einer Reihe von Abfragebildern, die als Testfälle für die Modelle dienten. Durch den Vergleich der Ausgabe des Modells mit tatsächlichen Produkten konnten die Forscher bestimmen, wie effektiv ihre Modelle in einer realen Umgebung waren.
Was kommt als Nächstes?
Wenn man in die Zukunft blickt, gibt es viele spannende Möglichkeiten für die Entwicklung dieser Modelle. Die Technologie entwickelt sich ständig weiter, und es gibt immer Raum für Verbesserungen.
Es ist jedoch wichtig zu erkennen, dass, während diese Systeme ziemlich nah dran sind, zu verstehen, was Benutzer wollen, sie nicht perfekt sind. Manchmal priorisieren sie es, ein "fast passendes" Ergebnis zu finden, anstatt eines, das genau passt. Wenn du zum Beispiel nach einem bestimmten Schuh suchst, könntest du am Ende ein ähnliches Modell bekommen, anstatt das richtige.
Die Forscher arbeiten daran, diese Systeme weiter zu verfeinern. Sie untersuchen auch, wie die Leistung der multimodalen Suche verbessert werden kann, damit sie spezifische Produkteigenschaften besser versteht, wie Grössen und Farben.
Fazit
Zusammenfassend lässt sich sagen, dass die laufenden Entwicklungen in diesem Technologiebereich eine strahlende Zukunft für das Online-Shopping signalisieren. Mit der Einführung multimodaler Systeme kann die Produktsuche einfacher, schneller und präziser sein als je zuvor.
Stell dir eine Welt vor, in der du direkt eingeben kannst, was du willst, und die genauen Produkte siehst, die deinen Vorlieben entsprechen, ohne den Aufwand des endlosen Scrollens. Diese Welt kommt jeden Tag näher, dank dieser innovativen Forschungsanstrengungen. Und während wir vielleicht noch einige amüsante Fehlzuordnungen erleben, wird die Technologie immer besser und bringt uns einen Schritt näher an das Online-Shopping-Erlebnis, von dem wir alle träumen.
Also, schnall dich an! Die Zukunft des Online-Shoppings sieht vielversprechend aus und ist voller Möglichkeiten. Hoffen wir nur, dass es das nächste Mal keinen Pizzaschneider vorschlägt, wenn du nach einem Wintermantel suchst!
Titel: Bringing Multimodality to Amazon Visual Search System
Zusammenfassung: Image to image matching has been well studied in the computer vision community. Previous studies mainly focus on training a deep metric learning model matching visual patterns between the query image and gallery images. In this study, we show that pure image-to-image matching suffers from false positives caused by matching to local visual patterns. To alleviate this issue, we propose to leverage recent advances in vision-language pretraining research. Specifically, we introduce additional image-text alignment losses into deep metric learning, which serve as constraints to the image-to-image matching loss. With additional alignments between the text (e.g., product title) and image pairs, the model can learn concepts from both modalities explicitly, which avoids matching low-level visual features. We progressively develop two variants, a 3-tower and a 4-tower model, where the latter takes one more short text query input. Through extensive experiments, we show that this change leads to a substantial improvement to the image to image matching problem. We further leveraged this model for multimodal search, which takes both image and reformulation text queries to improve search quality. Both offline and online experiments show strong improvements on the main metrics. Specifically, we see 4.95% relative improvement on image matching click through rate with the 3-tower model and 1.13% further improvement from the 4-tower model.
Autoren: Xinliang Zhu, Michael Huang, Han Ding, Jinyu Yang, Kelvin Chen, Tao Zhou, Tal Neiman, Ouye Xie, Son Tran, Benjamin Yao, Doug Gray, Anuj Bindal, Arnab Dhua
Letzte Aktualisierung: 2024-12-17 00:00:00
Sprache: English
Quell-URL: https://arxiv.org/abs/2412.13364
Quell-PDF: https://arxiv.org/pdf/2412.13364
Lizenz: https://creativecommons.org/licenses/by/4.0/
Änderungen: Diese Zusammenfassung wurde mit Unterstützung von AI erstellt und kann Ungenauigkeiten enthalten. Genaue Informationen entnehmen Sie bitte den hier verlinkten Originaldokumenten.
Vielen Dank an arxiv für die Nutzung seiner Open-Access-Interoperabilität.