Rivoluzionare lo shopping online con la ricerca visiva
Nuova tecnologia semplifica la ricerca di prodotti specifici online.
Xinliang Zhu, Michael Huang, Han Ding, Jinyu Yang, Kelvin Chen, Tao Zhou, Tal Neiman, Ouye Xie, Son Tran, Benjamin Yao, Doug Gray, Anuj Bindal, Arnab Dhua
― 6 leggere min
Indice
- La Sfida della Ricerca Visiva
- Il Potere della Tecnologia Multimodale
- Usando Più Dati e Addestrando i Modelli
- Addestramento dei Modelli
- Il Lato Divertente dell'Abbinamento
- Ricerca Multimodale
- Dati di addestramento
- Protocollo di Valutazione
- Cosa Aspettarsi?
- Conclusione
- Fonte originale
- Link di riferimento
Nel mondo dello shopping online, trovare esattamente il prodotto che vuoi può a volte sembrare come cercare un ago in un pagliaio. Immagina di dover trovare un maglione verde in un mucchio di vestiti dove tutto è solo un po' fuori posto. Adesso, immagina di fare questo per milioni di prodotti su tanti siti diversi. Sembra difficile, vero? Ecco dove entra in gioco la tecnologia intelligente per rendere la vita un po' più semplice.
La Sfida della Ricerca Visiva
Quando dai un’occhiata a un negozio online, spesso usi le immagini per guidare le tue scelte. Ma, che succede quando la tua ricerca è un'immagine di vita un po' caotica e il catalogo dei prodotti è pieno di immagini ordinate e pulite? Questa situazione crea un problema noto come la sfida "dalla strada al negozio". Perché è un problema? Perché queste immagini provengono da domini diversi, e abbinarle è più difficile di quanto pensi.
Come funziona? Di solito, invii una foto e il motore di ricerca cerca di trovare articoli corrispondenti. La parte complicata è che il computer potrebbe concentrarsi troppo su dettagli irrilevanti—come uno sfondo elegante o oggetti divertenti (ma poco utili) nella foto—anziché focalizzarsi su ciò che desideri davvero. Quindi, se cerchi un phon, il sistema potrebbe pensare che stai cercando un gatto perché vede una coda pelosa sullo sfondo. Un po' imbarazzante, giusto?
Il Potere della Tecnologia Multimodale
Per affrontare questo problema, i ricercatori si sono rivolti a qualcosa chiamato "Multimodalità", che è solo una parola elegante per usare più tipi di dati—come immagini e testo—insieme. Mescolando queste due cose, il processo di ricerca diventa molto più fluido.
Come lo fanno? Prima di tutto, addestrano modelli usando coppie di immagini e le loro descrizioni. Questo consente al sistema di non solo riconoscere caratteristiche visive ma anche comprendere cosa rappresentano quelle immagini. Ad esempio, un'immagine di un maglione accogliente abbinata alle parole "maglione di lana morbida" aiuta il modello a imparare la connessione tra i due.
Usando Più Dati e Addestrando i Modelli
Il segreto per far funzionare meglio questo sistema sta nel raccogliere un sacco di dati e addestrare i modelli in modo efficace. I ricercatori hanno raccolto milioni di coppie immagine-testo da varie fonti, tra cui social media, negozi online e database. Con una tale ricchezza di informazioni, possono insegnare al sistema a riconoscere meglio schemi e concetti.
Sviluppando due modelli—chiamiamoli il modello a 3 torri e il modello a 4 torri—i ricercatori sono riusciti a migliorare l'accuratezza delle previsioni. Il modello a 3 torri utilizza tre tipi di input—un'immagine di query, un'immagine del prodotto e una descrizione testuale del prodotto. Il modello a 4 torri aggiunge un ulteriore strato includendo una breve query testuale, dando al sistema più informazioni su cui lavorare.
Addestramento dei Modelli
L'addestramento di questi modelli è un bel compito. Comporta dare loro una grande quantità di dati affinché possano imparare ad abbinare immagini con i giusti prodotti. Pensalo come un gioco in cui i modelli devono capire a chi appartiene a quale gruppo. L'obiettivo è posizionare oggetti simili vicini mentre spingono diversi oggetti via.
Durante la fase di addestramento, i modelli riconoscono che alcuni oggetti possono sembrare simili ma avere funzioni molto diverse. Imparando dagli errori passati, i modelli diventano migliori nel riconoscere le caratteristiche fondamentali che contano davvero.
Il Lato Divertente dell'Abbinamento
Aggiungiamo un po' di umorismo qui. Immagina se il tuo motore di ricerca, invece di mostrarti i migliori prodotti, decidesse di abbinarti opzioni a caso basate su ciò che pensava ti potesse piacere. Cerchi un cappotto invernale e ti suggerisce un tagliapizza. Potresti ridere, ma poi il tuo stomaco brontola, e magari sei tentato di ordinare direttamente una pizza invece di continuare a cercare!
Ricerca Multimodale
Pensando oltre, questa tecnologia consente anche qualcosa chiamato ricerca multimodale. Fondamentalmente, significa che invece di mostrare solo immagini che corrispondono alla tua query, il sistema può usare sia immagini che testo per trovare i migliori risultati. Quindi quando digiti "voglio un maglione caldo," non tira fuori solo tutti i maglioni. Potrebbe anche mostrarti descrizioni, colori e stili che corrispondono alle tue preferenze.
Questo sistema multimodale può fare miracoli. Gli utenti non ricevono solo un insieme di immagini; ottengono un'esperienza personalizzata che soddisfa le loro esigenze. È come avere un personal shopper che sa esattamente cosa vuoi.
Dati di addestramento
Per far accadere la magia, i ricercatori avevano bisogno di un'enorme quantità di dati di addestramento. Hanno raccolto 100 milioni di immagini di 23 milioni di prodotti diversi. Sembra tanto, vero? Lo è! Ogni immagine era abbinata a titoli di prodotto, descrizioni e altri dettagli utili.
Mentre creavano i loro set di dati, si sono resi conto che potevano trovare un modo per filtrare il caos e aiutare i clienti a trovare facilmente ciò che stavano cercando senza le solite frustrazioni che accompagnano lo shopping online.
Valutazione
Protocollo diDopo aver costruito questi modelli, il passo successivo è stata la valutazione. Quanto bene performano questi sistemi nel mondo reale? Le valutazioni sono state progettate per assessare i modelli in base alle prestazioni di richiamo. Questo significa che volevano scoprire quanto spesso i modelli potessero identificare correttamente i prodotti in base alle query degli utenti.
La valutazione ha comportato l'assemblaggio di un insieme di immagini di query, che servivano come casi di test per i modelli. Confrontando l'output del modello con i prodotti reali, i ricercatori sono stati in grado di determinare quanto fossero efficaci i loro modelli in un contesto reale.
Cosa Aspettarsi?
Guardando al futuro, ci sono molte possibilità entusiasmanti per lo sviluppo di questi modelli. La tecnologia è in continua evoluzione e c'è sempre spazio per miglioramenti.
Tuttavia, è importante riconoscere che mentre questi sistemi possono avvicinarsi a capire cosa vogliono gli utenti, non sono perfetti. A volte, potrebbero dare priorità a ottenere un abbinamento "abbastanza vicino" piuttosto che a uno che sia esatto. Per esempio, se stai cercando una scarpa specifica, potresti finire con un modello simile invece di quello giusto.
I ricercatori stanno lavorando per affinare ulteriormente questi sistemi. Stanno anche esplorando come migliorare le prestazioni della ricerca multimodale in modo che comprenda meglio le specifiche caratteristiche dei prodotti, come taglie e colori.
Conclusione
In conclusione, gli sviluppi in corso in quest'area della tecnologia significano un futuro brillante per lo shopping online. Con l'introduzione di sistemi multimodali, la ricerca di prodotti può essere più semplice, più veloce e più precisa che mai.
Immagina un mondo in cui puoi inserire direttamente ciò che desideri e vedere i prodotti esatti che corrispondono alle tue preferenze senza il fastidio di scorrere all'infinito. Quel mondo si sta avvicinando ogni giorno di più, grazie a questi sforzi di ricerca innovativi. E mentre potremmo ancora imbattersi in qualche divertente disguido, la tecnologia continua a migliorare, portandoci un passo più vicino all'esperienza di shopping online che tutti sogniamo.
Quindi, preparati! Il futuro dello shopping online sembra luminoso e pieno di possibilità. Speriamo solo che non suggerisca quel tagliapizza la prossima volta che cerchi un cappotto invernale!
Fonte originale
Titolo: Bringing Multimodality to Amazon Visual Search System
Estratto: Image to image matching has been well studied in the computer vision community. Previous studies mainly focus on training a deep metric learning model matching visual patterns between the query image and gallery images. In this study, we show that pure image-to-image matching suffers from false positives caused by matching to local visual patterns. To alleviate this issue, we propose to leverage recent advances in vision-language pretraining research. Specifically, we introduce additional image-text alignment losses into deep metric learning, which serve as constraints to the image-to-image matching loss. With additional alignments between the text (e.g., product title) and image pairs, the model can learn concepts from both modalities explicitly, which avoids matching low-level visual features. We progressively develop two variants, a 3-tower and a 4-tower model, where the latter takes one more short text query input. Through extensive experiments, we show that this change leads to a substantial improvement to the image to image matching problem. We further leveraged this model for multimodal search, which takes both image and reformulation text queries to improve search quality. Both offline and online experiments show strong improvements on the main metrics. Specifically, we see 4.95% relative improvement on image matching click through rate with the 3-tower model and 1.13% further improvement from the 4-tower model.
Autori: Xinliang Zhu, Michael Huang, Han Ding, Jinyu Yang, Kelvin Chen, Tao Zhou, Tal Neiman, Ouye Xie, Son Tran, Benjamin Yao, Doug Gray, Anuj Bindal, Arnab Dhua
Ultimo aggiornamento: 2024-12-17 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2412.13364
Fonte PDF: https://arxiv.org/pdf/2412.13364
Licenza: https://creativecommons.org/licenses/by/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.