Progressi nel Recupero e nel Fondamento dei Prodotti
Un nuovo framework migliora gli acquisti online rendendo più efficiente la ricerca dei prodotti.
― 6 leggere min
Indice
Lo shopping online è diventato parte della vita quotidiana per molte persone. Con l'aumento dell'e-commerce e dello shopping in diretta, i consumatori hanno accesso a un'ampia gamma di prodotti. Tuttavia, trovare il prodotto giusto tra le tante opzioni disponibili può essere una sfida. Il processo di localizzazione di un prodotto in base alla sua descrizione o titolo è dove entra in gioco il Product Retrieval (PR), mentre riconoscere e isolare articoli specifici all'interno di un'immagine è conosciuto come Product Grounding (PG). Entrambi questi compiti mirano a rendere l'esperienza di shopping più fluida per gli utenti.
Product Retrieval e Grounding
Il Product Retrieval consiste nel trovare un'immagine che corrisponde a una query testuale, come un titolo di prodotto o una descrizione. Aiuta i consumatori a localizzare rapidamente il prodotto che stanno cercando da una galleria di immagini. Il Product Grounding, d'altra parte, si concentra sull'identificazione del prodotto specifico all'interno di un'immagine data in base a una query. Questo è particolarmente utile quando i consumatori vogliono identificare un prodotto in una scena affollata o tra molti articoli in una diretta.
Entrambi PR e PG hanno le proprie sfide e di solito vengono trattati come compiti separati. Tuttavia, condividono somiglianze e comprendere queste comuni può portare a risultati migliori. Affrontando entrambi i compiti insieme, il processo può essere più efficiente e conveniente.
La necessità di dati
Un problema significativo nello sviluppo di sistemi PR e PG efficaci è la mancanza di set di dati adeguati per l'addestramento. Per affrontare questo, i ricercatori hanno raccolto due grandi set di dati da piattaforme di shopping popolari. Il primo set di dati contiene circa 474.000 coppie di immagini e query da una piattaforma di shopping, mentre il secondo ha circa 101.000 coppie da un dominio di shopping in diretta. Ogni immagine in questi set di dati è stata annotata con attenzione con riquadri di delimitazione per identificare le posizioni di prodotti specifici.
Creare queste annotazioni è un compito che richiede tempo, il che ha portato a esplorare il trasferimento di informazioni dal set di dati annotato a quello non annotato. Questo approccio mira a ridurre la necessità di etichettatura manuale estesa pur raggiungendo risultati robusti.
Introducendo il Framework DATE
Per migliorare PR e PG, è stato proposto un nuovo framework chiamato Domain Adaptive Product Seeker (DATE). Questo framework considera entrambi i compiti come problemi correlati e cerca di risolverli simultaneamente. Include diversi componenti chiave che aiutano a elaborare e recuperare i prodotti in modo efficiente.
Estrazione di Caratteristiche Aggregate Semantiche
Il primo componente del framework DATE è l'estrattore di caratteristiche, che elabora sia le immagini che le query testuali. Questo estrattore si concentra nel raccogliere informazioni rilevanti da varie fonti per produrre caratteristiche dettagliate che possono essere utilizzate sia per i compiti di PR che di PG. Assicurandosi che le caratteristiche catturino dettagli essenziali, il framework migliora i compiti di retrieval e grounding.
Cercatori Cooperativi
Il framework DATE include due cercatori specializzati: il cercatore di immagini e il cercatore di oggetti. Il cercatore di immagini è responsabile di trovare la corrispondenza migliore per una query testuale da una collezione di immagini. Utilizza un metodo basato sulla misurazione delle somiglianze tra le caratteristiche estratte da immagini e testo.
Il cercatore di oggetti si concentra sull'identificare prodotti specifici all'interno delle immagini. Utilizza interazioni cross-modali per capire come il testo si relaziona ai componenti visivi nelle immagini. Lavorando insieme, questi cercatori possono gestire in modo efficiente i compiti di recupero e grounding dei prodotti.
Affrontare i Divari di Dominio
Un problema critico nel trasferire conoscenza da un dominio all'altro è il divario tra di essi. Il framework DATE affronta questo tramite un allineatore di dominio che minimizza le differenze nella distribuzione delle caratteristiche tra i set di dati annotati e non annotati. Questo allineamento aiuta a garantire che il modello addestrato su un set di dati possa funzionare bene su un altro.
Oltre all'allineatore di dominio, il framework include un generatore di pseudo riquadri che assiste nella creazione di riquadri di delimitazione per i prodotti nel set di dati non annotato. Selezionando istanze affidabili e generando riquadri di delimitazione, il sistema può trasferire conoscenza ed elevare le sue prestazioni.
Addestramento e Test
Il framework DATE subisce un processo di addestramento completo che include tre fasi. Inizialmente, il modello è addestrato in modo completamente supervisionato utilizzando il set di dati annotati. Successivamente, passa a un approccio semi-supervisionato dove impara sia da dati annotati che non annotati. Infine, avviene un trasferimento di conoscenza dinamico per migliorare continuamente la comprensione del modello del dominio non annotato.
Durante i test, il framework può recuperare immagini in modo efficiente per una query data e prevedere le posizioni dei prodotti all'interno di quelle immagini, mostrando le sue doppie capacità.
Metriche di Valutazione e Set di Dati
Per misurare le prestazioni del framework DATE, vengono utilizzate diverse metriche per i compiti di PR e PG. Per il PR, vengono impiegate metriche standard di recupero come l'accuratezza del ranking, mentre il PG viene valutato in base alla media dell'Intersection over Union (mIoU) e alle metriche di precisione.
I set di dati raccolti per valutare il framework consistono in categorie di prodotto diverse e un gran numero di immagini, rendendoli ben adatti per test approfonditi dei metodi proposti. La costruzione attenta di questi set di dati consente una valutazione affidabile dell'efficacia del framework.
Prestazioni e Risultati
Quando testato, il framework DATE dimostra miglioramenti significativi rispetto ai metodi esistenti. Il framework raggiunge prestazioni elevate sia in impostazioni completamente supervisionate che semi-supervisionate, indicando la sua capacità di adattarsi e imparare efficacemente da vari tipi di dati.
I confronti con altri metodi all'avanguardia rivelano che DATE li supera in entrambi i compiti di PR e PG. Questo evidenzia la capacità del framework di sfruttare le interazioni multimodali e il suo approccio efficace al trasferimento di conoscenza.
Conclusione
In conclusione, il framework DATE rappresenta un avanzamento significativo nei campi del recupero e del grounding dei prodotti. Combinando entrambi i compiti in un framework coeso e affrontando le sfide dell'adattamento di dominio, fornisce una soluzione robusta per migliorare l'esperienza di shopping online. Con il suo approccio innovativo e prestazioni impressionanti, DATE apre la strada a futuri sviluppi nell'e-commerce, dove i consumatori possono beneficiare di ricerche di prodotto più rapide e accurate.
Lavoro Futura
Guardando avanti, ci sono opportunità per migliorare ulteriormente il framework DATE. I lavori futuri potrebbero coinvolgere l'integrazione di tecnologie aggiuntive, come il riconoscimento ottico dei caratteri (OCR) e l'interazione uomo-oggetto (HOI) per migliorare le prestazioni del modello. Continuando a perfezionare e ampliare il framework, i ricercatori puntano a fornire strumenti ancora migliori per i consumatori nei loro viaggi di shopping online.
Titolo: DATE: Domain Adaptive Product Seeker for E-commerce
Estratto: Product Retrieval (PR) and Grounding (PG), aiming to seek image and object-level products respectively according to a textual query, have attracted great interest recently for better shopping experience. Owing to the lack of relevant datasets, we collect two large-scale benchmark datasets from Taobao Mall and Live domains with about 474k and 101k image-query pairs for PR, and manually annotate the object bounding boxes in each image for PG. As annotating boxes is expensive and time-consuming, we attempt to transfer knowledge from annotated domain to unannotated for PG to achieve un-supervised Domain Adaptation (PG-DA). We propose a {\bf D}omain {\bf A}daptive Produc{\bf t} S{\bf e}eker ({\bf DATE}) framework, regarding PR and PG as Product Seeking problem at different levels, to assist the query {\bf date} the product. Concretely, we first design a semantics-aggregated feature extractor for each modality to obtain concentrated and comprehensive features for following efficient retrieval and fine-grained grounding tasks. Then, we present two cooperative seekers to simultaneously search the image for PR and localize the product for PG. Besides, we devise a domain aligner for PG-DA to alleviate uni-modal marginal and multi-modal conditional distribution shift between source and target domains, and design a pseudo box generator to dynamically select reliable instances and generate bounding boxes for further knowledge transfer. Extensive experiments show that our DATE achieves satisfactory performance in fully-supervised PR, PG and un-supervised PG-DA. Our desensitized datasets will be publicly available here\footnote{\url{https://github.com/Taobao-live/Product-Seeking}}.
Autori: Haoyuan Li, Hao Jiang, Tao Jin, Mengyan Li, Yan Chen, Zhijie Lin, Yang Zhao, Zhou Zhao
Ultimo aggiornamento: 2023-04-07 00:00:00
Lingua: English
URL di origine: https://arxiv.org/abs/2304.03669
Fonte PDF: https://arxiv.org/pdf/2304.03669
Licenza: https://creativecommons.org/licenses/by-nc-sa/4.0/
Modifiche: Questa sintesi è stata creata con l'assistenza di AI e potrebbe presentare delle imprecisioni. Per informazioni accurate, consultare i documenti originali collegati qui.
Si ringrazia arxiv per l'utilizzo della sua interoperabilità ad accesso aperto.