Sci Simple

New Science Research Articles Everyday

# Informatique # Vision par ordinateur et reconnaissance des formes

Révolutionner le shopping en ligne avec la recherche visuelle

Une nouvelle technologie simplifie la recherche de produits précis en ligne.

Xinliang Zhu, Michael Huang, Han Ding, Jinyu Yang, Kelvin Chen, Tao Zhou, Tal Neiman, Ouye Xie, Son Tran, Benjamin Yao, Doug Gray, Anuj Bindal, Arnab Dhua

― 7 min lire


Solutions de shopping Solutions de shopping intelligent produits en ligne. Transformer la façon dont on trouve des
Table des matières

Dans le monde du shopping en ligne, trouver le produit exact que tu veux peut parfois donner l'impression de chercher une aiguille dans une botte de foin. Imagine essayer de dénicher un pull vert dans une pile de vêtements où tout est un peu décalé. Maintenant, imagine faire ça pour des millions de produits sur plein de sites différents. Ça a l'air difficile, non ? Eh bien, c'est là que la technologie intelligente entre en jeu pour rendre la vie un peu plus facile.

Le défi de la recherche visuelle

Quand tu navigues sur un site, tu utilises souvent des images pour t'aider à faire tes choix. Mais, c’est quoi le délire quand ta recherche est une image de style de vie un peu fouillis et que le catalogue de produits est rempli d'images nettes et bien rangées ? Cette situation crée un problème qu'on appelle le défi "de la rue au magasin". Pourquoi c'est un problème ? Parce que ces images viennent de domaines différents, et les associer n'est pas si simple que ça.

Comment ça marche ? En gros, tu submits une photo, et le moteur de recherche essaie de trouver des articles correspondants. Le truc, c'est que l'ordi peut se concentrer trop sur des détails pas pertinents—comme un fond stylé ou des trucs amusants (mais inutiles) sur la photo—plutôt que de se concentrer sur ce que tu veux vraiment. Donc, si tu cherches un sèche-cheveux, le système pourrait penser que tu cherches un chat parce qu'il voit une queue duveteuse en arrière-plan. C'est un peu gênant, non ?

La puissance de la technologie multimodale

Pour régler ce souci, les chercheurs se sont tournés vers quelque chose qu'on appelle la "Multimodalité", un mot un peu pompeux pour utiliser plusieurs types de données—comme des images et du texte—ensemble. En mélangeant ces deux, le processus de recherche devient beaucoup plus fluide.

Comment ils font ça ? D'abord, ils entraînent des modèles avec des paires d'images et leurs descriptions. Ça permet au système non seulement de reconnaître des caractéristiques visuelles mais aussi de comprendre ce que ces images représentent. Par exemple, une photo d'un pull douillet associée aux mots "pull en laine douce" aide le modèle à apprendre le lien entre les deux.

Utiliser plus de données et entraîner des modèles

Le petit secret pour rendre ce système plus efficace, c'est de rassembler plein de données et d'entraîner les modèles correctement. Les chercheurs ont collecté des millions de paires image-texte venant de différentes sources, y compris les réseaux sociaux, les boutiques en ligne et les bases de données. Avec une telle richesse d'informations, ils peuvent apprendre au système à mieux reconnaître les motifs et concepts.

En développant deux modèles—appelons-les les modèles à 3 tours et à 4 tours—les chercheurs ont pu améliorer la précision des prédictions. Le modèle à 3 tours utilise trois types d'entrées : une image de requête, une image de produit et une description en texte du produit. Le modèle à 4 tours ajoute une couche supplémentaire en incluant une courte requête textuelle, donnant au système plus d'infos à utiliser.

Entraîner les modèles

L'entraînement de ces modèles est un sacré boulot. Ça implique de leur donner une énorme quantité de données pour qu'ils apprennent à associer les images avec les bons produits. Pense à ça comme un jeu où les modèles doivent comprendre qui appartient à quel groupe. L'objectif est de rapprocher les articles similaires tout en éloignant les objets différents.

Pendant la phase d'entraînement, les modèles réalisent que certains articles peuvent avoir l'air similaires mais avoir des fonctions très différentes. En apprenant de leurs erreurs passées, les modèles deviennent meilleurs pour reconnaître les caractéristiques essentielles qui comptent vraiment.

Le côté fun du matching

Ajoutons un peu d'humour ici. Imagine que ton moteur de recherche, au lieu de te sortir les meilleurs produits, décide de te faire matcher avec des options aléatoires basées sur ce qu’il pense que tu aimerais. Tu cherches un manteau d'hiver, et il te propose un coupe-pizza à la place. Tu pourrais rire, mais ensuite ton ventre gronde, et peut-être que tu es tenté de commander une pizza au lieu de continuer ta recherche !

Recherche multimodale

En y réfléchissant, cette technologie permet aussi quelque chose qu'on appelle la recherche multimodale. En gros, ça veut dire que, au lieu de juste montrer des images qui correspondent à ta requête, le système peut utiliser à la fois des images et du texte pour trouver les meilleurs résultats. Donc quand tu tapes "je veux un pull chaud", il ne sort pas juste tous les pulls. Il pourrait aussi te montrer des descriptions, des couleurs et des styles qui correspondent à tes préférences.

Ce système multimodal peut faire des merveilles. Les utilisateurs n'obtiennent pas juste un ensemble d'images ; ils ont une expérience sur mesure qui correspond à leurs besoins. C'est comme avoir un acheteur personnel qui sait exactement ce que tu veux.

Données d'entraînement

Pour que la magie opère, les chercheurs avaient besoin d'une énorme quantité de données d'entraînement. Ils ont collecté 100 millions d'images de 23 millions de produits différents. Ça a l'air d'un sacré chiffre, non ? C'est énorme ! Chaque image était associée à des titres de produits, des descriptions et d'autres détails utiles.

En créant leurs ensembles de données, ils ont réalisé qu'ils pouvaient trouver un moyen de filtrer le désordre et d'aider les clients à trouver facilement ce qu'ils cherchent sans les frustrations habituelles du shopping en ligne.

Protocole d'évaluation

Après avoir construit ces modèles, la prochaine étape était l'évaluation. À quel point ces systèmes fonctionnent dans le monde réel ? Les Évaluations étaient conçues pour évaluer les modèles sur la performance de rappel. Ça veut dire qu'ils voulaient savoir à quelle fréquence les modèles pouvaient identifier correctement les produits en fonction des requêtes des utilisateurs.

L'évaluation impliquait de rassembler un ensemble d'images de requête, qui servaient de cas de test pour les modèles. En comparant les résultats du modèle avec les produits réels, les chercheurs ont pu déterminer l'efficacité de leurs modèles dans un contexte réel.

Quoi de neuf ?

En regardant vers l'avenir, il y a plein de possibilités excitantes pour le développement de ces modèles. La technologie évolue constamment et il y a toujours de la place pour s'améliorer.

Cependant, il est important de reconnaître que, même si ces systèmes peuvent se rapprocher de ce que les utilisateurs veulent, ils ne sont pas parfaits. Parfois, ils pourraient donner la priorité à un match "à peu près proche" plutôt qu'à un match exact. Par exemple, si tu cherches une chaussure spécifique, tu pourrais te retrouver avec un modèle similaire au lieu de celui que tu cherches vraiment.

Les chercheurs travaillent à perfectionner ces systèmes. Ils explorent aussi comment améliorer la performance de la recherche multimodale pour qu'elle comprenne mieux des attributs de produits spécifiques, comme les tailles et les couleurs.

Conclusion

En conclusion, les développements en cours dans ce domaine technologique annoncent un avenir radieux pour le shopping en ligne. Avec l'introduction des systèmes multimodaux, la recherche de produits peut être plus simple, plus rapide et plus précise que jamais.

Imagine juste un monde où tu peux directement entrer ce que tu veux et voir les produits exacts qui correspondent à tes préférences sans le tracas du défilement sans fin. Ce monde se rapproche de plus en plus chaque jour, grâce à ces efforts de recherche innovants. Et même si on pourrait encore rencontrer quelques associations amusantes, la technologie ne fait que s'améliorer, nous rapprochant un peu plus de l'expérience de shopping en ligne dont nous rêvons tous.

Alors, accroche-toi ! L'avenir du shopping en ligne s'annonce prometteur, plein de possibilités. Espérons juste qu'il ne te suggère pas ce coupe-pizza la prochaine fois que tu cherches un manteau d'hiver !

Source originale

Titre: Bringing Multimodality to Amazon Visual Search System

Résumé: Image to image matching has been well studied in the computer vision community. Previous studies mainly focus on training a deep metric learning model matching visual patterns between the query image and gallery images. In this study, we show that pure image-to-image matching suffers from false positives caused by matching to local visual patterns. To alleviate this issue, we propose to leverage recent advances in vision-language pretraining research. Specifically, we introduce additional image-text alignment losses into deep metric learning, which serve as constraints to the image-to-image matching loss. With additional alignments between the text (e.g., product title) and image pairs, the model can learn concepts from both modalities explicitly, which avoids matching low-level visual features. We progressively develop two variants, a 3-tower and a 4-tower model, where the latter takes one more short text query input. Through extensive experiments, we show that this change leads to a substantial improvement to the image to image matching problem. We further leveraged this model for multimodal search, which takes both image and reformulation text queries to improve search quality. Both offline and online experiments show strong improvements on the main metrics. Specifically, we see 4.95% relative improvement on image matching click through rate with the 3-tower model and 1.13% further improvement from the 4-tower model.

Auteurs: Xinliang Zhu, Michael Huang, Han Ding, Jinyu Yang, Kelvin Chen, Tao Zhou, Tal Neiman, Ouye Xie, Son Tran, Benjamin Yao, Doug Gray, Anuj Bindal, Arnab Dhua

Dernière mise à jour: 2024-12-17 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2412.13364

Source PDF: https://arxiv.org/pdf/2412.13364

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires