Simple Science

La science de pointe expliquée simplement

# Informatique# Vision par ordinateur et reconnaissance des formes# Intelligence artificielle

Évaluation de la similarité d'images chez les mannequins de mode

Évaluer les méthodes pour trouver des articles de mode similaires dans les achats en ligne.

― 7 min lire


Similarité d'image chezSimilarité d'image chezles mannequins de modeligne.recommandations pour les acheteurs enDe nouvelles méthodes améliorent les
Table des matières

Dans le monde du shopping en ligne d'aujourd'hui, trouver des articles similaires peut aider les clients à faire de meilleurs choix. Par exemple, si quelqu'un aime une robe rouge, il pourrait vouloir voir d'autres robes rouges ou des styles similaires. Une bonne façon de faire ça, c'est en regardant les images des articles. En utilisant des modèles spéciaux de vision par ordinateur, on peut examiner les images et trouver celles qui se ressemblent.

Cependant, même si ces modèles réussissent à trouver des articles similaires, il est difficile de mesurer à quel point ils font bien leur travail. Les méthodes traditionnelles pour tester ces modèles ne s'appliquent pas bien pour vérifier à quel point les images sont réellement similaires. C'est là qu'une nouvelle méthode d'évaluation entre en jeu.

Le besoin d'une meilleure évaluation

Pour répondre à la nécessité d'évaluer la similarité des images, une nouvelle méthode appelée CorrEmbed a été introduite. Cette méthode vérifie à quel point les caractéristiques d'image fournies par des Modèles pré-entraînés correspondent aux étiquettes qui décrivent ces images. L'idée est simple : si un modèle montre un article qui a l'air similaire, il devrait également donner des valeurs d'étiquettes similaires.

Ce processus implique de prendre des images, de les faire passer à travers les modèles, et ensuite de regarder comment les distances entre ces images se rapportent aux distances des étiquettes. Si les deux distances correspondent étroitement, cela signifie que le modèle fonctionne bien.

Utilisation de modèles pré-entraînés

Utiliser des modèles de vision par ordinateur pré-entraînés a beaucoup d'avantages. Une des grandes étapes, c'est que ça ne nécessite pas d'entraînement supplémentaire. Les utilisateurs n'ont pas à s'occuper de rassembler des données étiquetées ou à investir du temps à entraîner des modèles depuis le début. Une personne a juste besoin de l'image d'un article pour obtenir des recommandations similaires.

Ces modèles ont montré des performances impressionnantes dans des domaines comme la mode. Par exemple, une entreprise qui vend des vêtements d'occasion utilise ces modèles pour suggérer des articles similaires basés uniquement sur les images.

Les défis

Bien que les modèles soient efficaces, il y a encore des défis à valider leur performance. Ce n'est pas suffisant de simplement regarder comment ils classifient les images. Il en va de même pour mesurer combien de modèles peuvent trouver des articles similaires. Il est nécessaire de trouver des moyens plus clairs de voir si les résultats s'alignent avec la façon dont les gens pensent.

Dans cette optique, CorrEmbed fournit une approche structurée pour évaluer comment ces modèles obtiennent leurs résultats. Cette nouvelle évaluation se concentre sur le secteur de la mode, en utilisant des tenues qui ont été étiquetées par des humains pour déterminer à quel point un modèle peut comprendre les similarités basées sur ces étiquettes.

Le processus d'évaluation

Pour voir comment différents modèles fonctionnent, le processus commence par la récupération des représentations d'image à partir de divers modèles de classification pré-entraînés. Ces représentations sont ensuite comparées à des représentations d'étiquettes en utilisant un score de corrélation. Le score global fournit un aperçu de la façon dont le modèle saisit la similarité des images en fonction du tagging humain.

Dans cette évaluation, un jeu de données particulier joue un rôle clé. Ce jeu de données consiste en environ 800 tenues étiquetées par des humains, associées à leurs images correspondantes. Les étiquettes aident à créer une représentation basée sur les étiquettes qui facilite encore plus la mesure de la similarité.

Comprendre les étiquettes

Les étiquettes sont une partie cruciale de ce processus. Elles catégorisent les articles vestimentaires en fonction de leurs caractéristiques, comme la couleur, le motif ou le type. Chaque catégorie joue un rôle pour aider le modèle à comprendre sur quelles caractéristiques se concentrer lors des recommandations.

Certaines étiquettes sont plus importantes pour les utilisateurs selon ce qu'ils recherchent généralement dans des articles similaires. Par exemple, si une personne achète souvent des manteaux d'hiver, le modèle devrait privilégier des manteaux similaires plutôt que juste des couleurs.

Pour améliorer les recommandations, une méthode statistique appelée entropie est utilisée pour évaluer à quel point les achats d'un client sont variés. Cela aide à créer une représentation d'étiquette plus pertinente basée sur les articles qu'un client est susceptible de vouloir.

Résultats et observations

Lors des tests de différents modèles, on a constaté que la performance a tendance à s'améliorer avec la taille du modèle et le niveau de précision des classifications précédentes. Par exemple, les plus gros modèles surperformaient généralement leurs plus petits homologues en matière de recherche d'articles similaires.

On a également noté que, bien que certains modèles, comme EfficientNet, aient mieux performé que d'autres avec des scores de précision similaires, ils ont montré que les aspects de leur conception comptent beaucoup dans la façon dont ils peuvent relier les images aux étiquettes.

En outre, il a été noté que les représentations des premières couches des modèles produisent souvent de meilleurs résultats. Ces couches capturent des détails plus intriqués des images que celles produites dans les couches finales. En conséquence, les chercheurs ont découvert que se concentrer sur les premières couches pouvait offrir de meilleures comparaisons pour les recommandations d'articles.

Visualisation des représentations

Un autre aspect intéressant de cette étude était l'utilisation d'une technique appelée t-Distributed Stochastic Embedding (t-SNE) pour visualiser la proximité des différents articles en fonction de leurs représentations. Cette visualisation montrait un regroupement clair des articles partageant des étiquettes similaires, indiquant que les modèles étaient efficaces pour identifier des similarités.

En regardant les clusters formés à partir des représentations, il est devenu plus facile de comprendre comment les modèles traitaient différents articles. Certains modèles étaient capables d'identifier les motifs efficacement, tandis que d'autres avaient du mal, notamment lorsque les images avaient des arrière-plans ou des compositions inhabituels.

Limitations et domaines à améliorer

Bien que le jeu de données ait été utile, il était relativement petit, ce qui pourrait poser des problèmes quant à la capacité des modèles à généraliser leurs résultats. Les petits jeux de données ont souvent plus d'outliers et de bruit, ce qui peut troubler les modèles. Par conséquent, il est essentiel de considérer des jeux de données plus grands et plus propres à l'avenir pour améliorer la performance et la fiabilité.

Le processus de tagging a également présenté des défis. Les étiquettes ont été ajoutées par différentes personnes au fil du temps, entraînant des incohérences. Ajuster ce bruit pourrait aider à rendre les évaluations plus précises.

Conclusion

En résumé, évaluer à quel point les modèles de vision par ordinateur peuvent trouver des articles similaires en fonction des images est crucial pour améliorer les expériences de shopping en ligne. L'introduction de la méthode CorrEmbed offre une nouvelle façon de mesurer la performance en comparant les similarités d'images et d'étiquettes.

En analysant divers modèles pré-entraînés, des insights ont été recueillis sur les modèles les plus performants et comment leur conception impacte leur capacité à relier des articles en fonction de similarités visuelles. Bien qu'il reste des défis, les améliorations dans l'évaluation de ces modèles ouvrent de nombreuses possibilités pour de meilleures recommandations dans le secteur de la mode et au-delà.

Pour l'avenir, la recherche continue et les ajustements des jeux de données et des processus de tagging seront nécessaires pour affiner ces méthodes davantage. Cela permet de s'assurer que les utilisateurs peuvent trouver exactement ce qu'ils veulent tout en explorant de nouvelles options, rendant leurs expériences de shopping en ligne plus agréables et efficaces.

Source originale

Titre: CorrEmbed: Evaluating Pre-trained Model Image Similarity Efficacy with a Novel Metric

Résumé: Detecting visually similar images is a particularly useful attribute to look to when calculating product recommendations. Embedding similarity, which utilizes pre-trained computer vision models to extract high-level image features, has demonstrated remarkable efficacy in identifying images with similar compositions. However, there is a lack of methods for evaluating the embeddings generated by these models, as conventional loss and performance metrics do not adequately capture their performance in image similarity search tasks. In this paper, we evaluate the viability of the image embeddings from numerous pre-trained computer vision models using a novel approach named CorrEmbed. Our approach computes the correlation between distances in image embeddings and distances in human-generated tag vectors. We extensively evaluate numerous pre-trained Torchvision models using this metric, revealing an intuitive relationship of linear scaling between ImageNet1k accuracy scores and tag-correlation scores. Importantly, our method also identifies deviations from this pattern, providing insights into how different models capture high-level image features. By offering a robust performance evaluation of these pre-trained models, CorrEmbed serves as a valuable tool for researchers and practitioners seeking to develop effective, data-driven approaches to similar item recommendations in fashion retail.

Auteurs: Karl Audun Kagnes Borgersen, Morten Goodwin, Jivitesh Sharma, Tobias Aasmoe, Mari Leonhardsen, Gro Herredsvela Rørvik

Dernière mise à jour: 2023-08-30 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2308.16126

Source PDF: https://arxiv.org/pdf/2308.16126

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires