Simple Science

La science de pointe expliquée simplement

# Informatique# Apprentissage automatique# Calcul et langage# Recherche d'informations

Améliorer la catégorisation des produits dans l'e-commerce

Une nouvelle façon d'améliorer la cohérence dans la catégorisation des produits en ligne.

― 8 min lire


Catégorisation E-CommerceCatégorisation E-CommerceRéviséeligne.produit cohérent dans le commerce enUne approche solide pour un étiquetage
Table des matières

Dans le monde trépidant du shopping en ligne, organiser les produits dans les bonnes catégories est super important. Une entreprise web leader utilise un modèle de Catégorisation qui aide à trier des millions d'articles chaque jour. Ce modèle prend le nom d'un produit et décide à quelle catégorie il appartient parmi une longue liste d'options. Cependant, il y a des problèmes qui peuvent survenir avec ce modèle, surtout quand les noms des produits sont légèrement modifiés.

Par exemple, si deux articles sont similaires mais que l'un est une "chemise bleue" et l'autre une "grande chemise bleue", le modèle pourrait les catégoriser différemment. Cette incohérence peut causer des soucis dans la manière dont les articles sont recommandés ou recherchés, ce qui peut frustrer les utilisateurs. Pour remédier à cela, on a développé une nouvelle méthode pour travailler avec le modèle afin de garantir une catégorisation plus cohérente.

On veut améliorer ce modèle sans le ralentir, car il doit gérer une énorme quantité de données. Une approche efficace est d'utiliser quelque chose qu'on appelle l'Apprentissage semi-supervisé, qui nous permet de mieux exploiter à la fois les données étiquetées (où la catégorie est connue) et les données non étiquetées (où la catégorie n'est pas connue). On a deux méthodes principales pour améliorer la catégorisation.

La première méthode utilise des catalogues de produits disponibles pour créer de nouvelles données d'entraînement. Cela implique de regarder des groupes d'articles similaires et de les utiliser pour aider le modèle à mieux apprendre. La deuxième méthode utilise un modèle génératif pour créer de nouveaux exemples qui ressemblent aux produits réels mais diffèrent légèrement, sans changer leur sens fondamental.

L'essor des plateformes de e-commerce comme Amazon et eBay au cours des vingt dernières années a fortement augmenté le nombre de produits disponibles en ligne. Ces plateformes dépendent à la fois de descriptions de produits claires et de catégories inférées pour une expérience de shopping agréable. La catégorie assignée à un produit peut influencer beaucoup la façon dont il se vend, car cela affecte les résultats de recherche et les recommandations.

Notre objectif est d'améliorer un modèle d'apprentissage automatique connu sous le nom de "catégoriseur". Ce modèle classe rapidement des milliards de produits chaque jour, assignant la catégorie appropriée en fonction d'une hiérarchie établie appelée Google Product Taxonomy. Cependant, des évaluations récentes ont montré que bien que le modèle soit généralement efficace, il a du mal avec une étiquetage cohérent, surtout lorsque les titres de produits changent légèrement, comme pour des couleurs ou des tailles différentes.

De nombreuses études en traitement du langage naturel (NLP) ont exploré la Cohérence dans les tâches de classification. Ces études montrent comment certaines caractéristiques peuvent induire les modèles en erreur, provoquant des incohérences lorsque les détails des produits changent légèrement.

Même si le modèle peut bien fonctionner en moyenne, l'incohérence peut engendrer des problèmes significatifs pour les utilisateurs qui dépendent de recommandations et de résultats de recherche précis. Par exemple, il pourrait étiqueter une "robe rouge" et une "robe bleue" différemment, même si elles appartiennent à la même catégorie.

Pour s'attaquer à cette incohérence, on applique diverses techniques d'augmentation des données pour améliorer l'entraînement du modèle. En ajoutant des exemples plus variés d'articles similaires, on peut aider le modèle à reconnaître que de petits changements ne devraient pas entraîner des catégories différentes.

Utiliser l'augmentation des données pour améliorer les modèles d'apprentissage automatique est largement reconnu et a montré qu'il augmente la fiabilité de ces systèmes. On continue d'utiliser la structure existante du modèle pour s'assurer qu'il peut toujours traiter des millions d'articles de manière efficace.

Notre nouveau cadre s'appelle l'apprentissage semi-supervisé cohérent (Consistent-SSL). On rassemble des données à partir de catalogues de produits et crée des clusters d'articles qui sont similaires mais ont des différences mineures. Avec cette configuration, on peut appliquer deux méthodes pour tirer parti des données non étiquetées : une Méthode d'auto-formation et une approche générative.

La méthode d'auto-formation commence par créer des pseudo-étiquettes pour les données non étiquetées. On entraîne un modèle de base avec les données étiquetées et on l'utilise pour attribuer ces pseudo-étiquettes. Chaque fois qu'on examine un groupe d'articles similaires, on s'assure qu'ils obtiennent tous la même pseudo-étiquette. Cela peut aider à améliorer la cohérence du modèle.

Dans notre méthode générative, on entraîne un modèle pour comprendre comment les articles peuvent varier. Pour une paire d'articles, le modèle apprend à créer de nouvelles variations du premier article tout en conservant son étiquette d'origine. Cela nous permet de générer plusieurs exemples à partir d'un seul article, augmentant ainsi la quantité de données d'entraînement.

On filtre ensuite les exemples générés pour s'assurer qu'ils correspondent à de vrais exemples. Cela aide à créer un ensemble de données d'entraînement qui est à la fois diversifié et cohérent.

On a mis nos méthodes à l'épreuve en utilisant un ensemble de données de produits commerciaux avec des étiquettes représentant leurs catégories. L'ensemble de données se composait d'échantillons pré-étiquetés et d'une vaste collection de produits non étiquetés provenant de divers détaillants. Chaque échantillon contenait des détails sur les produits, y compris leur titre et leur catégorie.

Nos expériences se sont concentrées sur deux aspects : la précision et la cohérence. Des modèles précis produisent des prédictions correctes, tandis que des modèles cohérents produisent la même prédiction pour des articles similaires. Pour mesurer la performance, on a créé deux ensembles de tests différents. Le test de précision utilisait des échantillons étiquetés pour calculer un score, tandis que le test de cohérence utilisait des paires de titres de produits similaires pour voir s'ils recevaient la même étiquette.

À travers nos expérimentations, on a comparé nos méthodes aux modèles existants. On a découvert que notre méthode d'auto-formation améliorait les taux de cohérence tout en réduisant légèrement la précision globale. De même, la méthode générative a également conduit à une meilleure cohérence sans impacter significativement la précision.

Ces résultats soulignent l'influence de la qualité des données sur la performance du modèle. Plus on peut fournir d'exemples de qualité au modèle durant l'entraînement, mieux il devient pour catégoriser des articles similaires.

Dans l'ensemble, notre travail montre qu'il est essentiel de prendre en compte non seulement la quantité de données lors de l'entraînement des modèles, mais aussi la qualité et la distribution de ces données. On a appris qu'utiliser des échantillons du monde réel est généralement meilleur que des générés lorsqu'il s'agit d'atteindre de bonnes performances.

Bien que nos méthodes aient montré des résultats prometteurs, certaines limitations demeurent. Notre étude était centrée sur un modèle et un ensemble de données particuliers, donc les résultats peuvent différer dans d'autres contextes. De plus, nos approches se concentraient sur l'augmentation des données au lieu de modifier la conception fondamentale du modèle. De futurs efforts pourraient explorer l'intégration de la cohérence directement dans la conception ou les objectifs du modèle.

Enfin, il est important de maintenir des principes éthiques lors de la réalisation de recherches comme celle-ci. Notre étude a respecté des lignes directrices éthiques et visait à garantir que l'impact sur les utilisateurs soit positif.

En conclusion, on a introduit une nouvelle façon d'améliorer la catégorisation des produits de e-commerce en veillant à ce que des articles similaires soient étiquetés de manière cohérente. En utilisant des techniques d'apprentissage semi-supervisé, on a montré qu'il est possible d'améliorer l'entraînement du modèle tout en préservant son efficacité. Cela peut mener à une meilleure expérience de shopping pour les utilisateurs en améliorant la précision des recommandations et des résultats de recherche. On espère que ces avancées ouvriront la voie à de futures améliorations dans la catégorisation des produits dans un paysage de e-commerce en rapide évolution.

Source originale

Titre: Consistent Text Categorization using Data Augmentation in e-Commerce

Résumé: The categorization of massive e-Commerce data is a crucial, well-studied task, which is prevalent in industrial settings. In this work, we aim to improve an existing product categorization model that is already in use by a major web company, serving multiple applications. At its core, the product categorization model is a text classification model that takes a product title as an input and outputs the most suitable category out of thousands of available candidates. Upon a closer inspection, we found inconsistencies in the labeling of similar items. For example, minor modifications of the product title pertaining to colors or measurements majorly impacted the model's output. This phenomenon can negatively affect downstream recommendation or search applications, leading to a sub-optimal user experience. To address this issue, we propose a new framework for consistent text categorization. Our goal is to improve the model's consistency while maintaining its production-level performance. We use a semi-supervised approach for data augmentation and presents two different methods for utilizing unlabeled samples. One method relies directly on existing catalogs, while the other uses a generative model. We compare the pros and cons of each approach and present our experimental results.

Auteurs: Guy Horowitz, Stav Yanovsky Daye, Noa Avigdor-Elgrabli, Ariel Raviv

Dernière mise à jour: 2023-05-30 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2305.05402

Source PDF: https://arxiv.org/pdf/2305.05402

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires