Simple Science

La science de pointe expliquée simplement

# Informatique# Calcul et langage# Intelligence artificielle# Recherche d'informations# Apprentissage automatique

Amélioration de l'extraction des attributs et valeurs dans le e-commerce

Un nouveau modèle améliore l'identification des attributs et des valeurs des produits dans les annonces en ligne.

― 7 min lire


Boost d'extraction deBoost d'extraction dedonnées e-commerceproduit.de l'extraction des attributs deLe nouveau modèle améliore la précision
Table des matières

Le commerce en ligne a explosé, ce qui a donné accès à un max de produits en ligne. Chaque produit a généralement plusieurs caractéristiques, souvent appelées attributs, et chaque attribut a des valeurs spécifiques. Par exemple, un smartphone peut avoir des attributs comme Marque, Couleur, et Nom du Modèle avec des valeurs comme Samsung, Phantom Gray, et Galaxy S21. Ces attributs et valeurs aident les clients à trouver les produits qu'ils veulent.

Cependant, les annonces des vendeurs manquent souvent d’infos complètes, ce qui pourrait être amélioré en utilisant des détails du titre du produit. La tâche d’identifier automatiquement ces paires attribut-valeur est cruciale dans le e-commerce mais peut être compliquée à cause de la variété des catégories de produits et du peu de données d’entraînement étiquetées disponibles.

Le Défi

Extraire des paires attribut-valeur à partir des noms de produits n'est pas évident. Les vendeurs donnent parfois des détails incomplets ou incohérents, ce qui complique la tâche des systèmes automatisés. En plus, il y a des milliers d'attributs pour différents produits, rendant la tâche encore plus complexe.

De plus, certains termes peuvent se chevaucher ou être utilisés de manière interchangeable, comme Numéro de Modèle et Modèle No. Ces incohérences posent un problème pour tout système conçu pour classifier ou extraire ces infos.

En plus, ces systèmes d’extraction doivent souvent fonctionner En temps réel, surtout dans des environnements très fréquentés, ce qui ajoute une couche de difficulté.

Notre Solution

Pour résoudre ces problèmes, on a développé un modèle en deux étapes qui extrait des paires attribut-valeur à partir des titres de produits. Le modèle est conçu pour apprendre à partir de données partiellement étiquetées, ce qui veut dire qu'il peut fonctionner avec des paires attribut-valeur incomplètes, réduisant le besoin d'ensembles de données entièrement annotés.

Étape Un : Extraction d'attributs

La première étape du modèle utilise un modèle génératif pour prédire les attributs potentiels présents dans le titre du produit. En d’autres mots, il prend un nom de produit et sort une liste des attributs possibles associés à ce nom.

Étape Deux : Extraction de valeurs

Une fois les attributs identifiés, la deuxième étape entre en jeu. Cette étape utilise un modèle de classification pour déterminer les valeurs correspondantes à chaque attribut identifié.

En utilisant ces deux étapes, le modèle peut gérer efficacement les complexités liées à divers attributs tout en étant formé sur des données partiellement étiquetées.

Performance du Modèle

Notre modèle montre une amélioration significative par rapport aux systèmes existants. Il augmente de 56,3% le nombre de paires attribut-valeur correctement identifiées par rapport aux approches précédentes. De plus, on a introduit une méthode appelée "bootstrapping," qui aide à affiner et à élargir progressivement l'ensemble de données d'entraînement.

Intégration dans des Applications Réelles

On a réussi à intégrer ce modèle dans la plus grande plateforme de commerce électronique B2B en Inde, atteignant une augmentation de 21,1% dans l'identification précise des paires attribut-valeur par rapport aux systèmes existants tout en maintenant un score de précision élevé.

Importance des Attributs et Valeurs

Dans le contexte du e-commerce, les attributs et les valeurs jouent un rôle essentiel en aidant les clients à affiner leurs recherches. Des attributs courants comme Marque, Modèle, et Couleur, aident les consommateurs à faire des choix rapidement et de manière informée.

Par exemple, si un acheteur cherche un produit particulier, connaître sa Marque et son Modèle peut réduire considérablement les résultats de recherche. Cependant, si les infos attribut-valeur manquent ou sont incorrectes, cela peut entraîner confusion ou frustration pour les clients.

Méthodologie pour l'Extraction d'Attributs-Valuers

Le modèle utilise une approche en deux étapes :

  1. Extraction d'Attributs via un Modèle Génératif : Cette étape identifie tous les attributs pertinents associés à un nom de produit.
  2. Extraction de Valeurs via un Modèle de Classification : Cette étape classe chaque mot dans le titre du produit pour déterminer s'il représente une valeur pour les attributs identifiés.

Entraînement avec des Données Partiellement Étiquetées

Un aspect unique de notre méthode est sa capacité à apprendre efficacement à partir de données partiellement étiquetées. En incorporant des marqueurs durant le processus d’entraînement, le modèle peut mieux comprendre quels mots dans le titre du produit correspondent à des valeurs pour divers attributs.

Ces marqueurs aident le modèle à se concentrer sur les parties pertinentes de l'entrée, lui permettant de générer des prédictions plus précises et pertinentes durant le processus d’extraction.

Élagage des Valeurs

En plus des techniques ci-dessus, on a introduit un concept appelé "Élagage des Valeurs." Cela assure que le modèle peut générer des sorties nulles pour les attributs incorrects prédits par le système. Cette méthode améliore la précision globale de l'extraction des paires attribut-valeur en filtrant les prédictions non pertinentes, conduisant à une sortie plus propre.

Comparaison avec les Modèles Existants

Comparé aux modèles existants, notre système montre une performance supérieure dans les évaluations automatisées et manuelles. La précision - à quel point les prédictions du modèle sont correctes - et le rappel - combien de bonnes prédictions le modèle fait - sont souvent plus élevés pour notre modèle.

En utilisant différentes variantes de notre modèle, on a évalué comment divers composants comme les marqueurs et l'élagage des valeurs affectent la performance globale. Les résultats montrent que les deux sont cruciaux pour améliorer la capacité du modèle à extraire des attributs et des valeurs avec précision.

Configuration Expérimentale

Pour vérifier l’efficacité de notre modèle, on a mené des expériences avec des données réelles. On a récupéré des annonces de produits d'une plateforme de commerce électronique B2B populaire, s’assurant d’avoir un ensemble varié d’attributs et de produits pour des tests approfondis.

En utilisant un ensemble de données contenant des milliers de paires attribut-valeur uniques, on a pu former le modèle efficacement et évaluer sa performance sur un grand nombre d'exemples.

Résultats

Les résultats de nos expériences révèlent que le modèle en deux étapes surpasse systématiquement les systèmes existants, particulièrement dans les tâches impliquant des données incomplètes. L'utilisation de marqueurs et l'élagage des valeurs améliorent significativement l'équilibre entre précision et rappel.

Gestion des Noms de Produits Longs

Pour évaluer davantage la performance du modèle, on a examiné comment il gère les noms de produits longs, car ceux-ci sont courants dans le e-commerce. Notre modèle a maintenu une haute précision même avec des noms de produits qui contiennent beaucoup de mots, ce qui démontre sa robustesse et son adaptabilité.

Conclusion

En conclusion, notre modèle en deux étapes aborde efficacement les défis de l'extraction des paires attribut-valeur des titres de produits dans le e-commerce. En intégrant des techniques innovantes comme l’entraînement avec des données partiellement étiquetées, les embeddings de marqueurs, et l'élagage des valeurs, notre approche offre une amélioration substantielle par rapport aux méthodes traditionnelles.

Le succès de notre modèle appliqué à une grande plateforme en ligne souligne sa valeur pratique et son potentiel pour une application plus large dans le secteur du e-commerce.

On envisage que des expansions futures pourraient impliquer plus d’itérations de bootstrapping pour continuer à améliorer la qualité des données. À mesure que le paysage du e-commerce évolue, le besoin d'extraction d'attributs précise et en temps réel restera critique, et notre modèle est bien positionné pour répondre à ces besoins.

Source originale

Titre: A Framework for Leveraging Partially-Labeled Data for Product Attribute-Value Identification

Résumé: In the e-commerce domain, the accurate extraction of attribute-value pairs (e.g., Brand: Apple) from product titles and user search queries is crucial for enhancing search and recommendation systems. A major challenge with neural models for this task is the lack of high-quality training data, as the annotations for attribute-value pairs in the available datasets are often incomplete. To address this, we introduce GenToC, a model designed for training directly with partially-labeled data, eliminating the necessity for a fully annotated dataset. GenToC employs a marker-augmented generative model to identify potential attributes, followed by a token classification model that determines the associated values for each attribute. GenToC outperforms existing state-of-the-art models, exhibiting upto 56.3% increase in the number of accurate extractions. Furthermore, we utilize GenToC to regenerate the training dataset to expand attribute-value annotations. This bootstrapping substantially improves the data quality for training other standard NER models, which are typically faster but less capable in handling partially-labeled data, enabling them to achieve comparable performance to GenToC. Our results demonstrate GenToC's unique ability to learn from a limited set of partially-labeled data and improve the training of more efficient models, advancing the automated extraction of attribute-value pairs. Finally, our model has been successfully integrated into IndiaMART, India's largest B2B e-commerce platform, achieving a significant increase of 20.2% in the number of correctly identified attribute-value pairs over the existing deployed system while achieving a high precision of 89.5%.

Auteurs: D. Subhalingam, Keshav Kolluru, Mausam, Saurabh Singal

Dernière mise à jour: 2024-11-18 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2405.10918

Source PDF: https://arxiv.org/pdf/2405.10918

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires