Simple Science

La science de pointe expliquée simplement

# Informatique# Recherche d'informations# Calcul et langage

Améliorer la pertinence des recherches dans l'e-commerce

Une nouvelle méthode améliore la précision de la recherche de produits dans les achats en ligne.

― 8 min lire


Méthode de pertinence deMéthode de pertinence derecherche en e-commerceshopping en ligne.précision des recherches pour leUne nouvelle approche améliore la
Table des matières

Dans le monde du shopping en ligne, c'est super important de fournir les bons produits aux clients. Quand les acheteurs tapent ce qu'ils recherchent, il faut que le moteur de recherche renvoie des articles qui correspondent à leurs besoins. Cette correspondance s'appelle le calcul de la pertinence sémantique, et ça joue un grand rôle pour s'assurer que les clients ont une bonne expérience quand ils cherchent des produits.

Traditionnellement, les moteurs de recherche utilisaient un simple appariement de texte, ce qui manquait souvent le point de ce que les clients voulaient vraiment. Des méthodes plus récentes, y compris les réseaux neuronaux, sont devenues populaires parce qu'elles gèrent mieux les recherches complexes. Cependant, beaucoup de systèmes existants ont du mal quand il s'agit de généraliser et de rester fiables dans différentes situations. Cet article discute d'une nouvelle approche qui vise à résoudre ces problèmes en utilisant des méthodes basées sur l'interaction pour chercher et associer des produits.

Importance de la pertinence dans le e-commerce

Quand les consommateurs font leurs courses en ligne, l'efficacité du moteur de recherche repose sur deux tâches principales : comprendre ce que les clients veulent en fonction de leurs requêtes et analyser les habitudes d'achat à partir des clics précédents. Pour réussir, un moteur de recherche doit non seulement classer les articles de manière efficace, mais aussi vérifier que les produits affichés sont appropriés pour chaque requête.

Dans le e-commerce, le calcul de la pertinence sémantique (SRC) est clé. Il prend les mots clés dans les requêtes courtes et les associe à des descriptions de produits plus longues pour évaluer et classer les articles avec précision. Si un moteur de recherche se concentre trop sur les clics sans comprendre l'Intention de l'utilisateur, cela peut mener à une diminution de l'attention des utilisateurs et à une baisse des ventes.

Défis du calcul de la pertinence sémantique

Le calcul de la pertinence sémantique est différent des tâches générales de correspondance de texte. Il fait face à des défis spécifiques :

  1. Comprendre l'intention de l'utilisateur : Les requêtes manquent souvent de clarté. Par exemple, une recherche pour "nouvelle réduction sur les pommes" peut signifier différentes choses, comme une vente de pommes fraîches ou une promo sur des gadgets Apple. Associer ces requêtes ambiguës à des produits pertinents est difficile.

  2. Équilibrer vitesse et précision : Les plateformes de e-commerce doivent être rapides. Bien que les recherches par mots-clés traditionnelles soient rapides, elles ne classent souvent pas les résultats avec précision. Les modèles neuronaux sont meilleurs pour capturer les relations entre les mots, mais ils nécessitent plus de puissance de calcul, ce qui peut ralentir les choses.

  3. Gérer l'utilisation d'une langue diverse : Différentes cultures utilisent divers termes pour le même concept. Par exemple, "vente à 50% de réduction" peut être exprimé de plusieurs façons. Cette diversité complique le bon fonctionnement des modèles car ils ne reconnaissent pas toujours toutes les expressions correctement.

Solution proposée

Cet article présente une nouvelle méthode pour modéliser la pertinence dans les recherches de e-commerce. Elle se concentre sur trois aspects principaux :

  1. Représentation de longueur dynamique : Cette stratégie ajuste la taille d'entrée en fonction de la longueur des requêtes et des descriptions de produits. Cette flexibilité aide à optimiser les ressources informatiques.

  2. Reconnaissance des termes professionnels : Cela implique d'améliorer le vocabulaire du modèle pour inclure des termes spécifiques à l'industrie, ce qui aide le modèle à mieux comprendre et représenter les descriptions de produits.

  3. Entraînement adversarial contrastif : Cette méthode renforce la robustesse du modèle. En entraînant avec différents exemples en même temps, elle crée une meilleure compréhension des divers inputs.

Schéma de représentation de longueur dynamique

Une partie clé de notre approche est le schéma de représentation de longueur dynamique. La différence entre la façon dont les modèles basés sur la représentation et ceux basés sur l'interaction fonctionnent réside dans la manière dont ils traitent les requêtes.

  • Modèles basés sur la représentation : Ceux-ci convertissent les requêtes en vecteurs de longueur fixe. Bien que cela accélère le processus de calcul, cela peut simplifier à l'excès les nuances du comportement des utilisateurs et conduire à des résultats moins précis.

  • Modèles basés sur l'interaction : Ceux-ci traitent la requête en temps réel, la combinant avec les descriptions de produits pour créer une compréhension plus détaillée. Ce traitement en temps réel, cependant, peut être gourmand en ressources.

Pour résoudre cela, notre méthode raccourcit les longueurs de tokens en supprimant un padding inutile. De plus, nous pré-calculons des tokens pour les requêtes fréquentes, rendant la recherche plus rapide et plus facile.

Stratégie de reconnaissance des termes professionnels

Un autre obstacle à une recherche efficace est la tokenisation traditionnelle, qui ne fonctionne pas bien pour le jargon spécifique au e-commerce. Par exemple, des termes spécialisés peuvent être mal gérés s'ils ne sont pas reconnus correctement.

Pour y remédier, notre méthode élargit le vocabulaire utilisé dans le modèle en incluant des termes spécifiques à l'industrie fréquemment utilisés dérivés d'un grand ensemble de données. En outre, nous mettons en œuvre la reconnaissance des entités nommées (NER) pour identifier les objets et attributs clés dans les requêtes et les descriptions de produits. Cela permet une correspondance plus précise en aidant le modèle à reconnaître des termes pertinents qui vont au-delà du vocabulaire général.

Mécanisme d'entraînement adversarial contrastif

Un problème majeur des modèles traditionnels est leur manque d'adaptabilité aux paires requête-article non familières. Pour y remédier, notre méthode utilise l'entraînement adversarial contrastif, ce qui améliore la précision des prédictions du modèle tout en réduisant la sensibilité aux variations d'input.

Cette méthode entraîne le modèle à reconnaître non seulement l'input mais aussi ses outputs en ajustant simultanément les deux. En utilisant des exemples adversariaux pendant l'entraînement, le modèle devient plus robuste face aux variations des requêtes. Cette méthode aide le modèle à apprendre de meilleures représentations de ce que les utilisateurs attendent en fonction de leurs termes de recherche.

Évaluation des méthodes proposées

Pour valider l'efficacité de notre nouvelle approche, nous avons réalisé des évaluations hors ligne extensives en utilisant un grand ensemble de paires requête-article et effectué des tests A/B rigoureux en ligne.

Évaluations hors ligne

Nous avons rassemblé 80 millions de paires requête-article basées sur les clics des utilisateurs et créé un ensemble plus petit de 250 000 paires annotées manuellement. Chaque paire a été évaluée pour sa pertinence, ce qui signifie qu'elle devait répondre à des critères spécifiques basés sur le sujet et les mots-clés. De cette façon, nous pouvions tester la performance de notre modèle par rapport aux modèles traditionnels.

Divers modèles établis ont servi de références pour la comparaison, et notre nouvelle approche a constamment surpassé ces derniers. En particulier, notre stratégie a montré des améliorations marquées dans des métriques comme la précision, les taux de clics et les taux de conversion.

Tests A/B en ligne

Notre modèle a été intégré dans la plateforme de recherche d'Alibaba.com, qui a une vaste base d'utilisateurs et un volume élevé de transactions. Nous avons mis en œuvre trois stratégies clés progressivement, ce qui nous a permis de mesurer leur impact sur les taux de clics, les taux de conversion et les revenus.

Les résultats étaient impressionnants, avec des augmentations notables dans les trois métriques après chaque phase de mise en œuvre. La dernière étape d'entraînement adversarial contrastif a produit les gains les plus significatifs et a démontré que notre approche avait un effet positif tangible sur l'expérience utilisateur et les ventes.

Conclusion

La méthode proposée basée sur l'interaction pour modéliser la pertinence sémantique dans les moteurs de recherche de e-commerce offre une approche fraîche et efficace pour améliorer les résultats de recherche. En utilisant un schéma de représentation de longueur dynamique, une stratégie de reconnaissance des termes professionnels et un entraînement adversarial contrastif, cette méthode améliore considérablement la pertinence des résultats de recherche.

Nos évaluations approfondies soulignent son efficacité et sa robustesse, montrant qu'elle peut répondre aux besoins quotidiens de millions d'utilisateurs tout en menant à des améliorations substantielles des taux de clics et des conversions. Cette approche est en fonctionnement avec succès sur l'une des plus grandes plateformes de e-commerce depuis plus d'un an et montre des promesses pour de futures applications dans des domaines connexes.

Les avancées réalisées dans cette étude ouvrent la voie à des expériences de recherche plus riches et plus précises qui profitent à la fois aux utilisateurs et aux entreprises.

Source originale

Titre: Robust Interaction-Based Relevance Modeling for Online e-Commerce Search

Résumé: Semantic relevance calculation is crucial for e-commerce search engines, as it ensures that the items selected closely align with customer intent. Inadequate attention to this aspect can detrimentally affect user experience and engagement. Traditional text-matching techniques are prevalent but often fail to capture the nuances of search intent accurately, so neural networks now have become a preferred solution to processing such complex text matching. Existing methods predominantly employ representation-based architectures, which strike a balance between high traffic capacity and low latency. However, they exhibit significant shortcomings in generalization and robustness when compared to interaction-based architectures. In this work, we introduce a robust interaction-based modeling paradigm to address these shortcomings. It encompasses 1) a dynamic length representation scheme for expedited inference, 2) a professional terms recognition method to identify subjects and core attributes from complex sentence structures, and 3) a contrastive adversarial training protocol to bolster the model's robustness and matching capabilities. Extensive offline evaluations demonstrate the superior robustness and effectiveness of our approach, and online A/B testing confirms its ability to improve relevance in the same exposure position, resulting in more clicks and conversions. To the best of our knowledge, this method is the first interaction-based approach for large e-commerce search relevance calculation. Notably, we have deployed it for the entire search traffic on alibaba.com, the largest B2B e-commerce platform in the world.

Auteurs: Ben Chen, Huangyu Dai, Xiang Ma, Wen Jiang, Wei Ning

Dernière mise à jour: 2024-09-25 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2406.02135

Source PDF: https://arxiv.org/pdf/2406.02135

Licence: https://creativecommons.org/licenses/by/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires