Améliorer la découverte de contenu dans les recherches en ligne
Une nouvelle méthode réduit le biais de recherche et augmente la visibilité du contenu.
― 9 min lire
Table des matières
Les plateformes en ligne veulent aider les utilisateurs à trouver du contenu qu’ils n’ont pas encore croisé. Une grande partie de ça, c’est de s’assurer que le contenu soit trouvable via les moteurs de recherche. Par exemple, si quelqu'un cherche un nouveau livre, il doit pouvoir le trouver en tapant une phrase de recherche pertinente.
Cependant, beaucoup de moteurs de recherche ont un problème appelé "biais de récupérabilité." Ça veut dire qu’en général, les utilisateurs voient souvent le même contenu populaire lorsqu’ils recherchent. Ça arrive souvent parce que les utilisateurs entrent des requêtes de recherche trop limitées, comme "Harry Potter." Comme plein d’utilisateurs tapent ces requêtes restreintes, les résultats de recherche montrent souvent un petit groupe d’articles populaires, pendant que d’autres trucs potentiellement intéressants passent à la trappe.
À l’opposé, les requêtes larges sont plus exploratoires et permettent aux utilisateurs de découvrir du nouveau contenu. Par exemple, quelqu'un pourrait chercher "electronica lyrique chill avec une ambiance atmosphérique." Ces requêtes plus larges sont moins courantes, mais elles aident à trouver des choses nouvelles et différentes.
Il y a deux problèmes principaux qui affectent la facilité de récupération des articles. Le premier, c’est les données d’entraînement utilisées pour les modèles de recherche, et le second, c’est combien d’utilisateurs entrent des requêtes étroites contre larges. Pour résoudre ces problèmes, une nouvelle méthode a été développée pour générer des requêtes en fonction de si l'utilisateur veut être spécifique ou exploratoire.
Cette méthode aide à améliorer les données d’entraînement en créant une variété de Requêtes synthétiques. Elle incite aussi les utilisateurs à penser plus largement en cherchant. Des tests avec des ensembles de données de musique, de podcasts et de livres ont montré que l'utilisation de cette nouvelle méthode a réduit le biais de récupérabilité de manière significative.
Le Processus de Recherche et la Découverte de Contenu
Sur les plateformes en ligne, les utilisateurs cherchent généralement des trucs qu'ils connaissent déjà, comme des titres ou des contenus spécifiques. On appelle ça une requête d'intention étroite. Par exemple, si quelqu'un veut trouver le livre "La Communauté de l'Anneau", il va taper ce titre exact ou quelque chose de très similaire.
Cependant, tous les besoins des utilisateurs ne sont pas simples. Parfois, ils veulent explorer d'autres options, ce qui mène à des requêtes plus larges. Quand les utilisateurs ont un état d'esprit plus large, ils peuvent poser des questions moins spécifiques et être ouverts à divers résultats. Malheureusement, beaucoup d'utilisateurs trouvent plus facile de demander de l'aide sur des forums ou à d'autres utilisateurs plutôt que de compter sur les moteurs de recherche, surtout que les systèmes de recherche actuels ont souvent du mal à comprendre ces intentions plus larges.
Le défi, c’est que les requêtes larges peuvent faire ressortir des articles moins populaires et donc améliorer la découverte de contenu. Les recherches précédentes se sont principalement concentrées sur les systèmes de recommandation pour améliorer la visibilité du contenu, mais il est tout aussi important d'appliquer ces idées aux moteurs de recherche.
Conserver des articles pertinents pour des requêtes diverses est crucial. La récupérabilité d'un document, c’est le nombre de requêtes qui permettent à ce document d'apparaître dans les premiers résultats de recherche. Si un utilisateur n'interagît qu'avec le premier résultat, il risque de ne jamais voir d'autres articles qui pourraient satisfaire ses besoins.
Impact de la Génération de Requêtes
Cette étude se penche sur comment générer différentes requêtes peut améliorer les résultats de recherche. Bien qu'il y ait eu beaucoup de recherches sur l'entraînement des modèles de recherche, l'impact spécifique de la génération de requêtes sur la récupérabilité du contenu n'a pas été largement exploré.
Deux approches principales ont été adoptées. La première méthode consistait à utiliser des requêtes générées comme données d'entraînement, tandis que la deuxième se concentrait sur la suggestion de requêtes plus larges aux utilisateurs. L'objectif était d'examiner comment ces stratégies pouvaient réduire le biais de récupérabilité dans les résultats de recherche et améliorer l'expérience globale des utilisateurs.
Résultats de la Recherche
La recherche a abouti à plusieurs résultats significatifs. D'abord, une nouvelle méthode a été présentée pour générer des requêtes qui permet de contrôler la nature voulue des requêtes, qu'elles soient étroites ou larges. L'étude a révélé qu'utiliser ces requêtes générées comme données d'entraînement a conduit à une réduction marquée du biais de récupérabilité par rapport à l'utilisation de données de recherche du monde réel.
De plus, l'étude a confirmé que suggérer des requêtes plus larges aux utilisateurs a réduit le biais de récupérabilité. En testant, les systèmes qui généraient des suggestions de requêtes plus larges ont augmenté la probabilité que les utilisateurs découvrent de nouvelles entités.
Globalement, les résultats indiquent qu'en générant des requêtes synthétiques pour entraîner des modèles de recherche et en suggérant des requêtes plus larges aux utilisateurs, il est possible d'améliorer la visibilité du contenu et la satisfaction des utilisateurs tout en réduisant le biais dans les résultats de recherche.
Recherche Connexe
De nombreuses études ont examiné le comportement des utilisateurs lors de la recherche de contenu spécifique, comme des morceaux de musique et des livres. La recherche a montré que fournir des représentations plus riches pour le contenu, comme combiner des critiques et des métadonnées, peut améliorer l'efficacité de la récupération.
Pour les recherches de podcasts, inclure des informations supplémentaires comme des transcriptions a aussi été trouvé utile. En plus, des listes, comme des playlists en musique, aident les utilisateurs à regrouper des entités similaires, favorisant une meilleure découverte.
Composants de la Méthode Proposée
La nouvelle méthode inclut trois parties vitales. La première partie convertit une entité en une représentation textuelle. La deuxième génère des requêtes de recherche potentielles en utilisant des fonctions de labellisation faibles, qui ne nécessitent pas beaucoup de données labellisées. Enfin, la méthode inclut une génération sensible à l'intention, permettant aux créateurs de spécifier si les requêtes générées doivent pencher vers des intentions étroites ou larges.
Utilisation des Requêtes Générées pour Améliorer la Récupérabilité
Les requêtes générées peuvent être utilisées pour entraîner des modèles Bi-Encoder, offrant des options de récupération plus riches. Cette nouvelle approche ouvre des possibilités pour entraîner sur les deux types d'intentions, ce qui peut finalement modifier la façon dont les utilisateurs interagissent avec la fonction de recherche et les types de résultats qu'ils reçoivent.
Expérimentation et Évaluation
Pour évaluer l’efficacité de la nouvelle méthode, trois ensembles de données contenant des centaines de milliers d’entités et de requêtes individuelles ont été analysés. Différentes approches ont été utilisées pour générer des requêtes et mesurer comment le biais de récupérabilité changeait avec l’introduction d’options de requêtes synthétiques.
Ces expériences ont montré des preuves claires que l'utilisation de requêtes synthétiques a conduit à des diminutions notables du biais de récupérabilité, permettant à un plus grand nombre d'articles d'être trouvés par les utilisateurs.
Résultats et Signification
Quand la nouvelle méthode a été appliquée, une augmentation significative de l’efficacité de récupération a été observée. Dans certains cas, la récupération s'est améliorée de manière marquée tandis que le biais a chuté de façon considérable. Les résultats ont validé l'hypothèse que l'entraînement des modèles en utilisant des requêtes synthétiques peut réduire le biais par rapport aux méthodes d'entraînement classiques.
Les requêtes larges favorisent encore plus l'exploration au sein du moteur de recherche. Elles aident les utilisateurs à découvrir des entités auxquelles ils n'auraient peut-être pas pensé, montrant encore l’efficacité de la méthode.
Directions Futures
En regardant vers l'avenir, la recherche met en lumière plusieurs domaines potentiels pour le travail futur. Cela inclut l'amélioration des interactions entre les systèmes de recommandation et les moteurs de recherche, le renforcement de la façon dont les entités sont représentées dans des situations où les métadonnées sont limitées et l'adresse du biais dans les scénarios nécessitant un réarrangement des résultats.
En résumé, cette nouvelle approche pour chercher et découvrir du contenu en ligne offre un moyen de réduire le biais dans les résultats de recherche tout en améliorant l'expérience des utilisateurs et la récupérabilité du contenu. L'impact potentiel de ces découvertes pourrait mener à des systèmes de recherche mieux conçus qui répondent aux besoins variés et aux comportements des utilisateurs.
Titre: Improving Content Retrievability in Search with Controllable Query Generation
Résumé: An important goal of online platforms is to enable content discovery, i.e. allow users to find a catalog entity they were not familiar with. A pre-requisite to discover an entity, e.g. a book, with a search engine is that the entity is retrievable, i.e. there are queries for which the system will surface such entity in the top results. However, machine-learned search engines have a high retrievability bias, where the majority of the queries return the same entities. This happens partly due to the predominance of narrow intent queries, where users create queries using the title of an already known entity, e.g. in book search 'harry potter'. The amount of broad queries where users want to discover new entities, e.g. in music search 'chill lyrical electronica with an atmospheric feeling to it', and have a higher tolerance to what they might find, is small in comparison. We focus here on two factors that have a negative impact on the retrievability of the entities (I) the training data used for dense retrieval models and (II) the distribution of narrow and broad intent queries issued in the system. We propose CtrlQGen, a method that generates queries for a chosen underlying intent-narrow or broad. We can use CtrlQGen to improve factor (I) by generating training data for dense retrieval models comprised of diverse synthetic queries. CtrlQGen can also be used to deal with factor (II) by suggesting queries with broader intents to users. Our results on datasets from the domains of music, podcasts, and books reveal that we can significantly decrease the retrievability bias of a dense retrieval model when using CtrlQGen. First, by using the generated queries as training data for dense models we make 9% of the entities retrievable (go from zero to non-zero retrievability). Second, by suggesting broader queries to users, we can make 12% of the entities retrievable in the best case.
Auteurs: Gustavo Penha, Enrico Palumbo, Maryam Aziz, Alice Wang, Hugues Bouchard
Dernière mise à jour: 2023-03-21 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2303.11648
Source PDF: https://arxiv.org/pdf/2303.11648
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.
Liens de référence
- https://github.com/MengtingWan/goodreads
- https://bigscience.huggingface.co/blog/bloom
- https://www.sbert.net/docs/pretrained_models.html
- https://www.reddit.com/r/musicsuggestions/
- https://www.acm.org/publications/taps/whitelist-of-latex-packages
- https://dl.acm.org/ccs.cfm
- https://huggingface.co/snrspeaks/t5-one-line-summary