Simple Science

La science de pointe expliquée simplement

# Informatique# Recherche d'informations# Calcul et langage

Améliorer les recommandations d'articles dans PubMed

Une nouvelle méthode améliore les suggestions d'articles avec des insights sur le comportement des utilisateurs.

― 7 min lire


Améliorer la rechercheAméliorer la recherched'articles sur PubMedarticles et des recommandations.Un modèle améliore la pertinence des
Table des matières

Trouver des articles connexes est super important pour les chercheurs et les pros de la santé. Quand on cherche des papiers scientifiques, c'est courant de vouloir des articles similaires à un article de référence. PubMed est un moteur de recherche populaire pour la littérature biomédicale qui a une fonction qui suggère des articles similaires selon ce que tu es en train de lire. Cependant, beaucoup d'utilisateurs veulent savoir pourquoi ces suggestions sont faites.

Avec des millions d'études biomédicales publiées chaque année, donner des explications sur les articles suggérés peut aider les utilisateurs à localiser rapidement des informations pertinentes. Malheureusement, la plupart des systèmes de recommandation n'expliquent pas leurs suggestions. Cet article présente une nouvelle méthode pour fournir de meilleures explications pour les articles recommandés en utilisant des données de Comportement des utilisateurs sur PubMed.

L'importance des Recommandations

Quand les utilisateurs trouvent un article qui les intéresse sur PubMed, ils veulent souvent explorer d'autres articles sur des sujets similaires. La section "articles similaires" liste ces articles connexes, ce qui peut être vraiment utile. Pour chaque article, PubMed montre une poignée des articles similaires les plus pertinents, et les utilisateurs peuvent voir une liste plus longue s'ils le souhaitent.

Cette fonctionnalité est importante car elle aide les utilisateurs à approfondir un sujet particulier sans avoir besoin de recommencer une nouvelle recherche. En fait, des études montrent qu'une fois que les utilisateurs commencent à explorer des articles liés, ils ont tendance à y passer beaucoup de temps. Donc, comprendre comment fonctionnent les recommandations et voir des explications pour celles-ci aiderait les utilisateurs à trouver l'information dont ils ont besoin plus efficacement.

Pourquoi les explications comptent

Les utilisateurs veulent souvent savoir pourquoi certains articles leur sont suggérés. La recommandation peut être basée sur diverses raisons, comme des mots-clés communs ou des articles souvent cliqués ensemble. Les explications peuvent aider les utilisateurs à identifier quels articles suggérés sont les plus pertinents pour leurs intérêts spécifiques.

Actuellement, les utilisateurs doivent généralement parcourir les articles suggérés et évaluer leur pertinence par eux-mêmes, ce qui peut être un processus long. Si la recommandation d'un article vient avec une explication de son rapport avec l'article que l'utilisateur lit actuellement, cela pourrait rendre la recherche de littérature pertinente beaucoup plus rapide et gérable.

Comment on construit notre dataset

Pour aider à expliquer les recommandations d'articles, on a créé un dataset spécial appelé PubCLogs. On a rassemblé des données sur comment les utilisateurs interagissent sur PubMed, en se concentrant surtout sur des paires d'articles que les utilisateurs cliquent ensemble. Notre hypothèse est que si un utilisateur consulte un article et clique ensuite sur un autre, ces deux articles sont probablement similaires d'une certaine manière.

Pour construire notre dataset, on a collecté les clics des utilisateurs sur les articles sur plusieurs années. On a associé les articles en fonction du comportement des utilisateurs lorsqu'ils cliquaient l'un après l'autre. À partir de ces données, on a créé des paires d'articles, qu'on a étiquetées en fonction des requêtes qui ont mené à ces clics. On s'est retrouvé avec des millions de paires d'articles, qu'on a filtrées pour garder la qualité.

Entraîner le modèle HSAT

En utilisant PubCLogs, on a entraîné un modèle appelé HSAT pour mettre en évidence des mots importants dans les titres des articles similaires suggérés. Le travail du modèle est de prendre le titre et le résumé de l'article initial et d'identifier les mots les plus pertinents dans le titre de l'article similaire.

On a testé la performance de HSAT par rapport à d'autres modèles déjà établis et on a constaté qu'il performait beaucoup mieux. Il a obtenu de très bonnes notes pour identifier les parties pertinentes des titres d'articles par rapport à ces autres modèles.

Analyse des données

Après avoir filtré les données initiales, on s'est retrouvé avec un nombre important de paires d'articles. La longueur moyenne des titres d'articles était d'environ 17,5 tokens, et la taille de notre dataset a chuté de plusieurs gigaoctets à une taille plus gérable après filtrage. Ce processus de filtrage a aidé à garder les données de haute qualité tout en écartant les entrées qui ne fournissaient pas d'informations utiles.

Évaluation de la performance de HSAT

On a évalué HSAT en utilisant à la fois un dataset de test issu de PubCLogs et un plus petit dataset annoté manuellement. Ce dernier contient des paires d'articles soigneusement choisies qui ont été évaluées pour leur pertinence. HSAT a bien performé dans les deux évaluations, montrant qu'il pouvait mettre efficacement en avant des tokens pertinents dans les titres d'articles similaires.

On a aussi mené des études utilisateurs pour voir si les gens préféraient la sortie de HSAT à celle de modèles plus grands comme GPT-4. Les résultats ont montré que les utilisateurs favorisaient HSAT pour sa clarté et sa qualité.

Études utilisateurs et préférences

Dans notre étude utilisateur, deux personnes connaissant bien les sujets biomédicaux ont classé les sorties fournies par HSAT par rapport à celles de GPT-4. Les deux participants ont montré une nette préférence pour les sorties de HSAT, les trouvant plus concises et informatives. Cela montre que HSAT a une utilité précieuse pour fournir des recommandations.

Études de cas

On a présenté plusieurs cas pour illustrer comment HSAT et d'autres modèles se comportent en recommandant des articles. Dans ces exemples, on a comparé comment différents modèles sélectionnaient des tokens pertinents dans des titres d'articles similaires. Les résultats ont montré que, tandis que des modèles plus simples pouvaient sélectionner des mots non pertinents, HSAT choisissait de manière constante des tokens précieux et informatifs.

Le rôle des données de clics

Un des aspects clés de notre approche est l'utilisation des données de clics issues des interactions des utilisateurs. En analysant quels articles les utilisateurs cliquent ensemble, on peut développer une meilleure compréhension de la relation entre les articles. Cette approche basée sur les données permet à notre modèle d'apprendre du comportement réel des utilisateurs, créant des recommandations qui sont plus alignées avec ce que les chercheurs recherchent vraiment.

Directions futures

Bien que HSAT montre des promesses, il y a des domaines à améliorer. Beaucoup de recherches sur PubMed impliquent des sujets moins communs qui pourraient ne pas être bien représentés dans notre dataset. Donc, explorer des moyens d'inclure ces sujets de niche pourrait améliorer la performance de HSAT.

De plus, les utilisateurs ont différents niveaux de connaissances préalables et objectifs de recherche. Adapter les recommandations de manière plus personnelle pourrait être un objectif futur pour le modèle.

Conclusion

En conclusion, on a développé une nouvelle méthode pour expliquer les recommandations d'articles en mettant en avant des tokens pertinents dans les titres. En s'appuyant sur les données d'interaction des utilisateurs de PubMed, on a créé un dataset qui nous permet d'entraîner un modèle efficace. Le succès de HSAT à surpasser les modèles existants démontre la valeur des données de comportement des utilisateurs pour améliorer les recherches littéraires, facilitant ainsi l'accès à l'information dont les chercheurs et les pros de la santé ont besoin.

Source originale

Titre: Harnessing PubMed User Query Logs for Post Hoc Explanations of Recommended Similar Articles

Résumé: Searching for a related article based on a reference article is an integral part of scientific research. PubMed, like many academic search engines, has a "similar articles" feature that recommends articles relevant to the current article viewed by a user. Explaining recommended items can be of great utility to users, particularly in the literature search process. With more than a million biomedical papers being published each year, explaining the recommended similar articles would facilitate researchers and clinicians in searching for related articles. Nonetheless, the majority of current literature recommendation systems lack explanations for their suggestions. We employ a post hoc approach to explaining recommendations by identifying relevant tokens in the titles of similar articles. Our major contribution is building PubCLogs by repurposing 5.6 million pairs of coclicked articles from PubMed's user query logs. Using our PubCLogs dataset, we train the Highlight Similar Article Title (HSAT), a transformer-based model designed to select the most relevant parts of the title of a similar article, based on the title and abstract of a seed article. HSAT demonstrates strong performance in our empirical evaluations, achieving an F1 score of 91.72 percent on the PubCLogs test set, considerably outperforming several baselines including BM25 (70.62), MPNet (67.11), MedCPT (62.22), GPT-3.5 (46.00), and GPT-4 (64.89). Additional evaluations on a separate, manually annotated test set further verifies HSAT's performance. Moreover, participants of our user study indicate a preference for HSAT, due to its superior balance between conciseness and comprehensiveness. Our study suggests that repurposing user query logs of academic search engines can be a promising way to train state-of-the-art models for explaining literature recommendation.

Auteurs: Ashley Shin, Qiao Jin, James Anibal, Zhiyong Lu

Dernière mise à jour: 2024-02-05 00:00:00

Langue: English

Source URL: https://arxiv.org/abs/2402.03484

Source PDF: https://arxiv.org/pdf/2402.03484

Licence: https://creativecommons.org/licenses/by-nc-sa/4.0/

Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.

Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.

Plus d'auteurs

Articles similaires