Améliorer les recommandations avec des interactions utilisateurs multi-modales
Cette étude améliore les systèmes de recommandation en analysant les différentes façons dont les utilisateurs interagissent.
― 10 min lire
Table des matières
- Le Dataset
- Pourquoi les Interactions Multi-Modales Comptent
- Défis des Interactions Utilisateur Multi-Modales
- Contributions de Notre Étude
- Approches Existantes
- Nos Questions de Recherche
- Résultats
- Interactions Utilisateur
- Insights Clés
- Travaux Connexes
- Méthodologie
- Modèles Proposés
- Configuration Expérimentale
- Résultats
- Résultats Spécifiques
- Importance du Nombre d'Événements
- Ordre des Événements
- Visualisation des Données
- Conclusion
- Source originale
- Liens de référence
Les systèmes de recommandation sont des outils qui aident les gens à trouver des trucs qu'ils pourraient aimer, comme des produits, des films ou de la musique. Ces systèmes s'appuient souvent sur les actions des utilisateurs, comme les notes ou les achats, pour comprendre ce que les gens préfèrent. Cependant, beaucoup de gens interagissent avec ces systèmes de différentes manières, comme en visitant un site web ou en passant un coup de fil. Cette variété d'interactions, on l'appelle "interactions utilisateur multi-modales".
Le défi se pose quand on essaie d'utiliser ces interactions pour recommander des articles, surtout quand certains utilisateurs n'utilisent pas tous les canaux disponibles. Par exemple, certains ne passent des commandes que par téléphone, tandis que d'autres n'utilisent que le site web. Ça veut dire que des infos précieuses pourraient manquer dans les données qu'on collecte.
Pour résoudre ce problème, on a créé un dataset qui inclut des infos sur les interactions des utilisateurs à travers plusieurs canaux. Ce dataset peut nous aider à améliorer la manière dont on fait des Recommandations, en particulier dans des domaines qui n'ont pas été beaucoup explorés avant.
Le Dataset
Le dataset qu'on a développé vient d'un scénario réel, spécifiquement d'une entreprise qui vend des produits d'assurance. Les produits d'assurance peuvent être compliqués, et tous les clients ne choisissent pas d'interagir avec l'entreprise de la même manière. Notre dataset inclut :
- Des Sessions Utilisateur du site web de l'entreprise où les clients peuvent acheter des produits d'assurance.
- Des Conversations transcrites entre les utilisateurs et des agents d'assurance au téléphone.
- Les actions d'achat effectuées par les utilisateurs.
En rassemblant ces infos, on ouvre de nouvelles opportunités pour comprendre comment les utilisateurs choisissent des produits d'assurance et comment on peut mieux leur recommander des choses.
Pourquoi les Interactions Multi-Modales Comptent
La plupart des études précédentes se sont concentrées sur comment les articles peuvent être représentés sous différentes formes, comme le texte, l'audio ou les images. Cependant, ces études partent souvent du principe que toutes les infos sont disponibles pendant l'entraînement et la recommandation. Ce n'est pas vrai dans notre cas, car tous les utilisateurs n'interagissent pas par tous les canaux possibles.
Cette lacune de recherche souligne l'importance d'étudier comment combiner différents types d'interactions utilisateur de manière significative. En plus des clics sur un site web, on inclut aussi des conversations qui peuvent révéler directement les goûts et les dégoûts des utilisateurs.
Le domaine de l'assurance est un terrain critique pour cette recherche car les recommandations ici peuvent avoir un impact significatif sur la vie des gens. Contrairement à recommander un film ou un livre, les décisions d'assurance ont des impacts à long terme.
Défis des Interactions Utilisateur Multi-Modales
Un des principaux défis qu'on rencontre en traitant des interactions utilisateur multi-modales, c'est que tous les utilisateurs n'interagissent pas de la même manière. Certains utilisateurs n'appellent que l'entreprise d'assurance, tandis que d'autres n'utilisent que le site web. Quand on essaie de faire des recommandations, il faut gérer les infos manquantes de ceux qui n'utilisent pas tous les canaux.
De plus, les méthodes existantes que les chercheurs ont développées sont principalement conçues pour des situations où toutes les infos sont présentes. Notre défi est de créer des méthodes qui peuvent fonctionner avec les données incomplètes qui surviennent naturellement quand les utilisateurs s'engagent avec différentes modalités.
Contributions de Notre Étude
Notre travail apporte plusieurs contributions importantes à ce domaine :
Dataset du Monde Réel : On a créé et publié un dataset qui reflète les interactions utilisateur multi-modales spécifiquement pour recommander des produits d'assurance.
Méthodes de Référence : On a examiné différentes approches pour combiner différents types d'interactions utilisateur pour de meilleures recommandations.
Analyse Approfondie : Notre recherche fournit une analyse détaillée des résultats et met en lumière les défis posés par les interactions utilisateur multi-modales.
En rendant notre dataset et nos méthodes publiquement disponibles, on espère stimuler d'autres recherches dans ce domaine.
Approches Existantes
Bien que cette étude soit nouvelle, elle s'appuie sur certaines méthodes existantes pour les systèmes de recommandation. La plupart des travaux précédents se sont soit concentrés sur comment représenter les articles sous divers formats, soit sur comment gérer les retours des utilisateurs provenant de différents types d'interactions, comme le visionnage ou l'achat. Cependant, il n'y a pas eu beaucoup d'attention portée à la combinaison des interactions utilisateur qui se déroulent de différentes manières.
De plus, de nombreuses méthodes existantes nécessitent des infos complètes tout le temps. Cela n'est pas réaliste dans des scénarios du monde réel comme le nôtre, où les données manquantes sont courantes.
Nos Questions de Recherche
Pour guider notre étude, on a posé deux questions de recherche principales :
- Comment peut-on mieux représenter les interactions utilisateur multi-modales pour qu'elles puissent être combinées efficacement ?
- Existe-t-il des relations essentielles entre les différents types d'interactions utilisateur, et un type d'interaction peut-il nous aider à apprendre d'un autre ?
En répondant à ces questions, on peut fournir des idées sur comment différents types d'interactions peuvent être utilisés pour améliorer les systèmes de recommandation.
Résultats
Nos expériences ont révélé que les interactions utilisateur multi-modales contiennent des infos uniques qui peuvent bien se compléter. Dans nos tests, les articles recommandés se sont nettement améliorés quand on a combiné les infos provenant des sessions web et des conversations téléphoniques.
Interactions Utilisateur
En regardant les données, on a trouvé que tous les utilisateurs n'avaient pas de conversations ou de sessions web avant de faire un achat. Une grande partie des utilisateurs n'avait qu'un type d'interaction. Cette donnée manquante a posé un défi pour notre analyse, mais a aussi mis en lumière la nécessité de notre recherche.
Insights Clés
Infos Supplémentaires : Un des insights de notre recherche, c'est qu'un type d'interaction peut fournir des infos précieuses pour améliorer l'apprentissage d'un autre type.
Performance du Modèle : Nos méthodes proposées ont montré une bien meilleure performance par rapport aux modèles traditionnels. Cela suggère que combiner différents types d'interactions peut mener à de meilleures recommandations.
Travaux Connexes
Plusieurs études antérieures ont examiné des domaines similaires, mais la plupart se concentrent sur comment représenter les articles avec des caractéristiques différentes au lieu de se focaliser sur comment les utilisateurs interagissent avec ces articles. De plus, les datasets existants manquent souvent de l'incomplétude naturelle qui se produit dans le monde réel.
Méthodologie
On a développé plusieurs méthodes pour étudier et modéliser efficacement les différents types d'interactions utilisateur. Notre approche consistait à mapper les interactions utilisateur à un espace de représentation commun. Cela permet au modèle de fonctionner efficacement même quand certaines infos sont manquantes.
Modèles Proposés
On a proposé trois types de modèles :
Modèle de Mots-Clés : Ce modèle représente les conversations en utilisant des mots-clés extraits du texte. Il aide à capturer les idées clés dans la conversation qui sont pertinentes pour les recommandations.
Modèle de Caractéristiques Latentes : Cette approche utilise des embeddings de texte pour représenter les conversations et les combine avec des encodages d'actions provenant des sessions web. Le modèle apprend à connecter les deux types d'infos.
Modèle de Représentation Relative : Ce modèle compare les représentations latentes des conversations et des sessions web, permettant une compréhension plus flexible des interactions utilisateur.
En utilisant ces modèles, on vise à résoudre les problèmes de modalités manquantes tout en fournissant des recommandations utiles.
Configuration Expérimentale
Pour l'évaluation, on a divisé nos données en ensembles d'entraînement et de test. On a entraîné divers modèles en utilisant les données d'entraînement puis on a évalué leur performance en fonction de leur capacité à prédire quels articles les utilisateurs achèteraient ensuite. On a utilisé des métriques comme le taux de succès et la précision moyenne pour évaluer l'exactitude de nos recommandations.
Résultats
Les résultats expérimentaux ont montré une amélioration marquée des recommandations en utilisant nos modèles proposés par rapport à des modèles de base plus simples. Tous les modèles ont surpassé l'approche simple de recommandation "populaire", qui ne suggère des articles qu'en fonction des précédents comptes d'achats.
Résultats Spécifiques
Performance sur Différents Groupes d'Utilisateurs : Nos modèles ont montré des performances différentes selon qu'on regardait les utilisateurs qui n'interagissaient que par conversations, que par sessions web, ou une combinaison des deux. Cela indique l'importance de personnaliser les recommandations en fonction du comportement des utilisateurs.
Les Interactions Comptent : Différentes modalités fournissent des insights uniques, menant à de meilleures recommandations quand elles sont combinées correctement.
Importance du Nombre d'Événements
On a aussi mené des analyses sur comment le nombre d'interactions passées affecte la performance du modèle. En général, avoir plus d'événements passés a conduit à une meilleure performance, bien que cet effet varie selon le type d'interaction (conversation vs session web).
Ordre des Événements
Un autre aspect qu'on a exploré, c'est l'ordre des événements. On a mélangé l'ordre des interactions pour voir comment cela impactait les recommandations. Nos résultats ont indiqué que la séquence des interactions compte, et les modèles qui utilisent l'ordre temporel des événements ont fourni de meilleurs résultats.
Visualisation des Données
On a utilisé une technique appelée t-SNE pour visualiser comment différents types d'interactions utilisateur sont représentés dans nos modèles. La visualisation a montré que les conversations et les sessions web se regroupent distinctement, suggérant qu'elles contiennent des détails variés sur les préférences et les comportements des utilisateurs.
Conclusion
En conclusion, notre étude apporte une contribution significative au domaine des systèmes de recommandation en se concentrant sur les interactions utilisateur multi-modales. En développant un dataset du monde réel et en proposant de nouvelles méthodes pour gérer les défis posés par l'absence d'informations, on ouvre la voie à de meilleures recommandations, surtout dans des domaines critiques comme l'assurance.
Notre recherche met en avant la valeur d'incorporer divers types d'interactions utilisateur pour créer des recommandations personnalisées. Comme prochaine étape, on prévoit d'explorer davantage comment le contexte impacte les recommandations, en tenant compte de facteurs comme le temps et des conversations spécifiques des utilisateurs.
En stimulant davantage de recherches dans ce domaine, on espère contribuer à des systèmes de recommandation plus efficaces et informatifs qui s'adaptent aux différentes manières dont les utilisateurs interagissent avec les services.
Titre: Dataset and Models for Item Recommendation Using Multi-Modal User Interactions
Résumé: While recommender systems with multi-modal item representations (image, audio, and text), have been widely explored, learning recommendations from multi-modal user interactions (e.g., clicks and speech) remains an open problem. We study the case of multi-modal user interactions in a setting where users engage with a service provider through multiple channels (website and call center). In such cases, incomplete modalities naturally occur, since not all users interact through all the available channels. To address these challenges, we publish a real-world dataset that allows progress in this under-researched area. We further present and benchmark various methods for leveraging multi-modal user interactions for item recommendations, and propose a novel approach that specifically deals with missing modalities by mapping user interactions to a common feature space. Our analysis reveals important interactions between the different modalities and that a frequently occurring modality can enhance learning from a less frequent one.
Auteurs: Simone Borg Bruun, Krisztian Balog, Maria Maistro
Dernière mise à jour: 2024-05-07 00:00:00
Langue: English
Source URL: https://arxiv.org/abs/2405.04246
Source PDF: https://arxiv.org/pdf/2405.04246
Licence: https://creativecommons.org/licenses/by/4.0/
Changements: Ce résumé a été créé avec l'aide de l'IA et peut contenir des inexactitudes. Pour obtenir des informations précises, veuillez vous référer aux documents sources originaux dont les liens figurent ici.
Merci à arxiv pour l'utilisation de son interopérabilité en libre accès.