Simple Science

Ciência de ponta explicada de forma simples

# Informática# Recuperação de informação# Inteligência Artificial# Aprendizagem de máquinas

Avanço dos Sistemas de Recomendação com Deep Learning

Novo modelo melhora as recomendações, resolvendo problemas de cold-start e aproveitando as características de usuários e itens.

― 6 min ler


Aprendizado Profundo paraAprendizado Profundo paraRecomendaçõesde início frio de forma eficaz.Novas abordagens lidam com os desafios
Índice

Nos últimos anos, o aprendizado profundo teve um impacto forte em várias áreas, como reconhecimento de imagens, entendimento de fala e processamento de linguagem. Com esse sucesso, muitos pesquisadores estão investigando como o aprendizado profundo pode melhorar os sistemas de recomendação, que ajudam as pessoas a encontrar o que querem entre um monte de conteúdo online. Métodos tradicionais para esses sistemas funcionaram bem ao captar preferências com base em interações passadas entre usuários e itens, mas muitas vezes perdem detalhes importantes sobre os usuários e os próprios itens. Isso pode causar problemas, especialmente para itens menos populares ou novos usuários.

O Desafio dos Problemas de Cold-Start

Um grande desafio nos sistemas de recomendação é o que chamamos de problema de cold-start. Isso acontece quando não há dados suficientes para fazer boas recomendações, seja porque um novo usuário acabou de entrar na plataforma ou porque um novo item foi adicionado. Modelos tradicionais podem ter dificuldades nessas situações, pois dependem muito das interações entre usuários e itens. Acreditamos que, ao usar as características e qualidades tanto dos usuários quanto dos itens, podemos criar uma abordagem melhor para recomendações.

Nossa Solução: Fatoração de Matriz Aprimorada

Desenvolvemos um novo tipo de modelo de recomendação que leva em conta não apenas as interações entre usuários e itens, mas também os atributos ligados a ambos. Nosso modelo usa um método chamado fatoração de matriz, que divide os dados de interação entre usuários e itens em partes mais simples e gerenciáveis. Ao fazer isso, nosso modelo consegue aprender a fornecer recomendações mais precisas, especialmente em situações onde os dados são limitados.

Uma das características principais do nosso modelo é o uso de embeddings compartilhados de usuários. Isso significa que, em vez de começar com palpites aleatórios ou dados de usuários mal aprendidos, nosso modelo usa uma representação comum de um usuário que pode apoiar recomendações, especialmente para novos usuários. Isso ajuda a estabilizar e melhorar a qualidade das recomendações fornecidas a esses usuários.

Aprimorando o Modelo de Fatoração de Matriz

Nós melhoramos ainda mais o modelo tradicional de fatoração de matriz incorporando interações entre atributos. Isso significa que as características de cada usuário podem interagir com os atributos dos itens e vice-versa. Assim, conseguimos extrair informações mais valiosas dos dados existentes.

Por exemplo, se temos um usuário que gosta de filmes de ação e sabemos também o gênero de um novo filme, podemos fazer melhores recomendações ao combinar esses detalhes. Essa abordagem captura tanto os traços individuais dos usuários quanto as conexões entre usuários e itens, resultando em uma imagem mais completa de preferências.

Testando Nosso Modelo

Para avaliar a eficácia do nosso modelo, realizamos experimentos usando dois conjuntos de dados bem conhecidos: MovieLens e Pinterest. Esses conjuntos de dados são populares porque fornecem inúmeras interações entre usuários e itens e uma variedade de atributos. Nossos testes mostraram que nosso modelo superou consistentemente os métodos existentes, particularmente em casos onde os conjuntos de dados tinham informações limitadas.

Entendendo os Conjuntos de Dados

Conjunto de Dados MovieLens

No conjunto de dados MovieLens, usamos uma versão que inclui um milhão de classificações, garantindo que cada usuário tenha avaliado pelo menos 20 filmes. Neste conjunto, as classificações são transformadas de modo que cada classificação de um usuário corresponda a um rótulo para um filme. Além disso, selecionamos aleatoriamente 99 entradas não observadas como amostras negativas, ou seja, que não receberam classificações.

Esse conjunto de dados também inclui metadados para usuários, como gênero, idade e ocupação. Esses detalhes servem como atributos do usuário no nosso modelo. Para os filmes, como eles podem pertencer a vários gêneros, cada gênero é tratado como um atributo separado.

Conjunto de Dados Pinterest

O conjunto de dados Pinterest é vasto e tem muitos usuários, mas muitos deles apenas fixaram alguns itens. Para tornar nossa avaliação mais gerenciável, filtramos o conjunto para incluir apenas usuários com pelo menos dez pins. Semelhante ao MovieLens, rotulamos 99 entradas não observadas como amostras negativas.

Esse conjunto de dados dá uma visão sobre as interações dos usuários com vários pins e categorias de página. Agrupamos os usuários com base no número de pins e simplificamos as numerosas categorias em grupos principais para uma melhor análise.

Avaliação e Métricas

Usamos um método de leave-one-out para avaliação. Para cada usuário, escolhemos aleatoriamente uma de suas interações e a combinamos com as 99 amostras negativas para criar um conjunto de teste. Classificamos o item de teste entre 100 e avaliamos o desempenho usando duas métricas principais: Taxa de Acerto (HR@10) e Ganho Cumulativo Normalizado Descontado (NDCG@10). A métrica HR verifica se o item recomendado está na lista dos dez primeiros, enquanto a NDCG atribui notas mais altas para itens classificados mais acima na lista.

Visão Geral do Desempenho

Os resultados dos nossos experimentos indicam claramente que nosso modelo se sai melhor do que os modelos existentes, especialmente em situações de dados escassos. Como observamos tanto nos conjuntos de dados MovieLens quanto Pinterest, nosso modelo produziu resultados fortes de maneira consistente.

À medida que aumentamos a complexidade da nossa fatoração de matriz, o desempenho do nosso modelo melhorou, especialmente em relação à métrica HR@10. Isso era esperado, pois nosso modelo foi projetado para fazer uso completo tanto das interações entre usuários e itens quanto de seus atributos inerentes.

Curiosamente, um modelo existente conhecido como CF Profundo Consciente de Atributos (AA Deep CF) não teve um desempenho tão bom quanto o esperado. Isso pode ser devido à camada de pooling que ele utiliza, que pode acabar descartando detalhes importantes, resultando em recomendações menos eficazes. Além disso, o modelo AA Deep CF foi criado principalmente para redes sociais e tarefas de recomendação de viagem, o que pode não se alinhar com as necessidades dos nossos conjuntos de dados.

Conclusão

Nossa pesquisa destaca avanços significativos no campo dos sistemas de recomendação. A introdução de um embedding de usuário compartilhado oferece uma solução robusta para novos usuários que enfrentam problemas de cold-start. Além disso, a abordagem refinada de fatoração de matriz que inclui interações entre atributos permite um reconhecimento mais profundo das relações entre usuários e itens, aproveitando ao máximo todas as informações disponíveis.

No geral, essas melhorias marcam passos importantes rumo a recomendações mais precisas e confiáveis. Isso abre portas para futuras pesquisas nesse domínio para explorar modelos e estratégias ainda mais eficazes.

Fonte original

Título: Cross-Attribute Matrix Factorization Model with Shared User Embedding

Resumo: Over the past few years, deep learning has firmly established its prowess across various domains, including computer vision, speech recognition, and natural language processing. Motivated by its outstanding success, researchers have been directing their efforts towards applying deep learning techniques to recommender systems. Neural collaborative filtering (NCF) and Neural Matrix Factorization (NeuMF) refreshes the traditional inner product in matrix factorization with a neural architecture capable of learning complex and data-driven functions. While these models effectively capture user-item interactions, they overlook the specific attributes of both users and items. This can lead to robustness issues, especially for items and users that belong to the "long tail". Such challenges are commonly recognized in recommender systems as a part of the cold-start problem. A direct and intuitive approach to address this issue is by leveraging the features and attributes of the items and users themselves. In this paper, we introduce a refined NeuMF model that considers not only the interaction between users and items, but also acrossing associated attributes. Moreover, our proposed architecture features a shared user embedding, seamlessly integrating with user embeddings to imporve the robustness and effectively address the cold-start problem. Rigorous experiments on both the Movielens and Pinterest datasets demonstrate the superiority of our Cross-Attribute Matrix Factorization model, particularly in scenarios characterized by higher dataset sparsity.

Autores: Wen Liang, Zeng Fan, Youzhi Liang, Jianguo Jia

Última atualização: 2023-08-14 00:00:00

Idioma: English

Fonte URL: https://arxiv.org/abs/2308.07284

Fonte PDF: https://arxiv.org/pdf/2308.07284

Licença: https://creativecommons.org/licenses/by/4.0/

Alterações: Este resumo foi elaborado com a assistência da AI e pode conter imprecisões. Para obter informações exactas, consulte os documentos originais ligados aqui.

Obrigado ao arxiv pela utilização da sua interoperabilidade de acesso aberto.

Mais de autores

Artigos semelhantes